Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
DURATA FREQUENZAGRAVIDANZA ASSOLUTA
34 135 336 337 238 539 740 341 342 5
Conviene ordinare per grandezza per avere subito un quadro generale.
Se le modalità sono molte conviene ripartirle per classi di modalità o intervalli. La ripartizione in intervalli considera la variabile come se fosse continua. Gli intervalli possono avere differenti lunghezze. Se le classi non sono equiampie (dunque non hanno la stessa ampiezza) si considera densità di frequenza.
La densità di frequenza
Abbiamo dunque detto che si chiama distribuzione di frequenza assoluta la lista delle modalità osservate di accompagnata dal numero di volte in cui queste vengono osservate, ossia accompagnata dalle rispettive frequenze assolute.
E molto facile ottenere distribuzioni di frequenza assoluta per caratteri qualitativi e quantitativi discreti. In presenza di caratteri quantitativi continui (o anche discreti, se assumono tantissime modalità), abbiamo invece bisogno di qualche operazione.
Preliminare per trattarli. Mettiamo per esempio di dover considerare il peso alla nascita di un campione di bambini: in questo caso è conveniente definire classi di modalità o intervalli contigui per effettuare poi il conteggio delle unità che appartengono a ciascuna classe. Possiamo decidere il numero e l'ampiezza delle classi in base al caso specifico. Se capita di costruire delle classi di lunghezza differente è utile definire anche la densità di una classe. La densità di frequenza viene misurata dividendo la frequenza assoluta per la grandezza della classe.
ESEMPIO PRATICO: DENSITÀ DI FREQUENZA
5 casi da 2400-2600,
11 casi da 3200-3600.
Densità delle prime 3 classi = 5/200 = 0.025
Densità della quarta = 6/200 = 0.030
Densità dell'ultima = 11/400 = 0.075
La densità ci dice il numero atteso di unità statistiche per ogni unità di misura della variabile. Per esempio nella
prima classe ci aspettiamo di osservare 2,5 neonati per ogni 100 grammi di peso. Le densità di frequenza non sono percentuali! In generale, teniamo a mente che x è la variabile su cui si costruisce la distribuzione di frequenza, e y è la variabile che definisce i gruppi.
Distribuzione condizionata
Sono distribuzioni condizionate le distribuzioni della durata della gravidanza e del peso alla nascita per una fissata modalità della condizione rispetto al fumo (non fumo / fumo). Se indichiamo in modo generico con X la variabile che stiamo studiando (la durata della gravidanza, per esempio) e con Y il carattere tramite cui estraiamo le unità statistiche da si dice variabile X considerare nell'analisi (la condizione rispetto al fumo, nel nostro caso), condizionata a Y = y e si indica X | Y = y la restrizione di X al sottoinsieme Y = y.
La distribuzione di X
La distribuzione della variabile X | Y = y viene normalmente detta condizionata a Y = y o, la
distribuzione di X dato Y = y. Equivalentemente, Si osservi che esiste una distribuzione condizionata (di X dato Y) per ogni modalità di Y. La distribuzione della variabile X senza distinzione per condizione rispetto a Y è detta distribuzione marginale.
La frequenza relativa: Dividendo una frequenza assoluta per il numero totale di unità statistiche nel collettivo analizzato (n nel nostro caso) otteniamo le cosiddette frequenze relative o proporzioni, ovvero:
Le frequenze relative hanno il vantaggio rispetto a quelle assolute di permettere di confrontare distribuzioni di frequenza basate su numeri differenti di unità statistiche.
Se la nostra variabile si chiama X allora:
La frequenza cumulata: La frequenza cumulata (assoluta), associata ad una modalità o a una classe di modalità, è pari alla somma della sua frequenza assoluta e di quelle delle modalità che la precedono.
Ha senso calcolarla in presenza di variabili quantitative.
ordinabili. Dato un carattere di cui si siano osservate M modalità, l'espressione matematica della frequenza cumulata (assoluta) della k-esima modalità, supponendo le modalità disposte in ordine crescente, è: 11 dove ni è la frequenza assoluta della i-esima modalità e N è il numero totale di unità statistiche.
In pratica, la frequenza cumulata è la somma delle frequenze (assolute per la frequenza cumulata assoluta e relative per la frequenza cumulata relative) delle modalità riscontrate fino al punto in cui vogliamo calcolarla. L'ultima frequenza cumulata assoluta = N, la frequenza cumulata relativa totale = 1.
Possiamo costruirla anche per classi:
Rappresentazioni grafiche delle distribuzioni di frequenza
Diagramma a torta (piechart)
Il grafico a torta viene costruito rappresentando ogni modalità con una "fetta di torta" proporzionale in superficie alla sua frequenza:
Angolo = 360 · frequenza
assoluta/nOppure Angolo = 360 · frequenza relativaE’ utile per rappresentare variabili categoriali. 12Per variabili discrete, possiamo sempre usare il diagramma a torta o, meglio, il diagramma abarre.
Diagramma a barre
Istogramma
L’istogramma è utile per rappresentare variabili continue. L’area dei rettangoli è uguale a base ·altezza, e avendo gli intervalli uguale ampiezza, l’altezza coincide di fatto con la frequenzaassoluta. Questo vale anche per le frequenze relative. In entrambi i casi, barre più alterappresentano modalità più frequenti. Questo aiuta a descrivere la forma della distribuzione deidati. Per costruire un grafico efficace, bisogna fare attenzione a scegliere l’ampiezza della classemaggiormente significativa. 13Indici di posizioneIn statistica, gli indici di posizione sono indici che danno un'idea approssimata dell'ordine digrandezza (la posizione sulla scala dei numeri, appunto) dei
valori esistenti. Sono indici di posizione:
- media, comprese la media aritmetica e quella ponderata
- mediana, quartile, quantile (o percentile)
- moda
Se lavoriamo sull'intera popolazione queste misure sono dette di popolazione, se lavoriamo su un campione sono campionarie.
Moda
La moda di una distribuzione è il valore a cui è associata la più alta frequenza relativa. In poche parole, esprime la modalità più comune o frequente. Le distribuzioni possono essere unimodali e plurimodali.
- Distribuzione unimodale: nella distribuzione unimodale esiste una sola moda al suo interno.
- Distribuzione plurimodale: nella distribuzione plurimodale (o polimodale) esistono due o più mode.
- In una distribuzione non c'è la moda se nessun valore ha una frequenza superiore agli altri.
È definita sia per variabili qualitative sia per variabili quantitative. Per calcolarla è necessario calcolare le frequenze.
relative o semplicemente contare il numero di volte in cui i valori appaiono nella distribuzione.
Mediana
Il centro della distribuzione potrebbe anche essere indicato come il valore che lascia alla sua destra e alla sua sinistra esattamente il 50% delle osservazioni.
In statistica la mediana è un indice sintetico di posizione che restituisce il valore mediano di una distribuzione. Il valore mediano è l'unità che occupa la posizione centrale nella distribuzione. A differenza della media aritmetica, la mediana non è influenzata dalla presenza di dati anomali.
La mediana può essere calcolata anche in una distribuzione qualitativa, purché le modalità siano ordinabili secondo un criterio oggettivo. Un esempio di distribuzione qualitativa ordinabile sono i voti scolastici: "scarso, mediocre, sufficiente, distinto, ottimo".
La posizione della mediana di un insieme di N numeri ordinati in modo progressivo è:
La mediana è un quantile, in particolare il quantile di livello 0.5.
I quantili sono utilizzati in statistica per frazionare in N parti uguali un insieme di dati numerici disposti in ordine progressivo crescente (o decrescente). I principali quantili sono i decili, i centili e i percentili.
Come si calcolano i quantili?
La popolazione viene ordinata in ordine crescente. Successivamente la serie viene suddivisa in N parti uguali. I valori della seriazione che cadono esattamente nella suddivisione sono detti quantili di ordine X / N. Dove X è la posizione nel quantile nelle N suddivisioni.
Tra i quantili più usati troviamo q0.25 e q0.75. Vengono chiamati rispettivamente PRIMO QUARTILE e TERZO QUARTILE, mentre la mediana è il secondo quartile.
Esistono anche i (primo: 25esimo, mediana 50esimo, terzo 75esimo).
Ci sono delle formule per calcolarli più precisamente, che non sono state trattate in classe. La regola generale sarebbe:
- Si
Il tuo compito è formattare il testo fornito utilizzando tag html.
ATTENZIONE: non modificare il testo in altro modo, NON aggiungere commenti, NON utilizzare tag h1;
ordinano gli n dati assegnati in ordine crescente;
- Si calcola il prodotto k = np , dove p = 0.25 per il primo quartile e p = 0.75 per il terzo quartile;
- Se k è intero, il quartile si ottiene facendo la media del k-esimo e del (k+1)-esimo valore dei dati ordinati e se k non è intero, si arrotonda k per eccesso al primo intero successivo e si sceglie come quartile il corrispondente valore dei dati ordinati.
In classe abbiamo più semplicemente fatto la mediana e scelto il valore mediano della prima e della seconda metà della distribuzione per individuare i quartili.
Distribuzione per classi
I quantili possono essere calcolati anche in una distribuzione per classi di frequenza.
ESEMPIO PRATICO: DISTRIBUZIONE PER CLASSI E QUANTILI
Supponiamo di voler individuare i quantili della seguente tabella X.
Peso (kg) | Frequenze | Frequenza cumulata |
---|---|---|
40-50 | 4 | 4 |
50-60 | 7 | 11 |
60-70 | 3 | 14 |
70-80 | 2 | 16 |
80-90 | 1 | 17 |