Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Indichiamo con 1 e y¯ 2 le medie campionarie per due insiemi di dati con numerosità n1 e n2.La media
campionaria per il nuovo insieme formato combinando le osservazioni (n1+n2) è la media ponderata:
y¯ =n1y¯ 1+n2y¯ 2 / n1+n2 y
Il numeratore n1y¯ 1+n2y¯ 2 è la somma di tutte le ossenrazioni in quanto ny¯ = per ciascun gruppo. Il
Σ
denominatore è l'ampiezza campionaria totale.
La mediana
La media è una semplice misura del centro della distribuzione. Esistono, però, altre misure che forniscono
informazioni sul centro e che risultano talvolta più appropriate.La più importante è la mediana.La mediana
divide in due parti il campione ordinato in maniera crescente;ciascuna parte contiene un identico numero di
osservazioni.
La mediana è il valore della variabile assunto dall'osservazione centrale del campione ordinato. Quando
l'ampiezza campionaria n è dispari, abbiamo una sola osservazione centrale. Quando l'ampiezza campionaria
è pari, si hanno due osservazioni centrali e la mediana è il valore centrale tra i due.
Proprietà della mediana
La mediana, al pari della media, è un'appropriata sintesi per riassumere sia le variabili quantitative
• sia le variabili ordinali. Per il suo calcolo si richiede, infatti che le osservazioni siano ordinabili
rispetto al valore della variabile posseduto da ciascuna di esse.
Per le distribuzioni simmetriche come quelle rappresentate nella Figura 3.7, la mediana e la media
• sono identiche.
Come mostrato dalla Figura 3.10, per le distribuzioni asimmetriche la media è spostata rispetto alla
• mediana, nella direzione dell'asimmetria (cioè verso la coda più lunga).
*figura 3.10
Figura 3.10 Media e mediana per distribuzioni asimmetriche. La media è spostata nella direzione
della coda più lunga.
Poiché costruiita tenendo conto esclusivamente delle caratteristiche ordinali dei dati,la mediana non
• e' sensibile alle distanze tra i valori della distribuzione e la loro media.
La mediana non è influenzata dagli outlier.
•
La moda
Un'altra misura, la moda, indica il valore della distribuzione osservato con maggiore frequenza.
Moda:La moda è il valore osservato nella distribuzione con maggiore frequenza.
La moda è generalmente utilizzata quando si devono sintetizzare distribuzioni estremamente discrete come
quelle che si hanno con i dati categoriali.
Proprietà della moda
Il, calcolo della moda è applicabile a dati misurati in qualunque scala.
• Una distribuzione di frequenze è chiamata bimodale se osserviamo due “picchi" nell'istogramma
• della distribuzione;
La media,la mediana e la moda sono identiche se la distribuzione è unimodale e simmetrica come
• la distribuzione campanulare;
*figura 3.11
La media, la mediana e la moda sono misure complementari in quanto ciascuna di esse e' utile per descrivere
differenti aspetti dei dati, Bisogna sempre valutare quale statistica risulta maggiormente informativa per
sintetizzare i nostri dati.
3.3 Descrivere la variabilìtà dei dati
Campo di variazione (range)
Calcolare la differenza fra il valore più grande e quello più piccolo di una distribuzione è il modo più
semplice per descrivere la variabilità di una variabile quantitativa.
Campo di variazione
Il campo di variazione(in inglese range) è la differenza tra il valore più alto e il valore più basso della
distribuzione.
Deviazione standard (standard deviation)
Altre misure di variabilità sono basate sugli scarti dei dati da una misura di tendenza centrale come la media
Deviazione
La deviazione di un'osservazione yi dalla media campionaria y¯ è la differenza tra i due valori (yi-y¯ ).
Ogni osservazione ha una deyiazione. La deviazione è positiva quando l'osservazione ha un valore al di
sopra della media; negativa quando ha un valore al di sotto. L'interpretazione di y come centro dei dati
implica che la somma delle deviazioni positive sia uguale alla somma delle deviazioni negative;pertanto, la
somma di tutte le deviazioni dalla media, (yi-y¯ ) è 0.Per questo motivo le misure di variabilità fanno uso o
Σ
dei valori assoluti delle deviazioni o dei loro quadrati; la più importante misura di variabilità fa uso dei
quadrati.
Deviazione standard
La deviazione standard s calcolata per n osservazioni è:
s=√ (yi-y¯ )^2 / n-1 = √somma delle deviazioni al quadrato / ampiezza campionaria -1
Σ
Questa grandezza è la radice quadrata della varianza s^2,cioè di:
s^2=√ (yi-y¯ )^2 / n-1=(yi-y¯ )^2+(y2-y¯ )^2+....+(y^n-y¯ )^2 / n-1
Σ
La varianza è approssimativamente una media delle deviazioni al quadrato. La sua unità di misura è il
quadrato dell'unità di misura con cui sono espressi i dati originari.In quanto espressa nell'unità di misura dei
dati al quadrato, la varianza e' di difficile interpretazione; per questo motivo viene utilizzata la radice
quadrata della varianza,cioè la deviazione standard.
L'espressione (yi-y¯ )^2 viene chiamata somma dei quadrati. Essa è costituita dalla somma dei quadrati di
Σ
ciascuna deviazione;Più grandi sono le deviazioni, maggiore è la somma dei quadrati e, quindi, più grande è
s.
Sebbene la sua formulazione matematica la faccia sembrare complicata, l'interpretazione della deviazione
standard s è estremamente semplice: s è una sorta di distanza tipica delle osservazioni dalla media, Maggiore
è la deviazione standard s, più grande e' la dispersione delle osservazioni.
Proprietà della deviazione standard
s >= 0;
• s=0 solo quando tutte le osservazioni hanno lo stesso valore.
• Più grande è la variabilità intorno alla media, maggiore è il valore di s.
• La ragione per cui si utilizza (n l) piuttosto che n nel denominatore di s (e di s^2) è di tipo tecnico e
• riguarda l'inferenza per i parametri della popolazione;
Se sui dati viene effettuata una trasformazione di scala, anche le deviazioni standard vengono
• trasformate.
Interpretare la grandezza di s
Un modo più preciso per interpretare la grandezza di s richiede una maggiore conoscenza della forma della
distribuzione di frequenze.Le regole seguenti possono risultare utili per interpretare la grandezza di s in molti
contesti differenti.
Regola empirica
Se l'istogramma della distribuzione ha una forma approssimativamente campanulare, allora
y¯
1.circa il 68% delle osservazioni assume valori compresi tra -s e y¯+s;
y¯
2.circa il 95% delle osservazioni assume valori compresi tra -2s e y¯+2s;
y¯
3.la quasi totalità delle osservazioni assume valori compresi tra -3s e y¯+3s.
La regola è chiamata “regola empirica” in quanto molte delle distribuzioni osservate nella pratica(cioè
empiricamente)sono grossomodo campanulari.
*figura 3.14 (regola empirica:interpretazione della deviazione standard per una distribuzione campanulare)
3.4 Misure di posizione
Un altro modo per descrivere una distribuzione è attraverso le misure di posizione.Esse forniscono
informazioni sul valore al di sotto del quale ricade una certa percentuale di osservazioni della distribuzione.
Alcune misure di posizione. individuano il centro e altre la variabilità della distribuzione.
Quartili e altri percentili
Il campo di variazione viene definito impiegando due misure di posizione: il massimo e minimo dei valori
osservati nella distribuzione. La mediana è una misura di posizione e metà delle osservazioni ricade al di
sotto e al di sopra di essa;la mediana è una grandezza che appartiene a un insieme di misure di posizione
chiamate percentili.
Percentili
Il p-esimo percentile è il valore nella distribuzione al di sotto del quale ricade il p% delle osservazioni e al
di sopra del quale ricade il (100 - p)% delle osservazioni.
Altri due percentili di uso comune sono il primo quartile e il terzo quartile.
Primo e terzo quartile
Il 25-esimo percentile è chiamato primo quartile.Il 75-esimo percentile è chiamato terzo quartile. Un
quarto delle osservazioni ricade al di sotto del primo quartile e un quarto ricade al di sopra del terzo.
I quartili vengono,quindi,definiti attraverso il 25-esimo e il 75-esimo percentile. Il primo quartile è la
mediana per le osservazioni che ricadono al di sotto della mediana,cioè,per la prima metà delle osservazioni.
Il terzo quartile è la mediana per le osservazioni che ricadono al di sopra della mediana, cioè, per la seconda
metà delle osservazioni.
*figura 3.16 (quartili e scarto interquartile)
Misure di variabilità:lo scarto interquartile
La differenza fra il primo e il terzo quartile è chiamata scarto interquartile e viene indicata con IQR (Inter
Quartile Range). Questa misura descrive la dispersione delle osservazioni "centrali" della distribuzione.
Come il campo di variazione e la deviazione standard, lo scarto interquartile aumenta con l'aumentare della
variabilità ed è utile per confrontare la variabilità in diversi gruppi.
L'impiego dello scarto interquartile presenta un sostanziale vantaggio rispetto al campo di variazione: non è
influenzato dalla presenza di outlier.
Per distribuzioni campanulari la distanza dalla media di ciascun quartile è circa 2/3 della deviazione
standard; lo scarto interquartile e' approssimativamente (4/3)s.
Box plot:rappresentazione grafica di cinque misure di posizione
La mediana.i quartili,il massimo e il minimo sono cinque misure di posizione spesso impiegate
congiuntamente per descrivere la centralità e la variabilità di una distribuzione.
Il box (scatola) contiene il 50% centrale della distribuzione dal primo al terzo quartile.La mediana è
rappresentata da una linea che attraversa il box.Le linee che si estendono a partire dalla scatola sono
chiamate baffi (in inglese whiskers(baffi del gatto));esse si estendono fino al massimo e fino al minimo a
meno che nella distribuzione siano presenti osservazioni outlier rappresentate in maniera differente nel
grafico.
*figura 3.17--> esempio di box plot dei tassi di criminalità negli stati USA.
Outlier
I box plot sono degli strumenti efficaci anche per identificare le osservazioni outlier.Per spiegare come si
impiegano per questa finalità occorre dara una definizione formale di outlier.
Outlier
Un'osservazione viene definita outlier se ricade a più di 1.5x(IQR) al di sopra del terzo quartile oppure a pi&ugra