Anteprima
Vedrai una selezione di 10 pagine su 46
Riassunti Statistica 1 Pag. 1 Riassunti Statistica 1 Pag. 2
Anteprima di 10 pagg. su 46.
Scarica il documento per vederlo tutto.
Riassunti Statistica 1 Pag. 6
Anteprima di 10 pagg. su 46.
Scarica il documento per vederlo tutto.
Riassunti Statistica 1 Pag. 11
Anteprima di 10 pagg. su 46.
Scarica il documento per vederlo tutto.
Riassunti Statistica 1 Pag. 16
Anteprima di 10 pagg. su 46.
Scarica il documento per vederlo tutto.
Riassunti Statistica 1 Pag. 21
Anteprima di 10 pagg. su 46.
Scarica il documento per vederlo tutto.
Riassunti Statistica 1 Pag. 26
Anteprima di 10 pagg. su 46.
Scarica il documento per vederlo tutto.
Riassunti Statistica 1 Pag. 31
Anteprima di 10 pagg. su 46.
Scarica il documento per vederlo tutto.
Riassunti Statistica 1 Pag. 36
Anteprima di 10 pagg. su 46.
Scarica il documento per vederlo tutto.
Riassunti Statistica 1 Pag. 41
1 su 46
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Indichiamo con 1 e y¯ 2 le medie campionarie per due insiemi di dati con numerosità n1 e n2.La media

campionaria per il nuovo insieme formato combinando le osservazioni (n1+n2) è la media ponderata:

y¯ =n1y¯ 1+n2y¯ 2 / n1+n2 y

Il numeratore n1y¯ 1+n2y¯ 2 è la somma di tutte le ossenrazioni in quanto ny¯ = per ciascun gruppo. Il

Σ

denominatore è l'ampiezza campionaria totale.

La mediana

La media è una semplice misura del centro della distribuzione. Esistono, però, altre misure che forniscono

informazioni sul centro e che risultano talvolta più appropriate.La più importante è la mediana.La mediana

divide in due parti il campione ordinato in maniera crescente;ciascuna parte contiene un identico numero di

osservazioni.

La mediana è il valore della variabile assunto dall'osservazione centrale del campione ordinato. Quando

l'ampiezza campionaria n è dispari, abbiamo una sola osservazione centrale. Quando l'ampiezza campionaria

è pari, si hanno due osservazioni centrali e la mediana è il valore centrale tra i due.

Proprietà della mediana

La mediana, al pari della media, è un'appropriata sintesi per riassumere sia le variabili quantitative

• sia le variabili ordinali. Per il suo calcolo si richiede, infatti che le osservazioni siano ordinabili

rispetto al valore della variabile posseduto da ciascuna di esse.

Per le distribuzioni simmetriche come quelle rappresentate nella Figura 3.7, la mediana e la media

• sono identiche.

Come mostrato dalla Figura 3.10, per le distribuzioni asimmetriche la media è spostata rispetto alla

• mediana, nella direzione dell'asimmetria (cioè verso la coda più lunga).

*figura 3.10

Figura 3.10 Media e mediana per distribuzioni asimmetriche. La media è spostata nella direzione

della coda più lunga.

Poiché costruiita tenendo conto esclusivamente delle caratteristiche ordinali dei dati,la mediana non

• e' sensibile alle distanze tra i valori della distribuzione e la loro media.

La mediana non è influenzata dagli outlier.

La moda

Un'altra misura, la moda, indica il valore della distribuzione osservato con maggiore frequenza.

Moda:La moda è il valore osservato nella distribuzione con maggiore frequenza.

La moda è generalmente utilizzata quando si devono sintetizzare distribuzioni estremamente discrete come

quelle che si hanno con i dati categoriali.

Proprietà della moda

Il, calcolo della moda è applicabile a dati misurati in qualunque scala.

• Una distribuzione di frequenze è chiamata bimodale se osserviamo due “picchi" nell'istogramma

• della distribuzione;

La media,la mediana e la moda sono identiche se la distribuzione è unimodale e simmetrica come

• la distribuzione campanulare;

*figura 3.11

La media, la mediana e la moda sono misure complementari in quanto ciascuna di esse e' utile per descrivere

differenti aspetti dei dati, Bisogna sempre valutare quale statistica risulta maggiormente informativa per

sintetizzare i nostri dati.

3.3 Descrivere la variabilìtà dei dati

Campo di variazione (range)

Calcolare la differenza fra il valore più grande e quello più piccolo di una distribuzione è il modo più

semplice per descrivere la variabilità di una variabile quantitativa.

Campo di variazione

Il campo di variazione(in inglese range) è la differenza tra il valore più alto e il valore più basso della

distribuzione.

Deviazione standard (standard deviation)

Altre misure di variabilità sono basate sugli scarti dei dati da una misura di tendenza centrale come la media

Deviazione

La deviazione di un'osservazione yi dalla media campionaria y¯ è la differenza tra i due valori (yi-y¯ ).

Ogni osservazione ha una deyiazione. La deviazione è positiva quando l'osservazione ha un valore al di

sopra della media; negativa quando ha un valore al di sotto. L'interpretazione di y come centro dei dati

implica che la somma delle deviazioni positive sia uguale alla somma delle deviazioni negative;pertanto, la

somma di tutte le deviazioni dalla media, (yi-y¯ ) è 0.Per questo motivo le misure di variabilità fanno uso o

Σ

dei valori assoluti delle deviazioni o dei loro quadrati; la più importante misura di variabilità fa uso dei

quadrati.

Deviazione standard

La deviazione standard s calcolata per n osservazioni è:

s=√ (yi-y¯ )^2 / n-1 = √somma delle deviazioni al quadrato / ampiezza campionaria -1

Σ

Questa grandezza è la radice quadrata della varianza s^2,cioè di:

s^2=√ (yi-y¯ )^2 / n-1=(yi-y¯ )^2+(y2-y¯ )^2+....+(y^n-y¯ )^2 / n-1

Σ

La varianza è approssimativamente una media delle deviazioni al quadrato. La sua unità di misura è il

quadrato dell'unità di misura con cui sono espressi i dati originari.In quanto espressa nell'unità di misura dei

dati al quadrato, la varianza e' di difficile interpretazione; per questo motivo viene utilizzata la radice

quadrata della varianza,cioè la deviazione standard.

L'espressione (yi-y¯ )^2 viene chiamata somma dei quadrati. Essa è costituita dalla somma dei quadrati di

Σ

ciascuna deviazione;Più grandi sono le deviazioni, maggiore è la somma dei quadrati e, quindi, più grande è

s.

Sebbene la sua formulazione matematica la faccia sembrare complicata, l'interpretazione della deviazione

standard s è estremamente semplice: s è una sorta di distanza tipica delle osservazioni dalla media, Maggiore

è la deviazione standard s, più grande e' la dispersione delle osservazioni.

Proprietà della deviazione standard

s >= 0;

• s=0 solo quando tutte le osservazioni hanno lo stesso valore.

• Più grande è la variabilità intorno alla media, maggiore è il valore di s.

• La ragione per cui si utilizza (n l) piuttosto che n nel denominatore di s (e di s^2) è di tipo tecnico e

• riguarda l'inferenza per i parametri della popolazione;

Se sui dati viene effettuata una trasformazione di scala, anche le deviazioni standard vengono

• trasformate.

Interpretare la grandezza di s

Un modo più preciso per interpretare la grandezza di s richiede una maggiore conoscenza della forma della

distribuzione di frequenze.Le regole seguenti possono risultare utili per interpretare la grandezza di s in molti

contesti differenti.

Regola empirica

Se l'istogramma della distribuzione ha una forma approssimativamente campanulare, allora

1.circa il 68% delle osservazioni assume valori compresi tra -s e y¯+s;

2.circa il 95% delle osservazioni assume valori compresi tra -2s e y¯+2s;

3.la quasi totalità delle osservazioni assume valori compresi tra -3s e y¯+3s.

La regola è chiamata “regola empirica” in quanto molte delle distribuzioni osservate nella pratica(cioè

empiricamente)sono grossomodo campanulari.

*figura 3.14 (regola empirica:interpretazione della deviazione standard per una distribuzione campanulare)

3.4 Misure di posizione

Un altro modo per descrivere una distribuzione è attraverso le misure di posizione.Esse forniscono

informazioni sul valore al di sotto del quale ricade una certa percentuale di osservazioni della distribuzione.

Alcune misure di posizione. individuano il centro e altre la variabilità della distribuzione.

Quartili e altri percentili

Il campo di variazione viene definito impiegando due misure di posizione: il massimo e minimo dei valori

osservati nella distribuzione. La mediana è una misura di posizione e metà delle osservazioni ricade al di

sotto e al di sopra di essa;la mediana è una grandezza che appartiene a un insieme di misure di posizione

chiamate percentili.

Percentili

Il p-esimo percentile è il valore nella distribuzione al di sotto del quale ricade il p% delle osservazioni e al

di sopra del quale ricade il (100 - p)% delle osservazioni.

Altri due percentili di uso comune sono il primo quartile e il terzo quartile.

Primo e terzo quartile

Il 25-esimo percentile è chiamato primo quartile.Il 75-esimo percentile è chiamato terzo quartile. Un

quarto delle osservazioni ricade al di sotto del primo quartile e un quarto ricade al di sopra del terzo.

I quartili vengono,quindi,definiti attraverso il 25-esimo e il 75-esimo percentile. Il primo quartile è la

mediana per le osservazioni che ricadono al di sotto della mediana,cioè,per la prima metà delle osservazioni.

Il terzo quartile è la mediana per le osservazioni che ricadono al di sopra della mediana, cioè, per la seconda

metà delle osservazioni.

*figura 3.16 (quartili e scarto interquartile)

Misure di variabilità:lo scarto interquartile

La differenza fra il primo e il terzo quartile è chiamata scarto interquartile e viene indicata con IQR (Inter

Quartile Range). Questa misura descrive la dispersione delle osservazioni "centrali" della distribuzione.

Come il campo di variazione e la deviazione standard, lo scarto interquartile aumenta con l'aumentare della

variabilità ed è utile per confrontare la variabilità in diversi gruppi.

L'impiego dello scarto interquartile presenta un sostanziale vantaggio rispetto al campo di variazione: non è

influenzato dalla presenza di outlier.

Per distribuzioni campanulari la distanza dalla media di ciascun quartile è circa 2/3 della deviazione

standard; lo scarto interquartile e' approssimativamente (4/3)s.

Box plot:rappresentazione grafica di cinque misure di posizione

La mediana.i quartili,il massimo e il minimo sono cinque misure di posizione spesso impiegate

congiuntamente per descrivere la centralità e la variabilità di una distribuzione.

Il box (scatola) contiene il 50% centrale della distribuzione dal primo al terzo quartile.La mediana è

rappresentata da una linea che attraversa il box.Le linee che si estendono a partire dalla scatola sono

chiamate baffi (in inglese whiskers(baffi del gatto));esse si estendono fino al massimo e fino al minimo a

meno che nella distribuzione siano presenti osservazioni outlier rappresentate in maniera differente nel

grafico.

*figura 3.17--> esempio di box plot dei tassi di criminalità negli stati USA.

Outlier

I box plot sono degli strumenti efficaci anche per identificare le osservazioni outlier.Per spiegare come si

impiegano per questa finalità occorre dara una definizione formale di outlier.

Outlier

Un'osservazione viene definita outlier se ricade a più di 1.5x(IQR) al di sopra del terzo quartile oppure a pi&ugra

Dettagli
Publisher
A.A. 2018-2019
46 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher maximo.98 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Cagliari o del prof Tedesco Nicola.