Appunti sulle lezioni di statistica
Queste note riguardano le lezioni di Statistica tenute dal prof. GiovanniMaria Marchetti nel II semestre dell'a.a. 2013-2014 all'Università degli Studi di Firenze. L'autore dichiara che il seguente è costituito da un'elaborazione originale delle lezioni sopracitate. Ogni errore è da attribuirsi esclusivamente al sottoscritto. L'autore Vittorio Bellini.
Capitolo 1 – Perché studiare la statistica?
La statistica nasce per studiare i fenomeni collettivi attraverso la raccolta di dati individuali. Un'indagine statistica si sviluppa preliminarmente con la formulazione di alcuni obiettivi di ricerca o di ipotesi da verificare, quindi con la raccolta e l'analisi dei dati, ed infine con una loro interpretazione necessaria per poter prendere successive decisioni in ambito economico, scientifico o altro.
Tipi di indagine statistica
- Censimento: un'indagine statistica che riguarda l'intera popolazione.
- Indagine campionaria: un'indagine statistica che riguarda un sottoinsieme della popolazione.
- Esperimento controllato: un'indagine statistica effettuata sotto precise condizioni di verifica.
- Esperimento osservativo: un'indagine statistica effettuata senza controllo di condizioni.
Come scienza, la statistica nasce come strumento utile per le questioni statali, in demografia e economia politica.
Terminologia
Facendo l'esempio di un'indagine statistica sull'altezza di un gruppo di studenti, si introducono alcuni termini:
- I dati sono rilevati su di un gruppo di individui, ognuno detto unità statistica.
- I dati riguardano una caratteristica quantitativa dell'unità statistica (l'altezza), detta anche variabile.
- Distinzione fra individuo (unità statistica) e carattere (variabile).
Raccolta e classificazione dei dati (diagramma stem-and-leaf)
Una prima idea importante è la classificazione dei dati durante il procedimento di osservazione. Dal momento che i dati, ad esempio, delle altezze sono stati raccolti in modo casuale, è utile, per una prima superficiale interpretazione dei dati, ordinarli secondo un metodo.
Il primo metodo utile per distribuire dei dati, nei casi si debba effettuare uno spoglio dei dati manuale, è il cosiddetto diagramma ramo-foglia (diagramma stem-and-leaf). I dati vengono ordinati su righe in base alle prime cifre in comune, trascrivendo, una accanto all'altra, le unità.
Classificazione dei dati in base al tempo
Considerando il tempo, i casi fondamentali che si possono presentare sono due:
- Dati cross-sectional: si studia un campione statistico in un dato tempo fissato, nello stesso momento.
- Dati in serie temporale: si studia una sola unità statistica osservando una variabile nel corso del tempo.
Si parla di “cross-section” per identificare come, in realtà, si possa ricondurre tutto allo studio di alcune unità statistiche organizzate in serie temporale. In un grafico di tipo cartesiano infatti, il più comune per le serie storiche, dove il tempo sia sull'asse delle ascisse, si può osservare il valore della variabile per un tempo fissato su una “colonna” di tempo, “cross” appunto.
Campione
Come già detto, il campione è un sottoinsieme della popolazione, il gruppo più ampio possibile delle unità statistiche potenzialmente osservabili.
Un campione può essere:
- Campione sistematico: viene scelto all'interno della popolazione in base a criteri, in modo da poter essere il più rappresentativo possibile della popolazione.
- Campione casuale: viene scelto casualmente all'interno della popolazione.
Descrizione e inferenza
La statistica si divide in due grandi categorie:
- Statistica descrittiva: metodi per sintetizzare e elaborare una serie di dati e trasformarli in informazioni (grafici, indici, ecc.).
- Statistica inferenziale (induttiva): metodi di stima e di previsione che trasformano le informazioni in conoscenza, generalizzazione da un campione all'intera popolazione.
Capitolo 2 – Descrizione grafica dei dati
Classificazione delle variabili (caratteri)
Le variabili si suddividono in:
- Variabili qualitative: sono variabili a cui viene fatto corrispondere un dato alfabetico descrittivo, una modalità che è un attributo della unità statistica (esempio: sesso, professione, ecc.). A loro volta si dividono in:
- Variabili qualitative nominali: i dati non possono essere ordinati, non c'è un ordine logico.
- Variabili qualitative ordinali: i dati possono essere ordinati secondo una gradazione di significato letterario (esempio: poco, abbastanza, molto, ecc.).
- Variabili quantitative: sono variabili a cui viene fatto corrispondere un dato numerico, una modalità che è una misura o un conteggio dell'unità statistica (esempio: altezza, età, ecc.). A loro volta si dividono in:
- Variabili quantitative discrete: i dati sono numeri interi, per la natura stessa della variabile (esempio: alunni di una classe, voti agli esami, ecc.).
- Variabili quantitative continue: i dati sono numeri reali, la variabile viene “misurata” fisicamente e non c'è “salto” fra il range di misure possibili (esempio: altezze, ecc.).
Sintesi dei dati per i caratteri qualitativi
All'inizio i dati si presentano in forma grezza, ed è necessario organizzarli. Non potendo effettuare lo spoglio tramite un diagramma stem-and-leaf, poiché esso è utilizzabile solo per i caratteri quantitativi, si usa la distribuzione di frequenza.
La classificazione secondo la distribuzione di frequenza distribuisce le unità statistiche (es. clienti), in base ad una variabile (es. sesso) in due classi o modalità (maschi e femmine). Il numero di unità classificate in una classe si dice frequenza assoluta, e la somma delle due frequenze assolute (nell'esempio) dà luogo al numero del campione.
La frequenza assoluta è un primo dato importante, ma non immediatamente comprensibile o interpretabile. Utile è introdurre il concetto di frequenza relativa, il rapporto fra la frequenza assoluta e il campione. Esso è un numero da 0 a 1, esprimibile in percentuale, che permette di comprendere con più immediatezza la distribuzione delle modalità di una variabile, e apprezzare il fenomeno in maniera più completa. Infatti l'uso della frequenza relativa facilita la struttura del campione e la sua valutazione, oltre che facilitare il confronto con altri campioni diversi numericamente.
Rappresentazioni grafiche per i caratteri qualitativi
Le distribuzioni di frequenza di caratteri qualitativi possono essere trasformate in rappresentazioni grafiche, per poter evidenziare in modo maggiore la distribuzione della variabile sul campione.
Il grafico che permette una chiarezza espositiva maggiore è il grafico a barre, o diagramma a barre, dove le altezze dei rettangoli sono pari alle frequenze assolute. Un grafico di ampia diffusione è anche il diagramma a torta (pie-chart), che tuttavia è da scartare nei casi in cui una variabile presenti numerose classi o modalità, tali da creare confusione all'occhio del lettore, incapace di cogliere differenze, quando non marcate, fra le ampiezze degli angoli.
Rappresentazioni grafiche per i caratteri quantitativi
Come già affermato, la sintesi dei dati per i caratteri quantitativi viene effettuata non con le distribuzioni di frequenza ma con il diagramma stem-and-leaf. Tuttavia, una volta costruito tale diagramma, è fondamentale contare quante unità appartengono allo stesso “ramo”, e indicarne quindi la frequenza. Per ogni “ramo” del diagramma si costruisce quella che prende il nome di “classe”, ovvero un intervallo numerico del quale si misura la frequenza di dati abbinati.
Dopo aver ordinato i dati in questo modo, la rappresentazione grafica più comune viene fatta utilizzando un tipo di grafico chiamato istogramma, nel quale le aree dei rettangoli verticali adiacenti corrispondono alla frequenza della classe, indicata sull'asse delle ascisse.
Quando un istogramma ha un'asse di simmetria, intorno alla quale si dispongono le frequenze, si parla di istogramma simmetrico o distribuzione simmetrica. Esistono anche distribuzioni asimmetriche, in particolare asimmetriche positive (la variabile su un campione si concentra a sinistra) o asimmetriche negative (la variabile su un campione si concentra a destra).
Distribuzioni doppie di frequenza
Le distribuzioni doppie di frequenza sono usate per classificare due variabili che vengono fatte incrociare sullo stesso campione. Ad esempio, se ogni variabile ha due modalità, le unità statistiche potranno essere classificate in quattro classi. È importante sottolineare come le frequenze assolute siano possibili (e utili) ma solo con riferimento a una variabile per volta, ovvero tenendo ferma una e osservando la frequenza relativa sull'altra rispetto alla prima.
Grafici per tabelle a doppia entrata (tavola di contingenza)
Le tabelle a doppia entrata sono grafici utilizzati per ordinare le modalità di due variabili, specie se numerose. I totali di ogni riga o di ogni colonna si chiamano distribuzioni marginali. Le combinazioni delle modalità si indicano invece come distribuzioni congiunte. Esaminando invece una sola riga o una sola colonna (tenendo dunque ferma una modalità di una variabile, e esaminando la combinazione di questa con le modalità dell'altra variabile) si parla di distribuzione condizionata.
Grafici per serie temporali (serie storiche)
Si analizza una o più unità statistiche (ma non troppe) con più rilevazioni nel corso del tempo. Il grafico è una spezzata sul piano cartesiano dove sull'asse delle ascisse è collocato il tempo, e sull'ordinata vengono collocati i valori delle successive misurazioni.
Grafici per la relazione fra due variabili, diagramma di dispersione (scatter)
La relazione fra due variabili può essere osservata graficamente attraverso il diagramma di dispersione, dove su un piano cartesiano vengono segnati i punti associati alla combinazione delle due variabili. Questo diagramma permette di visualizzare anche visivamente una relazione di tipo geometrico a seconda della disposizione assunta dai punti sul grafico (ad esempio se si sono più o meno allineati in una relazione di diretta proporzionalità).
Capitolo 3 – Descrizione numerica dei dati
La descrizione numerica dei dati si opera fondamentalmente utilizzando i seguenti concetti:
- Indici di posizione:
- Media aritmetica e geometrica
- Mediana
- Moda
- Indici di variabilità:
- Campo di variazione
- Differenza interquartile
- Varianza e scarto quadratico medio
- Coefficiente di variazione
Misure di tendenza centrale (indici di posizione)
Media aritmetica
La media aritmetica, o più semplicemente media, è la somma dei valori di tutte le osservazioni divisa per il numero di osservazioni. In particolare, se la media si riferisce ai dati di un'intera popolazione (media della popolazione), assume il valore di parametro. Se invece i dati provengono da un campione scelto all'interno della popolazione (media campionaria), si parla di statistica. Essa si definisce come:
Mediana
La mediana è l'osservazione centrale di un insieme di osservazioni ordinate in modo crescente o decrescente. Se la dimensione n del campione è un numero dispari, la mediana corrisponde al valore centrale. Se la dimensione n del campione è un numero pari, la mediana corrisponde alla media delle due osservazioni centrali.
Moda
La moda è la modalità di una variabile che in un insieme di osservazioni (quantitative o qualitative) si presenta per il maggior numero di volte. Possono esserci distribuzioni unimodali (una sola moda), così come distribuzioni bimodali (due mode), ecc. Negli istogrammi di variabili continue, la moda corrisponde all'intera classe di frequenza, che si dice classe modale. Per ottenere un singolo valore, si considera il valore corrisposto alla classe.
Proprietà della media
Le proprietà della media sono:
- Internalità: la media deve sempre stare fra i valori minimi e massimi della distribuzione di una variabile.
- Se si cambia la scala della variabile, la media si trasforma nello stesso modo.
- Se si aggiunge una costante alla variabile, la media è maggiorata della stessa.
- La somma degli scarti dalla media (la differenza di ogni osservazione dalla media) è pari a 0.
- Proprietà dei minimi quadrati: la sommatoria delle distanze al quadrato dei dati dalla media è la più piccola possibile (questo porta a dire che la media è il valore più vicino a tutti i dati osservati).
Media con dati raggruppati (media aritmetica ponderata)
Nel caso di una distribuzione di frequenza di una variabile quantitativa discreta, dove le modalità assunte dalla variabile abbiano un loro "peso", la media assume la forma della media ponderata, ovvero:
Robustezza degli indici
La mediana è un indice che si dice robusto, questo perché tende a non variare di molto nel caso in cui nella distribuzione di una variabile siano presenti valori, detti outliers, che differiscano sensibilmente dalla media delle altre osservazioni. La media è invece un indice sensibile, questo perché tende a variare di molto nel caso in cui nella distribuzione di una variabile siano degli outliers. Si fa maggiormente influenzare da valori anomali.
Indici di variabilità
Gli indici di posizione, da soli, non possono fornire una descrizione completa di un fenomeno osservato in statistica. Una variabile può distribuirsi in due distribuzioni differenti: pur presentando entrambe la stessa media esse possono essere molto differenti, ad esempio i dati possono disporsi in modo più o meno lontano dalla media. Per valutare ciò si ricorre agli indici di variabilità.
I due indici di variabilità più importanti sono il campo di variazione, lo scarto interquartile e lo scarto quadratico medio (o deviazione standard).
Campo di variazione
Il campo di variazione (range) è semplicemente la differenza fra il massimo e il minimo dei valori osservati, e fornisce una prima indicazione di quanto si siano distribuiti i dati della variabile.
Scarto interquartile
Lo scarto interquartile (o differenza interquartile) misura la variabilità del 50% dei dati centrali in una distribuzione ordinata in modo crescente o decrescente. Esso è pari alla differenza fra il terzo quartile (75-esimo percentile) e il primo quartile (25-esimo percentile). Si noti come i quartili sono valori di tendenza non centrale e come la mediana si ottengono evidenziando il valore che occupa la posizione corrispondente al quartile. Il numero della posizione ordinata ottenuta va approssimata all'intero più vicino, altrimenti si fa una media delle due posizioni.
Un metodo interessante per evidenziare graficamente i valori di minimo, ampiezza dello scarto interquartile, mediana e massimo è quello detto box plot.
Varianza e scarto quadratico medio (deviazione standard)
Si introduce il concetto di varianza come la media degli scarti al quadrato, ovvero:
La varianza ha un'unità di misura quadratica, per la sua stessa natura, che in molti casi può creare confusione o comunque non essere utile. Si introduce allora la deviazione standard, come radice quadrata della varianza, ovvero:
Quando ad una media segue un'alta deviazione standard, la media non è un dato sintetico significativo della distribuzione della variabile. Le proprietà della deviazione standard sono:
- È sempre positiva.
- È 0 se tutti i valori sono uguali.
- Se si cambia l'unità di misura, la deviazione cambia allo stesso modo.
- Se si aggiunge una costante, la deviazione resta invariante.
Coefficiente di variazione
Il coefficiente di variazione è una misura della variabilità relativa che esprime lo scarto quadratico medio come una percentuale della media, purché non nulla, ovvero:
Misure delle relazioni fra variabili
Due variabili che descrivono un fenomeno possono associarsi in due modi diversi:
- Variabili associate concordanti (proporzionalità diretta).
- Variabili associate discordanti (proporzionalità inversa).
Covarianza
La covarianza è una misura della relazione lineare tra due variabili, indica cioè quanto varino insieme due variabili X e Y. In particolare, un valore positivo indica una relazione diretta o positiva (variabili concordanti), mentre un valore negativo indica una relazione inversa o negativa (variabili discordanti).
Per calcolare la covarianza si calcolano tutti gli scarti dalla media per ogni dato della variabile, si moltiplicano gli scarti a coppie (si ottengono prodotti positivi, perché le coppie di dati associati hanno lo stesso segno) e se ne fa la media aritmetica. Si definisce infatti la covarianza come:
Il valore della covarianza dipende dall'unità di misura della variabile, e non è ancora un indice adeguato per misurare l'associazione fra variabili.
Coefficiente di correlazione lineare
Per misurare allora l'associazione fra variabili in modo invariante, si usa il coefficiente di correlazione.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.