Università Bocconi – Corso di statistica
Statistica descrittiva
Introduzione
Ogni decisione è presa in condizioni di incertezza dovute ad informazioni incomplete. L’analisi statistica è composta da diversi passi:
- Obiettivo/problema
- Raccolta dati
- Informazione
- Conoscenza
- Decisione
La statistica serve per arrivare ad una decisione partendo da un obiettivo mediante la raccolta di dati grezzi e la loro conversione in informazioni. Le informazioni sono raccolte tramite l’analisi di dati prodotti da rilevazioni fatte sulla popolazione.
Popolazione (N) = insieme completo di tutte le unità statistiche oggetto di studio, può essere molto grande o addirittura infinita.
Al fine di rendere più accessibile l’operazione, soprattutto in termini di costi e raggiungibilità, la popolazione viene ridotta ad un campione.
Campione (n) = sottoinsieme delle unità osservate nella popolazione. Affinché la ricerca sia valida è necessario che il campione osservato sia rappresentativo della popolazione (ovvero deve presentare caratteristiche rappresentative della popolazione), per questo motivo bisogna procedere attraverso un processo di campionamento, ovvero ridurre la popolazione ad un suo sottoinsieme.
Il processo di campionamento più semplice è detto campionamento casuale semplice: questo procedimento fa in modo che ciascuna unità della popolazione sia scelta a caso e abbia la stessa opportunità di essere scelta.
L’obiettivo della statistica è quindi ricavare informazioni sull’intera popolazione attraverso lo studio di un campione, naturalmente tutto rimarrà con un certo margine d’incertezza.
Una caratteristica specifica del campione si chiama statistica (intesa come misura e non come disciplina) mentre una caratteristica specifica della popolazione è detta parametro. Quello che interessa agli statistici è riuscire a passare da una statistica ad un parametro.
La scienza statistica si divide in due branche:
- Statistica descrittiva: fornisce metodi grafici e numerici tali da poter trasformare dati grezzi in informazioni. Raccoglie, sintetizza e presenta i dati.
- Statistica inferenziale: fornisce le basi per le previsioni utili a trasformare le informazioni in conoscenze. Formula delle ipotesi e successivamente le verifica.
Classificazione delle variabili
Variabile = insieme di caratteristiche rilevate su delle unità statistiche
Modalità = uno dei possibili valori di un dato carattere (es. carattere: colore degli occhi, modalità: azzurro, verde ecc.)
Le variabili possono essere classificate in diversi modi, si distinguono le variabili categoriche e quelle numeriche (se ci si basa sulla quantità di informazioni contenute nei dati) oppure le variabili qualitative e quantitative (se ci si basa sui livelli di misurazione).
Quantità di informazioni
- Variabili categoriche sono variabili generate da domande come “Sei mai stato ad Oslo?” oppure domande sullo stato civile ecc. che presuppongono come risposta un testo.
- Variabili numeriche si dividono in:
- Numeriche discrete sono il risultato di un processo di conteggio (es. numero di amici su Facebook) e sono infinite numerabili.
- Numeriche continue sono il risultato di un processo di misurazione (es. altezza) e sono infinite non numerabili.
Nota bene: dal punto di vista statistico tutte le variabili riguardanti un prezzo o un costo sono da considerarsi numeriche continue.
Livelli di misurazione
- Dati qualitativi non posso fare dei calcoli
- Nominali sono dati ottenuti da domande di tipo categorico, ossia che presuppongono una risposta testuale o un codice numerico che identifica univocamente una classificazione.
- Ordinali indicano un ordine gerarchico degli elementi e i valori assunti sono delle “etichette” che descrivono le risposte (es. titolo di studio). Nei dati qualitativi ordinari non esiste un significato misurabile nella differenza di intensità, ad esempio non posso dire che a 40° fa il doppio del caldo che a 20° poiché lo zero di questa scala è deciso in modo arbitrario.
- Dati quantitativi ho più informazioni che con un dato qualitativo
- Scala ad intervallo: scala contraddistinta con uno zero deciso in maniera arbitraria.
- Scala di rapporto: scala con uno zero deciso in modo oggettivo (es. l’età), per questo motivo posso mettere in rapporto due misure (chi ha 40 anni ha il doppio degli anni di chi ne ha 20).
La classificazione dei dati è fondamentale soprattutto perché ad essa è vincolata la scelta della rappresentazione grafica.
Analisi univariata
L’analisi grafica è volta a sintetizzare i dati grezzi e a presentarli in maniera utile.
Prima di analizzare graficamente i dati bisogna:
- Capire la tipologia di variabile
- Verificare il numero di variabili analizzate congiuntamente
Dopo questa verifica, si decide che grafico usare.
Dati qualitativi
La stessa qualità si presenta più volte, analizzo una variabile per volta (analisi univariata).
- Per i dati nominali uso:
- Distribuzione di frequenze (T)
- Grafico a torta (G) si utilizza quando si vuole sottolineare la porzione di ciascuna categoria
- Grafico a barre (G) si usa quando si vogliono sottolineare le frequenze assolute di ogni categoria
- Per i dati ordinari uso:
- Distribuzione di frequenze (T)
- Grafico a barre (G)
Nota bene: per i dati ordinari non uso il grafico a torta perché non esprime l’ordinamento necessario.
Tabella di distribuzione delle frequenze
È una tabella che serve per organizzare i dati grezzi. Soprattutto nei casi di dati qualitativi o quantitativi discreti, poiché i dati grezzi possono ripetersi uguali più volte, risulta necessario sintetizzarli. Ciò è possibile associando a ciascuna categoria un numero detto frequenza assoluta che rispecchia il numero di volte che ciascuna categoria compare nei dati.
Distribuzione di frequenze = tabella che associa a ciascuna delle k modalità distinte la frequenza con cui essa appare nei dati. Altro dato presente nella tabella di distribuzione delle frequenze è la frequenza relativa (o frequenza percentuale se viene espressa in percentuale) la frequenza con cui si identifica quanto è presente una certa modalità rispetto al totale.
Diagrammi a torta e a barre
A seconda che il nostro scopo sia quello di porre attenzione sulla frequenza relativa oppure sulla frequenza assoluta useremo il diagramma a torta nel primo caso e il diagramma a barre nel secondo.
Nota bene: il grafico a barre è diverso dall’istogramma. Escluso il fatto che non si usa un grafico a torta, l’unica differenza fra dati qualitativi nominali e ordinari è che tassativamente le modalità di dati ordinari vanno messe in ordine, ad esempio se compio uno studio sulle fasce di prezzo dei ristoranti vicino all’università la tabella di distribuzione di frequenze e il grafico a barre saranno così:
Diagramma di Pareto
È un diagramma a barre che rappresenta le frequenze assolute/relative insieme a le frequenze cumulate (identificate da una spezzata). Per fare in modo di comporre un diagramma di Pareto bisogna prima ordinare la tabella di distribuzione di frequenze in base alle frequenze assolute (è possibile farlo anche nel caso di dati qualitativi nominali).
Le frequenze cumulate si calcolano sommando in ordine le frequenze relative in modo da vedere quali modalità pesano di più sulla totalità. Successivamente si disegna un grafico a due assi nel quale sono rappresentate sia le frequenze relative sia le frequenze cumulate:
Dati quantitativi
Si distinguono due tipologie di dati quantitativi:
-
Quantitativi discreti con pochi valori distinti (ovvero la variabile oggetto di studio avrà poche modalità) es. numero di cellulari per persona, le modalità potranno essere 1, 2, 3 ma difficilmente (o comunque trascurabilmente) più di 3. Questi dati si analizzano attraverso:
- Distribuzione di frequenza (T)
- Diagramma ad aste (G)
- Diagramma scalini (G)
-
Quantitativi discreti oppure continui con tanti valori distinti, es. numero di persone che entrano in 100 aeroporti oggetti di studio. Questi dati si analizzano attraverso:
- Distribuzione di frequenza (T)
- Istogramma (G)
- Ogiva (G)
Classi di uguale ampiezza
Prima di rappresentare i dati tramite un grafico bisogna raggrupparli in classi, in questo caso ho due opzioni:
- Classi di uguale ampiezza
- Classi di diversa ampiezza
Caso 1: classi di uguale ampiezza
Esempio: Il giorno di Natale 2014 raccolgo il numero di messaggi inviati da 20 diverse persone: 76, 78, 12, 48, 108, 54...60
- Ordino i dati: 12, 28, 34..., 108
- Divido i dati in classi, quante lo decido arbitrariamente (in questo caso è conveniente dividere in 5 classi)
- Trovo il campo di variazione dei dati ovvero la differenza tra il numero minimo e il numero massimo: Range = 108 – 12 = 96
- Trovo l’ampiezza di ogni classe dividendo il range per il numero di classi scelto: 96 ÷ 5 = 19,2 poiché una classe deve contenere un numero intero di elementi il risultato viene sempre approssimato per eccesso.
- Determino le classi, ossia decido da che punto partire (meglio se i numeri sono “normali”, ossia 10 è meglio di 17 per iniziare una classe ad esempio): [10;30) ; [30;50) ; [50;70) ; [70;90) ; [90;110)
Le classi scelte devono avere due caratteristiche fondamentali:
- Mutua esclusività: un dato non appartiene a più di una classe
- Esaustività: tutti i valori rientrano nelle classi
Costruisco il grafico/tabella scelto. Questi dati necessitano di due misure aggiuntive esplicitate nella tabella:
- Ampiezza classe (soprattutto nel caso le classi siano di ampiezza diversa) wi
- Densità di frequenza ossia la % di osservazioni per unità di intervallo, ci = pi / wi
Istogramma (diverso dal grafico a barre!) ci permette invece di capire la simmetria della distribuzione. L’ogiva è una rappresentazione della funzione cumulativa delle frequenze di dati quantitativi raggruppati in classi (è una spezzata e sono delle linee, e non degli scalini, perché in mezzo all’intervallo non so cosa succeda).
Caso 2: classi di diversa ampiezza
Nel caso di classi di diversa ampiezza la situazione cambia (attenzione: più frequenti all’esame). A volte conviene fare classi di diversa ampiezza perché:
- Ci sono così meno classi
- Non ci sono classi vuote
Un esempio è: la distanza di 50 outlet dal centro di Milano, se faccio classi da 50 km la prima sarà pienissima mentre le altre quasi vuote. I grafici usati sono gli stessi di prima ma con una differenza per l’istogramma: non posso mettere sull’asse delle y i dati riguardanti la frequenza relativa ma solo quelli riguardo la densità di frequenza. Con classi di diversa ampiezza infatti l’istogramma sarebbe ingannevole se contenesse dati della frequenza relativa.
Serie storiche
Serve per indicare l’andamento di una certa variabile nel tempo, la variabile è quantitativa (es. numero di vendite, numero di immatricolazioni ecc.) e le quantità si trovano sempre sull’asse delle y mentre sull’asse delle x si trova il tempo (espresso in trimestri, anni ecc.).
Analisi bivariata
Un’analisi univariata non mi dà informazioni sulla relazione che potrebbe intercorrere tra due variabili, un’analisi bivariata invece sì. La relazione tra due variabili si analizza attraverso:
- Tabella a doppia entrata
- Grafico e dispersione
Tabella a doppia entrata
È una tabella che elenca la frequenza delle osservazioni per ogni combinazione di classi di misura di due variabili. Il numero di celle è determinato dalla combinazione di tutte le possibili classi per ognuna delle due variabili. Nota bene: una tabella a doppia entrata che contiene due variabili qualitative si chiama tabella di contingenza.
Dalla tabella a doppia entrata possono essere creati due grafici:
- Diagramma a barre accostate
- Diagramma a barre sovrapposte
Nota bene: sono totalmente interscambiabili. La tabella elenca la frequenza delle osservazioni per ogni combinazione delle modalità delle due variabili.
Var X: xi = 1,…,r la variabile X ha r modalità
Var Y: yj = 1,…,c la variabile Y ha c modalità
Le frequenze delle osservazioni per ogni combinazione delle modalità delle due variabili si dicono frequenze assolute congiunte. Sommando le frequenze assolute congiunte si trovano le frequenze assolute marginali che sono differenziate per riga e per colonna. Esse rappresentano le distribuzioni univariate di ciascuna modalità.
Attraverso le frequenze assolute congiunte e marginali si può giungere ad altri due tipi di frequenze:
- Frequenze relative congiunte ottenute dividendo le frequenza assolute congiunte per il numero totale di osservazioni.
- Frequenze relative marginali ottenute dividendo le frequenze assolute marginali per il numero totale di osservazioni.
Tuttavia queste frequenze rendono difficoltoso capire la relazione esistente tra le due variabili. Si usano quindi le frequenze subordinate (o condizionate).
Esse si distinguono in:
- Frequenze subordinate di riga (Y|X)
- Frequenze subordinate di colonna (X|Y)
Esse ci permettono di vedere come una variabile si distribuisce all’interno delle diverse sottopopolazioni definite dalle modalità dell’altra variabile.
Esempio città di residenza-visita EXPO:
- Delle persone che non hanno visitato EXPO, in quanti abitano a Milano? Devo dividere il numero di persone che sono di Milano e non sono andate ad EXPO per il numero di persone che hanno risposto Sì al quesito.
- Tra quelli che abitano a Milano, quanti non hanno visitato EXPO? Devo dividere il numero di persone che abitano a Milano e che non sono ad EXPO per il numero di persone che hanno detto di abitare a Milano.
In questo modo si evidenzia chiaramente la dipendenza di una variabile rispetto ad un’altra. Nota bene: se all’esame è richiesto di verificare una dipendenza di due variabili è sempre richiesto di calcolare le frequenze subordinate. La scelta tra funzione subordinate di riga o di colonna è arbitraria (scegliere quella che ha più senso).
Rappresentazione grafica delle frequenze subordinate
Come visto precedentemente i due grafici che si usano in questo caso sono a barre accostate o sovrapposte, è consigliabile per praticità usare quello a barre sovrapposte. Nota bene: è importante in questo grafico mettere la variabile giusta sull’asse delle X, ci metto quella che condiziona.
Indipendenza statistica
Punto di vista logico: due variabili sono dette indipendenti se non posso trovare una relazione di causa-effetto che le lega.
Punto di vista statistico: la conoscenza del valore di una variabile non ci permette di migliorare la nostra previsione di un’altra variabile.
Definizione: date due variabili X e Y, X è indipendente da Y se tutte le distribuzioni condizionate sono uguali, ovvero al variare delle modalità di Y le distribuzioni subordinate saranno tutte uguali alla distribuzione marginale di X.
Più formalmente: / 0 (modalità di X) = ∀) & 14 5 (modalità di Y) = ∀) 1
Se X è indipendente da Y allora Y è indipendente da X. Questo significa che: × = ∀ Ovvero che il prodotto delle frequenze marginali di ogni modalità, fratto il numero di modalità è uguale alla funzione subordinata, qualsiasi siano le modalità scelte.
Come si può vedere l’indipendenza?
Calcolo delle frequenze subordinate
- Confronto delle colonne del grafico a colonne sovrapposte
- Nel caso del grafico basta notare se le distribuzioni di funzioni subordinate sono diverse (questo sottintende una dipendenza fra le variabili) oppure uguali/simili (questo sottintende una indipendenza fra le variabili).
Dipendenza tra le due variabili Probabile indipendenza tra le due variabili
Paradosso di Simpson
Il motivo di questa differenza è che i due gruppi che compongono la variabile correntisti propri sono tra loro disomogenei, una volta disgregato il gruppo infatti si ottengono dei risultati diversi. Il paradosso di Simpson consiste proprio nel sottolineare come si debba tenere conto di tutti i fattori importanti per giungere a conclusioni corrette dall’analisi di una tabella a doppia entrata. La cosa più importante è che i dati siano omogenei.
Diagramma a dispersione
È un grafico che serve per analizzare dati quantitativi analizzando i dati grezzi.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Appunti Statistica descrittiva, calcolo delle probabilità, inferenza statistica e modello di regressione lineare
-
Appunti completi di Statistica
-
Statistica - Appunti
-
Appunti Statistica descrittiva