La statistica
La statistica serve per spiegare le decisioni quotidiane che molto spesso sono basate su informazioni incomplete. Con il termine rilevazioni statistiche si intende il complesso delle operazioni rivolte ad acquisire una o più informazioni su un insieme di elementi oggetto di studio.
L'unità statistica è l'entità su cui viene condotta la rilevazione statistica. La popolazione è l'insieme completo di tutte le unità oggetto di studio. La dimensione della popolazione, N, può essere molto grande o addirittura infinita. Il campione, n, è il sottoinsieme delle unità osservate nella popolazione. L'obiettivo è quello di giungere a delle affermazioni, basate sui dati campionari, che abbiano una certa attendibilità anche sull'intera popolazione: è quindi necessario un campione rappresentativo della stessa popolazione. Questo si può ottenere attraverso il principio della casualità.
Campionamento casuale semplice
Il campionamento casuale semplice è un procedimento usato per selezionare un campione di n oggetti da una popolazione, in modo che ciascuna unità della popolazione sia scelta rigorosamente a caso e abbia la stessa opportunità di essere scelta. Ogni possibile campione deve avere la stessa possibilità di essere selezionato. Il campione ottenuto con questo metodo è detto campione casuale. Lo studio della statistica è necessario non per fare affermazioni sul campione, quanto piuttosto per trarre conclusioni sull'intera popolazione.
Parametri e statistiche
Il parametro è una caratteristica specifica della popolazione. La statistica è una caratteristica specifica del campione. La statistica descrittiva comprende metodi grafici e numerici che sono usati per sintetizzare ed elaborare i dati in modo da trasformarli in informazioni. La statistica inferenziale fornisce le basi per le previsioni e per le stime che consentono di trasformare le informazioni in conoscenza.
Processo di statistica inferenziale
La statistica inferenziale è un processo che può comprendere stime, verifiche di ipotesi, analisi di relazioni e previsioni. Si raccolgono dati sui valori passati della variabile che deve essere prevista e si usa la statistica inferenziale per analizzare queste informazioni e poter suggerire comportamenti futuri. Produce risultati soggetti a margine d’errore (perché si tratta di un campione e questo può non rappresentare in modo corretto tutta la popolazione).
Operazioni per descrivere la popolazione
Per poter descrivere le caratteristiche della popolazione e fare inferenza su una certa popolazione devo svolgere le seguenti operazioni:
- Raccolta dei dati (RILEVAZIONE);
- Organizzazione dei dati (RICODIFICA);
- Elaborazione dei dati;
- Rappresentazione dei dati (REPORTING).
Descrizione grafica dei dati
Classificazione delle variabili. Un insieme di unità statistiche. Variabile = specifica caratteristica di. Le variabili categoriche (dette anche caratteri qualitativi) assumono modalità e sono rappresentate da attributi non numerici. Si distinguono in:
- Nominali: non è possibile stabilire un ordine di importanza tra i diversi attributi (es. stato civile: vedovo, celibe, nubile, divorziato..)
- Ordinali: è possibile stabilire un ordine che può dipendere dallo spazio e dal tempo. (es. area geografica: nord, centro, sud oppure il titolo di studio dal meno importante a quello più importante).
- Dicotomiche: possono assumere solo due modalità di risposta (es. genere maschile/femminile; si/no; occupato/disoccupato...).
Le variabili numeriche (dette anche caratteri quantitativi) assumono intensità rappresentate da numeri. Si distinguono in:
- Discrete: si presentano attraverso dei numeri finiti, non decimali (es. il numero di figli: 1, 2, 3; il numero di crediti), sono risposte che provengono da un processo di conteggio.
- Continue: si presentano con cifre decimali, (es: il peso, l'altezza, la temperatura), sono misurazioni che devono essere precise.
I dati quantitativi includono, come livelli di misurazione, la scala ad intervallo e la scala di rapporto. La scala ad intervallo indica l'ordine e la distanza da un'origine arbitraria misurata con una determinata unità di misura: i valori sono cioè ottenuti in relazione a un punto di riferimento prefissato. Classico esempio è quello della temperatura. Con la scala di rapporto si indicano sia un ordine sia una distanza da un'origine assoluta (lo zero) e il rapporto tra due misure, in questo caso, assume un significato numerico ben preciso. Es: una persona che pesa 100 chili pesa il doppio di un'altra che pesa 50 chili.
Rappresentazioni grafiche per variabili categoriche
Possiamo descrivere le variabili categoriche usando le distribuzioni di frequenze tabellari e grafici come diagrammi a barre, i diagrammi a torta e i diagrammi di Pareto.
Distribuzione di frequenze
È una tabella per organizzare i dati. La colonna di sinistra (che contiene le modalità o le classi di misura) comprende tutte le possibili risposte relative alla variabile oggetto di studio, la colonna di destra contiene l'elenco delle frequenze per ogni classe.
Diagrammi a barre e diagrammi a torta
Se il nostro scopo è quello di attirare l'attenzione sulla frequenza di ogni categoria, allora faremo un diagramma a barre. L'altezza di ogni rettangolo rappresenta la frequenza e non è necessario che le barre si tocchino. Se invece lo scopo è quello di sottolineare la proporzione di ciascuna categoria, allora faremo un diagramma a torta. Il cerchio rappresenta il totale, le fette della torta rappresentano le parti del totale.
Diagramma di Pareto
È un diagramma a barre che rappresenta le frequenze delle cause di difettosità. La barra più a sinistra indica la causa più frequente e le barre più a destra indicano le cause con frequenze decrescenti. Il diagramma di Pareto è usato per separare le “poche cause rilevanti” dalle “numerose cause insignificanti”. Sopra le barre viene disegnata una spezzata che va via via incrementando: l'incremento indica il miglioramento che risulterebbe dalla correzione di ognuno dei problemi. Utilizzato spesso dai manager che devono identificare le principali cause dei problemi e cercare di correggerle rapidamente e a costo minimo.
Grafico per serie storiche
Rappresenta una serie di dati rilevati in istanti di tempo diversi. Se si considera l'asse orizzontale come asse temporale e si pongono sull'asse verticale le quantità numeriche oggetto della misurazione, si otterrà, per ogni osservazione, un punto sul piano cartesiano. Il grafico si ottiene congiungendo i vari punti con una spezzata. Per esempio le università analizzano in questo modo i dati sulle iscrizioni in un arco di tempo, per comprenderne meglio l'andamento.
Rappresentazioni grafiche per variabili numeriche
Distribuzione di frequenze
Una distribuzione di frequenze per dati numerici è una tabella che riassume i dati elencando le classi di intervallo nella colonna di sinistra e il numero di osservazioni in ogni classe nella colonna di destra. Per determinare le classi per una distribuzione di frequenze per dati numerici bisogna deciderne il numero e l'ampiezza. Esistono alcune regole generali per determinarle. Bisogna:
- Determinare il numero delle classi di intervallo;
- Determinare l'ampiezza (valore massimo meno valore minimo, diviso il numero delle classi);
- Le classi non possono avere sovrapposizioni, devono essere mutuamente esclusive e collettivamente esaustive: ciascuna osservazione deve appartenere ad una ed una sola classe.
La distribuzione delle frequenze relative è ottenuta dividendo ciascuna frequenza per il numero complessivo di osservazioni; moltiplicando la proporzione risultante per 100% si ottiene la distribuzione delle frequenze percentuali. La distribuzione delle frequenze cumulate si ottiene sommando alla frequenza della classe corrente le frequenze di tutte le classi precedenti. Dopo aver ottenuto la distribuzione di frequenze siamo in grado di rappresentarla graficamente con istogrammi e ogive.
Istogramma
L'istogramma è un grafico composto da rettangoli verticali adiacenti, costruiti su una linea orizzontale sulla quale sono delimitate le stesse classi di intervallo individuate nella distribuzione di frequenze. L'area del rettangolo è proporzionale al numero di osservazioni della classe corrispondente. La forma di un istogramma è detta simmetrica se le osservazioni sono bilanciate o distribuite in modo approssimativamente regolare intorno al centro dell'istogramma. Una distribuzione obliqua a destra ha una coda che si estende verso destra; viceversa la coda obliqua a sinistra.
Ogiva
L'ogiva, anche chiamata curva delle frequenze cumulate, è una spezzata che rappresenta la distribuzione delle frequenze percentuali cumulate. Unisce i punti che rappresentano le percentuali cumulate di osservazioni con valori minimi del limite superiore di ciascuna classe.
Diagrammi ramo-foglia
Prima dell'avvento dei computer, il diagramma ramo-foglia rappresentava un modo rapido per identificare possibili strutture in insieme di dati di piccole dimensioni. I dati vengono raggruppati secondo le loro cifre più significative (i rami), mentre le cifre meno significative di ogni osservazione (le foglie) sono elencate a destra di ogni ramo, separatamente in ordine crescente. Il numero di cifre in ciascuna classe indica la frequenza di classe. Le singole cifre indicano la suddivisione dei dati entro ogni classe.
Rappresentazioni grafiche e tabelle per relazioni tra variabili
Diagrammi di dispersione
Il diagramma di dispersione serve per studiare le possibili relazioni tra due variabili quantitative. Si può preparare un diagramma di dispersione associando un punto del piano cartesiano a ogni coppia di valori che costituiscono un'osservazione congiunta delle due variabili. Il diagramma di dispersione fornisce una descrizione congiunta dei dati, in particolare evidenzia:
- I possibili valori di ogni variabile;
- La distribuzione dei dati all'interno dei valori possibili;
- L'eventuale relazione tra le due variabili;
- La presenza di eventuali valori anomali (o outlier).
Tabelle a doppia entrata
Utilizzate per descrivere le relazioni tra dati categorici o ordinali. Per usare una tabella a doppia entrata con variabili numeriche, bisogna prima riclassificarle in classi di intervallo. Una tabella a doppia entrata elenca la frequenza delle osservazioni per ogni combinazione di classi di misura di due variabili. Il numero di celle è determinato dalla combinazione di tutte le possibili classi per ognuna delle due variabili. Una tabella con r righe e c colonne viene indicata come tabella r x c. Quando le due variabili sono entrambe qualitative si parla di tabella di contingenza.
Descrizione numerica dei dati
Sono misure di tendenza centrale: la media aritmetica di un insieme di dati è una misura di tendenza centrale: è la somma dei valori di tutte le osservazioni divisa per il numero di osservazioni. È sempre compresa tra il valore minimo e il valore massimo.
La mediana è l'osservazione centrale di un insieme di osservazioni ordinate in modo non decrescente (o non crescente). Se n, la dimensione del campione, è un numero dispari, la mediana è l'osservazione centrale; se n è un numero pari, la mediana si ottiene dalla media delle due osservazioni centrali. È un indice più robusto rispetto alla media perché è meno sensibile alla presenza di valori anomali.
La moda. Dato un insieme di osservazioni (numeriche o categoriche), la moda, se esiste, è la modalità che si presenta il maggior numero di volte. 2 mode: DISTRIBUZIONE BIMODALE; più di 2 mode: DISTRIBUZIONE PLURIMODALE.
La media e la mediana di una distribuzione simmetrica sono uguali, perché le osservazioni sono distribuite in modo speculare intorno al valore centrale. La media delle distribuzioni oblique a destra è più grande della mediana; la media delle distribuzioni oblique a sinistra è più piccola della mediana. Una possibile fonte di asimmetria è la presenza di outlier: osservazioni eccessivamente elevate che tendono a fare aumentare la media, determinando così un'asimmetria positiva. Allo stesso modo, se ci sono osservazioni eccezionalmente piccole dei dati, il valore della media diminuisce, determinando così una distribuzione obliqua a sinistra.
Misure di variabilità
Il campo di variazione è la differenza tra il massimo e il minimo dei valori osservati. Più è grande la variabilità dei dati rispetto al centro della distribuzione, più sarà grande il campo di variazione. Poiché il campo di variazione prende in considerazione solo il massimo e il minimo, sebbene misuri la variabilità totale dei dati, non è una misura soddisfacente di dispersione, perché è influenzata dagli outlier.
La differenza interquartile è la differenza tra il terzo e il primo quartile, ovvero l'ampiezza della fascia di valori che contiene la metà "centrale" dei valori osservati. I quartili sono quei valori/modalità che ripartiscono la popolazione in quattro parti di uguale numerosità. Il primo quartile bipartisce la distribuzione in due gruppi tale che dal minimo al primo quartile ci sia il 25% delle osservazioni, e da lì all'ultimo ci sia il 75%. Il secondo quartile coincide con la mediana, e divide la popolazione in due parti di uguale numerosità, delle quali il primo ed il terzo quartile sono le mediane. Il terzo quartile bipartisce la distribuzione in due gruppi tale che dal minimo al terzo quartile ci sia il 75% delle osservazioni, e da lì al massimo ci sia il restante delle osservazioni. Allo stesso modo si calcolano i percentili, semplicemente considerando l'osservazione che, in una sequenza ordinata in modo crescente, occupa la posizione corrispondente a una certa percentuale di frequenze cumulate.
Una visualizzazione grafica si ottiene con il diagramma a scatola e baffi (o box plot): esso contiene una scatola interna, con estremi Q1 e Q3, la cui ampiezza è pari alla differenza interquartile e nella quale è disegnata la linea che rappresenta la mediana. I baffi sono due linee, rispettivamente da Q1 fino al minimo e da Q3 fino al massimo. Serve a:
- Individuare i valori anomali;
- Rappresentare graficamente la forma;
- Confrontare la forma di due o più distribuzioni.
La varianza della popolazione, σ², è la somma delle differenze, al quadrato, tra ciascuna osservazione e la media della popolazione, divisa per la dimensione della popolazione N. La varianza del campione, s², è invece la somma delle differenze, al quadrato, tra ciascuna osservazione e la media del campione, divisa la dimensione del campione, n, meno 1. Caratteristiche:
- Non negatività;
- Esprime la variabilità nella stessa misura del carattere osservato al quadrato.
Lo scarto quadratico medio (o deviazione standard) è la radice quadrata della varianza della popolazione. Espresso nella stessa unità di misura del carattere osservato.
Disuguaglianza di Chebychev
Il matematico Chebychev determinò, per ogni insieme di dati, indipendentemente dalla forma della distribuzione, degli intervalli che contengono una percentuale minima di osservazioni. Permette di capire quante sono le osservazioni che appartengono all'intervallo.
Indici di variabilità
Variabilità: attitudine di un fenomeno ad assumere diverse intensità. Sono:
Il coefficiente di variazione. Esprime lo scarto quadratico medio come percentuale della media. È una misura di variabilità relativa che esprime lo scarto quadratico medio come una percentuale della media (purché la media non sia nulla). Può essere usato per confrontare due o più caratteri statistici misurati con unità di misura diversa. Se si confrontassero gli scarti quadratici medi delle vendite di negozi grandi e piccoli che vendono lo stesso tipo di merci, quello dei negozi grandi sarebbe inevitabilmente sempre più grande. Il confronto della variabilità basato sullo scarto quadratico medio potrebbe essere ingannevole. Il coefficiente di variazione invece supera questo problema, poiché è un numero puro e non dipende dalla scala di misura della popolazione.
Rapporto di concentrazione
Indice di variabilità relativa. Un carattere è trasferibile quando ha senso trasferire parte delle unità da un'unità statistica ad un'altra. Il reddito è un carattere trasferibile, i soldi si possono trasferire in maniera diversa rispetto a com'erano in precedenza. Il voto di un esame invece non è un carattere trasferibile. Quest'indice è sensibile ai trasferimenti, quindi il “rapporto di concentrazione” varia. Più l'ammontare dei soldi finisce in un'unica persona, tanto più la concentrazione aumenta.
- Concentrazione minima: ogni unità statistica possiede lo stesso ammontare del carattere osservato, corrispondente alla sua media; vi è equidistribuzione dei soldi tra tutte le unità;
- Concentrazione massima: una sola unità statistica possiede l'intero ammontare del carattere osservato;
- Concentrazione intermedia: alcune unità statistiche possiedono il carattere in misura superiore ed altre in misura inferiore alla media.
Il diagramma di Lorenz permette di rappresentare graficamente la concentrazione e di individuare situazioni di massima concentrazione, di equidistribuzione, o di concentrazione intermedia. Se la concentrazione fosse zero (cioè equidistribuzione e minima variabilità), la spezzata di concentrazione coinciderebbe con la retta di equidistribuzione.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.