Alice Giussani: Statistica
La statistica è una scienza basata sull’osservazione della realtà, che fornisce risposte a specifiche domande di ricerca associando una misura di probabilità ad ogni risposta. È caratterizzata da un insieme di metodologie finalizzate a disegnare esperimenti in funzione della domanda posta, ricavare dati, organizzare, sintetizzare, analizzare, interpretare, presentare e rappresentare graficamente le conclusioni derivate dai dati e quantificare l’incertezza delle misure.
Il processo statistico
- Identificare l’obiettivo della ricerca
- Le domande devono essere formulate in modo dettagliato al fine di identificare la popolazione da esaminare.
- Raccogliere i dati necessari
- Spesso l’osservazione/misura dell’intera popolazione è difficoltosa o costosa.
- Si osserva/misura solo un campione della popolazione.
- Se i dati non sono raccolti in modo corretto, le conclusioni che si traggono sono prive di significato.
- Descrivere i dati
- La statistica descrittiva permette di ottenere una panoramica generale dei dati a disposizione e suggerisce quali metodi statistici inferenziali potrebbero essere utilizzati.
- Fare inferenza
- Estendere alla popolazione i dati ottenuti sul campione, usando appropriate tecniche, e riportare il livello di affidabilità delle conclusioni che si sono tratte.
Lo scopo della statistica è scoprire qualcosa riguardo a un gruppo (popolazione) attraverso l’esame dei dati relativi ad alcuni elementi (o individui) del gruppo (campione). La popolazione è l’insieme completo di tutti gli elementi che sono soggetto a studio e la raccolta di dati riguardanti ogni elemento della popolazione è definita censimento. Un parametro è una misura che descrive una caratteristica di un’intera popolazione. Un campione è un sottoinsieme di elementi selezionati da una popolazione e una statistica è una misura che descrive una caratteristica di un campione.
Tipologie di dati
Alcuni insiemi di dati numerici sono costituiti da numeri, mentre altri non sono numerici. Si distinguono dunque dati quantitativi e dati qualitativi dove i dati quantitativi sono numeri che rappresentano conteggi o misure, mentre i dati qualitativi possono essere suddivisi in differenti categorie distinte in base a caratteristiche non numeriche. I dati quantitativi possono essere ulteriormente distinti in discreti e continui. I dati discreti corrispondono ai casi in cui i valori possibili sono in numero finito o numerabile, invece i dati continui emergono da osservazioni in cui i valori possibili sono infiniti e corrispondono a una qualche scala continua che copre un intervallo di valori senza interruzioni. È importante quando si opera con dati quantitativi fare uso delle unità di misura.
È possibile classificare le variabili in base a 4 diverse tipologie:
- Nominale: Sono categorie. I dati non possono essere disposti in alcun ordine.
- Ordinale: Le categorie sono ordinate, ma le differenze tra esse non possono essere calcolate o sono prive di significato.
- Intervallare: Le differenze sono significative, ma non c’è uno zero assoluto e i rapporti sono privi di senso.
- Rapportabile: C’è uno zero di riferimento e i rapporti sono significativi.
Disegno degli esperimenti
Un uso efficace della statistica richiede buon senso e piuttosto che concentrarsi su algoritmi di calcoli conviene focalizzarsi sull’interpretazione dei dati e dei risultati.
Campione volontario
Un campione volontario, o autoselezionato, è costituito da individui che decidono se essere o non essere inclusi nello studio. Esso non è rappresentativo dell’intera popolazione.
La raccolta dei dati
Se i dati di un campione della popolazione sono raccolti in modo inappropriato possono essere inutili e nessuno studio statistico potrà ricavare conclusioni significative da questi dati. I dati possono essere raccolti con due modalità:
- Studi osservativi: si osservano/misurano delle caratteristiche senza intervenire sui soggetti esaminati. Esempio: sondaggio d’opinione.
- Esperimenti pianificati: i soggetti esaminati vengono osservati/misurati dopo essere stati trattati. Esempio: test clinico per valutare gli effetti di un farmaco (con gruppo di trattamento e gruppo di controllo). Per quanto riguarda gli esperimenti pianificati bisogna evitare il fenomeno di confondimento degli effetti delle variabili. Una variabile di confondimento maschera o distorce la stima della relazione causa-effetto fra le variabili di interesse valutate nello studio.
Controllare gli effetti delle variabili
Uno degli elementi chiave del disegno degli esperimenti riguarda il controllo dell’effetto delle variabili ed esso può essere effettuato tramite tre strategie: cieco, suddivisione in blocchi, randomizzazione.
Cieco
Negli esperimenti in cui siamo in presenza di un gruppo di trattamento a cui viene somministrato il farmaco e gruppo di controllo a cui viene somministrato il placebo, senza principio attivo, può verificarsi l’effetto placebo: un soggetto trattato senza principio attivo mostra un miglioramento (reale o immaginario) dei sintomi. Una procedura per ridurre questo effetto si basa sull’utilizzo della procedura di cieco:
- Singolo cieco: il soggetto non sa se gli viene somministrato il farmaco oppure il placebo.
- Doppio cieco: sia il soggetto che il medico non sanno a chi viene somministrato il farmaco e a chi il placebo.
Blocchi
I gruppi, o blocchi, di soggetti su cui viene testato l’effetto di uno o più trattamenti sono formati da individui con caratteristiche omogenee. Per ogni blocco, si prevede un comportamento analogo riguardo ai fattori che possono influenzare l’esito dell’esperimento.
Randomizzazione
Nell’assegnare i soggetti ai diversi trattamenti, si ricorre a una selezione casuale. Se il disegno è completamente randomizzato, soggetti e trattamenti sono abbinati in modo del tutto casuale. Se il disegno è randomizzato a blocchi, si suddividono i soggetti in blocchi (ognuno con caratteristiche simili), e per ogni blocco soggetti e trattamenti sono abbinati in modo del tutto casuale.
Replicazione e dimensione del campione
Oltre a controllare gli effetti delle variabili, un altro aspetto fondamentale riguarda la dimensione (o taglia) del campione: il campione deve essere sufficientemente numeroso al fine di non «mascherare» gli effetti di un trattamento dovuti ai comportamenti instabili di un campione esiguo. La ripetizione di un esperimento viene chiamata replicazione e tramite la replicazione dimensioni campionarie elevate aumentano la possibilità di distinguere gli effetti dei vari trattamenti.
Strategie di campionamento
Se i dati del campione non sono raccolti in maniera appropriata possono essere del tutto inutili e nessuno studio statistico può ricavare nulla di significativo da esse. Definiamo ora alcune delle metodologie di campionamento:
- Campione casuale: ogni singolo individuo della popolazione ha la stessa probabilità degli altri di essere selezionato.
- Campione casuale semplice di taglia n: ciascun campione casuale di taglia n ha la stessa probabilità di essere selezionato.
- Sistematico: si sceglie un punto di partenza da cui viene selezionato ogni k-esimo elemento.
- Di convenienza: si usano dati di facile raccolta.
- Stratificato: si suddivide la popolazione in almeno due diversi sottogruppi che condividono le stesse caratteristiche, quindi viene estratto un campione da ciascun sottogruppo.
- A grappoli: si suddivide in sezioni la popolazione, quindi si scelgono alcune sezioni e infine tutti gli individui delle sezioni.
Errori di campionamento
Si definisce errore di campionamento la differenza fra il risultato relativo al campione e quello relativo alla popolazione, che è dovuto a fluttuazioni casuali nei campioni.
Analisi esplorativa dei dati
Permette di misurare e descrivere le caratteristiche salienti di un insieme di dati:
- Centro: valore rappresentativo o medio che indica dove si trova il centro dei dati.
- Variazione: una misura di quanto i dati sono dispersi.
- Distribuzione: la forma di come sono distribuiti i dati.
- Valori estremi (o outlier): valori che sono particolarmente discosti dalla maggioranza dei dati.
- Tempo: cambiamenti che le caratteristiche dei dati possono subire nel corso del tempo.
Quando si lavora con un elevato numero di dati è consigliabile creare una tabella dei valori con le relative frequenze. Dato un insieme di dati, la frequenza assoluta di un dato (o di un gruppo di dati) rappresenta il numero di occasioni in cui tale dato (o il gruppo di dati) si è presentato. Possiamo costruire una tabella di distribuzione delle frequenze, in cui vengono elencati i dati (individualmente o raggruppati per intervalli o classi) e le rispettive frequenze. In una tabella di frequenze il limite inferiore delle classi è il valore più piccolo di ciascuna classe (es. 0, 100, 200, 300, 400), il limite superiore delle classi è il valore più grande di ciascuna classe (es. 99, 199, 299, 399, 499), mentre l’ampiezza delle classi è la differenza fra i limiti inferiori di due classi consecutive (es. 200-100=100). È importante sottolineare che le classi scelte devono essere disgiunte, affinché ogni dato appartenga a una e una sola classe e che nella tabella vanno incluse anche le eventuali classi con frequenza uguale a zero.
Costruire una tabella di frequenze
- Scegliere il numero di classi (in generale, fra 5 e 20).
- Calcolare la larghezza delle classi:
- (Valore massimo dati – valore minimo dati) / numero classi.
- Arrotondare per eccesso.
- Scegliere un punto di partenza.
- Determinare i limiti inferiori di tutte le classi usando i dati dei punti 3 e 2.
- Elencare in colonna i limiti inferiori e associare i relativi limiti superiori.
- Assegnare ogni dato a una classe e contare quanti dati compaiono in ciascuna classe.
La frequenza relativa corrisponde alla proporzione (o percentuale) di dati appartenenti a una certa classe rispetto al totale dei dati e si calcola dividendo la frequenza (assoluta) di quella classe rispetto alla somma di tutte le frequenze. La frequenza cumulata di una classe corrisponde alla somma della frequenza assoluta di quella classe più le frequenze di tutte le classi precedenti.
Rappresentazione grafica dei dati
La rappresentazione grafica di un insieme di dati permette di determinarne le caratteristiche più importanti, cioè studiare la natura della corrispondente distribuzione.
Istogramma
Un istogramma è un grafico a barre in cui sulle ascisse sono riportate le classi in cui sono stati suddivisi i dati, sulle ordinate sono riportati i valori delle frequenze e l’altezza di ogni barra corrisponde al valore della frequenza della corrispondente classe. L’ampiezza degli intervalli (o classi) scelta per disegnare l’istogramma può influenzare la forma del grafico e le conclusioni tratte dall’analisi del grafico stesso; tuttavia, non esiste una regola universale o rigorosa per la scelta del numero di classi.
Diagramma a torta
In un diagramma a torta, le classi sono rappresentate come «fette» di una torta dove l’area di ogni fetta è proporzionale alla frequenza della classe che rappresenta. Sono generalmente usati per rappresentare dati di tipo qualitativo (nominali o ordinali).
Diagrammi a dispersione
Un diagramma a dispersione (o scatterplot) è costituito da un insieme di punti, ognuno corrispondente a un’osservazione del campione dove ogni osservazione è composta da una coppia di valori, che corrispondono all’ascissa e all’ordinata del punto nel diagramma.
Misure di centralità
Un valore che in qualche modo si trovi nel mezzo di un insieme di dati ne costituisce una misura di centralità.
Media
La media (aritmetica) di un insieme di dati è una misura di centralità calcolata sommando i valori di tutti i dati e dividendoli per il numero totale dei dati. Se x1, x2, ..., xn è l’insieme di valori di un campione (dove n rappresenta la taglia del campione), allora la media del campione si denota con x̄ e si calcola come: x̄ = (∑xi)/n. La media è una statistica.
Se x1, x2, ..., xN è l’insieme di valori di una popolazione (dove N rappresenta il numero di elementi della popolazione), allora la media della popolazione si denota con μ e si calcola come: μ = (∑xi)/N. È un parametro. La media è molto sensibile a tutti i valori dell’insieme di dati, perciò un dato particolarmente diverso da tutti gli altri può influenzare notevolmente il valore della media.
Mediana
La mediana è una misura di centralità costituita dal valore centrale quando i dati vengono disposti in ordine crescente. Si indica con M. La mediana non viene influenzata dai valori estremi dell’insieme di dati.
Moda
Dato un insieme di dati, si definisce moda il valore che ha frequenza più elevata. Se esistono due diversi valori con stessa frequenza massima, si parla di distribuzione bimodale, se esistono più di due diversi valori con stessa frequenza massima, si parla di distribuzione multimodale. Se nessun valore è ripetuto, si dice che non c’è moda.
Midrange
Il midrange è una misura di centralità costituito dal valore che è posto a metà fra il valore massimo e il valore minimo dell’insieme di dati: (valore massimo – valore minimo) / 2. È un valore molto sensibile ai valori estremi dell’insieme di dati, quindi si usa di rado come misura di centralità.
Asimmetria di una distribuzione
Il confronto fra i valori di media, mediana e moda aiuta a scoprire informazioni sulla asimmetria di una distribuzione. Una distribuzione è detta simmetrica quando la metà sinistra del suo istogramma è sostanzialmente speculare alla sua parte destra.
Misure di dispersione
Sono misure che forniscono un’indicazione sulla variabilità o dispersione dei dati all’interno di un campione o della popolazione.
Range
Si definisce range di un insieme di dati la differenza fra il valore massimo e il valore minimo dei dati. A un range maggiore corrisponde una maggiore variabilità.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.