In tutte le discipline scientifiche che studiano gli organismi viventi, molto raramente i
dati ottenuti attraverso un esperimento oppure raccolti in natura ci permettono di
giungere ad una conclusione con una certezza del 100%. La statistica ci aiuta in maniera
oggettiva, numericamente, ad analizzare le diverse ipotesi .
Che cos’è la statistica?
La statistica è l’analisi quantitativa dei fenomeni collettivi che hanno attitudine a variare,
allo scopo di descriverli e di individuare le leggi o i modelli che permettono di spiegarli e
di prevederli. La statistica è uno strumento essenziale per le rivelazioni scientifiche. La
maggior parte degli studi di biologia comprende cinque tappe fondamentali, ognuna delle
quali richiede l’intervento della statistica:
tappa 1: definizione del piano sperimentale. Si definiscono con chiarezza la
problematica e i metodi necessari per affrontarla;
tappa 2: raccolta dei dati. Si raccolgono informazioni relative al mondo naturale
attraverso esperimenti e studi sul campo;
tappa 3: organizzazione e visualizzazione dei dati. Si realizzano tabelle, grafici e
altre rappresentazioni utili per poter analizzare i dati raccolti;
tappa 4: riassunto dei dati. Si riassumono i dati con alcuni calcoli chiave di
statistica;
tappa 5: statistica inferenziale. Si usano metodi di statistica per trarre conclusioni
generali dai dati su come funziona il mondo naturale.
Il gruppo preso in esame in una indagine statistica è definito con il termine
“popolazione”. “individuo” “unità
Il singolo elemento della popolazione è detto o
“campione”
statistica”. Un è invece un sottoinsieme della popolazione. Esistono due
branche della statistica: la statistica descrittiva e la statistica induttiva o inferenziale.
Statistica descrittiva
Quando si raccolgono dei dati su una popolazione o su un campione, i valori ottenuti si
presentano come un insieme di dati disordinati. La statistica descrittiva offre dei metodi
per organizzare e sintetizzare i dati in modo da poter evidenziare le loro caratteristiche
importanti e individuare le informazioni da essi fornite. La statistica descrittiva è quindi
quella branca della statistica che ha il fine di descrivere un fenomeno .
I dati sono organizzati in variabili. Le variabili sono espresse con diverse modalità. Le
variabili possono essere quantitative (se sono espresse da numeri. Vengono anche dette
“valori”) e qualitative (se sono espresse in forma verbale). Le variabili quantitative si
possono classificare in: discrete e ordinate. Una variabile quantitativa discreta è il
risultato di una enumerazione, è espressa da numeri naturali e procede per salti d’unità.
Una variabile quantitativa continua è il risultato di una misurazione, è espressa da
numeri reali e varia per infinitesimi. Le variabili qualitative si possono classificare in:
“categorica”)
nominali e ordinali. Una variabile qualitativa nominale (detta anche è il
risultato di una valutazione. Una variabile qualitativa ordinale è il risultato di una
valutazione tradotta in graduatoria.
Distribuzione di frequenza
La distribuzione di frequenza di una variabile è una rappresentazione nella quale ad ogni
modalità della variabile viene associata la frequenza con la quale esso si presenta nei
dati. In altre parole, la distribuzione di frequenza esplicita quante volte una determinata
modalità si presenta nel collettivo oggetto di studio. La tabella può essere fatta sia per
variabili quantitative sia per variabili qualitative. La tabella può essere univariata (se
prende in considerazione una sola variabile) o bivariata (se prende in considerazione 2
variabili). Nel caso della distribuzione di frequenza univariata si costruirà una tabella
formata da 2 colonne. Nel caso della distribuzione di frequenza bivariata si costruirà una
tabella a doppia entrata detta anche tabella di contingenza. La tabella a doppia entrata è
una tabella formata da righe e colonne. Facendo una distribuzione di frequenza si ricava
quindi la frequenza assoluta ovvero il numero di volte in cui una modalità compare in un
collettivo (insieme di dati). Sulla base della distribuzione di frequenza possiamo anche
ricavare la frequenza relativa e la frequenza cumulata. Per frequenza relativa si intende
il rapporto tra la frequenza assoluta di una modalità e il numero totale del collettivo. Se
moltiplichiamo per 100 la frequenza relativa otteniamo la frequenza percentuale. Per
calcolare una frequenza cumulata si sommano progressivamente tutte le frequenze
assolute o percentuali. Non ha alcun significato calcolare le frequenze cumulate se il
fenomeno statistico non è di tipo ordinabile. Nel caso di una variabile continua non è
possibile far corrispondere ad ogni modalità la rispettiva frequenza. Per fornire una
rappresentazione tabellare di una variabile continua si ricorre quindi ad una
suddivisione in classi. Si distinguono quindi tanti intervalli di classe ciascuno formato da
un limite inferiore e da un limite superiore. Le classi sono omogenee se hanno la stessa
ampiezza mentre sono disomogenee se hanno ampiezze diverse. L’ampiezza si calcola
facendo la differenza tra i due estremi della classe. Data la suddivisione in classi, si
definisce la densità di frequenza come il rapporto tra la frequenza di una classe e la
rispettiva ampiezza. La densità di frequenza indica quanto densamente è popolata una
classe.
Grafici
I dati raccolti in tabelle possono essere rappresentati anche attraverso grafici che offrono
il vantaggio di una descrizione del fenomeno in forma visiva.
Nel caso di variabili qualitative nominali si utilizza il grafico a torta o areogramma.
L’areogramma è un tipo di rappresentazione grafica circolare in cui le frequenze
percentuali di un’indagine statistica vengono tradotte in diverse ampiezze
proporzionali alle frequenze stesse. Questo grafico non possiede senso di lettura.
Nel caso di una variabile qualitativa ordinale si ha senso di lettura quindi non ha
senso utilizzare un grafico a torta. Si usa il grafico a barre. L’asse verticale è un
asse quantitativo mentre l’asse orizzontale è un asse qualitativo. Le barre sono
“non “pessimo”
sconnesse tra loro (non posso calcolare la differenza tra buono” e
“non “pessimo”).
so solo che buono” è meglio di
Nel caso di variabili quantitative discrete si utilizza un grafico a bastoncini. Questo
grafico presenta dei segmenti ovvero delle barre senza area. Sia l’asse verticale sia
l’asse orizzontale sono quantitativi. Il grafico a bastoncini evidenzia con la
lunghezza del segmento le frequenze delle modalità della variabile. Questo grafico
possiede senso di lettura.
Nel caso di variabili quantitative continue si utilizza l’istogramma. L’istogramma è
un grafico costituito da una serie di barre rettangolari contigue ognuna in
rappresentanza di una classe e con area proporzionata alla rispettiva frequenza.
Sull’asse orizzontale troviamo le ampiezze delle classi; sull’asse verticale troviamo
le frequenze. Da un grafico di questo tipo è possibile ottenere un poligono di
frequenza. Per costruire un poligono di frequenza si prende un punto a metà di
ciascuna barra e si procede collegando tutti i punti considerati. Il poligono di
frequenza permette di rappresentare più variabili insieme (variabili quantitative
continue e variabili qualitative nominali). Le variabili quantitative continue
possono essere rappresentate anche mediante un grafico di dispersione. Il grafico
di dispersione è formato da una serie di punti e mette in relazione due variabili
quantitative. Tutti i punti possono essere interpolati in una retta.
Misure di sintesi numerica
I dati vengono sintetizzati mediante misure di sintesi numerica. Le misure di sintesi
numerica sono di 2 tipi: misure di centralità (evidenziano il valore caratteristico di una
distribuzione) e misure di variabilità (evidenziano il grado di dispersione di una
distribuzione). Misure di centralità
Moda la moda è il valore più frequente di una distribuzione, o meglio, la modalità più
ricorrente della variabile (cioè quelle a cui corrisponde la frequenza più elevata). Non
sono necessari calcoli e si applica a tutti i tipi di variabili.
Media aritmetica la media aritmetica è la misura di centralità meglio intesa. Si
applica alle variabili quantitative ed è influenzata da tutti i valori. La media è la somma di
tutti i valori numerici della variabile rapportata al numero totale di osservazioni . La
media aritmetica può essere calcolata anche se la distribuzione è suddivisa in classi: per
prima cosa si individua il valore centrale di ogni classe (se per esempio ho una classe che
comprende tutti gli individui che hanno età compressa tra 20 e 30 anni, il valore centrale
della classe sarà (20 + 30) / 2 ovvero 25. Il valore così ottenuto viene moltiplicato per la
frequenza assoluta relativa a ogni classe. Tutti i risultati vengono sommati tra loro e
divisi per il numero totale di individui.
Mediana è il valore che occupa la posizione centrale di una distribuzione ordinata di
dati in modo tale che il numero di osservazioni con un valore inferiore a quello della
mediana sia uguale al numero di osservazioni con un valore superiore a quello della
mediana. Prima di calcolare la mediana occorre quindi ordinare i dati. Se i dati sono
ordinati in senso crescente (o decrescente), calcolare la mediana è molto facile. Infatti,
con un numero dispari di osservazioni la mediana è il valore centrale; con un numero pari
di osservazioni la mediana è la media dei due valori centrali. Più semplicemente si guarda
la frequenza cumulata relativa: si considera la prima frequenza relativa cumulata che
supera il 50% e la si associa alla rispettiva modalità della variabile. La me diana si può
applicare alle variabili ordinali, discrete e continue. Non è influenzata dai valori estremi.
Non conta il valore della variabile ma il rango.
Quale misura di centralità è più opportuna tra la media e la mediana? Se la distribuzione
è simmetrica applico la media; se la distribuzione è asimmetrica applico la mediana. Si fa
quindi un istogramma e si guarda se la distribuzione è simmetrica o asimmetrica.
Quando media, moda e mediana coincidono in un solo termine la variabile si distribuisce
in maniera perfettamente simmetrica rispetto a quel termine .
Quantili i quantili sono una famiglia di misure , a cui appartiene anche la mediana,
che si distinguono a seconda del numero di parti uguali in cui suddividono una
distribuzione. La mediana è quel quantile che assorbe una quota parte della distribuzione
pari al 50%. Se la distribuzione è divisa in 4 parti si parla di quartili; se la distribuzione è
divisa in 10 parti si parla di decili; se la distribuzione è divisa in 100 parti si parla di
percentili.
Il boxplot o diagramma a scatola e baffi è un grafico che si utilizza per variabili
quantitative ed è ottenuto a partire da 5 valori chiave: valore minimo, primo
quartile, mediana, terzo quartile e valore massimo.
Misure di variabilità
Devianza la devianza è la somma dei quadrati degli scarti dalla media aritmetica
(valore della variabile meno la media aritmetica tutto al quadrato).
2
∑( ̅)
ⅇ = −
=1
Varianza la varianza è la somma dei quadrati degli scarti dalla media aritmetica
divisi per la numerosità.
2 2
∑ ( ) ∑ ( )
−̅ −̅
=1 =1
= =
−1
Scarto quadratico medio e deviazione standard un modo per esprimere la
variazione dei dati è quello di utilizzare la media come punto di riferimento di ciascun
valore, e di calcolare lo scarto o deviazione di ciascun dato dalla media. Lo scarto
quadratico medio si utilizza in relazione a una popolazione mentre la deviazione
standard si utilizza in relazione a un campione. Si calcola come la radice quadrata della
varianza. La somma di tutti gli scarti positivi e tutti gli scarti negativi è zero.
2 2
∑ ( ) ∑ ( −̅)
−̅
=√ √
=1 =1
=
−1
Intervallo interquartile è l differenza tra il terzo e il primo quartile della
distribuzione. È l’intervallo in cui è compreso il 50% delle osservazioni.
Campo di variazione (range) è la differenza fra il valore massimo e quello
minimo della variabile. Evidenzia quanto lontani risultano fra loro i due estremi della
distribuzione.
Coefficiente di variazione (CV) per confrontare la variabilità in due distribuzioni
diverse si utilizza il coefficiente di variazione, che si calcola come il rapporto tra
deviazione standard e la media aritmetica.
Le misure di variabilità assumono sempre il valore zero se i valori della variabile sono fra
loro uguali; assumono valori crescenti positivi per livelli progressivamente crescenti di
’indice
variabilità: quanto più i termini della distribuzione sono fra loro diversi, tanto più l
assume valori elevati; sono espressi nella stessa unità di misura della variabile .
Probabilità
La probabilità misura la realizzabilità di un evento aleatorio ossia il grado di incertezza
connesso al risultato scaturito da una prova. Un evento si dice aleatorio quando non si
conosce a priori il suo esito ovvero non si sa se si verificherà oppure no (es. il lancio di un
dado). Un evento può essere elementare o non elementare. Un evento elementare è un
evento che non può essere scomposto; un evento non elementare è un evento
scomponibile in altri eventi elementari. Esistono diversi modi per assegnare la probabilità
a un dato evento. Secondo l’approccio soggettivista la probabilità è il risultato della
’evento
valutazione di un soggetto circa la plausibilità di un evento. La plausibilità dell
dipende dal grado di conoscenza e di esperienza dell’individuo. Secondo l’approccio
classico la probabilit&agr