Il problema statistico
Lo scopo della statistica è quello di stimare l'incidenza della variabilità casuale nelle varie situazioni sperimentali, quindi il test statistico consiste nel provare che le differenze trovate sperimentalmente non siano dovute al caso. La statistica può essere descrittiva o inferenziale. La prima descrive, fornendo parametri, sinteticamente dei fenomeni. La seconda, partendo da parametri descrittivi, fornisce una valutazione dell'incidenza del caso, tende quindi a fornire una prova sperimentale di un'idea in base ai dati raccolti.
Definizioni di probabilità
La definizione classica di probabilità prevede che essa sia data dal numero dei casi favorevoli diviso il numero dei casi possibili, purché siano tutti equiprobabili. La necessità di equiprobabilità porta ad una condizione iniziale che presuppone il concetto di probabilità prima che venga definito. La definizione assiomatica è formalmente più corretta, partendo da una serie di assiomi per fornire una definizione matematicamente definita.
La definizione soggettivista definisce la probabilità come la quota che un soggetto coerente è disposto a scommettere in base alla sua informazione sul verificarsi di un evento. Questa definizione viene criticata in quanto non scientifica e priva di oggettività. La definizione frequentista definisce la probabilità di un evento come la frequenza relativa con cui esso si presenta in un numero sufficientemente elevato di prove effettuate nelle stesse condizioni.
Proprietà delle probabilità
- Evento impossibile è =0, non vale 0= evento impossibile.
- Evento certo è =1, non vale 1= evento certo.
- Evento complementare di A è A=1- P(A).
- La probabilità condizionata di A rispetto a B è P(A|B). Essendosi verificato B si verifica A.
- Eventi indipendenti, se il verificarsi di uno non influenza il verificarsi dell'altro.
- Eventi disgiunti, il verificarsi di un evento esclude il verificarsi dell'altro.
- Evento intersezione, la probabilità che si verifichino entrambi gli eventi P(A∩B).
- Evento unione, la probabilità che si verifichi A o B o entrambi P(A∪B).
- Evento prodotto, evento in cui si verifica sia A che B.
Secondo il teorema di Bayes, utilizzato per il calcolo della probabilità condizionata, la probabilità di A dato B è proporzionale alla probabilità di B dato A. P(A|B) = P(B|A) . P(A)/P(B).
Tipi di variabili
Le variabili possono essere qualitative o quantitative. Le prime riguardano solo qualità (es: colore di un oggetto) e non forniscono informazioni su relazioni di quantità. Le seconde esprimono una quantità attraverso un numero (es: altezza o peso). Una variabile è discreta quando assume valori interi, è continua quando assume infiniti valori tra un valore ed un altro.
Concetti statistici fondamentali
Frequenza di un evento è il numero di volte che un evento si verifica diviso per il numero di volte che si sarebbe potuto verificare (totale delle occorrenze). Secondo la legge dei grandi numeri, all'aumentare del numero delle prove, la frequenza di un evento tende sempre di più alla probabilità di accadere.
La media di una variabile x è la somma di tutti i valori di una variabile divisa per il numero n totale dei valori. Non fornisce informazioni sulla dispersione dei valori attorno ad essa. La varianza fornisce la misura della variabilità dei dati, intesa come oscillazione attorno alla media. È data dalla somma dei quadrati degli scarti dei singoli dati della media divisa per il numero dei dati meno uno, ovvero per i gradi di libertà. La varianza è sempre maggiore o uguale a 0. Gli scarti elevati al quadrato rendono la varianza non omogenea con l'unità di misura, quindi si utilizza spesso la sua radice quadrata, ovvero la deviazione standard.
Il percentile è il limite al di sotto del quale si trova una determinata percentuale della popolazione globale. Il punto che divide la popolazione in due parti di uguale numerosità è detto mediana, essa corrisponde al 50° percentile. La mediana non tiene conto del valore dei dati. La moda rappresenta il valore per il quale si ha un picco di frequenza. Caratterizza la distribuzione dei dati che risulta unimodale (1 picco) o bimodale (2 picchi).
Distribuzioni di probabilità
Per distribuzione di probabilità si intende la rappresentazione tabulare, grafica o analitica, cioè attraverso una formula, delle probabilità che competono ai diversi valori della variabile. Se la variabile è discreta è possibile rappresentarla attraverso una tabella, si avrà per ogni valore di x una probabilità. Se è continua la probabilità di ogni singolo valore è nulla. La funzione distribuzione, f(x), rappresenta per ogni x la probabilità di ottenere un valore minore o uguale a x. Con variabile discreta si ottiene sommando le probabilità di tutti i casi con valori inferiori a x. Se la variabile è continua, la f(x) è la densità di probabilità, ovvero la probabilità che il valore di x sia compreso in un intervallo infinitesimo diviso per la sua ampiezza.
Tipi di distribuzioni
Una distribuzione di valori equiprobabili è detta distribuzione uniforme (es: dado). La distribuzione binomiale è caratterizzata da una variabile aleatoria che può avere due soli risultati (successo, insuccesso). Al tendere di n (numero delle prove) all'infinito, la distribuzione binomiale tende alla distribuzione normale (es: lancio della moneta).
La distribuzione normale o gaussiana caratterizza molti fenomeni. Può essere considerata come il limite della distribuzione binomiale o come la curva degli errori con le seguenti condizioni:
- Un errore è la somma di molte componenti di uguale ampiezza.
- Le componenti sono fra loro indipendenti.
- Ogni componente è positiva o negativa con uguale probabilità; l'ampiezza dell'errore ha distribuzione normale. La distribuzione normale è la distribuzione con massima entropia per una variabile compresa fra -∞ e +∞.