vuoi
o PayPal
tutte le volte che vuoi
P(B)
Le variabili possono essere qualitative o quantitative. Le prime riguardano solo qualità (es: colore di
un oggetto) e non forniscono informazioni su relazioni di quantità. Le seconde esprimono una
quantità attraverso un numero (es: altezza o peso). Una variabile è discreta quando assume valori
interi, è continua quando assume infiniti valori tra un valore ed un altro.
Frequenza di un evento, è il numero di volte che un evento si verifica diviso per il numero di volte
che si sarebbe potuto verificare (totale delle occorrenze). Secondo la legge dei grandi numeri
all'aumentare del numero delle prove la frequenza di un evento tende sempre di più alla probabilità
di accadere.
La media di una variabile x è la somma di tutti i valori di una variabile divisa per il numero n totale
dei valori. Non fornisce informazioni sulla dispersione dei valori attorno ad essa.
La varianza fornisce la misura della variabilità dei dati, intesa come oscillazione attorno alla media.
È data dalla somma dei quadrati degli scarti dei singoli dati della media divisa per il numero dei dati
meno uno, ovvero per i gradi di libertà. La varianza è sempre maggiore o uguale a 0. Gli scarti
elevati al quadrato rendono la varianza non omogenea con l'unità di misura, quindi si utilizza spesso
la sua radice quadrata, ovvero la deviazione standard.
Il percentile è il limite al di sotto del quale si trova una determinata percentuale della popolazione
globale. Il punto che divide la popolazione in due parti di uguale numerosità è detto mediana, essa
corrisponde al 50° percentile. La mediana non tiene conto del valore dei dati.
La moda rappresenta il valore per il quale si ha un picco di frequenza. Caratterizza la distribuzione
dei dati che risulta unimodale (1 picco) o bimodale (2 picchi).
Per distribuzione di probabilità si intende la rappresentazione tabulare, grafica o analitica, cioè
attraverso una formula, delle probabilità che competono ai diversi valori della variabile. Se la
variabile è discreta è possibile rappresentarla attraverso una tabella, si avrà per ogni valore di x una
probabilità. Se è continua la probabilità di ogni singolo valore è nulla. La funzione distribuzione,
f(x), rappresenta per ogni x la probabilità di ottenere un valore minore o uguale a x. Con variabile
discreta si ottiene sommando le probabilità di tutti i casi con valori inferiori a x. Se la variabile è
continua, la f(x) è la densità di probabilità, ovvero la probabilità che il valore di x sia compreso in
un intervallo infinitesimo diviso per la sua ampiezza.
Una distribuzione di valori equiprobabili è detta distribuzione uniforme (es: dado).
La distribuzione binomiale è caratterizzata da una variabile aleatoria che può avere due soli risultati
(successo, insuccesso). Al tendere di n (numero delle prove) all'infinito la distribuzione binomiale
tende alla distribuzione normale (es: lancio della moneta).
La distribuzione normale o gaussiana caratterizza molti fenomeni. Può essere considerata come il
limite della distribuzione binomiale o come la curva degli errori con le seguenti condizioni: 1)un
errore è la somma di molte componenti di uguale ampiezza. 2)le componenti sono fra loro
indipendenti 3)ogni componente è positiva o negativa con uguale probabilità → l'ampiezza
dell'errore ha distribuzione normale. La distribuzione normale è la distribuzione con massima
entropia per una variabile compresa fra -∞ e +∞; è la meno strutturata ossia la più casuale. Una
2
variabile normale con media σ (μ =0) e varianza =1 (σ =1) è detta variabile z o standard, si indica
con N(0;1).
La distribuzione χ² è la distribuzione della variabile somma di variabili z elevate al quadrato. È
asimmetrica e tende alla distribuzione normale al crescere dei gradi di libertà.
La distribuzione t è la distribuzione di una variabile, rapporto fra una variabile z e la radice quadrata
di una variabile χ² divisa per i gradi di libertà. È simmetrica e tende alla distribuzione normale al
crescere dei gradi di libertà.
La distribuzione F è la distribuzione di una variabile rapporto di due variabili χ² divise per i
rispettivi gradi di libertà, i suoi valori sono maggiori o uguali a 0.
Test Statistici Elementari
Per statistica inferenziale o induttiva si intende quella parte della statistica che, partendo
dall'osservazione dei dati sperimentali ottenuti su un campione, giunge ad una conclusione generale
riguardante l'universo dei soggetti. È una forma di dimostrazione su base sperimentale di una certa
ipotesi teorica. Si basa sulla valutazione della variazione causuale dei parametri misurati. La
statistica fornisce una misura di questa variabilità così da valutare quali differenze siano da ritenere
reali e quali no. Si studia se esiste un rapporto tra una variabile dipendente e un insieme di variabili
o fattori in grado di influire su di essa, ovvero variabili indipendenti. Le misure effettuate possono
ritenersi rilevanti se le variazioni che interessano sono maggiori di quelle dovute al caso. Quindi si
cerca di valutare l'entità della variazione dovuta al caso, si individua l'intervallo di confidenza, al di
fuori del quale è molto improbabile che cada il valore vero. Questo intervallo quindi, a seconda del
livello di significatività (generalmente 5% o 1%) scelto, ha una probabilità di contenere il valore
vero.
Per saggiare statisticamente l'esistenza di relazioni fra una generica variabile dipendente e un
insieme di variabili indipendenti è necessario innanzitutto creare l'ipotesi da verificare in base
all'idea generale, un'idea che riguarda un'intera popolazione di soggetti e non singoli specifici casi,
che vogliamo dimostrare. Si individua poi l'ipotesi da verificare e di conseguenza l'ipotesi nulla
(H ), complementare alla prima e la cui realizzazione renderebbe falsa l'ipotesi di partenza ( si
0
dimostra che l'ipotesi da verificare è da accettare perché inaccettabile l'ipotesi nulla). Si sceglie
quindi un campione casuale sufficientemente rappresentativo, per poter stimare le caratteristiche
della popolazione generale. Si misura il campione e si raccolgono i dati sperimentali. Si applica poi
il test statistico che assolve il compito di stabilire se le differenze riscontrate siano tali da
confermare l'idea generale. Il risultato del test statistico potrà essere:
la falsificazione dell'ipotesi nulla a un determinato livello di significatività
la falsificazione dell'ipotesi nulla
Nel primo caso tanto più è bassa la significatività tanto minore è la probabilità di errore
nell'accettazione dell'ipotesi di partenza. Ci sono due tipi di errore: I° tipo o α, si respinge come
falsa l'ipotesi H quando è vera. II° tipo o β, non si respinge H quando è falsa. Si definisce infine
0 0
potenza di un test, la probabilità di respingere H quando è falsa. Nel secondo tipo sono individuate
0
due cause: 1) H è vera 2) il test non è abbastanza potente, ciò non permette di rilevare le differenze
0
di quella entità.
Se succede che non è possibile conoscere il valore teorico della varianza non si è in grado di
calcolare il punto z e quindi non si può utilizzare la distribuzione normale. L'unica varianza
utilizzabile è quella sperimentale, e utilizzando la stessa formulazione utilizzata per il caso di
varianza nota si arriva al t-Test o di Student. Il parametro t ha una distribuzione t essendo il rapporto
tra una variabile normale e la radice quadrata di una variabile χ². Utilizzando la distribuzione t è
possibile individuare il limite oltre il quale respingere l'ipotesi nulla.
Quando la differenza fra le medie è intrinsicamente piccola, un metodo per raggiungere la
significatività senza dover ricorrere ad un campione molto alto è quello di ridurre la varianza
stimata (utilizzando ad esempio un campione particolarmente omogeneo). Un altro metodo è
utilizzare un esperimento per prove ripetute, che consiste nell'utilizzare lo stesso campione in due
diverse situazioni sperimentali. Si tratta quindi di applicare un test sulla media delle differenze
contro l'ipotesi nulla. Si applica comunque il t-Test utilizzando la media e la varianza delle
differenze (t-Test per dati appaiati o per dati correlati) → risulta utile quando si vuole ridurre la
disomogeneità del campione.
Analisi della Varianza
Il confronto fra due gruppi può essere fatto attraverso il t-Test, quando i gruppi sono più di due
questa procedura non è più utilizzabile, a questo scopo può essere utilizzata l'analisi della varianza
che esegue il confronto fra più gruppi con un unico procedimento e si avvale del confronto fra la
variabilità fra gruppi e la variabilità casuale. L'idea principale su cui si fonda l'analisi della varianza
è che, se è vera l'ipotesi H , la variabilità fra gruppi è dello stesso ordine della variabilità causale.
0
Quindi un metodo per valutare quanto la variabilità fra gruppi sia da imputare all'oscillazione
casuale è quello di calcolare il rapporto fra la variabilità tra i gruppi e la variabilità all'interno dei
gruppi → ossia il rapporto tra le loro varianze. Per non ottenere una varianza fra medie ridotta,
anziché calcolare la varianza delle medie di gruppo si calcola la varianza tra i soggetti del
campione, assegnando ad ognuno di essi la media del proprio gruppo (procedura inversa al t-Test).
In base alla scomposizione delle fonti di variabilità è possibile considerare lo scarto fra il punteggio
di ciascun soggetto e la media generale. Dal momento che la varianza ha una distribuzione χ², il
2 tra i gruppi 2 all'interno dei gruppi
rapporto tra due varianze avrà una distribuzione F: F= S / S . Il primo è dato
dalla somma dei quadrati degli scarti fra gruppi divisi per i gradi di libertà. Il secondo è dato dalla
somma dei quadrati degli scarti dei valori realmente misurati su ciascun soggetto o rispetto alla
media generale, divisa per il rispettivo numero di gradi di libertà → Il valore F va poi confrontato
con l'intervallo di significatività.
Attraverso l'analisi della varianza è infatti possibile analizzare più criteri di classificazione, con
anche sottogruppi. Oltre agli effetti principali dovuti ai criteri di classificazione, vi sono anche
effetti di interazione tra i vari cri