Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
NON INDIPENDENTI
Quando i due campioni non sono indipendenti,
l’attenzione si sposta dai valori individuali dei singoli
campioni alle differenze tra i valori nei due campioni,
ovvero alla nuova variabile , e quindi
= −
1 2
l’analisi non considera le medie dei singoli campioni
ma la media delle differenze tra i due campioni, ovvero
= − .
1 2 INTERVALLO di CONFIDENZA
ASSUNZIONE Intervallo di confidenza Intervallo di confidenza per la
Le due popolazioni da cui si estraggono i campioni differenza tra le medie di due popolazioni non
hanno distribuzione normale o sono indipendenti, ( ):
−
1 2
approssimativamente normali (i campioni sono
̅
sufficientemente grandi per poter applicare il Teorema ±
−1,/2 √
del Limite Centrale, ovvero ≥ 30). 5. TEST per il CONFRONTO tra le
SISTEMA di IPOTESI: e
0 1 PROPORZIONI di DUE
Bilaterale: : = 0 Dove è la
0 POPOLAZIONI
{
: ≠ 0 differenza tra le
1 medie delle La differenza tra le proporzioni di due popolazioni,
Test unilaterale a DX: popolazioni e il ( ), è testata assumendo che i campioni sono
−
: ≤ 0 1 2
0 valore
{ estratti da due popolazioni (approssimativamente)
: > 0
1 dichiarato è normali, ovvero:
Test unilaterale a SX: sempre uguale 1. Sia che (1 − ) sono
≥ 5;
1 1 1 1
a 0.
: ≥ 0 2. Sia che (1 − ) sono
≥ 5.
0
{ 2 2 2 2
: < 0
1
Dove:
- e sono le ampiezze campionarie dei due
1 2
campioni;
- e sono le stime puntuali per le proporzioni
1 2
delle popolazioni calcolate come:
1 2
= =
1 2
1 2
- e sono il numero di casi di interesse
1 2
(successi) rispettivamente nel campione 1 e 2.
SISTEMA di IPOTESI: e
0 1
Bilaterale: : − =
0 1 2 0
{ : − ≠
1 1 2 0
Test unilaterale a DX:
: − ≤
0 1 2 0
{ INTERVALLO di CONFIDENZA
: − >
1 1 2 0 Intervallo di confidenza per la differenza tra le
Test unilaterale a SX: proporzioni di due popolazioni indipendenti, ( −
: − ≥ 1
0 1 2 0
{ ), con varianze non note ma omogenee:
: − < 2
1 1 2 0 (1 − ) (1 − )
Dove: 1 1 2 2
( ) √
− ± +
1 2 /2
- sono le due proporzioni delle popolazioni
− 1 2
1 2
ignote;
- è il valore dichiarato per la differenza tra le
0
proporzioni delle popolazioni.
STATISTICA TEST
-TEST: ( )
− −
1 2 0
= 1 1
(1
√ ∗ − ∗) ( + )
1 2
Dove è la proporzione combinata (pooled)
∗
calcolata come segue: +
1 2
∗= +
1 2
Sotto l’ipotesi nulla, la statistica test si distribuisce
come una Normale standardizzata (). Per prendere
una decisione è necessario, come al solito, usare
l’approccio del valore critico o del p-value.
Esempio: C’è una differenza significativa al livello di
significatività 0.05 tra la proporzione di uomini e la
proporzione di donne che voteranno a favore di una
nuova legge? Analizziamo due campioni casuali
costituiti da 72 uomini e 50 donne, rispettivamente, e
osserviamo che 36 uomini e 35 donne voterebbero a
favore della nuova legge.
12. ANOVA a una VIA (CONFRONTO tra più MEDIE)
risultato) rispetto alla quale vogliamo verificare
l’eventuale effetto del fattore.
: = = ⋯ =
0 1 2
{ :
1
Dove è il numero di gruppi (ovvero i livelli/modalità
della variabile qualitativa). L’ipotesi nulla indica
0
che le medie non sono diverse tra i gruppi, ovvero
tutte le medie delle popolazioni sono uguali tra loro.
Quando si analizza la relazione tra una variabile L’ipotesi alternativa indica che almeno una media
qualitativa e una variabile quantitativa, spesso 1
differisce dalle altre, non significa che tutte le medie
vogliamo verificare se la variabile quantitativa assume sono diverse tra loro.
valori medi che differiscono significativamente nei È sempre un test unilaterale a destra. (L’area di rifiuto
gruppi definiti dalla variabile qualitativa. è sempre nella coda di destra. +∞)
1. L’IDEA di BASE 2. PARTIZIONE delle VARIABILITÀ
L’analisi della varianza (ANOVA, ANalysis Of Per verificare l’ipotesi nulla, la variabilità totale
VAriance) consente di confrontare simultaneamente, (misurata attraverso la devianza totale ovvero dalla
da un punto di vista inferenziale, le medie di più di somma dei quadrati totale - viene scomposta in
)
due gruppi (popolazioni) e può essere considerata due componenti:
un’estensione al test per la differenza tra due medie di 1. La variabilità tra i gruppi: una componente
popolazioni indipendenti con varianze non note. attribuibile alla differenza tra i gruppi (misurata
NOTE dalla somma dei quadrati tra i gruppi - SSB),
a. Quando i gruppi sono definiti sulla base di un chiamata anche effetto del trattamento o del
singolo fattore si parla di ANOVA a un fattore o a fattore;
una via (one way). 2. La variabilità entro i gruppi: una componente che
b. Anche se si parla di analisi della varianza in realtà si riferisce alle differenze riscontrare all’interno dei
l’oggetto di interesse sono le differenze tra medie gruppi (misurata dalla somma dei quadrati
(non varianze) nei diversi gruppi. Infatti, tramite all’interno dei gruppi - SSW), considerata un
l’analisi della relazione tra due tipi di variabilità, errore casuale.
all’interno dei gruppi e tra gruppi, l’ANOVA = +
consente di trarre delle conclusioni sulla differenza
delle medie. ASSUNZIONI
1. Normalità distributiva delle (trattamenti)
popolazioni. Può essere verificata graficamente
con il boxplot o tramite test per la verifica della
normalità distributiva (test Shapiro Wilk). Se la variabilità tra (SSB) i gruppi è maggiore della
2. Omogeneità delle varianze. Può essere verificata variabilità all’interno (SSW) dei gruppi possiamo
con i test di Bartlett (quando le popolazioni sono affermare che ci sia un effetto significativo dovuto al
normalmente distribuite) e Levene. Il sistema di trattamento o fattore (ovvero alla suddivisione in
ipotesi che viene verificato con questi test è: gruppi) e quindi che le medie calcolate nei gruppi
12 22 2
: = = ⋯ = siano significativamente diverse.
0
{ 2
: 3. Le MEDIE dei QUADRATI
1
Nel caso di campioni con ampiezze simili Dividendo ciascuna somma dei quadrati (SS) per i
(campioni bilanciati) i risultati del test ANOVA rispettivi gradi di libertà, si ottengono tre varianze, o
non sono molto influenzati da differenze tra medie dei quadrati: MSB (la media dei quadrati tra
varianze, al contrario se le ampiezze sono diverse gruppi), MSW (la media dei quadrati entro i gruppi) e
(campioni non bilanciati) il problema potrebbe MST (la media dei quadrati totale):
essere serio (la validità del test non è garantita).
3. Le osservazioni campionarie sono estratte
casualmente ed indipendentemente dai gruppi.
SISTEMA di IPOTESI
Consideriamo un fattore
di interesse
caratterizzato da livelli
e una variabile casuale Dove è il numero di gruppi e è l’ampiezza
quantitativa (detta
campionaria totale, ovvero lo somma delle
anche risposta, Per identificare quali sono i gruppi che effettivamente
osservazioni in ciascun gruppo. e
= + differiscono tra loro si deve utilizzare un’ulteriore
( ma
− 1) = ( − 1) + ( − ) ≠ + . procedura che rientra nei cosiddetti metodi dei
4. La STATISTICA TEST confronti multipli.
Se le varianze sono omogenee: test di Tukey, o Honest
Significant Difference (HSD) test, per campioni
bilanciati (di uguali ampiezze) o test di Tukey-Kramer
per campioni non bilanciati, mentre se le varianze non
sono omogenee: test di Games-Howell.
PROCEDURA di TUKEY-KRAMER
Sistema di Ipotesi
Il che vogliamo verificare è
= = : = : − = 0
0 0
{ {
segue una distribuzione con e
. . 1 = ( − 1) : ≠ : − ≠ 0
1 1
. . 2 = ( − ). Dove e e sono 2 generici gruppi tra i gruppi
≠
totali.
5. Il TEST di LEVENE: IDEA statistica test
La è:
Il test di Levene si basa sul calcolo delle differenze, in ̅ ̅
−
valore assoluto, tra ogni osservazione e una tra le
=
seguenti misure di centralità: la media (più comune), 1 1
la mediana, la trimmed media. ( + )
√
La scelta di una tra queste tre misure di tendenza Dove è il Mean Squares Within ottenuto nel test
centrale dipende dalla forma della distribuzione. Si ANOVA (/( ). si distribuisce come una
− )
impiega: studentizzata con gradi di libertà al numeratore e
- La media aritmetica, quando la distribuzione dei gradi di libertà al denominatore.
( − )
dati è ritenuta di forma normale, almeno
approssimativamente; Si calcolano differenze, in valore
× ( − 1)/2
- La mediana, quando la distribuzione dei dati è assoluto, tra le medie campionarie di