D
• σ / n
D ¯
d σ
t = se la deviazione standard di popolazione non è nota
D
• s / n
D
n (n ≥ 30)
Per abbastanza grande utilizziamo come statistica test l’approssimazione normale (sia
nel caso di varianza della popolazione nota che non nota).
Quando si rifiuta l’ipotesi nulla vuol dire che c’è evidenza statistica/associazione ad un livello di
α
significatività del % che …
4
Test d’ipotesi per la differenza tra due medie µ - µ (campioni indipendenti e σ = σ )
12 22
2 1
H : μ = μ H : μ ≠ μ
Consideriamo il test: vs
• 0 2 1 a 2 1 x̄ − x̄
1 2
2 2
σ = σ t =
Se sono ignote, si usa la statistica test obs
• 1 2 SE
2 2
(n − 1) ⋅ s + (n − 1) ⋅ s
1 1 1 1 2 2
SE = s ⋅ + s =
Dove e p
p n n (n − 1) + (n − 1)
1 2 1 2
| |
H H t > t
Si rifiuta a favore di se α
• 0 a obs 1− ,n +n −2
1 2
2 x̄ x̄
1. Si calcolano le medie campionarie nei due gruppi: e
1 2
2 2
s s
2. Si calcolano le varianze campionarie nei due gruppi: e
1 2
2
s
3. Si calcola la varianza campionaria congiunta (pooled), p
SE
4. Si calcola l’errore standard della differenza tra le medie, .
t t
5. Si calcola la statistica test, , e la si confronta con .
α
obs 1− ,n +n −2
1 2
2
Test d’ipotesi per la differenza tra due medie µ - µ (campioni indipendenti e n ≥30 e n ≥30)
2 1 1 2
H : μ = μ H : μ ≠ μ
Consideriamo il test: vs
• 0 2 1 a 2 1
2 2
σ σ
Se sono ignote e diverse e i due campioni sono sufficientemente grandi, si usa la
e
• 1 2 2 2
x̄ − x̄ s s
1 2
1 2
z = SE = +
statistica test , dove .
obs n n
SE 1 2
| |
H H z > z
Si rifiuta a favore di se α
• 0 a obs 1− 2
Test d’ipotesi per la differenza tra due proporzioni π - π
2 1
H : π = π H : π ≠ π
Consideriamo il test: vs
0 2 1 a 2 1
p p
1. Si calcolano le proporzioni campionarie e
1 2
n p + n p
1 1 2 2
p =
2. Si calcola la proporzione congiunta: n + n
1 2
3. Si calcola l’errore standard della differenza delle proporzioni:
( )
1 1
SE = p ⋅ (1 − p) ⋅ +
n n
1 2
p − p
1 2
z =
4. Si calcola la statistica test: obs SE
| |
H H z > z
Si rifiuta a favore di se α
0 a obs 1− 2
TEST D’IPOTESI - RIASSUNTO α
Il test d’ipotesi ad un livello di significatività si può effettuare con una di queste 3 procedure:
1. Si confronta il valore osservato con il valore critico della statistica test.
α < α H
p-value allora si rifiuta
2. Si confrontano il p-value e : se o
H
3. Se il valore del parametro sotto non è contenuto nell’intervallo di confidenza
0
(1 − α) ⋅ 100 % H
allora si rifiuta .
0 5
INTERVALLO DI CONFIDENZA —————————————————————————————
(1 − α) ⋅ 100 %
Un intervallo di confidenza (IC) al per il parametro è un intervallo di valori
determinati dal campione che, immaginando di ripetere il campionamento, include il parametro
(1 − α) ⋅ 100 %
l’ delle volte. Rappresenta dunque una stima intervallare del parametro.
IC per una media µ sconosciuta (con σ nota)
2 σ
±
IC = x̄ z ⋅ SE SE =
, con
α
(1−α)⋅100% 1− 2 n
IC per una media µ sconosciuta (con σ non nota e n>30)
2 n 2
∑ (x − x̄)
s
x̄ − μ i
i=1
± t =
IC = x̄ t ⋅ SE s =
SE =
, con , e
α
(1−α)⋅100% 1− ,n−1 SE n − 1
2 n
Test d’ipotesi per la differenza tra due medie µ - µ (campioni appaiati, prima e dopo)
2 1
¯ ±
IC = d t ⋅ SE SE = s / n
, con
α
(1−α)⋅100% 1− ,n−1
2
IC per la differenza tra due medie µ e µ (campioni indipendenti e σ = σ )
12 22
1 2 ±
IC = x̄ − x̄ t ⋅ SE
α
(1−α)⋅100% 2 1 1− ,n +n −2
1 2
2
2 2
(n − 1) ⋅ s + (n − 1) ⋅ s
1 1 1 1 2 2
s =
SE = s ⋅ +
Dove e
p p (n − 1) + (n − 1)
n n
1 2 1 2
IC per la differenza tra due medie µ e µ (campioni indipendenti e n ≥30 e n ≥30)
1 2 1 2
2 2
s s
1 2
±
IC = x̄ − x̄ z ⋅ SE SE = +
, con
α
(1−α)⋅100% 2 1 1− n n
2 1 2
IC per una proporzione π p ⋅ (1 − p)
±
IC = p z ⋅ SE SE =
, con
α
(1−α)⋅100% 1− n
2
IC per la differenza tra due proporzioni π e π (campioni indipendenti)
1 2 p ⋅ (1 − p ) p ⋅ (1 − p )
1 1 2 2
±
IC = p − p z ⋅ SE SE = +
, con
α
(1−α)⋅100% 2 1 1− n n
2 1 2
TEST D’IPOTESI TRAMITE INTERVALLO DI CONFIDENZA
H (1 − α) ⋅ 100 %
Se il valore del parametro sotto non è contenuto nell’intervallo di confidenza
0
H
allora si rifiuta .
0 6
TEST DEL CHI QUADRATO ——————————————————————————————
Tabella delle frequenze osservate VS tabella delle frequenze attese
Var 1 Var 2 Var 1 Var 2
Si No Totale Si No Totale
(a + c) ⋅ (a + b) (b + d ) ⋅ (a + b)
a b a + b a + b
Si Si n
n
c d c + d
No (a + c) ⋅ (c + d ) (b + d ) ⋅ (c + d ) c + d
No
a + c b + d n n
n
Totale a + c b + d n
Totale
Il test del Chi quadrato confronta la frequenza osservata (O) con quella attesa (A) ed è utilizzato
per stabilire se le differenze tra le frequenze osservate e quelle attese siano troppo grandi per
essere attribuite al caso.
• L’ipotesi nulla è che le due variabili non siano associate (la distribuzione di una variabile è la
stessa in tutte le categorie dell’altra variabile).
• L’ipotesi alternativa è che le due variabili siano associate (la distribuzione di una variabile non è
la stessa in tutte le categorie dell’altra variabile).
Possiamo applicare il test purché:
1. Nessuna cella abbia una frequenza attesa < 1
2. Non più del 20% delle celle abbia una frequenza attesa < 5
rc 2
(O − A )
i i
2 2
∑
χ = > χ
H r c
Si rifiuta l’ipotesi nulla se con righe e colonne (c<r)
0 1−α,(r−1)⋅(c−1)
obs A
i
i=1
La distribuzione Chi quadrato: (r − 1) ⋅ (c − 1)
1. Dipende dal numero di gradi di libertà
2. È sempre positiva
3. È asimmetrica a destra
ANOVA ————————————————————————————————————————
Permette di studiare l’associazione tra una variabile continua Y e una variabile categorica X.
H : μ = μ = . . . = μ
{ 0 1 2 k
Vogliamo testare: H : μ ≠ μ
• (almeno due delle medie delle popolazioni differiscono tra loro)
a i j F = MS /MS
Si utilizza il valore osservato dalla statistica test F:
• obs tra entro
ki=1 2
∑ n ⋅ ( ȳ − ȳ)
SS i i
tra
MS = = è la devianza media tra gruppi
tra g . d . l k − 1
Dove ki=1 2
∑ (n − 1) ⋅ s
SS i i
entro
MS = = è la devianza media entro gruppi, o residua
entro g . d . l ki=1
∑ n − k
SS + SS = SS
Con è la deviazione totale.
entro tra tot
H H F > F (v = k − 1,v = n − k) n
Si rifiuta a favore di se , dove è il numero totale di
• 0 a obs 1−α 1 2
k
osservazioni e è il numero dei gruppi. 7
REGRESSIONE LINEARE ——————————————————————————————
METODO DEI MINIMI QUADRATI
Consiste nel trovare la retta per cui è minima la somma dei quadrati residui, cioè delle deviazioni.
n 2
∑ (y − β − β x )
i 0 1 i
i=1
β β
Dove è l’intercetta e è la pendenza, o coefficiente angolare.
0 1
Intervallo di confidenza per la pendenza ±
(1 − α)IC = b t ⋅ (n − p) ⋅ SE
α
1 1− 2
n p
Dove è il numero di osservazioni e è il numero dei parametri/delle variabili (inclusa intercetta).
Test d’ipotesi per la pendenza
{ H : β = 0 →
(retta «vera» orizzontale assenza di associazione tra X e Y)
0 1
H : β ≠ 0 →
(retta «vera» non orizzontale associazione tra X e Y)
a 1 b
1 > t (n − p)
H α
Si rifiuta ad un livello di significatività se α
0 1−
SE 2
z
Oss. Quando n>30 e si conosce SE allora si usa . Al contrario, si usa t quando n≤30 e non si
conosce la varianza della popolazione, per cui si stima l'errore standard usando i dati campionari.
Correlazione tra due variabili SD ⋅ β
x 1
cor (x, y) = SD
y
Devianza
Devianza totale Devianza residua Devianza di regressione
n n n
2 2 2
∑ ∑ ∑
̂ ̂
(y − ȳ) (y − μ ) ( μ − ȳ)
n − 1 n − p p − 1
, g.d.l. = , g.d.l. = , g.d.l. =
i i i i
i=1 i=1 i=1
Vale la relazione: Devianza totale = devianza residua + devianza di regressione
Coefficiente di determinazione: percentuale della devianza totale
Devianza di regressione
2
R = Devianza totale
TEST F /( p − 1)
(devianza di regressione)
H ∼ F( p − 1,n − p)
Si dimostra che, sott
-
Formulario
-
Formulario statistica medica
-
Formulario esame Informatica e statistica medica
-
Formulario Statistica