Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
P( X ; P( X
=1)=π =0)=1−π
media aritmetica campionaria è un buon stimatore del parametro . Tale
π
media non è altro che la proporzione campionaria che si distribuisce
P
secondo una distribuzione binomiale di parametri e . Per elevato, in
n n
π
virtù del teorema centrale, si ottiene:
P−π .
W = ∼N (0,1)
➢ √ π (1−π)/n
All’aumentare di , poiché è uno stimatore consistente di , anche lo
n P π
stimatore tenderà a . Quindi, fissato e ottenuta una
1−α
P(1−P) π (1−π)
stima di , l’intervallo di confidenza asintotico per sarà:
p π π
√ √ .
( )
p−z p(1−p)/n , p+z p(1− p)/n
➢ 2
α / α /2
4.5: INTERVALLO DI CONFIDENZA PER LA VARIANZA DI UNA
POPOLAZIONE NORMALE.
Consideriamo il caso di un carattere che in popolazione si distribuisce secondo
2
una distribuzione normale di parametri e ambedue ignoti. Vogliamo
μ σ X
X
2
costruire un intervallo di confidenza per .
σ
Per farlo, abbiamo bisogno di una quantità pivot che possa essere invertita.
Scegliamo: 2
n−1) S
( X 2 .
Q= ∼Χ
➢ n−1
2
σ 2
Possiamo quindi scrivere l’intervallo di confidenza di livello per
1−α σ X
come segue: 2 2 2
( ) ( )
S n−1)S S
(n−1) ( (n−1)
2 X 2 X 2 X .
P Χ Χ
➢ (n−1)≤ ≤ (n−1) =P ≤σ ≤
1−α/2 2 X
α/
2 2 2
n−1)
Χ Χ
σ ( (n−1)
X 1−α/ 2
α /2
Tale intervallo individua due code equiprobabili ma, a differenza degli intervalli
costruiti per la media, non è ad ampiezza minima tra gli intervalli per cui vale
2 2 2 2
( ) . Ciò è dovuto all’asimmetrica della distribuzione .
P Χ Χ Χ Χ
≤ ≤ =1−α
a b
4.6: INTERVALLO DI CONFIDENZA PER LA DIFFERENZA TRA LE MEDIE DI
DUE POPOLAZIONI NORMALI E INDIPENDENTI (CASO CON VARIANZA
NON NOTA E OMOSCHEDASTICITÀ).
Usando le stesse ipotesi e la stessa notazione introdotta per il test d’ipotesi
sulla differenza tra le medie e di due popolazioni gaussiane, si ha che
μ μ
X Y
2 2
S
(n−1) +(m−1)S
2 X Y
se , allora la seguente quantità è una quantità pivot:
S =
pooled n+ m−2
X̄− Ȳ −(μ −μ )
X y .
t
∼
➢ n+m−2
√ 1 1
2
S ( + )
pooled n m
Quindi possiamo ottenere l’intervallo di confidenza di livello per
1−α
come segue:
μ −μ
X Y √ √
( )
1 1 1 1
( ) ( )
2 2 .
x̄− ȳ s , x̄ ȳ s
−t + − +t +
➢ 2 pooled 2 pooled
α/ α/
n m n m
Usando le stesse ipotesi e la stessa notazione introdotta per il test d’ipotesi sul
2 2
rapporto tra le varianze e di due popolazioni gaussiano, si può
σ σ
X Y 2
σ X
dimostrare che l’intervallo di confidenza di livello per è:
1−α 2
σ Y
2 2 2 2
( )
s s s
/s /
x y x y .
,
➢ F , m−1) F ,m−1)
(n−1 (n−1
2 1−α
α/ /2
5: IL MODELLO DI REGRESSIONE MULTIPLA.
5.1: INTRODUZIONE.
L’obiettivo dei modelli di regressione multipla è quello di investigare come
un certo gruppo di caratteri (variabili esplicative o variabili indipendenti o
regressori) influenzano un altro carattere oggetto di interesse (variabile
dipendente). Indichiamo la variabile dipendente con e, supponendo di
Y
disporre di variabili indipendenti, le indichiamo con .
m , X ,... , X
(X )
1 2 m
In termini formali, ci interessa studiare una relazione del tipo:
.
Y X , X ,... , X
➢ =f ( )
1 2 m
L’obiettivo è spesso inferenziale: a partire dallo studio delle relazioni
intercorrenti tra le variabili all’interno del campione, si cerca di ottenere
informazioni sulle relazioni esistenti all’interno di una popolazione più ampia.
Il modello di regressione multipla è un potente strumento per trattare questi
problemi inferenziali. Genericamente, la variabile dipendente viene
Y
espressa come funzione lineare dei regressori :
, X ,... , X
(X )
1 2 m
.
Y X X X
=β +β +β +...+β
➢ 0 1 1 2 2 m m
Questa relazione non può però essere espressa in termini deterministici come
appena visto. È infatti necessario tenere conto della inevitabile casualità
associata al fenomeno oggetto di interesse. Questo porta alla costruzione di un
modello statistico, composto da una componente sistematica e una
componente casuale (non osservabile) che ingloba la parte di variabilità di
non colta dalla relazione con i regressori. In pratica si aggiunge una
Y
componente di errore casuale al modello lineare sopra esposto:
ε ⏟
Y X X X
⏟
=β +β +β +...+β + ε
➢ 0 1 1 2 2 m m Componente casuale
Componente sistematica
Più formalmente, l’obiettivo è la stima del vettore dei parametri
sulla base di un campione di osservazioni delle variabili
,β ,... ,β , ... ,β
β=(β )
0 1 k m
:
Y , X , X , ..., X
1 2 m
Il coefficiente rappresenta l’intercetta del modello.
β
• 0
Gli altri coefficienti, detti coefficienti di pendenza, costituiscono le
• derivate parziali della variabile dipendente rispetto alle variabili
Y
esplicative , ovvero:
, X ,... , X
(X )
1 2 m
∂Y .
; k=1,. .. , m
=β
➢ k
X
∂ k
Di conseguenza il coefficiente esprime la variazione che subisce la
β k
variabile dipendente in seguito ad una variazione unitaria della variabile
esplicativa , quando le altre variabili esplicative rimangono costanti.
X k
5.2: SCHEMI DI CAMPIONAMENTO.
A seconda dello schema di campionamento utilizzato per costruire il dataset,
varierà l’impostazione alla base del modello di regressione e il modo con cui
tratteremo le variabili esplicative. Si distinguono due differenti schemi di
campionamento:
Schema di campionamento classico (S1) (è quello che seguiremo
• noi): con lo schema di campionamento classico, alla base della cosiddetta
impostazione classica del modello di regressione multipla, le variabili
esplicative sono fissate ad una loro particolare realizzazione (si pensi per
esempio ad un esperimento di laboratorio in cui i fattori sperimentali che
danno luogo ad un certo risultato sono fissati dal ricercatore. Questo
Y
schema di campionamento implica il determinismo dei regressori: in
altre parole le covariate dei regressori sono misurate senza errori e non
sono frutto dell’osservazione di una variabile casuale. Come già detto,
però, la vera relazione tra la variabile risposta e le variabili esplicative
Y
dipende da una serie di fattori non controllabili.
, X ,... , X
(X )
1 2 m
Conseguenza importante di questo fatto è che ad un valore fissato delle
diverse variabili esplicative corrispondono valori risposta diversi per la
variabile dipendente. Tali fattori possono essere ricondotti ad errori di
misura, effetti non osservabili, modificazioni delle condizioni in cui viene
condotto l’esperimento, ecc. È l’insieme di queste componenti a dar
luogo alla variabile stocastica . Secondo questa impostazione quindi
ε
anche è una variabile stocastica, in quanto somma di una
Y
componente deterministica e una casuale.
Schema di campionamento alternativo (S2): consiste nel supporre
• che sia la variabile dipendente che i regressori siano stocastici. In questo
caso, il modello statistico di riferimento è dato dalla distribuzione
congiunta di dalla quale è estratto un campione casuale
, X , X , ... , X
(Y )
1 2 m
di numerosità . Secondo questo schema, si ottiene:
n .
E(Y X , ... , X X X
➢ )=β +β +...+β
| 1 m 0 1 1 m m
Quindi la variabile casuale misura le deviazione della variabile casuale
ε
dalla sua speranza condizionale.
Y
5.3: FORMALIZZAZIONE DEL MODELLO IN TERMINI MATRICIALI.
Si consideri un campione di numerosità sul modello di regressione lineare
n
multipla, secondo lo schema S1: .
Y x x x ; i=1,... , n
=β +β +...+β +...+β +ε
➢ i 0 1 i 1 k ik m i m i
Dove rappresenta la variabile casuale associata alla componente i-esima
Y i
del campione; è il valore della k-esima variabile esplicativa per
x ; k , m
=1,...
ik
la componente i-esima del campione (nello schema S1 non è una variabile
aleatoria e quindi la indichiamo con la lettera minuscola).
Questo generico campione può essere espresso in termini matriciali.
Indichiamo con:
il vettore dei valori della variabile dipendente per le unità
Y n×1 n
• campionarie: .
Y Y , Y ,... , Y
➢ =( )
1 2 n
la matrice dei valori degli regressori per le unità
X m n
n×(m+1)
• campionarie; la matrice contiene, oltre ai valori dei regressori, una
colonna supplementare composta da valori tutti pari ad in
n 1
corrispondenza dell’intercetta del modello. Quindi otterremo una matrice
di questo tipo:
x x x
( )
1 ... ...
11 1 k 1 m
... ... ... ... ... ...
X=
➢ 1 x ... x ... x
i 1 ik i m
... ... ...
... ... ...
1 ... ...
x x x
n 1 nk nm
il vettore dei parametri del modello:
β
• (m+1)×1
.
,β , ... ,β
➢ β=(β β )
0 1 2, m
il vettore delle componenti casuali:
n×1
ε
• .
,ε , ... ,ε
➢ ε=(ε )
1 2 n
Il modello di regressione può quindi essere riscritto in forma matriciale come
segue: .
Y X
= × β +ε
n×1
n×1 n×(m +1) (m+1)×1
Una volta estratto un campione, si disporrà dei valori osservati
.
y , x , x , ..., x , ... , x ; i=1,... , n
{ }
i i1 i 2 ik i m
5.4: IPOTESI CLASSICHE DEL MODELLO DI REGRESSIONE MULTIPLA.
In questo paragrafo esporremo tutte le ipotesi alla base del modello di
regressione multipla, formalizzate secondo lo schema di campionamento
classico S1:
De