Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Y X−μ
y x
2
σ x + +b +
y=b b x x ε
-piano di regressione: 0 1 1 2 2
I coefficienti si calcolano sempre attraverso il metodo dei minimi quadrati risolvendo il
sistema di tre derivate parziali, si può utilizzare il metodo di Cramer il quale sfrutta la
relazione fra determinanti. lo stimatore b1 si ottiene dal seguente rapporto:
−s
s s s
^ x y x x x y x x
=
b 1 2 2 2 1 2 dove s sono i componenti della matrice di varianze e covarianze
1 2
−s
s s
x x x x x x
1 1 2 2 1 2
campionaria. in modo analogo è possibile calcolare lo stimatore b^2 e per differenza
l’intercetta. b0 rappresenta l’intercetta del piano e fornisce il valore della risposta quando le
variabili esplicative assumono valore pari a zero, b1 è lo stimatore del coefficiente di
regressione riferito a x1 e stabilisce la misura dell’influenza parziale della prima variabile
esplicativa a parità dei valori dell’altra. b2 è lo stimatore del coefficiente di regressione
riferito a x2 e stabilisce la misura dell’influenza parziale della seconda variabile esplicativa a
parità dei valori della prima.
2.3 Bontà di adattamento
Un primo indice comunemente utilizzato per valutare il modello di regressione multipla si
basa sui residui e sul loro errore standard, e si calcola come:
RSE=√❑
valuta la variazione media della variabile effettiva rispetto all’interpolante, se i valori
interpolati sono prossimi a quelli osservati il valore di RSE sarà basso indicando un ottimo
adattamento del modello ai dati.
Un altro indice invece sfrutta la scomposizione della devianza complessiva, in primo luogo è
= −^ ¿
z y y
bene esplicitare le 3 proprietà dei residui ( :
i i i
n
∑ ( )=0
z
1-la somma dei residui è pari a 0 , di conseguenza la variabile effettiva e la
i
i=1
variabile interpolata hanno la stessa media.
2-i residui sono incorrelati rispetto ad ogni variabile esplicativa:
cov(Z, xi)=0
3- i residui sono incorrelati rispetto ai valori dell’interpolante:
cov(Z,Y^)=0 2
^
− ¿ +¿
y y
i i
¿
¿
¿ n
∑
2
( − ^ )+(^ − = ¿
y y y y)¿
i i i i=1
¿ n
∑
❑ 2
− ¿ = ¿
y y
i i=1
¿ n
∑
( )= ¿
Dev y i=1 z
i
n n
∑ ∑
n n ^ − ¿
z y y
∑ ∑ applicando le proprietà dei residui, è possibile
2
¿ (z )+ ❑ i 1
i =1
i=1 i
=1
i=1 i 2
^ − ¿ +2 ¿
y y
i ¿
n n 2
^ − ¿
y y
∑ ∑
2
)= ( )+ ❑
Dev( y z
riscrivere ovvero
i
i ¿
=1
i i=1
devianza totale = devianza residua + devianza spiegata
−1
¿
X ' X X ' y
In termini matriciali, per ed esprimendo y e X in termini di variabili centrate
b(stimato)=¿
si ha che y = Xb^ + e^ = y^ + e^ (^ = stimato) −1
−1 −X ( ¿ )
I X ' X X ' y
¿
X ' X X ' y n
dove ed
¿
X b( stimato)= X (stimato)=¿
e
Si ha quindi:
-la Devianza totale (TSS) = y’y −1
¿
X ' X X ' y
−1
¿ ¿
X ' X X ' y= y ' X
-la Devianza spiegata (MODEL SS) = y’^ y^ = −1
¿ ¿
X ' X X ' X
¿
y'X
vale a dire la somma dei quadrati dovuti alla regressione
−1
−X ( ¿
I X ' X X ') y
n −1
−X ( ¿ ¿
I X ' X X ') y= y '
n
-la Devianza residua (SSR) = e’^ e^ = vale a dire la somma
−1
− ( ¿
I X X ' X X ')¿
n ¿
y' −1
¿
X ' X X '
dei quadrati degli scarti tra valori osservati e interpolati. ( è una matrice
−X ¿
I n
idempotente, moltiplicata per se stessa da come risultato sempre se stessa, dimostrazione
fatta nella domanda 2.7)
−1
−X ( ¿ )
I X ' X X y=0
−1
poiché , vale il cosiddetto teorema di scomposizione della
¿ ¿
X ' X X
( ¿
y stimato)' e= y ' X
varianza: TSS = MODEL SS + SSR, e di conseguenza, è possibile calcolare un indice di
adattamento che prende il nome di coefficiente di correlazione multipla e mette in relazione
la varianza di y spiegata da X (MODEL SS) con la varianza totale di y (TSS)
SSR MODEL SS
2 =1− =
R l’indice R2 tuttavia ha la proprietà di aumentare nel momento
TSS TSS
in cui si aggiungono altri regressori al modello, per ovviare questo problema è stato costruito
un altro indice il quale penalizza l’aumento di R^2 all’inserimento di un altro regressore:
n−1 SSR
2 =1−( )
R adj −1
n−k TSS
Se R2 = 1 i valori osservati sono sempre uguali ai valori interpolati, i due fenomeni covariano
linearmente in modo perfetto perciò il divario fra realtà e teoria è nullo
Se R2=0 i valori osservati coincidono tutti con la μy, i due fenomeni non covariano in modo
lineare, perciò il divario tra teoria e realtà è massimo
Nel caso bivariato l’indice di bontà di adattamento è dato dal rapporto tra il divario tra valori
osservati ed interpolati (coefficiente b1) e il divario massimo (varianza di y), perciò
σ R^2 coincide con il quadrato del coefficiente di correlazione lineare di
2 xy 2
= =ρ
R 2 2
σ σ
x y
bravais-pearson. +b
y=b x+ e
Riprendendo la retta di regressione , attraverso il metodo dei minimi
o 1 x
σ xy
=
b
quadrati sappiamo che , adesso prendiamo una seconda retta di regressione
1 2
σ x σ xy
=
+ + a
x=a a y e , sempre attraverso OLS, sappiamo che . Di conseguenza è
1
0 1 y 2
σ y
possibile affermare che la media geometrica dei coefficienti angolari delle rette di
❑
√
regressione è uguale al coefficiente di correlazione:
❑
√
-se = 1, le due rette di regressione Y su X e X su Y coincidono e postulano un
perfetto legame lineare diretto
❑
√
-se = -1, le due rette di regressione Y su X e X su Y coincidono e postulano un
perfetto legame lineare inverso
❑
√
-se = 0, le rette di regressione sono perpendicolari tra di loro e si intersecano nel
( )
μ , μ
punto x y
❑
0< √
-se < 1, i punti sono disposti su spezzate crescenti e le rette postulano un legame
non perfetto ma di segno concordante
−1< ❑
√
- se < 0, i punti sono disposti su spezzate decrescenti e le rette postulano un
legame non perfetto ma di segno discordante.
2.4 Interpolazione con variabili centrate e standardizzate, variazione e previsione con retta di
regressione
-Interpolazione con variabili centrate
Attraverso un cambiamento dell’origine degli assi, è possibile scrivere le variabili Y e X come
=Y −μ =X−μ
Y X
variabili centrate: e . Riprendendo la retta di regressione
y x
mediante il metodo OLS:
σ xy
=μ + ( )
Y X−μ
y x
2
σ x σ xy ( )
−μ =¿ X−μ
Y x
y 2
σ x
σ σ
xy xy
= =
=0
Y X b
b
di conseguenza: il coefficiente e 1
0
2 2
σ σ
x x
−1
¿
X ' X X ' y
=
Y X b+e
In termini matriciali , dove ^
b=¿
-Interpolazione con variabili standardizzate
D
Se è la matrice diagonale i cui elementi sono le varianze delle variabili X, e le X e y
x ¿ −1 /2
=X
X D
sono standardizzate, ossia divise per il loro scarto quadratico medio: ,
x
¿ = /σ
y y , allora il coefficiente di regressione standardizzato
y −1
¿ /σ
X ' X y y
−1 /2 −1/ −1 −1 /2 −1/
2 2
¿ /σ =D ¿
D X ' X D D X ' y
x x x y x da una misura dell’entità della relazione
¿ ¿ −1 ¿ ¿
¿ =¿
X ' X X ' y
¿ =¿
B
lineare tra X e y al netto del loro ordine di grandezza
-Variazione
=b + +b +...+
y b x x b x x
si ha una variazione in
0 0 1 10 2 20 k k 0 k
=b +b +b +...+
y x x b x da cui:
w 0 1 10 2 20 k kw
− =b +b + +...+b −(b +b + +...+b )
y y x b x x x b x x e:
w 0 0 1 10 2 20 k kw 0 1 10 2 20 k k 0
− =b −b =b (x −x )
y y x x
w 0 k kw k k 0 k kw k0
=b
Δ y Δ x
k k k
-Previsione ^ ^
= +
y b b x
Si abbia una regressione semplice definita su n osservazioni (
i 0 1 1 i
¿
i=1,... , n con parametri calcolati con il metodo OLS. Si consideri una k+1-esima
x
osservazione non compresa nella rilevazione. Si ipotizzi che la variabile assumerà un
1
x
certo valore su tale osservazione e che i parametri ricavati per l’insieme delle n
1(k+1)
osservazioni valgano anche per tale osservazione, sebbene sia al di fuori della rilevazione. è
y
possibile quindi prevedere il valore che la variabile dipendente assume sulla k+1
k+1
osservazione. Caso analogo vi è anche per la regressione multipla.
2.5 Connessione, dipendenza in media, dipendenza lineare e scelta polinomi di grado g
La connessione indica quanto due variabili sono stocasticamente dipendenti tra loro ed è
calcolata tramite l’uso del Chi-quadro normalizzato
n n
i . . j 2
− ¿
n
ij n
¿
n n
i . . j
¿ n
¿
¿
¿
m
∑ ¿
j=1
r
∑ ¿
i=1
2 =¿
χ N ���
dove r e m sono il numero di modalità delle due variabili, le frequenze congiunte ed n il
numero di osservazioni.
Si tratta un indice normalizzato simmetrico e che è quindi compreso nell’intervallo 0 e 1
estremi inclusi: 0 indica che le due variabili sono tra loro stocasticamente indipendenti,
mentre 1 indica massima connessione.
Con la dipendenza in media si intende mostrare la dipendenza che esiste tra i valori medi
che assume la variabile Y dati i va