vuoi
o PayPal
tutte le volte che vuoi
Matrice di centering
A= I --1b1 = Sxx sxySTANDARD-1= Rxx rxy1I coefficienti delle v.a. standardizzate non coincidono con quelli delle v.a. grezze; vengono usati per il confronto in modo dastabilire quale regressore è più importante
MatriciT X X quadrata (m+1) x (m+1); simmetrica; diag = somme dei quadrati; invertibile solo se n>m+1 e rango=m+1** **se n<m+1 non si inverteT -1 T Cappello H = X(X X) X : quadrata n x n; simmetrica; idempotente; HX = X; è la proiezione di y sullo spazio generato se n>m+1 COLLINEARITÀ(problemadalle colonne di X algebrico) e MULTICOLLINEARITÀ M = I - H : quadrata n×n; simmetrica; idempotente (problema statistico) M e H sono tra loro ortogonali A quadrata; simmetrica; idempotente; A1 = 0 Ae = en
MODELLI LINEARI Pagina 2Indice di determinazione linearevenerdì 15 gennaio 2021 12:45L'indice di determinazione lineare ci dice quanta parte della variabilità di Y è spiegata
della relazione lineare con le x: T• DEV(Y) = e edisp T• DEV(Y) = y y -nT T• DEV(Y) = b (X X)b -nreg = -2R = 1SCARTI2R non cambia valore ma può essere scritto in altri modiT T• DEV(Y) = b = bregDEV(Y) =•STANDARD2 2 2R non cambia poiché R = r ed r non cambia da v. grezze a standardizzate2 TR = Rxx = rxyRegressori incorrelati2 TRxx = Im ; b1 = rxy; R = rxy rxy2 2 2R è la somma degli r semplici o degli R semplici MODELLI LINEARI Pagina 3Inferenzasabato 16 gennaio 2021 10:16 Condizioni A. Le X sono predeterminate 1. Gli ε hanno media nulla E(ε) = 0 2. Omoschedasticità V(ε) = In 3. Covarianza nulla ε ~ NMV(0, I) 4. Normalità distributiva Proprietà degli stimatori dei minimi quadrati 1. CORRETTEZZA V(b) = C ; sono B.L.U.E. per il teorema di Gauss-Markov 2. 3. LINEARITÀ 4. NORMALITÀ DISTRIBUTIVA Varianza del generico b k V(b ) = c- k kkSCARTI V(b ) =- k Varianza che xk avrebbe nel m.STANDARD V(b) = - kVIF
Variance Inflation Factor (fattore di incremento della varianza)
VIF è indice di determinazione lineare di Xk (presa come v. dipendente) su tutti gli altri regressori
STANDARDVIF = è il generico elemento sulla diag di
Il VIF ci dice di quanto aumenta la varianza di un coefficiente passando da modello semplice a multiplo:
Se Xk è indipendete dagli altri regeressori la varianza non cambia
Se c'è dipendenza la varianza aumenta
Se VIF > 10 c'è multicollinearità
STIMATORE CORRETTO PER
Come nel m. semplice la varianza di regressione e la varianza di Y sono stimatori corretti solo in caso di indipendenza MODELLI LINEARI Pagina 4
Intervalli di confidenza e test d'ipotesi
sabato 16 gennaio 2021 11:10
Intervalli per bkt se uso la varianza di dispersione - n-m-1σ è noto Z se - ε
Ipotesi
H0: β1=β2=…=βk=…=βm=0
Se H0 è falsa ALMENO un coefficiente è
significativamente diverso da 0
Test F (rapporto tra varianza di reg e varianza di disp)
Se rifiuto vado a controllare i singoli coefficienti
Perché varianza di reg e non varianza tot? Perché F richiede v.a. χ² indipendenti e DEV(Y) dipende da DEV(Y) disp
H0: βk=0- Test t
Test F parziale (tolgo Xk e creo un m. ridotto, poi considero il m. completo e il m. ridotto)-->GDL: 1, n-m-1
H0: βk=βk+1=0- Ho bisogno di una premessa ---> all'aumentare del n° di regressori DEV(Y) non cala mai/DEV(Y) non cresce mai
reg disp
Test F parziale --> GDL: 2,n-m-1
Se H0: βk=0 NON è rifiutata, considero il modello completo e il modello ridotto senza Xk e senza Xk+1
Se H0: βk=βk+1=0 non è rifiutata posso togliere i 2 regressori
MODELLI LINEARI Pagina 5
Diagnosticasabato 16 gennaio 2021 11:39
Tutta l'inferenza si basa su condizioni prefissate; ma sono vere?
i. I residui OLS hanno media nulla
ii. I residui non hanno tutti la stessa varianza
iii.
I residui sono moderatamente correlati.
Normalità distributiva verificata con ISTOGRAMMA o QQ-plot.
OSSERVAZIONI ANOMALE:
i. Punti di Leverage
Come identificarli? Studiando gli hii hii>2media media=(m+1)/nii.
ii. Outliers
Confronto i residui σ) ~-residui studentizzati esternamente r (s al posto di ti e ε n-m-1 ~-residui studentizzati internamente t (s è la deviazione del m. costruito senza l'osservazione i-esima) ti e(i) n-(m+1)-1.
iii. Punti influenti
Distanza di Cook (D>1 l'unità i-esima è influente).
MODELLI LINEARI Pagina 6
Specificazione del modello sabato 16 gennaio 2021 12:28
ERRORI DI SPECIFICAZIONE:
a. Esclusione di regressori rilevanti
Comporta una distorsione delle stime (b e se)
Come verifico? Studio il valore atteso togliendo k regressori ---> se E[bp]=βp allora gli altri k regressori sono irrilevanti.
b. Inclusione di regressori irrilevanti
Le stime sono corrette ma aumenta la varianza, perché aumenta il VIF
Come verifico?
Test F parziale (se H0 vera i regressori sono non rilevanti)CRITERIO PER SCEGLIERE IL MODELLO MIGLIORE (tra completo o ridotto)
2R corretto: tiene conto di GDL, quindi del n° di regressori; cerca un equilibrio tra adattamento e complessità
2R premia solo la bontà di adattamento e all'aumentare dei regressori non cala ma realizza un trade off e se ci sono troppe variabili inizia a calare
CRITERI DI SELEZIONE DELLE VARIABILI
a. All subsets(metodo migliore ma complesso)
Costruisco tutti i possibili m. semplici e scelgo quello con R2 maggiore
Costruisco poi tutti i possibili m. a 2 regressori e scelgo quello con R2 maggiore
Così via fino al modello completo
Prendo il migliore per ogni gruppo di modelli, calcolo e scelgo quello maggiore
VANTAGGI SVANTAGGI
b. Metodi Stepwise
1- FORWARD SELECTION - Consente di costruire una v. che entra resta
Costruisco m. semplice: candido v. con |r| maggiore un m. anche quando n° fino alla fine
Controllo la
significatività del coefficiente: se rifiuto H0 la variabile entra nel modello
variabili > n° - test a ogni step sono su
Costruisco tutti i modelli a 2 regressori e confronto R2: candido la variabile con R2 maggiore
modelli erroneamente osservazioni
Controllo H0… T-Si usa quando X X specificati
Quando mi fermo? Ho inserito tutti i regressori oppure non rifiuto H0 non si inverte
Richiede n°2- BACKWARD ELIMINATION l'errore di inclusione di variabili < osservazioni
Parto da modello completo: candido la variabile con p-value maggiore (con tc vicina a 0) - una variabile che esce non reg. irrilevanti è meno
Controllo H0: se non rifiuto esce grave dell'errore di rientra
Quando mi fermo? Tutti i regressori sono usciti oppure rifiuto H0 esclusione
STEPWISE CONVENZIONALE
Parto dal modello semplice
Per tutti: Aggiungo variabile come nella forward - modello di OTTIMO
Controllo quelle già presenti come nella backward LOCALE - metodo instabile: piccole variazioni nei dati causano modelli diversi
MODELLI LINEARI
Pagina 7