Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
RIPASSO
• Test d’ipotesi
• Regola decisionale:
- ⇒
Se rifiuto non posso rifiutare il modello, il modello di regressione lineare
0 aiuta a spiegare parte della
variabilità della variabile risposta.
- ⇒
Se non rifiuto rifiuto il modello
0
.:
OSS • Statistica test
Se consideriamo questa quantità, tanto più questa quantità sarà lontana da zero allora
più ci sarà evidenza di una relazione lineare tra x e y.
• Consideriamo la devianza spiegata:
Possiamo riscrivere a stessa quantità in modo differente, vista come variabile
aleatoria:
• Consideriamo:
•
sotto abbiamo che:
0
se sostituisco tutti i valori ottengo:
• devianza spiegata: Proprietà:
Il quadrato di una Normale standard è
una Chi-Quadro con un grado di libertà
• devianza residua
Osserviamo ora la nostra statistica test, e ne cerchiamo la distribuzione:
̂
̂ 2
e e
sapendo che sono indipendenti (anche )
1 Proprietà:
Date due variabile aleatorie U e V tali che:
dove è una distribuzione di Fisher con r e s gradi di libertà.
,
Possiamo infine scrivere che: (0, +∞)
La distribuzione di Fisher ha come supporto la semiretta positiva
• livello di significatività
Sia un determinato livello di significatività, determiniamo
̂
12 2
=
̂ 2
• regola decisionale
- > ⇒ rifiuto
se 1,−2,1− 0
- < ⇒ accetto
se 1,−2,1− 0
• p-value
− = ( > )
- − < ⇒ rifiuto ⇒ non rifiuto il modello
se 0
- − > ⇒ accetto ⇒ rifiuto il modello
se 0
Diagnostica per un modello di
Regressione Lineare Semplice
Assunzioni di Modello Regressione Lineare Semplice Normale:
• → [ ] = +
Linearità 0 1
• 2
→ )
( =
Omoschedasticità
• → ( , = 0
)
Incorrelazione tra errori
• 2
→
~ (0, )
Normalità di
Per poter verificare le varie assunzioni ci rifacciamo all’uso dell’assunzione di assenza di
outliers, gli strumenti da utilizzare:
- Grafici (intuitivi)
- Test analitici (quantitativi, p-value)
Il miglior modo è l’utilizzo combinato dei due metodi.
La quantità più interessante per validare le assunzioni del modello di regressione è quello di
utilizzare i residui.
ANALISI DEI RESIDUI ( ),
, … , ( , )
Una volta osservate le coppie consideriamo i residui come equivalenti
1 1
campionari degli errori non osservabili
L’idea è di utilizzare i residui per verificare la validità delle assunzioni fatte sugli errori.
→
Alla base ci sono assunzioni sul modello (su ) sulla base di queste assunzioni abbiamo
→
studiato delle proprietà del modello in particolare la proprietà dei residui.
• Se le assunzioni sono valide i residui avranno determinate proprietà.
• Se queste proprietà sono violate, allora le assunzioni alla base del modello non sono
valide.
Proprietà algebriche dei residui
I residui possono essere pensati come realizzazioni di una variabile aleatoria
̂
→ = −
ottengo .
Proprietà stocastiche dei residui →
La varianza del residuo dipende dalla covariata è diversa per ogni i.
Perciò anche se gli errori sono assunti omoschedastici, i residui sono eteroschedastici.
Consideriamo una trasformazione del residuo: ̂
2 2
è un parametro del modello che non conosciamo, tuttavia è possibile stimarlo con .
Possiamo definire un’altra trasformazione dei residui: residui studentizzati
ANALISI GRAFICA DEI RESIDUI
- asse X: residui
- ̂
asse Y: covariata oppure valori previsti ̂ ̂
̂ = +
risulta equivalente considerare: (trasformazione lineare)
0 1
Se il grafico con le covariate sull’asse delle x
segnala un determinato andamento dei
residui, questo andamento si può riconoscere
anche nel grafico in cui mettiamo sulle x
il valore previsto piuttosto che il valore
della covariata.
• È vera se consideriamo un modello di regressione lineare semplice.
Dalla proprietà algebriche, si può fare vedere che la correlazione tra residui e covariate è
uguale a zero. (→ se la covarianza è uguale a zero)
Analogamente:
se i grafici mostrano un andamento diverso tipico da due variabili incorrelate, allora si può
interpretare ciò come una violazione delle assunzioni del modello.
Inoltre, sappiamo che se consideriamo i residui standardizzati/studentizzati allora ci
̂.
aspettiamo che la variabilità sia costante, e non dipenda da o da
, ()
Al posto di possiamo considerare una trasformazione -> il modello lineare non
→
è adatto a descrivere la relazione tra variabile esplicativa e risposta perciò considero
modelli non-lineari.
In questi grafici, vi è un dubbio sull’omoschedasticità violata. I residui grezzi non sono
omoschedastici perciò risulta difficile capire se l’assunzione è violata o meno. È perciò
necessario considerare i residui studentizzati/standardizzati.
Le proprietà algebriche dei residui ci permettono di dire, che se andiamo a visualizzare il
grafico di dispersione dei residui standardizzati rispetto alla variabile esplicativa (o rispetto ai
valori previsti) allora se vediamo delle tendenze sistematiche che violano l’incorrelazione tra
variabile esplicativa e residui interpretiamo come un’indicazione che le assunzioni alla base
del modello non sono valide. Dal tipo di grafico possiamo intuire quale sia l’assunzione violata.
RIPASSO
Distribuzione di
̂ ̂
Ho riscritto e come combinazioni lineari.
0 1
Allora:
Residui Standardizzati
Mi permette di recuperare il concetto di omoschedasticità.
Residui internamente studentizzati
Residui esternamente studentizzati
̂ 2 2
è lo stimatore di ottenuto dal campione osservato da cui abbiamo cancellato
(−)
l’osservazione i-sima partendo da n-1 coppie, cioè:
{( ), ( ), ( ), ( )}
, … , , , … , , .
1 1 −1 −1 +1 +1
Verifica incorrelazione dei residui (o ritardati)
Residui vs residui laggati
+1
Quello che possiamo fare è visualizzare uno scatter-plot composto da n- punti che son i punti
( ), ( ),
, , … , ( , ).
di coordinate 1 2 2 3 −1
È interessante perché nel caso in cui non ci sia correlazione tra i residui, ovvero nel caso che la
→
nostra assunzione sull’incorrelatezza della variabile errore sia valida ci aspettiamo che il
fatto che il residuo indicizzato da un ‘indice i sia positivo non ci dia un’informazione utile a
prevedere se il residuo per l’osservazione indicizzata con i+1 sia positivo o negativo, in quanto
le due sono incorrelate.
In caso di incorrelatezza dei residui mi aspetto di visualizzare una nuvola di punti concentrata
attorno all’origine ma che non evidenzia nessun andamento sistematico, al contrario in caso
di correlazione positiva tra i residui con due indici successivi, mi aspetto che dato positivo
aumenti anche la probabilità che sia positivo. Mi aspetto di vedere uno scatter-plot in cui
+1
la nuvola di punti cadrà nel primo e/o nel terzo quadrante. Se la correlazione fosse negativa
mi aspetto di vedere la nuvola di punti che cade nel secondo e nel quarto quadrante.
→
Dati simulati: indipendenti incorrelazion
Corr( )
, > 0
Dati simulati: +1
( )
= , è possibile formulare un test con le seguenti ipotesi:
1 +1 →
: = 0 Test Durbin-Watson In R è possibile utilizzarlo scaricando il
0 1
: ≠ 0 pacchetto lmtest utilizzando la funzione dwtest.
1 1 Corr( )
, < 0
Dati simulati: +1
Verifica omoschedasticità del modello
I residui grezzi non sono utili per la verifica del modello in quanto la varianza dipende
dall’indice i.
Grafici utili da analizzare:
• Residui studentizzati (asse y), variabile esplicativa (asse x)
• √|residui |
studentizzati (asse y), variabile esplicativa (asse x)
2
( ) =
-)
( ) dipende da
-)
Verifica: normalità dei residui
Volgiamo verificare se i residui che calcoliamo hanno una distribuzione che è coerente con la
proprietà da verificare. I residui devono avere distribuzione di una normale standard.
1. Si può confrontare l’istogramma dei residui con la densità di una normale standard
() ()
2. Confrontare la funzione di ripartizione empirica e teorica
3. Confrontare i quantili empirici e quelli teorici
Dati simulati:
1. = 50 ~
= 500 ~
= 50 : non normale (bimodale)
= 500 : non normale (bimodale)
= 50 : non normale (T )
2
= 500 : non normale (T )
2
2. Se abbiamo una variabile aleatoria allora la funzione di ripartizione Funzione indicatrice:
= 50 ~
= 500 ~
= 50 : bimodale
= 500 : bimodale
= 50 ~
2
= 500 ~
2
Test di kolmogorov-smirnov In R:
ks.test()
3.
Possiamo scegliere:
Conveniente perché, se consideriamo la funzione di ripartizione empirica in questi valori,
otteniamo:
Il confronto che farò sarà tra le componenti delle coppie:
Per evitare questo tipo di problema, considero:
grafico quantile vs. quantile Ci aspettiamo di osserv