Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
LS
• Ha media E(β‹ )=β
LS ! -1 2
• Ha varianza Var(β‹ )=(X X) σ
LS
Per quanto riguarda le proprietà dello stimatore, esso è:
• Non distorto
• Consistente (se valgono certe ipotesi su X’X)
• Coincide con lo stimatore di massima verosimiglianza sotto Hp forti 16
File generato da Irene Tumminelli – Varie Fonti
Metodi quantitativi
A differenza dell’equazione teorica, l’equazione stimata stima i coefficienti (una delle rette possibile), per
fare ciò bisogna interpretare i coefficienti attraverso l’osservazione di tre elementi: - impatto di X su Y posto
j
che nel modello siano presenti altre variabili – tasso di variazione di Y al variare di X – come varia Y al variare
j
di una unità di X se gli altri regressori non variano.
j
Il segno del coefficiente indica la direzione dell’impatto del regressore a cui è associato; il valore del
coefficiente indica l’incremento marginale di Y e dipende dall’unità di misuta di X ; per valutare l’impatto
j
relativo dei singoli regressori è necessario considerare i coefficienti standardizzati. Essi sono utili per valutare
l’importanza relativa dei regressori. Possiamo ordinare i regressori in base all’importanza che hanno nello
spiegare la variabile dipendente. Il regressore con valore assoluto del coefficiente standardizzato più alto è il
più importante (anche se è negativo).
La valutazione del modello Indicatori di ‘bontà’
à
Uno dei punti nodali dell’analisi di regressione è comprendere quanto siano influenti le variabili esplicative
nel determinare l’andamento della dipendente, cioè quanta parte della variabilità di Y sia colta dalla
variazione delle variabili esplicative X. Si consideri la variabilità delle osservazioni y intorno alla sua media
i
2
data da ∑(y -ȳ) . Tale quantità viene detta somma totale dei quadrati ed è indicata con SST (total sum of
i
squares). L’idea è scomporre SST in due parti: la prima misura la variabilità dei valori stimati ŷ intorno alla
i
media ȳ ed è detta somma dei quadrati dovuta alla regressione (SSM, model sum of squares). La parte
rimanente, detta somma dei quadrati dovuta all’errore (SSE, error sum of squares), misura la variabilità delle
osservazioni intorno ai valori stimati, ovvero la parte di variabilità non spiegata dal modello. 17
File generato da Irene Tumminelli – Varie Fonti
Metodi quantitativi
2 2 2
SST= ∑(y – ȳ) SSM= ∑(ŷ – ȳ) SSE= ∑(y -ŷ ) SST=SSR+SSE
i i i i
Gli indicatori sintetici di bontà del modello sono:
2
1. Il coefficiente di determinazione R serve per valutare la capacità esplicativa del modello e misura la
variabilità delle osservazioni intorno alla ‘retta’ di regressione. È definito come il rapporto tra la
2
somma dei quadrati dovuta alla regressione (SSM) e la somma dei quadrati totale (SST) R =SSM/SST.
Tale indice è compreso tra 0 ed 1 e misura la percentuale di variabilità di Y spiegata dal modello.
SSM=0 il modello non spiega, più il valore è vicino ad 1 e più il modello ha capacità esplicativa (R-
quadro > 0,2/0,3 il modello ha capacità esplicativa), se SSM=1 il modello spiega perfettamente,
SSM=SST (R-quadro=1) OK; OK valori alti.
à
2. R-quadro adjusted è come R-quadro ma indipendente dal numero di regressori, combina adattabilità
e parsimonia. Varia tra 0 e 1 ed è ok per valori maggiori a 0,2/0,3. OK valori alti.
à
3. Test F viene introdotto per valutare la significatività congiunta dei coefficienti.
Ipotesi nulla H :β = β =…= β =0 ; H : β ≠0. La valutazione si effettua in base al p-value; se p-value è
0 1 2 p 1 i
piccolo rifiuto l’Hp di coefficienti tutti nulli, ed il modello ha buona capacità esplicativa. OK p-value
à
con valori bassi.
4. Test t viene introdotto per valutare la significatività dei singoli coefficienti.
Ipotesi nulla (j=1,..,p) H :β =0. Per la valutazione, il coefficiente è significativo (significativamente
0 i
diverso da 0) se il corrispondente p-value è piccolo ossia, rifiuto l’ipotesi di coefficiente nullo, da ciò
segue che il regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno
(di solito il p-value deve essere < 0.05).
Il segno del coefficiente: indica la direzione dell’impatto del regressore a cui è associato; se il segno atteso è
diverso da quello osservato può indicare interazione tra i regressori multicollinearità (quando un
à
regressore è combinazione lineare di altri regressori nel modello, le stime sono instabili e hanno standard
error elevato. Questo problema è chiamato multicollinearità). L’ordine di grandezza: dipende dall’unità di
misura della variabile indipendente Xj; per valutarlo si devono usare doefficienti standardizzati.
La valutazione del modello L’analisi della multicollinearità.
à
X ,…,X non sono vettori linearmente indipendenti e c’è forte correlazione tra i regressori (o alcuni di essi).
1 p
Questo comporta che la varianza dello stimatore dei minimi quadrati tende ad esplodere e si presenta un
problema di stabilità delle stime.
Per verificare la presenza di multicollinearità si effettua la regressione lineare di X sui rimanenti p-1
j
regressori:
j2
i. R misura la quota di varianza di Xj spiegata dai rimanenti p-1 regressori valori maggiori 0,2/0,3
à
alti=multicollininearità.
ii. Variance Inflation Index (VIFj) VIFj = 1 / (1 – Rj²) misura il grado di relazione lineare tra Xj e i
rimanenti p-1 regressori valori maggiori 1,2/1,3 alti=multicollininearità.
à
La soluzione al problema della multicollinearità si basa su: ANALISI FATTORIALE
à
1. trasformazione delle variabili correlate;
2. Selezione di una variabile rappresentativa dal gruppo di variabili legate da relazione lineare e
rimozione delle altre variabili correlate; 18
File generato da Irene Tumminelli – Varie Fonti
Metodi quantitativi
3. analisi delle componenti principali trasformazione dei regressori in componenti non correlate
à
(nella nuova regressione andranno incluse tutte le componenti principali perché le ultime
componenti possono essere rilevanti da un punto di vista previsivo pur non essendolo dal punto di
vista della spiegazione della variabilità di X1,…,Xp.)
La valutazione del modello la selezione dei regressori.
à
Si vuole modellare una relazione di tipo lineare tra una variabile dipendente e un insieme di regressori che si
ritiene influenzino la variabile dipendente. Tra le infinite rette che esprimono tale relazione si stima quella
che fornisce la migliore interpolazione stimando i coefficienti associati ai regressori che entrano nel modello,
minimizzando gli errori di approssimazione.
La selezione dei regressori può basarsi su: valutazioni soggettive, confronto tra tutti i possibili modelli,
algoritmi di selezione automatica. La procedura di calcolo automatico seleziona il sottoinsieme di variabili
ottimo tra quelli possibili:
• Forward selection: inserisce nell’equazione una variabile per volta, basandosi sul contributo del
regressore inserito alla spiegazione della variabilità di Y;
• Backward selection: rimuove dall’equazione una variabile per volta, basandosi sulla perdita di
capacità esplicativa della variabilità di Y conseguente all’eliminazione del regressore;
• Stepwise selection (Forward+backward selection): ogni variabile può entrare/uscire dal modello
La Stepwise Selection è una procedura sequenziale che valuta l’ingresso/uscita dal modello dei singoli
regressori (in base a indicatori legati all’R-quadro). Vengono fissati a priori due livelli di significatività
(ingresso/uscita).
- Step 0 si considerano tutti i potenziali regressori
à
- Step 1 entra il primo regressore. Ossia, viene stimato un modello contenente un unico regressore
à
tra quelli proposti (viene scelto il regressore che spiega meglio la variabilità della variabile
dipendente)
- Step 2 si valutano tutti i possibili modelli contenenti il regressore individuato allo step 1 e uno dei
à
rimanenti regressori, e si tiene il modello con il fit migliore (ossia entra il regressore che dà il
contributo maggiore alla spiegazione della variabilità)
- Step 3 e seguenti si valuta l’uscita di ognuno dei regressori presenti (in base alla minore perdita
à
di capacità esplicativa del modello) e l’ingresso di un nuovo regressore (in base al maggior
incremento nella capacità esplicativa del modello). Tra tutti i regressori rimanenti verrà scelto quello
che dà il contributo maggiore alla spiegazione della variabilità della variabile dipendente.
- Ultimo step la procedura si arresta quando nessun regressore rimanente può essere inserito in
à
base al livello di significatività scelto (slentry) e nessun regressore incluso può essere eliminato in
base al livello di significatività scelto (slstay). In pratica quando non si riesce in alcun modo ad
aumentare la capacità esplicativa del modello. (Case Study su slide Lez.9)
Criterio di arresto: quando non si riesce in alcun modo ad aumentare la capacità esplicativa del modello.
Stima del modello.
Prima di poter dire se il modello è adeguato bisogna realizzare un’analisi di influenza, cioè capire se
osservazioni anomale rispetto alla variabilità di Y sono influenti oppure no. L’analisi di influenza viene fatta
per valutare l’impatto delle singole osservazioni, considerando due possibilità: osservazioni outlier che
19
File generato da Irene Tumminelli – Varie Fonti
Metodi quantitativi
creano distorsioni nella stima del modello (plot dei residui, plot X/Y); osservazioni influenti che
contribuiscono in modo “sproporzionato” alla stima del modello (plot dei residui, statistiche di influenza).
Con riferimento alle statistiche di influenza abbiamo:
• Leverage H: misura quanto un’osservazione è lontana dal centro dei dati (ma tende a segnalare
troppe osservazioni influenti e tratta tutti i regressori nello stesso modo). L’osservazione è influente
se lev H>2*(p+1)/n. -
= 1
[ diag ( H )] [ diag ( X ( X ' X ) X ' )]
i i
(Leverage alto per i-esima ossà la correlazione tra Yi e il suo valore previsto è quasi 1&a