Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
CRITERI DI INFORMAZIONE
C’è un analogo del R aggiustato nel contesto della verosimiglianza che riguarda i cosiddetti criteri di informazione. Ne abbiamo tre ed essenzialmente si basano tutti sullo stesso concetto, cambia la penalità. Il primo è quello di Akaike, mentre gli altri, il criterio di Schwarz e il criterio di Hainnan sono più utilizzati per le serie storiche. 1. Il primo è quello che viene chiamato AIC, Akaike, che non è nient’altro che -2l calcolata in corrispondenza delle stime di massima verosimiglianza più 2 per il numero dei parametri stimati dal modello (k+2) data da k+1+1. Sto dicendo che ribalto la logl e quindi la prima parte è meglio che sia bassa e penalizzo sulla base del numero di parametri quindi penalizzo aggiungendo alla parte buona che è bassa qualcosa che la penalizza. 2. Il secondo viene chiamato SIC o BIC 2l calcolata in corrispondenza delle stime di massima verosimiglianza più (k+2) chemoltiplica log 2.Pagina 26
Attenzione!!Prima avevamo messo k+2 perché si sapeva quanti parametri avevamo, in generale se andiamo a cercare le definizioni di questi parametri abbiamo la definizione generale dove abbiamo -2 logL che dipende dai parametri più 2k dove k è il numero di parametri nel modello che nel nostro caso sono numero di pendenze, più intercetta più σ2
La differenza tra AIC e SIC/BIC è come viene applicata la penalità cioè:
Nel caso del SIC/BIC vado a pesare un po' di più per il fatto che posso avere tante osservazioni quindi tante più osservazioni ho quanto più peserà l'impatto della penalità
Nell'AIC non ho questo problema perché a prescindere da quanti parametri metto ho sempre il 2 come coefficiente invece che di logn
3. Il terzo si trova a metà strada ed è l'HQIC dove abbiamo più 2 per numero di parametri per loglogn.
Qui ho anche il doppio log che mi smorza l'effetto nella numerosità campionaria ed è per questo che è a metà strada tra AIC e SIC/BIC nel senso che pesiamo la numerosità campionaria, ma non in maniera così preponderante perché sto smorzando con il log. Questi tre criteri qua sono effettivamente ciò che viene usato per confrontare modelli diversi. Partiamo con modello con 5 variabili, modello 4 dove abbiamo AIC 527, aggiungo una variabile importante e considero il modello 7 che ha AIC di 518 quindi si abbassa e questo significa che la variabile è importante. Se però aggiungo una variabile inutile passo da 518 a 520 nel modello quindi da una parte la log-verosimiglianza è più alta, ma dall'altra si alza il criterio di AIC e questa non è una buona cosa perché significa che sto inserendo delle variabili inutili. Tanto più questi indici sono bassi meglio è, è il contrario.del R2. Il R2 è un indice di bontà di adattamento che misura la proporzione di varianza spiegata dal modello rispetto alla varianza totale dei dati. Un valore di R2 più alto indica una migliore adattabilità del modello ai dati. Se ho un AIC/BIC/HQIL negativi, vuol dire che sto considerando il valore assoluto più basso di questi criteri di selezione del modello. Questa classificazione è utile per confrontare molti modelli diversi. Se voglio massimizzare una verosimiglianza e invece di ipotizzare una distribuzione degli errori normali, posso anche cambiare la distribuzione. In questo caso, ottengo una nuova verosimiglianza e posso confrontare non solo la presenza di parametri aggiuntivi, ma anche la forma funzionale dei miei dati. Quindi, questi criteri di selezione del modello sono estremamente versatili perché vanno oltre ciò che può fare R. Infatti, si occupano sia di una questione di parametri aggiuntivi sulla stessa struttura (come anche R2), sia di una situazione in cui cambio completamente la forma funzionale della verosimiglianza e quindi, invece di usare la distribuzione normale, utilizzo qualcos'altro e posso confrontare le due situazioni. Pagina 27. Adesso analizziamo tutto ciò che riguarda il R2.significatività globale della regressione quindi da unaparte abbiamo i test T sulle singole variabili, dall'altra abbiamo un test cosiddetto test F sull'interaregressione. Nel test F stiamo facendo un'ipotesi nulla su tutti i coefficienti del modello, ma attenzione che non stiamo includendo in questo sistema l'intercetta, non c'è β0 stiamo ponendo come ipotesi nulla che tutte le pendenze siano uguali a 0. L'ipotesi alternativa è che ci sia almeno un βJ diverso da 0. A questo test possiamo arrivarci attraverso due strade, la prima è quella più rigorosa e la seconda è un'approssimazione che sfrutta R2. Nella prima vediamo il test F come caso particolare di quelli che vengono chiamati test per restrizioni lineari. Abbiamo come ipotesi nulla Lβ uguale a q e come ipotesi alternativa L β diverso da q. Quando poniamo ipotesi nulla non dobbiamo mai scrivere β^ perché il test F è.fatto sulvettore dei parametri ignoti non sullo stimatore, è importante!!! Qui stiamo ponendo che una o più combinazione lineari di parametri β siano uguali a un vettore q noto. β è il vettore dove considero tutte le pendenze quindi è un vettore (k+1)x1, mentre q è il numero di restrizioni H+1 che sto mettendo nel mio modello, L per bilanciare il prodotto è una matrice Hx(k+1). Facciamo un esempio. Ho un modello con 5 coefficienti inclusa l'intercetta. Supponiamo di avere un modello sul logsalario e ho come variabili anni di istruzione e anni di lavoro dove β è β1 l'educazione e β è β2 il lavoro. Voglio testare per esempio queste ipotesi. L'ipotesi nulla se β2 è uguale a β1 che posso anche scrivere come differenza tra β1 e β2 pari a 0. Pagina 28 Cerchiamo di identificare i soggetti da mettere in LB=q. Quante descrizioni sto ponendo? Ne ho una perché ho una sola equazione chevincola i parametri quindi a destra dell'uguale ho uno scalare e sarà tutto ciò che non dipende da β sarà pari a 0. Abbiamo il vettore dei coefficienti che resta così, la matrice siccome abbiamo 5x1 e un 1x5 allora la L sarà un vettore in questo caso di termini fissi che devono essere bilancianti in modo da ottenere quell'ipotesi quindi β β β saranno pari a 0, mentre passando a β e β dobbiamo vedere 0 3 4 1 2 i confidenti di questa combinazione oleare che sono 1 e -1 Poniamo un esempio più complicato. Supponiamo di voler fare due ipotesi. Sempre β è uguale a β supponiamo anni di lavoro come 1 2 tirocinio e anni di lavoro come contratto a tempo determinato voglio sapere se β che sono gli anni 4 di lavoro con contratto a tempo determinato hanno effetto doppio sul salario rispetto agli anni di apprendistato, quindi vogliamo ipotizzare se β = 2 * β . Riscriviamo le due equazioni. 4 3abbiamo due restrizioni perché abbiamo due equazioni che vincolano i parametri. Abbiamo un vettore 2x1, un vettore dei parametri e poi la matrice 2x5. β non appare né nella prima equazione né nella seconda quindi lo pongo uguale a 0. β e β appaiono solo nella prima equazione e non nella seconda quindi nella seconda si pongono uguali a 0. β e β appaiono solo nella seconda equazione e non nella prima quindi nella prima si pongono uguali a 0. Adesso andiamo a determinare i valori mancanti con i coefficienti della combinazione lineare che saranno 1 -1 per la prima equazione e 2 -1 per la seconda equazione. Il test F come lo scrivo? Il test F è un altro caso particolare. Abbiamo il vettore dei nostri coefficienti e siccome sto ponendo tutti i coefficienti uguali allora il termine noto è kx1. La matrice L è una matrice kxk+1 la prima colonna che quella di β non mi interessa, per tutto il resto sto ponendo uguale a 0 i coefficienti uno per uno.volta quindi ho una diagonale di 1 ed esternamente non ho nulla quindi ho prima riga β uguale a 0, seconda riga β uguale a 0, ... fino all'ultimo β uguale a 0. È un caso particolare in cui ho una matrice diagonale appoggiata a sinistra da un vettore nullo perché β0 non mi interessa. Un altro esercizio da fare all'esame è quello di convertire un sistema di restrizioni scritto in forma equazionale in forma matriciale. Pagina 29. Il caso F è un caso particolare, ma rientra nel calderone dei test dell'ipotesi lineari. L'idea è dire che questo test F porta con sé una statistica test, questa statistica test come si calcola e che distribuzione ha, la distribuzione sarà come il test T sotto H0. Il calcolo può essere fatto in due modi: o direttamente tramite l'imposizione delle restrizioni oppure tramite R che è un'approssimazione. In entrambi i casi il proposito è dire che se accetto.l'ipotesi nulla, le variabili nel modello non servono a niente, quindi il modello è da buttare dal punto di vista inferenziale. Non servono tutte quindi le X non hanno alcuna utilità dal punto di vista inferenziale. Cosa significa dal punto di vista inferenziale? È vero che R e F test sono collegati, cioè hanno un legame di tipo matematico, ma R è solo l'indicazione di bontà di adattamento nel campione, quindi mi dice, fatta 100 la variabilità totale, una certa parte del modello fine, non mi dice nient'altro. F-test mi dà l'idea che le conclusioni sui βj hanno un riflesso a livello di popolazione da cui ho estratto il mio campione, quindi mi dice essenzialmente se a livello di popolazione quelle variabili hanno un impatto sulla mia variabile endogena. In poche parole, se ho F test con variabili socioeconomiche e F test mi dice rigetta H0, posso dire che le variabili che ho usato, almeno una, in un contesto più ampio, hanno un impatto sulla mia variabile endogena.globale del campione che ho usato per la stima riescono a dare un'interpretazione della variabile endogena. R mi dice solamente se il modello si adatta bene ai dati a livello geometrico e se la retta, l'iperpiano che ho tracciato approssima bene i dati di cui dispongo.
L'obiettivo è di verificare come si arriva alla statistica test tramite il sistema di restrizioni lineari. Per fare questo servono alcune informazioni che in realtà sono tra le ipotesi del modello alienare classico. Una di queste ipotesi è che l'errore è normalmente distribuito con media 0 e varianza costante. In più permangono tutte le altre ipotesi quali: la matrice di covarianza degli errori è σ per la matrice identità e i regressori siano non stocastici quindi sono fissi altrimenti incorro in problemi di inconsistenza.
Pagina 30 Fissando queste idee e prendendo la forma compatta del modello. Adesso so un