Anteprima
Vedrai una selezione di 6 pagine su 22
Appunti metodi quantitativi Pag. 1 Appunti metodi quantitativi Pag. 2
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Appunti metodi quantitativi Pag. 6
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Appunti metodi quantitativi Pag. 11
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Appunti metodi quantitativi Pag. 16
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Appunti metodi quantitativi Pag. 21
1 su 22
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

LS

• Ha media E(β‹ )=β

LS ! -1 2

• Ha varianza Var(β‹ )=(X X) σ

LS

Per quanto riguarda le proprietà dello stimatore, esso è:

• Non distorto

• Consistente (se valgono certe ipotesi su X’X)

• Coincide con lo stimatore di massima verosimiglianza sotto Hp forti 16

File generato da Irene Tumminelli – Varie Fonti

Metodi quantitativi

A differenza dell’equazione teorica, l’equazione stimata stima i coefficienti (una delle rette possibile), per

fare ciò bisogna interpretare i coefficienti attraverso l’osservazione di tre elementi: - impatto di X su Y posto

j

che nel modello siano presenti altre variabili – tasso di variazione di Y al variare di X – come varia Y al variare

j

di una unità di X se gli altri regressori non variano.

j

Il segno del coefficiente indica la direzione dell’impatto del regressore a cui è associato; il valore del

coefficiente indica l’incremento marginale di Y e dipende dall’unità di misuta di X ; per valutare l’impatto

j

relativo dei singoli regressori è necessario considerare i coefficienti standardizzati. Essi sono utili per valutare

l’importanza relativa dei regressori. Possiamo ordinare i regressori in base all’importanza che hanno nello

spiegare la variabile dipendente. Il regressore con valore assoluto del coefficiente standardizzato più alto è il

più importante (anche se è negativo).

La valutazione del modello Indicatori di ‘bontà’

à

Uno dei punti nodali dell’analisi di regressione è comprendere quanto siano influenti le variabili esplicative

nel determinare l’andamento della dipendente, cioè quanta parte della variabilità di Y sia colta dalla

variazione delle variabili esplicative X. Si consideri la variabilità delle osservazioni y intorno alla sua media

i

2

data da ∑(y -ȳ) . Tale quantità viene detta somma totale dei quadrati ed è indicata con SST (total sum of

i

squares). L’idea è scomporre SST in due parti: la prima misura la variabilità dei valori stimati ŷ intorno alla

i

media ȳ ed è detta somma dei quadrati dovuta alla regressione (SSM, model sum of squares). La parte

rimanente, detta somma dei quadrati dovuta all’errore (SSE, error sum of squares), misura la variabilità delle

osservazioni intorno ai valori stimati, ovvero la parte di variabilità non spiegata dal modello. 17

File generato da Irene Tumminelli – Varie Fonti

Metodi quantitativi

2 2 2

SST= ∑(y – ȳ) SSM= ∑(ŷ – ȳ) SSE= ∑(y -ŷ ) SST=SSR+SSE

i i i i

Gli indicatori sintetici di bontà del modello sono:

2

1. Il coefficiente di determinazione R serve per valutare la capacità esplicativa del modello e misura la

variabilità delle osservazioni intorno alla ‘retta’ di regressione. È definito come il rapporto tra la

2

somma dei quadrati dovuta alla regressione (SSM) e la somma dei quadrati totale (SST) R =SSM/SST.

Tale indice è compreso tra 0 ed 1 e misura la percentuale di variabilità di Y spiegata dal modello.

SSM=0 il modello non spiega, più il valore è vicino ad 1 e più il modello ha capacità esplicativa (R-

quadro > 0,2/0,3 il modello ha capacità esplicativa), se SSM=1 il modello spiega perfettamente,

SSM=SST (R-quadro=1) OK; OK valori alti.

à

2. R-quadro adjusted è come R-quadro ma indipendente dal numero di regressori, combina adattabilità

e parsimonia. Varia tra 0 e 1 ed è ok per valori maggiori a 0,2/0,3. OK valori alti.

à

3. Test F viene introdotto per valutare la significatività congiunta dei coefficienti.

Ipotesi nulla H :β = β =…= β =0 ; H : β ≠0. La valutazione si effettua in base al p-value; se p-value è

0 1 2 p 1 i

piccolo rifiuto l’Hp di coefficienti tutti nulli, ed il modello ha buona capacità esplicativa. OK p-value

à

con valori bassi.

4. Test t viene introdotto per valutare la significatività dei singoli coefficienti.

Ipotesi nulla (j=1,..,p) H :β =0. Per la valutazione, il coefficiente è significativo (significativamente

0 i

diverso da 0) se il corrispondente p-value è piccolo ossia, rifiuto l’ipotesi di coefficiente nullo, da ciò

segue che il regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno

(di solito il p-value deve essere < 0.05).

Il segno del coefficiente: indica la direzione dell’impatto del regressore a cui è associato; se il segno atteso è

diverso da quello osservato può indicare interazione tra i regressori multicollinearità (quando un

à

regressore è combinazione lineare di altri regressori nel modello, le stime sono instabili e hanno standard

error elevato. Questo problema è chiamato multicollinearità). L’ordine di grandezza: dipende dall’unità di

misura della variabile indipendente Xj; per valutarlo si devono usare doefficienti standardizzati.

La valutazione del modello L’analisi della multicollinearità.

à

X ,…,X non sono vettori linearmente indipendenti e c’è forte correlazione tra i regressori (o alcuni di essi).

1 p

Questo comporta che la varianza dello stimatore dei minimi quadrati tende ad esplodere e si presenta un

problema di stabilità delle stime.

Per verificare la presenza di multicollinearità si effettua la regressione lineare di X sui rimanenti p-1

j

regressori:

j2

i. R misura la quota di varianza di Xj spiegata dai rimanenti p-1 regressori valori maggiori 0,2/0,3

à

alti=multicollininearità.

ii. Variance Inflation Index (VIFj) VIFj = 1 / (1 – Rj²) misura il grado di relazione lineare tra Xj e i

rimanenti p-1 regressori valori maggiori 1,2/1,3 alti=multicollininearità.

à

La soluzione al problema della multicollinearità si basa su: ANALISI FATTORIALE

à

1. trasformazione delle variabili correlate;

2. Selezione di una variabile rappresentativa dal gruppo di variabili legate da relazione lineare e

rimozione delle altre variabili correlate; 18

File generato da Irene Tumminelli – Varie Fonti

Metodi quantitativi

3. analisi delle componenti principali trasformazione dei regressori in componenti non correlate

à

(nella nuova regressione andranno incluse tutte le componenti principali perché le ultime

componenti possono essere rilevanti da un punto di vista previsivo pur non essendolo dal punto di

vista della spiegazione della variabilità di X1,…,Xp.)

La valutazione del modello la selezione dei regressori.

à

Si vuole modellare una relazione di tipo lineare tra una variabile dipendente e un insieme di regressori che si

ritiene influenzino la variabile dipendente. Tra le infinite rette che esprimono tale relazione si stima quella

che fornisce la migliore interpolazione stimando i coefficienti associati ai regressori che entrano nel modello,

minimizzando gli errori di approssimazione.

La selezione dei regressori può basarsi su: valutazioni soggettive, confronto tra tutti i possibili modelli,

algoritmi di selezione automatica. La procedura di calcolo automatico seleziona il sottoinsieme di variabili

ottimo tra quelli possibili:

• Forward selection: inserisce nell’equazione una variabile per volta, basandosi sul contributo del

regressore inserito alla spiegazione della variabilità di Y;

• Backward selection: rimuove dall’equazione una variabile per volta, basandosi sulla perdita di

capacità esplicativa della variabilità di Y conseguente all’eliminazione del regressore;

• Stepwise selection (Forward+backward selection): ogni variabile può entrare/uscire dal modello

La Stepwise Selection è una procedura sequenziale che valuta l’ingresso/uscita dal modello dei singoli

regressori (in base a indicatori legati all’R-quadro). Vengono fissati a priori due livelli di significatività

(ingresso/uscita).

- Step 0 si considerano tutti i potenziali regressori

à

- Step 1 entra il primo regressore. Ossia, viene stimato un modello contenente un unico regressore

à

tra quelli proposti (viene scelto il regressore che spiega meglio la variabilità della variabile

dipendente)

- Step 2 si valutano tutti i possibili modelli contenenti il regressore individuato allo step 1 e uno dei

à

rimanenti regressori, e si tiene il modello con il fit migliore (ossia entra il regressore che dà il

contributo maggiore alla spiegazione della variabilità)

- Step 3 e seguenti si valuta l’uscita di ognuno dei regressori presenti (in base alla minore perdita

à

di capacità esplicativa del modello) e l’ingresso di un nuovo regressore (in base al maggior

incremento nella capacità esplicativa del modello). Tra tutti i regressori rimanenti verrà scelto quello

che dà il contributo maggiore alla spiegazione della variabilità della variabile dipendente.

- Ultimo step la procedura si arresta quando nessun regressore rimanente può essere inserito in

à

base al livello di significatività scelto (slentry) e nessun regressore incluso può essere eliminato in

base al livello di significatività scelto (slstay). In pratica quando non si riesce in alcun modo ad

aumentare la capacità esplicativa del modello. (Case Study su slide Lez.9)

Criterio di arresto: quando non si riesce in alcun modo ad aumentare la capacità esplicativa del modello.

Stima del modello.

Prima di poter dire se il modello è adeguato bisogna realizzare un’analisi di influenza, cioè capire se

osservazioni anomale rispetto alla variabilità di Y sono influenti oppure no. L’analisi di influenza viene fatta

per valutare l’impatto delle singole osservazioni, considerando due possibilità: osservazioni outlier che

19

File generato da Irene Tumminelli – Varie Fonti

Metodi quantitativi

creano distorsioni nella stima del modello (plot dei residui, plot X/Y); osservazioni influenti che

contribuiscono in modo “sproporzionato” alla stima del modello (plot dei residui, statistiche di influenza).

Con riferimento alle statistiche di influenza abbiamo:

• Leverage H: misura quanto un’osservazione è lontana dal centro dei dati (ma tende a segnalare

troppe osservazioni influenti e tratta tutti i regressori nello stesso modo). L’osservazione è influente

se lev H>2*(p+1)/n. -

= 1

[ diag ( H )] [ diag ( X ( X ' X ) X ' )]

i i

(Leverage alto per i-esima ossà la correlazione tra Yi e il suo valore previsto è quasi 1&a

Dettagli
Publisher
A.A. 2017-2018
22 pagine
4 download
SSD Scienze economiche e statistiche SECS-P/08 Economia e gestione delle imprese

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Angila945 di informazioni apprese con la frequenza delle lezioni di Metodi quantitativi per economia, finanza e management e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università "Carlo Cattaneo" (LIUC) o del prof Saccardi Alberto.