Appunti Modelli statistici per l'impresa - parte 2

Esame Modelli statistici per l'impresa

Facoltà Economia

Università Università degli Studi di Roma La Sapienza

Appunti esame

Appunti di Modelli statistici per l'impresa presi in maniera precisa sulla base del materiale che ha fornito la professoressa, con i quali sono riuscito a prendere il massimo (tenendo conto che comunque partivo da una buona base perché ho fatto il progetto richiesto dalla prof.).
possono essere usati per un verso e proprio primo studio e non solo per ripasso. Questa è la seconda parte.

…continua

Anteprima

Vedrai una selezione di 6 pagine su 23

Appunti Modelli statistici per l'impresa - parte 2 Pag. 1

Appunti Modelli statistici per l'impresa - parte 2 Pag. 2

Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.

Scarica

Appunti Modelli statistici per l'impresa - parte 2 Pag. 6

Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.

Scarica

Appunti Modelli statistici per l'impresa - parte 2 Pag. 11

Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.

Scarica

Appunti Modelli statistici per l'impresa - parte 2 Pag. 16

Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.

Scarica

Appunti Modelli statistici per l'impresa - parte 2 Pag. 21

Disdici quando
vuoi

Acquista con carta
o PayPal

Scarica i documenti
tutte le volte che vuoi

Estratto del documento

SI RICORDA CHE LA STIMA DEI RESIDUI ( ), CIOE’ LA DIFFERENZA TRA VALORE

i i i

OSSERVATO E VALORE PREVISTO DAL MODELLO (VALORE STIMATO), RAPPRESENTA LA

PARTE DI VARIANZA NON SPIEGATA.

- Analisi gra ca:

Il primo tipo di analisi è l’analisi di tipo gra co e può riguardare i residui grezzi, standardizzati,

studentizzati e parziali. Pagina 28 di 70

ffi fi fi fi fi fi ff ff ff ffi fi fi fi

e = y − y

Essendo i residui grezzi —> e potendo essere visti come realizzazione delle variabili

i i i

̂ 2

E = Y − Y (1 − p )Y = (1 − p )ϵ ϵ ∼ N(0,σ )

aleatorie e quindi —> , ciò implica che, se ,

i i i ii i ii i i

2 2

E ∼ N(0,(1 − p ) σ ) ϵ

allora —> . Cioè, nonostante i disturbi siano omoschedastici e

i ii i

E p

incorrelati, i residui nono sono e la loro varianza dipende da .

i ii

p y y

—> costituisce il peso da attribuire a per stimare , quindi rappresenta l’in uenza che

ii i i p

l’osservazione i-esima esercita sulle stime OLS —> tanto maggiore è , tanto più elevata è

l’in uenza di sulle stime. Per tale motivo è detta LEVERAGE, o LEVA.

i p

I valori che assume vanno da 1/n a 1.

ii E p Var (E )

Osservando la varianza di , si nota che maggiore è la leverage ( ), tanto più viene

i ii i

ridotta rispetto alla varianza .

Per eliminare questa forma di ETEROSCHEDASTICITA’, basta standardizzare i residui che

risulteranno distribuiti normalmente con varianza 1 (quindi costante).

—> I RESIDUI STANDARDIZZATI RISULTANO PIU’ IDONEI DI QUELLI GREZZI A

VERIFICARE LE IPOTESI SUI TERMINI DI DISTURBO POICHE’ QUELLI GREZZI

PRESENTANO ETEROSCHEDASTICITA’ E CORRELAZIONE, MENTRE QUELLI

STANDARDIZZATI NO. 2

I RESIDUI STANDARDIZZATI, DIPENDONO DALLA VARIANZA INCOGNITA ; SE NELLA

STANDARDIZZAZIONE QUESTA E’ SOSTITUITA CON UNA STIMA APPROPRIATA, I

RESIDUI STANDARDIZZATI SONO DISTRIBUITI SECONDO UNA t-STUDENT E QUINDI

SONO DETTI STUDENTIZZATI.

La stima più appropriata di nel caso dei residui standardizzati, può cambiare a seconda

dell’obiettivo dell’analisi:

- Può essere ottenuta nel metodo consueto —> devianza residua divisa per gli n-k gradi —>

E

T = studentized).

(internally

i S(1 − p )

- Nel caso in cui l’analisi sia volta all’individuazione di OUTLIERS (valori anomali, cioè che si

discostano particolarmente dal pattern generale dei dati) si dovrà escludere dal calcolo della

devianza residua unità sotto esame, considerata come potenziale outlier —>

n E

̂ i

2 2

∑

σ = e → T = studentized).

(externally

(i) n − k − 1 ̂

(1 − p ) σ 2

j≠i, j=1 ii (i)

IN ALTRI TERMINI:

Dopo aver stimato un modello di regressione, dobbiamo veri care se è a dabile.

Come? Controllando se le ipotesi di base (normalità degli errori, omoschedasticità, linearità) sono

rispettate. ̂

e = y − y ε

I residui ( ) sono la nostra "lente d'ingrandimento" sugli errori del modello ( ).

i i i i

Problema chiave: Anche se gli errori veri ( ) sono "perfetti" (normalmente distribuiti, varianza

costante), i residui ( ) non lo sono!

Perché? Per colpa della matrice di proiezione (o hat matrix). ̂

p y

Il suo elemento (detto leverage) misura quanto l'osservazione i-esima in uenza la stima di

ii i

p e σ

Impatto: Se è alto, la varianza del residuo è più piccola di . È come se il modello

ii i

y y

“forzasse" vicino a per i punti con alta leverage.

i i

Come "aggiustiamo" i residui per analizzarli?

Per eliminare questo problema, trasformiamo i residui:

Residui standardizzati:

1. e e

i i

(e ) σ 1 − p

Var i ii 2

Hanno media 0 e varianza 1 … ma è sconosciuta!

Residui studentizzati:

2. 2 2

σ s

Sostituiamo con una sua stima : Pagina 29 di 70

fl fi ffi fl fl

Internally studentized:

1. Usiamo calcolata su tutti i dati.

T =

i s 1 − p

ii 2 2

s σ

Externally studentized:

2. Per cercare outlier, usiamo (stima di escludendo

(i)

l'osservazione i).

T =

i s (1 − p )

2 ii

(i) 2

i s

Perché? Se è un outlier, includerlo in "contamina" la stima della variabilità.

Escludendolo, abbiamo un giudizio più obiettivo.

- L’ultimo caso è quello in cui si voglia veri care che una variabile esplicativa, al netto dell’azione

delle altre esplicative, entri linearmente nel modello oppure no.

Essendo che spesso le esplicative sono tra loro correlate, per tenere sotto controllo il loro

X

e etto mentre si valuta il tipo di legame tra la Y e l’esplicativa in questione ( ), si può ricorrere

partila residuals

ai —> rappresentano la parte di Y che dipende dall’esplicativa considerata, ma

non dalle altre. pr = e + b x

Per ogni esplicativa si ha una diversa serie di residui parziali —> .

ih i u ih

RESIDUAL PLOTS:

I gra ci dei residui (RESIDUAL PLOTS), sono lo strumento principale per l’analisi esplorativa e

aiutano ad identi care problemi nel modello stimato:

Tipo di gra co Cosa cercare Problema indicato

y Pattern a imbuto, curva, punti Eteroschedicità, non-linearità,

Residui vs (y stimate) isolati outliers

Residui vs ciascuna delle Andamento concausale (trend, La relazione con quella variabile

esplicative curve) potrebbe non essere lineare

Q-Q plot (Normal probability Scostamenti dalla retta ideale Non-normalità degli errori

plot) (asimmetria, code pesanti)

pr = e + b x Se i punti non seguono una retta

Partial residual plots ih i u ih X

X —> la relazione con non è

Mostra la relazione tra Y e al h

h lineare.

netto delle altre variabili.

Tipo di gra co Cosa si plotta A cosa serve

y Veri care se c’è presenza di

Residui sull’asse Y.

Residui vs (y stimate) i eteroschedasticità, non-linearità,

Valori stimati sull’asse X.

i outliers

Residui vs ciascuna delle Controllare relazione lineare con

Residui sull’asse Y.

i X

esplicative (senza considerare altre

Una singola variabile X sull’asse j

X. variabili).

Q-Q plot (Normal probability Residui ordinati vs. Quantici Controllare la normalità degli

plot) teorici. errori.

Partial residual plots Veri care la linearità speci ca di

Residui parziali sull’asse

ih X al netto delle altre variabili.

delle Y. h

X

Variabile sull’asse X.

Nel primo caso (residui verso y stimate), in assenza di problemi, i residui dovrebbero presentare

oscillazioni di ampiezza tendenzialmente costante (omoschedasticità), ed essere distribuiti

casualmente intorno allo zero.

Nel caso dei Q-Q plots, se i punti si dispongono lungo una retta, allora l’IPOTESI DI

NORMALITA’ può ritenersi valida; se invece si dispongono lungo una curva con concepita verso il

Pagina 30 di 70

ff fi

fi fi fi

fi fi fi fi

basso, la distribuzione dei residui è obliqua a sinistra (asimmetrica negativa), al contrario, se

concavità verso l’alto, distribuzione obliqua a destra (asimmetria positiva).

Nel caso in cui si voglia veri care liIPOTESI DI LINEARITA’ della relazione tra y e le

coviariate (variabili indipendenti), si può usare il plot delle y osservate verso ciascuna

esplicativa, o il plot dei residuali

ma in questo caso non si tengono sotto controllo le altre,

parziali per ogni esplicativa.

In questo caso, se la nuvola dei punti si dispone intorno ad una retta l’ipotesi di linearità è

confermata; in caso contrario si ha indicazione del fatto che l’esplicativa considerata in uenza la

Y in modo non lineare.

L’ultima analisi riguarda l’eventuale presenza di outliers, in questo caso si distingue tra

osservazioni che nello scattare plot corrispondono a punti molto lontani dai rimanenti (outliers) e

osservazioni per le quali una variazione comporterebbe una modi ca sostanziale nei risultati

dell’analisi (leverage points): p

- Punti con alta leverage —> Presentano alti valori di , dovuti a valori esprime di una o più

covariate, e potrebbero avere una grande in uenza sulla stima dei parametri e caratterizzarsi

quindi come leverage points, ma potrebbero anche produrre stime molto prossime ai valori

—> PUNTO CON ALTO, VALORE ESTREMO DI UNA VARIABILE ESPLICATIVA.

osservati. ii 2k

p >

Regola pratica per identi care un punto di alta leverage —> se allora alta

ii n

leverage

- Outliers —> Sono punti per i quali il modello presenta uno scarso adattamento, ma non

—> PUNTI CON RESIDUO

necessariamente hanno un forte e etto sulla stima dei parametri.

| |

GRANDE ( ELEVATO).

- Leverage/in uence point —> Sono outliers che hanno una grossa in uenza nella regressione

p —> COMBINA ALTO

e presentano contemporaneamente alti valori di e dei residui.

RESIDUO E ALTA LEVERAGE. IL PERICOLO E’ CHE TIRI LA RETTA DI REGRESSIONE

VERSO DI SE, DISTORCENDO LE STIME.

Per misurare l’in uenza esercitata da un certo punto viene usata la DISTANZA DI COOK

1 4

D = e D >

—> . È considerata alta una per cui vi è alta in uenza.

i i

k (1 − p ) n

LA LEVERAGE ( ) MISURA QUANTO UN PUNTO È "LONTANO" DALLA MASSA

PRINCIPALE DEI DATI NELLO SPAZIO DELLE X.

ESEMPIO: Pagina 31 di 70

fl fl fi fi ff fl fi fl fl fl

In questo caso il punto blu presenta un valore di X = 3,4 che si discosta dal valore degli altri punti

che sono tendenzialmente compresi tra 2 e 3.

In questi termini si può dire che quel punto è un punto di leverage alta perchè il suo valore della X

si discosta da quello della massa principale. p

A nchè si possa dire che è un punto di in uenza, quindi oltre a un alto abbia anche un elevato

| |

e , bisogna osservare la sua Y.

Se è lontana dalle altre osservazioni o dal trend delle altre allora siamo in presenza di un punto di

in uenza, altrimenti no.

in questo

Dettagli

Publisher

marcofavaron01

A.A. 2024-2025

23 pagine

SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher marcofavaron01 di informazioni apprese con la frequenza delle lezioni di Modelli statistici per l'impresa e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma La Sapienza o del prof Guagnano Giuseppina.