Anteprima
Vedrai una selezione di 6 pagine su 23
Appunti Modelli statistici per l'impresa - parte 2 Pag. 1 Appunti Modelli statistici per l'impresa - parte 2 Pag. 2
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Appunti Modelli statistici per l'impresa - parte 2 Pag. 6
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Appunti Modelli statistici per l'impresa - parte 2 Pag. 11
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Appunti Modelli statistici per l'impresa - parte 2 Pag. 16
Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.
Appunti Modelli statistici per l'impresa - parte 2 Pag. 21
1 su 23
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

SI RICORDA CHE LA STIMA DEI RESIDUI ( ), CIOE’ LA DIFFERENZA TRA VALORE

i i i

OSSERVATO E VALORE PREVISTO DAL MODELLO (VALORE STIMATO), RAPPRESENTA LA

PARTE DI VARIANZA NON SPIEGATA.

- Analisi gra ca:

Il primo tipo di analisi è l’analisi di tipo gra co e può riguardare i residui grezzi, standardizzati,

studentizzati e parziali. Pagina 28 di 70

ffi fi fi fi fi fi ff ff ff ffi fi fi fi

̂

e = y − y

Essendo i residui grezzi —> e potendo essere visti come realizzazione delle variabili

i i i

̂ 2

E = Y − Y (1 − p )Y = (1 − p )ϵ ϵ ∼ N(0,σ )

aleatorie e quindi —> , ciò implica che, se ,

i i i ii i ii i i

2 2

E ∼ N(0,(1 − p ) σ ) ϵ

allora —> . Cioè, nonostante i disturbi siano omoschedastici e

i ii i

E p

incorrelati, i residui nono sono e la loro varianza dipende da .

i ii

̂

p y y

—> costituisce il peso da attribuire a per stimare , quindi rappresenta l’in uenza che

ii i i p

l’osservazione i-esima esercita sulle stime OLS —> tanto maggiore è , tanto più elevata è

ii

y

l’in uenza di sulle stime. Per tale motivo è detta LEVERAGE, o LEVA.

i p

I valori che assume vanno da 1/n a 1.

ii E p Var (E )

Osservando la varianza di , si nota che maggiore è la leverage ( ), tanto più viene

i ii i

2

σ

ridotta rispetto alla varianza .

Per eliminare questa forma di ETEROSCHEDASTICITA’, basta standardizzare i residui che

risulteranno distribuiti normalmente con varianza 1 (quindi costante).

—> I RESIDUI STANDARDIZZATI RISULTANO PIU’ IDONEI DI QUELLI GREZZI A

VERIFICARE LE IPOTESI SUI TERMINI DI DISTURBO POICHE’ QUELLI GREZZI

PRESENTANO ETEROSCHEDASTICITA’ E CORRELAZIONE, MENTRE QUELLI

STANDARDIZZATI NO. 2

σ

I RESIDUI STANDARDIZZATI, DIPENDONO DALLA VARIANZA INCOGNITA ; SE NELLA

STANDARDIZZAZIONE QUESTA E’ SOSTITUITA CON UNA STIMA APPROPRIATA, I

RESIDUI STANDARDIZZATI SONO DISTRIBUITI SECONDO UNA t-STUDENT E QUINDI

SONO DETTI STUDENTIZZATI.

2

σ

La stima più appropriata di nel caso dei residui standardizzati, può cambiare a seconda

dell’obiettivo dell’analisi:

- Può essere ottenuta nel metodo consueto —> devianza residua divisa per gli n-k gradi —>

E

i

T = studentized).

(internally

i S(1 − p )

ii

- Nel caso in cui l’analisi sia volta all’individuazione di OUTLIERS (valori anomali, cioè che si

discostano particolarmente dal pattern generale dei dati) si dovrà escludere dal calcolo della

devianza residua unità sotto esame, considerata come potenziale outlier —>

n E

1

̂ i

2 2

σ = e → T = studentized).

(externally

i

j

(i) n − k − 1 ̂

(1 − p ) σ 2

j≠i, j=1 ii (i)

IN ALTRI TERMINI:

Dopo aver stimato un modello di regressione, dobbiamo veri care se è a dabile.

Come? Controllando se le ipotesi di base (normalità degli errori, omoschedasticità, linearità) sono

rispettate. ̂

e = y − y ε

I residui ( ) sono la nostra "lente d'ingrandimento" sugli errori del modello ( ).

i i i i

ε

Problema chiave: Anche se gli errori veri ( ) sono "perfetti" (normalmente distribuiti, varianza

i

e

costante), i residui ( ) non lo sono!

i

Perché? Per colpa della matrice di proiezione (o hat matrix). ̂

p y

Il suo elemento (detto leverage) misura quanto l'osservazione i-esima in uenza la stima di

ii i

2

p e σ

Impatto: Se è alto, la varianza del residuo è più piccola di . È come se il modello

ii i

̂

y y

“forzasse" vicino a per i punti con alta leverage.

i i

Come "aggiustiamo" i residui per analizzarli?

Per eliminare questo problema, trasformiamo i residui:

Residui standardizzati:

1. e e

i i

=

(e ) σ 1 − p

Var i ii 2

σ

Hanno media 0 e varianza 1 … ma è sconosciuta!

Residui studentizzati:

2. 2 2

σ s

Sostituiamo con una sua stima : Pagina 29 di 70

fl fi ffi fl fl

2

s

Internally studentized:

1. Usiamo calcolata su tutti i dati.

e

i

T =

i s 1 − p

ii 2 2

s σ

Externally studentized:

2. Per cercare outlier, usiamo (stima di escludendo

(i)

l'osservazione i).

e

i

T =

i s (1 − p )

2 ii

(i) 2

i s

Perché? Se è un outlier, includerlo in "contamina" la stima della variabilità.

Escludendolo, abbiamo un giudizio più obiettivo.

- L’ultimo caso è quello in cui si voglia veri care che una variabile esplicativa, al netto dell’azione

delle altre esplicative, entri linearmente nel modello oppure no.

Essendo che spesso le esplicative sono tra loro correlate, per tenere sotto controllo il loro

X

e etto mentre si valuta il tipo di legame tra la Y e l’esplicativa in questione ( ), si può ricorrere

h

partila residuals

ai —> rappresentano la parte di Y che dipende dall’esplicativa considerata, ma

non dalle altre. pr = e + b x

Per ogni esplicativa si ha una diversa serie di residui parziali —> .

ih i u ih

RESIDUAL PLOTS:

I gra ci dei residui (RESIDUAL PLOTS), sono lo strumento principale per l’analisi esplorativa e

aiutano ad identi care problemi nel modello stimato:

Tipo di gra co Cosa cercare Problema indicato

̂

y Pattern a imbuto, curva, punti Eteroschedicità, non-linearità,

Residui vs (y stimate) isolati outliers

Residui vs ciascuna delle Andamento concausale (trend, La relazione con quella variabile

esplicative curve) potrebbe non essere lineare

Q-Q plot (Normal probability Scostamenti dalla retta ideale Non-normalità degli errori

plot) (asimmetria, code pesanti)

pr = e + b x Se i punti non seguono una retta

Partial residual plots ih i u ih X

X —> la relazione con non è

Mostra la relazione tra Y e al h

h lineare.

netto delle altre variabili.

Tipo di gra co Cosa si plotta A cosa serve

e

̂

y Veri care se c’è presenza di

Residui sull’asse Y.

Residui vs (y stimate) i eteroschedasticità, non-linearità,

̂

y

Valori stimati sull’asse X.

i outliers

e

Residui vs ciascuna delle Controllare relazione lineare con

Residui sull’asse Y.

i X

esplicative (senza considerare altre

Una singola variabile X sull’asse j

j

X. variabili).

Q-Q plot (Normal probability Residui ordinati vs. Quantici Controllare la normalità degli

plot) teorici. errori.

pr

Partial residual plots Veri care la linearità speci ca di

Residui parziali sull’asse

ih X al netto delle altre variabili.

delle Y. h

X

Variabile sull’asse X.

h

Nel primo caso (residui verso y stimate), in assenza di problemi, i residui dovrebbero presentare

oscillazioni di ampiezza tendenzialmente costante (omoschedasticità), ed essere distribuiti

casualmente intorno allo zero.

Nel caso dei Q-Q plots, se i punti si dispongono lungo una retta, allora l’IPOTESI DI

NORMALITA’ può ritenersi valida; se invece si dispongono lungo una curva con concepita verso il

Pagina 30 di 70

ff fi

fi fi fi

fi fi fi fi

basso, la distribuzione dei residui è obliqua a sinistra (asimmetrica negativa), al contrario, se

concavità verso l’alto, distribuzione obliqua a destra (asimmetria positiva).

Nel caso in cui si voglia veri care liIPOTESI DI LINEARITA’ della relazione tra y e le

coviariate (variabili indipendenti), si può usare il plot delle y osservate verso ciascuna

esplicativa, o il plot dei residuali

ma in questo caso non si tengono sotto controllo le altre,

parziali per ogni esplicativa.

In questo caso, se la nuvola dei punti si dispone intorno ad una retta l’ipotesi di linearità è

confermata; in caso contrario si ha indicazione del fatto che l’esplicativa considerata in uenza la

Y in modo non lineare.

L’ultima analisi riguarda l’eventuale presenza di outliers, in questo caso si distingue tra

osservazioni che nello scattare plot corrispondono a punti molto lontani dai rimanenti (outliers) e

osservazioni per le quali una variazione comporterebbe una modi ca sostanziale nei risultati

dell’analisi (leverage points): p

- Punti con alta leverage —> Presentano alti valori di , dovuti a valori esprime di una o più

ii

covariate, e potrebbero avere una grande in uenza sulla stima dei parametri e caratterizzarsi

quindi come leverage points, ma potrebbero anche produrre stime molto prossime ai valori

p

—> PUNTO CON ALTO, VALORE ESTREMO DI UNA VARIABILE ESPLICATIVA.

osservati. ii 2k

p >

Regola pratica per identi care un punto di alta leverage —> se allora alta

ii n

leverage

- Outliers —> Sono punti per i quali il modello presenta uno scarso adattamento, ma non

—> PUNTI CON RESIDUO

necessariamente hanno un forte e etto sulla stima dei parametri.

| |

e

GRANDE ( ELEVATO).

i

- Leverage/in uence point —> Sono outliers che hanno una grossa in uenza nella regressione

p —> COMBINA ALTO

e presentano contemporaneamente alti valori di e dei residui.

ii

RESIDUO E ALTA LEVERAGE. IL PERICOLO E’ CHE TIRI LA RETTA DI REGRESSIONE

VERSO DI SE, DISTORCENDO LE STIME.

Per misurare l’in uenza esercitata da un certo punto viene usata la DISTANZA DI COOK

p

1 4

ii

2

D = e D >

—> . È considerata alta una per cui vi è alta in uenza.

i i

i

k (1 − p ) n

ii

p

LA LEVERAGE ( ) MISURA QUANTO UN PUNTO È "LONTANO" DALLA MASSA

ii

PRINCIPALE DEI DATI NELLO SPAZIO DELLE X.

ESEMPIO: Pagina 31 di 70

fl fl fi fi ff fl fi fl fl fl

In questo caso il punto blu presenta un valore di X = 3,4 che si discosta dal valore degli altri punti

che sono tendenzialmente compresi tra 2 e 3.

In questi termini si può dire che quel punto è un punto di leverage alta perchè il suo valore della X

si discosta da quello della massa principale. p

A nchè si possa dire che è un punto di in uenza, quindi oltre a un alto abbia anche un elevato

ii

| |

e , bisogna osservare la sua Y.

i

Se è lontana dalle altre osservazioni o dal trend delle altre allora siamo in presenza di un punto di

in uenza, altrimenti no.

in questo

Dettagli
A.A. 2024-2025
23 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher marcofavaron01 di informazioni apprese con la frequenza delle lezioni di Modelli statistici per l'impresa e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma La Sapienza o del prof Guagnano Giuseppina.