Anteprima
Vedrai una selezione di 5 pagine su 16
Appunti Modelli statistici per le imprese Pag. 1 Appunti Modelli statistici per le imprese Pag. 2
Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.
Appunti Modelli statistici per le imprese Pag. 6
Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.
Appunti Modelli statistici per le imprese Pag. 11
Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.
Appunti Modelli statistici per le imprese Pag. 16
1 su 16
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

----------------- VOLONTARIA OMISSIONE DI UNA VARIABILE

In questo caso invece, per procedere alla rimozione di una variabile in modo

sicuro senza incorrere in queste problematiche, possiamo ricorrere al test F per

le restrizioni multiple, con confronto tra un modello completo ed uno ristretto,

nel quale si omette la variabile che non vogliamo più considerare. L’ipotesi

nulla Ho è che il suo coefficiente sia zero, oppure si effettua un test nel quale si

analizza se l’aumento di devianza standard del modello, la quale è inevitabile

se si leva un regressore, sia significativo o meno. Se non lo è, si preferisce

modello ristretto, se lo è, si preferisce modello completo.

---------------------- OVERFITTING: ERRATA AGGIUNTA REGRESSORE

Di base l’aggiunta di una variabile che non serve a spiegare il modello, non

dovrebbe creare problemi, in quanto il suo relativo coefficiente sarà pari a zero.

Tuttavia, dobbiamo considerare che se Xj fosse irrilevante, allo stesso tempo

significa che il suo contenuto informativo è già contenuto nelle altre variabili,

risultando quindi correlata con esse. E come sappiamo quando vi è un legame

lineare tra le esplicative, si incorre in multicollinearità.

Per diagnosticare questa eventualità calcoliamo il VIF, il cui valore se 1 significa

che Xj del tutto incorrelata con altre esplicative, e assume valori man mano più

elevati quanto maggiore è la correlazione. Per il calcolo del VIF, compare al

denominatore il termine R^2 che in questo caso rappresenta la quota di

variabilità di quella Xj che viene spiegata linearmente dalle altre variabili

esplicative presenti nel modello. Il suo valore è importantissimo, in quanto se

questa è 0, significa che la nostra covariata presa in esame risulta

indipendente rispetto alle atre variabili, e darebbe al VIF valore 1, che è il suo

valore minimo. Man mano che che R^2 aumenta, tende verso infinito anche il

VIF.

----------------------- TEST RESET

Verificare se il modello lineare stimato è “ben specificato” dal punto di vista

funzionale, cioè se la forma lineare scelta tra variabili dipendenti e regressori è

adeguata o se mancano termini non lineari o interazioni rilevanti.

L’ipotesi nulla Ho è che il modello è correttamente specificato

mentre l’ipotesi alternativa è che c’è almeno un omissione funzionale e

che potrebbe servire uun quadrato, un cubo ecc. per cui quando si rifiuta Ho,

conviene esplorare trasformazioni.

Per individuare presenza di mal-specificazioni nel modello, causate da effetti

non lineari dei regressori, si parte dall’assunto che se modello che stiamo

analizzando fosse corretto, allora l’aggiunta di una qualsiasi funzione non

lineare delle esplicative, risulterebbe non significativa. Quindi si considera un

altro modello, in cui vengono appunto inserite tali termini. Da qui si analizza la

significatività di tali termini aggiuntivi

------------------------ TEST DI CHOW

Serve per valutare la stabilità strutturale, dividendo il campione in due

campioni in corrispondenza del valore incriminato. Il test va a valutare la

differenze tra le due SSE, le quali in caso di assenza di cambiamenti strutturali,

dovrebbero risultare significativamente simili. Un limite di questo test è che

può indicare l’eventuale presenza di un cambiamento strutturale, senza

specificare a quale parametro è imputabile il cambiamento.

---------------------- ETEROSCHEDASTICITA’

---------------------- TEST DI WHITE

Nel test di White si suppone che i disturbi siano funzione di W (un insieme di

variabili) e di delta ( un vettore di parametri). Poiché sappiamo che i disturbi

non sono direttamente osservabili, si considerano i quadrati dei residui OLS,

ossia gli e^2.

Che cosa fa il test? prende un modello lineare semplice di base, con i cui

residui crea un modello ausiliario, nel quale questi sono spiegati in funzione

delle variabili W del modello di prima e dei rispetti parametri. Di conseguenza

si effettua un test RESET, in cui come ipotesi nulla si pone che i parametri del

modello ausiliario siano uguali quindi omoschedasticità, altrimenti per

ipotesi alternativa c’è eteroschedasticità.

Il test di Breusch – Pagan fa quasi la stessa cosa e pone i parametri di una

regressione ausiliaria crea, uguali e pari a zero, se si rifiuta Ho di uguaglianza e

nullità, allora c’è evidenza di eteroschedasticità.

……………………… COME RISOLVERE ETEROSCHEDASTICITA’

Una soluzione solo di “scuola” è WLS, che si fonda sulla critica che OLS

attribuiscono stessa importanza a ciascuna osservazione, quando in realtà

andrebbero pesate diversamente, con un peso inversamente proporzionale alla

corrispondente variabilità. Non è praticabile perché non si conoscono

informazioni su variabilità dei disturbi

Si ricorre quindi a STIME ROBUSTE DEGLI S.E. in questo modo procedure

inferenziali OLS restano valide

In questo modo si ottengono statistiche test robuste, ottenute proprio

aggiustando le usuali statistiche test attraverso gli s.e. robusti.

N.B. ciò vale solo per i test t, non per i test F che richiedono necessariamente

l’omoschedasticità.

----------------- RITARDI E AUTOCORRELAZIONE

Quando ci troviamo in una serie temporale i ritardi,, o i lag, indicano l’effetto

sul dato osservato del dato relativo ad un tempo precedente, definito

impostando lag=1,2,…6,7, ecc.

Nel fare i test per l ‘autocorrelazione specificare i lag è fondamentale, in quanto

ti permette di vedere la dipendenza di breve periodo, o in base al lag, tra i dati

e le osservazioni che li precedono. In altre parole il lag è la distanza temporale

con cui metti a confronto la serie con sé stessa e rileva quanta memoria

persiste nel dato osservato, dopo k (n lag) tempo passato.

-------------- DIFFERENZA TRA ETEROSCHEDASTICITÀ IN MODELLO MULTIPLO E

BINARIO

Nel modello di regressione multipla, la varianza condizionata di Y dato il valore

di X non è collegata al suo valore atteso, in quanto è determinata unicamente

dalla componente di errore. Ricordando le assunzioni classiche, la media degli

errori è pari a 0, mentre la varianza è costante, ossia omoschedasticità. Nel

modello a risposta binaria dove la varianza della Bernoulliana dipende da

qualsiasi fattore che influenza il valore atteso, il quale produrrà effetti anche

sulla varianza

------------------- MODELLO BINARIO

L’elemento peculiare è che questo tipo di specificazione del modello, a meno

che non si effettuino degli aggiustamenti ad hoc, non è assicurato che le stime

y cadano nell’intervallo 0-1 bisogna pertanto scegliere una funzione h, che

lega la probabilità di successo a Xb, tra funzioni anche non lineari che possano

assumere valori solo nell’intervallo (0,1). In tale modello l’effetto netto di Xj

dipende dai valori di tutte le altre esplicative. Ossia una determinata

esplicativa presenta un diverso effetto parziale per ciascuna unità considerata.

L’effetto inoltre sarà tanto più elevato quanto più xb 0, e tanto più esiguo

quanto più Xb è elevato.

Si considera una particolare funzione g da applicare alla probabilità di

successo, che possa essere espressa come funzione lineare delle esplicative.

Si crea tramite il log-odds il modello logit non è altro che un modello di

regressione lineare specificato per il log-odds dell’evento successo

---------------- TEST DI WALD

Questo test è il corrispondente al test F per le restrizioni multiplo, il cui

obiettivo rimane sempre quello di andare a valutare le devianza residue di un

modello completo ed uno ristretto. Per essi si utilizza la funzione di log-

verosomiglianza, e come per il test F in cui esclusione di alcuni regressori

implicava aumento devianza residua, anche qui riduzione implica riduzione

della log-verosomiglianza, nel senso che ci si può aspettare che L

(completo) > L ( ristretto). Bisogna tuttavia sempre focalizzarsi sulla

significatività di questa riduzione

Si può anche sottoporre a restrizione tutte le variabili, facendo confronto con

un modello nullo importante perché confronto con esso ci fornisce LRI, indice

rapporto delle verosomiglianze.

Se essi coincidono, quindi quando valore LRI=0, significa che tutti coefficienti b

sono nulli e quindi logL=logLo

Un altro modo è impostare una soglia ai valori ottenuti, tali per cui se superano

tale soglia, Y=1, altrimenti sotto tale soglia Y=0. Dai rapporti tra veri, falsi

positivi e negativi, si ottiene una confuzion matrix da cui si ricavano indici

come sensitivity, specificity.

Aumentare o diminuire la soglia, che è un valore che stabiliamo esogenamente,

può comportare trade-off tra tipi di errori,

per risolvere questo problema, si fa un confronto grafico tra sensitivity e

complemento a 1 specificity. Ossia tra predizioni corrette di risposta positiva

(veri positivi) e i falsi positivi, ossia il complemento a 1 dei veri negativi

Curva ROC 0,5 quando non si riesce a discriminare tra veri e falsi positivi, 1

si discrimina perfettamente tra i due.

------------------------ FUNZIONE NON LINEARE DI BINARIA

Il fatto che questa specificazione del modello sia non lineare potrebbe

comportare dei problemi per quanto riguarda l’interpretabilità dei risultati, in

quanto i parametri che escono fuori non sono in genere coincidenti con gli

effetti netti delle esplicative sulla dipendente, e questo perché sappiamo che

l’effetto varia a seconda del valore delle esplicativa stessa, proprio perché

parliamo di regressori non lineari, il cui effetto non è appunto costante, ma

varia in base alla sua esplicativa.

Nel modello binario succede una cosa molto simile, in quanto la variazione

marginale dipende oltre che dal beta, anche dalla P(x) se P(x) è vicina a 1 o

0, risponde meno a una variazione di X, a differenza di una situazione in cui

Bisogna trovare funzione che esprima la probabilità, affinché questa possa

essere espressa come funzione lineare delle variabili esplicative

------------------ VARIABILE LATENTE NEL BINARIO

L’utilizzo della variabile latente ha lo scopo di creare un meccanismo di soglia

al fine di tradurre la scala continua, data dalla specificazione della latente,

nell’evento binario, che è ciò che realmente vogliamo osservare. Attraverso di

essa, i coefficienti beta misurano l’effetto marginale di Xi sulla propensione Y*,

facilitando

Dettagli
A.A. 2024-2025
16 pagine
SSD Scienze economiche e statistiche SECS-S/03 Statistica economica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher marcofavaron01 di informazioni apprese con la frequenza delle lezioni di Modelli statistici per l'impresa e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma La Sapienza o del prof Guagnano Giuseppina.