Riassunto esame Statistica Economica, prof. Centoni, libro consigliato Logica Statistica dei Dati Economici, Koop

Esame Statistica economica

Facoltà Giurisprudenza

Università Libera Università Maria SS.Assunta - (LUMSA) di Roma

Appunto

Riassunto per l'esame di Statistica Economica, basato su appunti personali e studio autonomo del testo Logica Statistica dei Dati Economici di Koop consigliato dal docente Centoni. Gli argomenti trattati sono i seguenti: la misura di bontà del modello di regressione, la correlazione, variabili di comodo o variabili dummy.

…continua

Anteprima

Vedrai una selezione di 1 pagina su 5

Riassunto esame Statistica Economica, prof. Centoni, libro consigliato Logica Statistica dei Dati Economici, Koop Pag. 1

Disdici quando
vuoi

Acquista con carta
o PayPal

Scarica i documenti
tutte le volte che vuoi

Estratto del documento

R

2 misura la proporzione di varianza totale di Y che può essere spiegata da X, o equivalentemente è una misura del grado di adattamento

variabilità

della retta di regressione ai dati osservati.

La formula della varianza di Y è:

(=misura della dispersione o variabilità dei dati)

( )

TSS ̅)

(Total Sum of Squares = somma totale dei quadrati degli scarti della media aritmetica) ∑(

Il modello di regressione tenta di spiegare la variabilità di Y attraverso la variabile esplicativa X, la variabilità totale di Y si può scomporre:

TSS = RSS SSR

RSS ̂ ̅)

(Regression Sum of Squares = somma dei quadrati della regressione) ∑(

R

TSS, RSS e SSR sono somme di valori al quadrato quindi NON negative, ciò implica che:

TSS RSS

TSS SSR

R 1, se SSR = 0 e R = 1 la retta è perfettamente adattata, in definitiva alti valori di R implicano un buon adattamento mentre bassi valori di R

2 2 2 2

indicano un cattivo adattamento.

REGRESSIONE NON LINEARE

La regressione non lineare è una relazione quadratica tra le 2 variabili, essa cioè è regressione di Y su X . Quindi non necessariamente le regressioni debbono

essere lineari, per eseguire regressioni non lineari bisogna trasformare opportunamente X.

Una trasformazione comune è la trasformazione logaritmica, ove dato che le variabili sono trasformate in logaritmi naturali, i coefficienti possono essere

interpretati come elasticità e la rappresentazione grafica ha un andamento lineare.

ln(Y) = ln(X)

Per verificare l’accuratezza delle stime OLS è necessario:

disporre di più osservazioni(N) e quindi di più punti nel grafico

avere errori più ridotti(SSR bassa)

disporre di una più ampia gamma di valori ossia di una maggiore variabilità della variabile esplicativa(X)

Gli statistici accanto alle stime OLS associano gli intervalli di confidenza per una maggiore accuratezza delle stime; piccoli intervalli di confidenza indicano

maggiore accuratezza, grandi intervalli di confidenza indicano forte incertezza sul vero valore di .

La formula dell’intervallo di confidenza di è la seguente:

̂ ̂

[ ]

o in altri termini, esiste un elevato livello di fiducia che il vero valore di osservi la seguente disuguaglianza:

̂ ̂ ̂ ̂

ove è l’errore standard di ossia misura la variabilità o l’incertezza di , valori elevati di implicano forte incertezza dunque più ampio è l’intervallo di confidenza, invece,

̂ .

valori bassi di implicano ridotta incertezza, per cui in quest’ultimo caso potrebbe essere una stima accurata di

√ ̅)

∑(

( )

controlla il livello/intervallo di confidenza, se il livello di confidenza è elevato è elevato, se il livello di confidenza è basso, è piccolo.

TEST DI IPOTESI – LA VERIFICA DI 0

L’ipotesi nulla convenzionalmente denotata con H più frequente è 0, di contro l’ipotesi alternativa H è 0.

0 1

Dunque, il test di ipotesi H : 0 può essere utilizzato per verificare se una variabile esplicativa appartenga alla regressione. Se 0, la variabile

esplicativa(X) NON compare nell’equazione di regressione, e la variabile esplicativa non ha alcun potere esplicativo sulla variabile dipendente.

Come gli intervalli di confidenza possono essere costruiti a diversi livelli di confidenza anche i test di ipotesi

(l’intervallo di confidenza usuale è al 95% nel quale nel 95% dei casi si colloca )

possono essere costruiti a diversi livelli significatività.

Con l’approccio basato sugli intervalli di confidenza il livello di significatività è pari al 100% livello di confidenza.

Per verificare tale ipotesi è necessario:

- accertarsi che l’intervallo di confidenza contenga 0

- oppure, calcolare una statistica test (nota anche come statistica – t, oppure come t – ratio)

̂ ̂ ̂

DEVIAZIONE STANDARD o STANDARD ERROR DI RAPPRESENTA UNAMISURA DI QUANTO SIA PRECISO

Elevati valori della statistica t indicano che 0 , mentre bassi valori della statistica t indicano che 0; per decidere se t è alto o basso si ricorre al

P – value/valore di significatività e rappresenta una misura di quanto sia plausibile l’ipotesi 0, fissando il livello di significatività del test al 5%, se:

- il P – value è inferiore a 0,05(5%), allora t è elevato e si può concludere che 0

in tale caso è possibile rifiutare l’ipotesi al livello di significatività del 5%, quindi X appartiene alla regressione

- il P – value è superiore a 0,05(5%), allora t è basso e si può concludere che 0

NON è possibile rifiutare l’ipotesi al livello di significatività del 5%, quindi X NON appartiene alla regressione

VERIFICA DELLE IPOTESI RIGUARDANTI R – STATISTICA F

Il test di ipotesi H : R = 0 è utilizzato per verificare se tutte le variabili esplicative prese congiuntamente hanno potere esplicativo sulla variabile dipendente Y.

Nel caso della regressione semplice il test di ipotesi è equivalente al test per 0, ed è utilizzato per verificare se una variabile esplicativa presa singolarmente ha un potere

esplicativo.

Il P – value è calcolato automaticamente da molti software e viene denominata statistica F o semplicemente F:

( )

- se P – value/il valore di significatività della statistica F è inferiore al 5%(0,05), concludiamo che R 0

- se P – value/il valore di significatività della statistica F è superiore al 5%(0,05), concludiamo che R 0

REGRESSIONE MULTIPLA

La regressione multipla estende il concetto della regressione semplice al caso in cui vi siano 2 o più variabili esplicative:

(regressione con 2 sole variabili) X , X ,…, X

1 2 k

Y = RETTA DI REGRESSIONE MULTIPLA

Per stimare tutti i coefficienti ( ) si ricorre alla somma dei quadrati dei residui(SSR):

̂ ̂

SSR = ∑ ( ̂ )

DIFFERENZE TRA REGRESSIONE SEMPLICE E REGRESSIONE MULTIPLA

Gli aspetti della regressione multipla sono sostanzialmente identici a quelli della regressione semplice, le formule tuttavia sono leggermente diverse.

R è una misura dell’adattamento e viene calcolato nello stesso modo della regressione semplice, ma è una misura del potere esplicativo di tutte le variabili

e non solamente di una variabile esplicativa come nel caso della regressione semplice.

se R 0 le variabili esplicative nella regressione NON sono significative e NON hanno alcun potere esplicativo sulla variabile dipendente

se R 0 le variabili considerate nella regressione prese congiuntamente contribuiscono a spiegare la variabile dipendente

La statistica F impiegata per verificare il test di ipotesi R 0 nel modello a regressione multipla equivale a verificare H :

2 0

che tutti i coefficienti della regressione sono congiuntamente pari a 0, quindi esisterà un intervallo di confidenza e un P – value associato a ciascun

coefficiente del modello e non solamente a come nel modello di regressione semplice. ̂

Nel modello di regressione semplice trascuriamo importanti variabili esplicative che sono incluse nell’unica variabile esplicativa presente, da qui è molto elevato.

L’interpretazione dei coefficienti di regressione è soggetta alle condizioni di ceteris paribus (letteralmente a parità d’altre condizioni).

rappresenta l’effetto marginale di su mantenendo costanti tutte le altre variabili/ceteris paribus.

(riferendoci con tale termine a tutti i coefficienti della regressione)

DISTORSIONE DA VARIABILI OMESSE

Se vengono trascurate nella regressione rilevanti variabili esplicative le stime dei coefficienti possono essere fuorvianti. Il problema peggiora se le variabili

omesse sono fortemente correlate con le variabili esplicative incluse.

Provando ad includere tutte le variabili significative che riteniamo spieghino la variabile dipendente fa si che l’inclusione di variabili irrilevanti diminuisca

l’accuratezza delle stime di tutti i coefficienti (non solo quelli associati alle variabili irrilevanti).

Perciò è opportuno elaborare la verifica delle ipotesi con la statistica t e decidere se le variabili sono statisticamente significative, dopodiché è opportuno

stimare una nuova regressione che NON include le variabili esplicative che non sono significative.

MULTICOLLINEARITA’

Tra le variabili indipendenti di un’equazione di regressione multipla può esistere una grado di forte correlazione reciproca o multicollinearità. In

questo caso, le stime dei coefficienti di regressione potrebbero non essere applicabili. Le variabili collineari non forniscono delle informazioni

aggiuntive e risulta difficile distinguere quali sono le variabili esplicative che influenzano la variabile dipendente.

Conseguenze sono:

valori bassi statistica t

alti valori di significatività

coefficienti non significativi e R elevato e significativo

Per la risoluzione della multicollinearità si ricorre abitualmente all’eliminazione dall’equazione una delle variabili altamente correlate, ma non sempre ciò è

risolutivo soprattutto se comporta l’esclusione di variabili esplicative che la teoria economica e il buon senso suggerisce di includere.

REGRESSIONE CON VARIABILI DI COMODO

REGRESSIONE SEMPLICE CON UNA VARIABILE DUMMY O DI COMODO( D )

Y = ̂

Se si effettua una stima OSL della regressione si ottengono e , dunque la regressione diviene:

̂ ̂

Una variabile di comodo o anche chiamata variabile dummy può assumere solo 2 valori 0 o 1:

se  ̂ ̂

se  ̂

REGRESSIONE MULTIPLA

Y =

REGRESSIONE MULTIPLA CON VARIABILI DI COMODO E NON DI COMODO

Y = CON UNA VARIABILE DUMMY( D ) ED UNA VARIABILE ESPLICATIVA (X)

Y = CON 2 VARIABILI DUMMY( D ) E 2 VARIABILI ESPLICATIVE NON DUMMY (X)

Vi sono 2 rette di regressione per ogni variabile dummy(D), a seconda che D sia uguale a 0 o 1, con intercette diverse ma con stessa pendenza.

L’effetto marginale di X su Y è lo stesso indipendentemente se D è uguale a 0 o 1.

REGRESSIONE MULTIPLA CON VARIABILE DI INTERAZIONE

Y =

Z = ̂

se  ̂ ̂ ̂ ̂ ̂ ̂ ̂

̂ ̂

se  

̂ ( ̂ ) ( )

Vi sono 2 rette di regressione per ogni variabile dummy(D), a seconda che D sia uguale a 0 o 1, con diversa intercetta e diversa pendenza.

L’effetto marginale di X su Y è diverso a seconda che D sia uguale a 0 o 1.

MODELLO DI REGRESSIONE DINAMICO: REGRESSIONE A RITARDI DISTRIBUITI

Nei modelli di regressione a ritardi distribuiti utilizzati con serie storiche o temporali:

la variabile dipendente che dipende in un dato periodo non solo dal valore delle variabili esplicative assunto in

Dettagli

Publisher

frog17-votailprof

A.A. 2013-2014

5 pagine

SSD Scienze economiche e statistiche SECS-S/03 Statistica economica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher frog17-votailprof di informazioni apprese con la frequenza delle lezioni di Statistica economica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Libera Università Maria SS.Assunta - (LUMSA) di Roma o del prof Centoni Marco.