Anteprima
Vedrai una selezione di 6 pagine su 22
Riassunto esame Statistica per l'impresa, Prof. Betti Gianni, libro consigliato Dal dato all’informazione gestionale (prima parte), Gazzei D.S. Pag. 1 Riassunto esame Statistica per l'impresa, Prof. Betti Gianni, libro consigliato Dal dato all’informazione gestionale (prima parte), Gazzei D.S. Pag. 2
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Riassunto esame Statistica per l'impresa, Prof. Betti Gianni, libro consigliato Dal dato all’informazione gestionale (prima parte), Gazzei D.S. Pag. 6
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Riassunto esame Statistica per l'impresa, Prof. Betti Gianni, libro consigliato Dal dato all’informazione gestionale (prima parte), Gazzei D.S. Pag. 11
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Riassunto esame Statistica per l'impresa, Prof. Betti Gianni, libro consigliato Dal dato all’informazione gestionale (prima parte), Gazzei D.S. Pag. 16
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Riassunto esame Statistica per l'impresa, Prof. Betti Gianni, libro consigliato Dal dato all’informazione gestionale (prima parte), Gazzei D.S. Pag. 21
1 su 22
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

RELAZIONI DI TIPO DETERMINISTICO TRA VARIABILI

In generale, le variabili esplicative o indipendenti (definite regressori) spiegano, attraverso una funzione,

una variabile dipendente: Y = f (X , …, X )

1 k

dove:

● X , …, X = variabili esplicative o indipendenti;

1 k

● Y = variabile dipendente,

Se il legame è di tipo lineare ed il numero delle esplicative è pari ad uno, il modello diviene:

Y = ɑ + βX

che in un sistema di assi cartesiani rappresenta una retta con coefficiente angolare (la pendenza delle Y

rispetto alle X ) β ed intercetta (ordinata all’origine) ɑ .

La vera relazione tra Y (valore osservato) e l’insieme di covariate X (valore che viene fuori dalla stima)

può essere approssimata tramite il modello di regressione:

Y = f (X , …, X ) + u

1 k

dove u è un errore casuale che rappresenta la discrepanza dell’approssimazione. Dunque, il suddetto

modello esprime una relazione stocastica (probabilistico).

Se f esprime una funzione lineare, il modello di regressione è lineare e si presenta nella forma:

Y = ɑ + β X + β X + … + β X + u

1 1 2 2 K K

dove ( ɑ, β β , …, β ) rappresentano i coefficienti (o parametri) di regressione.

1 2 K

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

La relazione tra la variabile dipendente (o di risposta→

output ) e la variabile indipendente ( input ) è

espressa da un modello lineare: Y = ɑ + βX + u

dove ( ɑ, β ) rappresentano i coefficienti di regressione (o parametri) e u rappresenta la componente casuale

del modello.

Per ogni singola osservazione i (es: azienda, processo) variano Y , X e u, ma non variano i coefficienti di

regressione: Y = ɑ + βX + u

i i i PG

12

A questo punto l’obiettivo è determinare l’equazione della retta che meglio approssima i punti di

coordinate ( X

, Y ). Per determinare l’equazione della retta occorre stimare l’intercetta e il coefficiente

α

angolare :

β = + X + u

α β i

Per questo si adotta il metodo dei minimi quadrati ordinari basato sulla minimizzazione della

funzione ausiliaria :

2 2

( ) ( )

⎡⎢ ⎤⎥

=

∑ − ∑ − α + β

)

⎣ ⎦

=

1

=

1

Il minimo della funzione si ottiene derivando rispetto ai parametri incogniti ( , ), ponendo pari a zero

α β

le due equazioni e risolvendo il sistema. Le soluzioni che si ottengono sono:

( )

( )

( ) ( ) ∑ − −

∑ −

1. = = = =

(

1 )

β 2

2

2 ( )

( )

2 ∑ −

∑ −

(

1 )

con: ( ) ( )

➔ ∑ = ∑x y : somma dei prodotti delle X in forma di scarto ( x ) e delle Y in forma di

− − i i i

scarto ( y );

i 2

( )

➔ 2

∑ = ∑x : somma delle X in forma di scarto al quadrato;

− i

( ) ( )

∑ −

➔ s = : covarianza delle due variabili x e y

;

xy ( −

1

)

2

( )

∑ −

➔ 2

s = : varianza della x

.

x ( −

1

) 2. = –

α β

Una volta noto il baricentro ( ; ), il parametro dipenderà solo dal coefficiente angolare.

α

Noti i valori dell’intercetta e del coefficiente angolare, è possibile procedere alla

rappresentazione grafica della retta.

A questo scopo, è importante ricordare che la retta passa sempre dal baricentro del diagramma di

dispersione, individuato dal punto di incontro delle due medie campionarie e . Di conseguenza, è

sufficiente calcolare il valore di e qualsiasi valore di (ovviamente diverso dalla media), per tracciare

i i

la rette.

Se non sono stati commessi errori di calcolo, qualsiasi altro punto stimato nella rappresentazione

i

grafica deve risultare collocato esattamente sulla retta tracciata. PG

13

Figura 12: Rappresentazione grafica della retta di regressione

Un modello di tipo stocastico si adegua meglio rispetto ad un modello deterministico al tipo di realtà

rappresentata da n coppie di osservazioni (di tipo economico-aziendale) non esattamente allineate su di

una retta.

Ovviamente l’introduzione di u provoca notevoli complicazioni, ma anche risultati più utili e densi di

i

significato. Nel dettaglio, l’introduzione della componente stocastica è giustificata da:

1. presenza di errori nel modello

;

2. limitatezza del numero di variabili esplicative (regressori);

3. casualità derivante dalla rilevazione campionaria delle osservazioni;

4. presenza di errori di misura (es: risposte approssimative).

Inoltre, u provoca la ridefinizione di Y in termini di variabile casuale (

v.c. ) e, di conseguenza, ogni

i

valore espresso in funzione di Y diviene v.c.

Per poter utilizzare al massimo un modello lineare stocastico, devono essere introdotte alcune assunzioni

:

1. linearità della relazione funzionale : questa assunzione è abbastanza banale, anche se solo

parzialmente realistica. Difatti, molte relazioni non lineari possono ridursi (con opportune

trasformazioni) a relazioni lineari (es: Cobb-Douglas).

2. natura deterministica (valore perfetto) dei regressori

: questa assunzione è forse la più irrealistica in

ambito socio-economico (la x non è un valore perfetto e può ammettere errori di misura), ma è molto

utile a fini computazionali, poiché comporta che il valor medio tra X (una costante) e u è uguale a 0:

3. normalità della distribuzione dei termini di errore

: tale assunzione deriva dalla teoria della

probabilità sulla distribuzione degli errori (Distribuzione di Gauss) e, date le caratteristiche della v.c.

normale risulta plausibile. Di conseguenza, gli errori (positivi o negativi) della stessa ampiezza hanno

la stessa probabilità di realizzarsi. Nel dettaglio errori piccoli hanno una probabilità più elevata, mentre

errori molto grandi hanno probabilità sempre più piccole di realizzarsi

Figura 14: Distribuzione di Gauss

4. valore atteso nullo degli errori E

( u ) = 0: questa assunzione assicura che l’errore massimamente

→ i

probabile (dal momento che in una v.c. normale il valor medio coincide con il valore modale) è pari a

zero; PG

14

2

5. omoschedasticità degli errori VAR (

u ) = σ ;

→ i

6. gli errori di unità statistiche differenti non sono correlati COV (

u u ) = 0 per ogni i j

.

→ ≠

i j

In sintesi, si può affermare che gli errori u di ogni unità statistica hanno tutti la stessa forma funzionale

(normale) con valore medio pari a 0 e con varianza costante.

TEOREMA DI GAUSS-MARKOV

Date le assunzioni 1., 2., 4., 5., 6, gli stimatori OLS e sono i migliori ( BLUE – Best Linear

α β

Unbiased Estimator) stimatori dei parametri , perchè sono:

α β

★ lineari : sono una funzione lineare delle Y ;

★ corretti : il valore medio della distribuzione coincide con (non noto) → E ( ) = ;

β β β

★ hanno varianza minima : se la distribuzione ha una varianza minima (stretta), per qualsiasi campione

scelto, l’errore commesso (che non si conosce) sarà piccolissimo.

DIMOSTRAZIONE DEL TEOREMA DI GAUSS-MARKOV

Si consideri lo stimatore OLS di β: ∑

=

β 2

e lo si riscriva come: = ∑w y [4.1]

β i i

dove w sono l’insieme dei pesi:

i

w =

i 2

A questo punto per dimostrare che lo stimatore è corretto, occorre considerare due proprietà dei pesi:

1. ∑w = 0

i

Dimostrazione : Riscriviamo la sommatoria delle w come:

i ∑

∑w =

i 2

Sapendo che ∑x = 0, otteniamo che:

i ∑ = 0

In questo modo abbiamo dimostrato che i pesi hanno somma pari a zero perché provengono dalle X

in forma di scarto;

2. ∑w x = 1

i i

Dimostrazione : riscriviamo w come:

i

w =

i 2

L’equazione dunque può essere riscritta come: 2

1 1

∑ x x = = 1

i i

2 2

Σ

Si è dunque dimostrato come la sommatoria del prodotto tra i pesi (funzione delle x ) e le x è

i i

uguale ad uno

. PG

15

MEDIA STIMATORI

Affinché lo stimatore OLS possa essere definito corretto, il valore medio della sua distribuzione deve

β

coincidere con (non noto):

β E ( ) =

β β

Per dimostrare la correttezza partiamo dalla definizione di (4.1):

β

= ∑w y

β i i

sapendo che: y = –

i

riscriviamo l’equazione: ( )

= ∑w

β –

i

e la scomponiamo in due parti: = ∑w – ∑w

β

i i

dato che ∑w = 0, l’equazione può essere riscritta come:

i = ∑w

β

i

Sfruttando l’ ipotesi 1 di linearità della relazione funzionale riscriviamo Y come:

i

Y = ɑ + βX + u

i i i

a questo punto scriviamo: = ɑ ∑w + β ∑w X + ∑w u

β i i i i i

sapendo che: ∑w = 0 , ∑w X = 1

i i i

l’equazione si riduce a: = β + ∑w u

β i i

Ora, per controllare se lo stimatore è corretto, calcoliamo il valor medio:

( )

E = E ( +∑w u ) [4.2]

β β i i

dato che è una costante ed utilizzando l’ ipotesi 2 in base alla quale le X sono variabili deterministiche (e

β

dunque le w , che dipendono dalle x

, sono anch’esse deterministiche), otteniamo che:

i ( )

E = +∑w E

( u )

β β i i

utilizzando l’ ipotesi 4 in base alla quale il valor medio degli errori è pari a 0, otteniamo che:

( )

E =

β β

Analogamente si ottiene per che:

α ( )

E =

α α

Questo ci dimostra come e sono entrambi stimatori corretti .

α β<

Dettagli
Publisher
A.A. 2023-2024
22 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher PieroGrassano di informazioni apprese con la frequenza delle lezioni di Statistica per l'impresa e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Siena o del prof Betti Gianni.