Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

2 h

h y

=α +α . Al tempo t, quando facciamo la previsione, non è nota, poiché dipende da

t

t 0 1 t +2

+2 +1

y . Applichiamo, allora, la LIE:

t +1 [ ]

[ ] [ ]

E y E y

∨Y =E ∨Y ∨Y =0

t t t+2 t+1 t

+2 previsore del valore atteso un periodo in

avanti quindi, per ciò che abbiamo visto

prima, è 0.

y h ε

=

t t t

+l +l +l

2 h

h y

=α +α . Al tempo t, anche non è nota, quindi iteriamo la LIE e otteniamo:

t

t 0 1 t +l

+l +l−1

[ ]

E y E E ... E y

∨Y =E =0

( )

t t t t t t t

+l +1 +2 +l−1 +l

Invece, nel caso della volatilità, esistono valori di previsione

non banali perché basati sull’informazione al tempo t. Valore atteso condizionato dello scarto dei

rendimenti della media condizionata al

PREVISIONE: Volatilità condizionata dei rendimenti futuri = [ ]

Var y ∨Y

quadrato, ovvero: t t

+1

[ ]

2 2 2

( )

E y y y y

( )

− ∨Y =E =h =α +α

̃

t t t t t t 0 1 t

+1 +1∨t +1 +1

[ ]

2 2 2 2 2 2

[ ]

( ) ( )

E y y y E y α α y α α y

( )

− ∨Y =E =E =E + =α +α +

̃

t t t t t t t t t 0 1 t 0 0 1 1 t

+2 +2∨t +2 +1 +2 +1

[ ]

2 2 2

( ) ( )

… … E y y y E … E y

( )

− ∨Y =E =E =¿

̃

t t t t t t t t t

+l +l∨t +l +1 +l−1 +l

2 l−1 l 2

α α α α α α y

¿ + + +...+α +α

0 0 1 0 1 0 1 1 t α ∈¿

Possiamo osservare che, se il processo è stazionario, ovvero , quanto più andiamo avanti nella

1 y

previsione tanto minore è il peso attribuito al quadrato dell’ultima osservazione .

t

l→ ∞

Inoltre, nel limite, con , la previsione della volatilità condizionata in un periodo indefinitamente

α 0

lontano converge alla varianza incondizionata: .

1−α 1 72

MODELLO ARCH IN MEDIA 0

Questo modello rappresenta una generalizzazione del modello ARCH standard, che mira ad introdurre il

concetto di PREMIO AL RISCHIO. Infatti, introduce un legame tra valore atteso dei rendimenti e volatilità,

per cui quest’ultima influenza il primo, ciò basato sul presupposto per cui una attività finanziaria più

rischiosa, se esiste, dovrebbe offrire un rendimento più alto.

Per incorporare questo effetto nel modello, è sufficiente introdurre una componente di premio al rischio

h

ovvero una funzione (lineare per semplicità) della volatilità nell’equazione della media.

t

Nel modello ARCH standard invece abbiamo osservato come il valore atteso condizionato sia sempre zero,

per cui anche la previsione del valore atteso dei rendimenti futuri è zero e non dipende in alcun modo dalla

volatilità.

y h

=μ +δ +ξ

t t t

ξ h ε , ε NID 0 ; 1 → ξ N 0 ; h → y N μ+δ h ; h

( ) ( ) ( )

= ∨Y ∨Y

t t t t t t−1 t t t t t

−1

2

h α ξ

=α +

t 0 1 t−1

δ> 0 è il premio al rischio

ξ rappresenta l’innovazione rispetto al passato.

t y N μ+ δ h ; h

( )

∨Y

Quindi sulla base di queste assunzioni risulta: . Quindi la serie dei rendimenti è

t t−1 t t

serialmente correlata, ed i rendimenti sono prevedibili sulla base dell’informazione disponibile al tempo t,

infatti il valore atteso dei rendimenti un passo avanti condizionato al tempo t è:

2

y δ h δ α δ α ξ

̃ =μ+ =μ+ +

t t 0 1 t

+1∨t +1

MODELLO GARCH (p,q)

p>1

I modelli ARCH (p) con sono più generale di un semplice modello ARCH (1) però palesano una

evidente difficoltà in sede di stima del modello, in quanto non solo aumentano i coefficienti da stimare, ma

questi ultimi devono essere stimati tenendo conto dei vincoli imposti sul valori dei coefficienti

α , i=1, … , p h 0

>

, al fine di garantire che la volatilità .

i t

Un modo alternativo per aumentare la flessibilità nel modellare la dipendenza della volatilità dal passato

(piuttosto che aumentare l’ordine del ritardo p) è aggiungere una componente a media mobile, come accade

nel MODELLO GARCH (p,q), che rappresenta sicuramente una soluzione più efficiente, in quanto concilia

l’esigenza di maggiore flessibilità/generalità con quella di parsimonia nel numero di parametri da stimare. 73

CASO PARICOLARE MODELLO GARCH (1,1)

:

y N 0 ; h

∨Y ( )

Assumiamo che t t−1 t 2

y h ε , ε NID 0 ; 1 , h y β h

( )

= =α +α +

Con t t t t t 0 1 t 1 t

−1 −1 h

L’essenza del modello GARCH, a differenza del modello ARCH, è che ora la volatilità dipende dal

t

h y

passato esplicitamente attraverso la componente e non solo implicitamente attraverso .

t t−1

−1

Infatti: 2

h y y β h

( )

=Var ∨Y =α +α +

t t t 0 1 t 1 t−1

−1 −1

I VINCOLI sui coefficienti:

α , α ≥0

>0 , affinchè la volatilità sia positiva.

- 0 1

0< β ≤ 1

- 1

α β

+ <1 , condizione di stazionarietà.

- 1 1

Dimostrazione:

2 2 2 2

( ) ( )

y y ±h y α y β h v

= =h + −h =h +v = +α + +

t t t t t t t t 0 1 t 1 t t

−1 −1

2 2 2

v y v y h y

= −h = −h = −v

Dove . Da ciò deriva che e quindi che . Sostituendo,

t t t t t−1 t−1 t t−1 t−1

−1 −1

ottengo:

2 2 2 2

y y β y v α β y v

( )

=α +α + −β +v =α + + +v −β

t 0 1 t−1 1 t 1 t−1 t 0 1 1 t−1 t 1 t−1

−1

2 v MDS

y ARMA(1,1)

Quindi , perché o, equivalentemente, è un WN in senso debole (perché

t

t [ ]

E v ∨Y =0

incorrelato, ma non indipendente). Infatti, .

t t−1

Affinchè un processo ARMA sia stazionario, è necessario che i coefficienti della parte autoregressiva

∣ ∣

α β

∣ ∣ + <1

ϕ <1

soddisfino . Ciò equivale ad imporre che , ma , poiché i coefficienti ci soddisfano già

1 1

α ≥ 0 , 0< β ≤ 1 α β

+ <1

i seguenti vincoli: , è sufficiente imporre che (condizione di stazionarietà

1 1 1 1

GARCH (1,1)).

PROPRIETÀ GARCH(1,1):

• Momenti condizionati: 74

[ ] y E y

E y ( ) =0

∨Y =0  è una differenza di martingala, quindi .

t t

t t−1

o 2

Var y Y α y β h

( ) =h =α + +

o t t−1 t 0 1 t−1 1 t −1

• Momenti incondizionati: E y

( ) =0

VALORE ATTESO: .

t

o α

2 0

( )

E y =

VARIANZA: t

o 1− α β

( )

+

1 1

Questi valori discendono dal fatto che la serie dei rendimenti sia una differenza di martingala e dalla

α β

+ <1

condizione di stazionarietà: .

1 1 α β

+ <1

• Sotto la condizione di stazionarietà , risulta:

1 1

2

4

( )

E y 1− α β

( )

+

t 1 1 3

=3 >

2 2 2

1− α β α

[ ] ( )

+ −2

2

( )

E y 1 1 1

t y

Ovvero la serie dei rendimenti presenta una distribuzione leptocurtica, infatti qualsiasi siano i

t

valori assunti dai coefficienti, il rapporto è maggiore di 1 (perché al denominatore sottraggo ad 1 una

quantità maggiore che è necessariamente positiva essendo elevata al quadrato).

Ovviamente affinché la serie sia dotata di momento quarto finito è necessario che il denominatore sia

maggiore di zero, quindi al vincolo necessario per garantire la stazionarietà del processo andranno a

( )

2 2

( )

1− α β α

( )

+ −2 >0

sommarsi altri vincoli .

1 1 1 h

• È possibile dimostrare come il modello GARCH faccia dipendere la volatilità da tutti i valori

t

passati dei rendimenti al quadrato, ovviamente con pesi decrescenti

2 2 2 j 2

( ) ( ) (

−1

Var y y β h y β α α y β h 1+ β β α y

( )

∨Y =h =α +α + =α +α + + + =α +…+ + +

t t t 0 1 t 1 t−1 0 1 t 1 0 1 t−2 1 t−2 0 1 1 1 t

−1 −1 −1 −1

j

j → ∞ β h →0

Quindi nel limite, per , l’ultimo addendo , e risulta:

1 t j

α ∑

0 j−1 2

Var y β y

( )

∨Y = +α

t t 1 1 t j

−1 −

1−β j=1

1 75

La volatilità condizionata dipende da una costante e dalla somma ponderata del quadrato dei rendimenti

β

passati con pesi geometricamente decrescenti. Andiamo a vedere adesso come funzionano le

1

previsioni con questo modello.

PREVISIONE MODELLI GARCH (1,1) y

• Valore atteso condizionato dei rendimenti futuri: Poiché è una differenza di martingala,

t

E y E( y , t=1,2,…

( )

∨Y =0 ∨Y )=0

. Da ciò risulta che t t

t t−1 +1

• Volatilità condizionata dei rendimenti futuri:

La volatilità condizionata una passo in avanti è immediata, in quanto definita dal modello stesso,

infatti: 2 2

( )

Var y Y y α y β h

( ) =E =h =α + +

t t t t t+1 0 1 t 1 t

+1 +1 l>1

Invece, per calcolare la volatilità condizionata passi avanti, bisogna ricorrere alla LIE:

2 2 2

( ) ( ) ( )

Var y y E y h α y β h α β h

( ) ( ) ( )

∨Y =E =E =E =E +α + =α + +

t t t t t t t t t t 0 1 t 1 t 0 1 1 t+ 1

+2 +2 +1 +2 +2 +1 +1 (

2 2 2

( ) ( ) ( ) ( )

Var y y E E y E α y β h α α β h α α β

( ) ( ) (

∨Y =E =E =E +α + =E + + =E + +

t t t t t t t t+3 t t+1 0 1 t 1 t t 0 1 1 t+ 2 t 0 1

+3 +3 +1 +2 +2 +2

l=3

( )

È immediato osservare che tre periodi avanti la varianza predittiva dipende da una costante

h

e, con peso sempre minore, dalla componente . Dunque reiterando il ragionamento possiamo

t +1

l→ ∞

dimostrare che, nel limite, con , la volatilità predittiva converge alla varianza non

condizionata.

Infatti, reiterando questo stesso ragionamento, arriviamo ad una formula ricorsiva in cui la previsione

t+l

fatta al tempo t, della volatilità al tempo , può essere ottenuta attraverso la volatilità al tempo

t+l−1 , infatti: 2 2 2 2

( ) ( ) ( ) (

Var y y … E y h α y β h … E α y β

( ) ( )

∨Y =E =E =E =E +α + =E +α +

t t t t t t t t t t 0 1 t 1 t+l−1 t t 0 1 t 1

+l +l +l−1 +l +l +l−1 +l−2 +l−1

E h α β E h

( ) ( ) ( )

=α + +

Reiterando il ragionamento, posto che possiamo dimostrare che,

t t+l 0 1 1 t t+l −1

l→ ∞

nel limite , la volatilità predittiva converge alla varianza non condizionata: 76

α

2 0

( )

E h → E y

( ) =

t t+l t 1− α β

( )

+

1 1

• Funzione di distribuzione dei rendimenti futuri (Density Forecasting)

Completata la stima del modello, se sulla base di quest’ultima voglio prevedere i valori futuri assunti dalla

serie, è noto che costituisce un predittore ottimale il valore atteso condizionato, ma nel caso dei modelli

ARCH e GARCH esso è nullo. Disponiamo, però, di una informazione addizionale rappresentata dalla

possibilità di prevedere la volatilità condizionata dei rendimenti futuri. Queste informazioni non sono però

l>1

sufficienti a conoscere la densità predittiva con .

Nei modelli ARCH e GARCH è possibile prevedere analiticamente la forma della funzione di densità

l=1

predittiva, solo un passo avanti ( ). y N 0 ; h

∨Y ( )

Infatti, per costruzione del modello, risulta: t t t

+i +i−1 +i l>1

Questo, invece, non si verifica, nel caso della densità predittiva con più di un passo avanti .

l=2

Consideriamo, ad esempio, la funzione di densità predittiva due passi avanti ( ).

La funzione di densità condizionata al set informativo al tempo t, coincide con la distribuzione congiunta dei

f y , y

( )

∨Y

valori futuri della serie al tempo t+2 e t+1 condizionata al set informativo al tempo t ed

t t+1 t

+2

integrata al tempo t+1.

La funzione di densità congiunta può essere a sua volta scomposta nel prodotto della funzione di densità

f y y ,Y f y

( ) ( )

∨ ∨Y

condizionata per la funzione di densità marginale dell’evento condizionante .

t t t t t

+2 +1 +1

Otteniamo quindi:

∫ ∫ ∫

f y f y , y d y f y y , Y f y d y f y f y d y

( ) ( ) ( ) ( ) ( ) ( )

∨Y = ∨Y = ∨ ∨Y = ∨Y ∨Y

t t t t t t t+2 t t t+1 t t+1 t t t t t

+2 +2 +1 +1 +1 +2 +1 +1 +1

Quindi abbiamo fattorizzato la funzione di densità predittiva due passi in avanti nell’integrale del prodotto di

due densità marginali calcolate un passo avanti rispetto all’evento condizionante. Quest’ultime sono

entrambe normali, per definizione del modello.

L’integrale è una sorta di valore atteso di una densità calcolato rispetto all’altra. Il risultato finale è una

MISTURA infinita di NORMALI che non è normale, con pesi relativi alla densità di probabilità di

y ∨Y . Questa mistura di normali non ha una distribuzione analitica nota, però il risultato ottenuto può

t t

+1

essere usato per simulare la distribuzione data, attraverso il metodo monte carlo.

Attenzione, potremmo legittimamente assumere come valida una approssimazione del tipo

h

y N ; h

∨Y (0 ) , dove è il valore della volatilità stimato, con il metodo montecarlo, ma

t t t t

+2 +2∨t +2∨t

questa approssimazione sottostima il vero valore della distribuzione che è LEPTOCURTICA, determinando

una sottostima sistematica del rischio di mercato. 77

METODO DI SIMULAZIONE MONTE CARLO

Il metodo di simulazione Monte Carlo consiste nel generare M campioni dalla funzione di distribuzione nota

attraverso step successivi, e quindi ottenere il valore simulato della funzione di densità predittiva.

y N 0 ; h

( )

∨Y

Dalla distribuzione che è nota per costruzione del modello derivo il valore simulato

t t t

+1 +1

(i)

t+1 → y

della serie al tempo .

t+1 y

(i)

y

Propago in avanti il valore simulato , e simulo il valore della serie al tempo t+2, cioè estraggo t

t +2

+1 Y

dalla distribuzione condizionata non soltanto al passato noto ( ) ma incrementato del valore simulato al

t i i

( ) ( )

( )

(i) y , y N 0 ; h

y ∨Y

tempo t+1,ovvero ottengo dalla distribuzione , con

t t t t t+2

+2 +2 +1

2

( )

(i ) (i)

h y β h

=α +α + simulata.

t 0 1 t+1 1 t

+2 +1 (i)

y

In sintesi, genero un campione simulato dalla distribuzione predittiva uni periodale, ed ottengo t +1

(valore rappresentativo della popolazione al tempo t+1), quindi inserisco questo valore simulato nel set

y

informativo disponibile al tempo t, e genero un valore dalla distribuzione di condizionato al set

t +2

(i) (i)

y , y N ; h

∨Y (0 )

informativo aumentato che è nuovamente normale: .

t t t t+ 2

+2 +1

Il campione ottenuto, reiterando M volte gli aspetti di questa distribuzione, ci consente di conoscere gli

aspetti rilevanti della funzione di densità predittiva.

Quindi la funzione di densità predittiva due passi avanti può essere stimata attraverso la media empirica

Y

delle M simulazioni della funzione di densità stessa, condizionata al set informativo noto ( )

t

incrementata del valore simulato al tempo t+1: 78

MODELLO GARCH INTEGRATO α β

+ =1

Spesso, stimando un modello GARCH su una serie storica, si osserva che (o prossimi a 1),

1 1

y

ovvero la volatilità è così persistente che il processo diviene non stazionario.

t

2 α

y h ε , ε N 0 ; 1 , h 1−β y β h =1−β

( ) ( )

= =α + + , dove 1 1

t t t t t 0 1 t 1 t

−1 −1

2

y

Quindi la serie del quadrato dei rendimenti descrive un modello ARMA con radice unitaria per la

t

parte auto regressiva, ovvero un processo ARIMA (0,1,1) in cui il coefficiente della parte a media mobile è

2

y

negativo, per cui la previsione degli descriverà un processo a media mobile con pesi

t

esponenzialmente decrescenti (livellamento esponenziale) del quadrato dei rendimenti passati.

2 2

y y v v

=α + + −β

t 0 t−1 t 1 t−1 2

( )

E y

Altra conseguenza della non stazionarietà del processo GARCH è che la varianza incondizionata è

t

infinita. 79

2

α β α → 0

+ =1 y

Consideriamo un caso degenere del modello GARCH in cui e , quindi

1 1 0 t

descrive un ARIMA (0,1,1) senza costante. In tal caso le previsioni della volatilità sono costanti e seguono

λ

un livellamento esponenziale del quadrato dei rendimenti passati in cui è la costante di livellamento.

2 j

2 2 2 2

h y λ 1− λ y λ 1−λ y …=λ 1−λ y ,l=1,2,…

( ) ( ) ( )

=h =λ + + +

t t t t−1 t t j

+l∨t +1 −2 −

j=0

α , β

=λ =1−λ

Dove poniamo .

1 1

OSSERVAZIONE: Questo risultato è esattamente equivalente a quanto ottenuto in precedenza per la stima

della volatilità condizionata, però al set informativo un passo indietro, nel caso di modelli GARCH non

integrati: ∞

α ∑

0 j−1 2

Var y β y

( )

∨Y = +α

t t 1 1 t j

−1 −

1−β j=1

1 80

METODI NON PARAMETRICI PER STIMARE

LA VOLATILITA’

̂

ξ y μ

= − ̂

Posto che , esistono due modi alternativi non parametrici di stimare la volatilità:

t t t ∨t−1

• VARIANZA CAMPIONARIA MOBILE:

m−1

1 ̂

2 2

σ m ξ

̂ ( )=

t t− j

m j=0 ̂ 2

ξ

Questo metodo stima la varianza come una media mobile locale, con pesi uguali, di , basata su un

t

numero di m osservazioni consecutive. Ovviamente la bontà della stima dipende dal numero m di

osservazioni considerate (che misura la lunghezza della media mobile) per cui tanto più grande è m tanto

maggiore sarà la stabilità della stima della varianza ottenuta, ed al limite per m=N ottengo la stima della

varianza globale. ̂

ξ y μ

= − ̂

Abbiamo assunto che , consideriamo il caso particolare in cui il valore atteso condizionato

t t t ∨t−1

μ

̂ =0

sia , in tal caso la stima della varianza sarà data dalla media mobile locale, con pesi uguali, degli

t∨t −1 2

y

ultimi quadrati dei rendimenti osservati .

t

• MEDIA MOBILE CON PESI ESPONENZIALMENTE DECRESCENTI (livellamento

esponenziale) (RiskMetrics, 1996): ̂

2 2 2

̂ ̂

σ ξ 1−λ σ

( )

=λ +

t t t

+1∨t ∨t−1

Alternativamente la varianza può essere stimata attraverso una media mobile con pesi esponenzialmente

λ

decrescenti, ovvero come un livellamento esponenziale, in cui il parametro descrive il ritmo al quale

decrescono i pesi. α

λ =λ

Il parametro può essere stimato, attraverso la stima di un modello GARCH poiché , altrimenti

1

possiamo ricorrere ad un valore prefissato del parametri e più spesso utilizzato nelle applicazioni pratiche,

λ=0,06

ovvero . √

ξ h ε

=

Osservazione: Consideriamo un modello GARCH(1,1) dove indichiamo , e quindi la volatilità:

t t t

2

h α ξ β h

=α + +

t 0 1 t−1 1 t −1 81

Nel caso particolare in cui:

α =0

- 0

α , β

=λ =1−λ

- 1 1

α β

+ =1

- 1 1

La volatilità è ottenuta da una media mobile con pesi esponenzialmente decrescenti (o equivalentemente

2

ξ

come livellamento esponenziale) di .

t−1 82

MODELLO GARCH IN MEDIA

Al pari di quanto visto per i modelli ARCH, esiste una forma generale di modello GARCH che intende

inserire la componente di premio al rischio. In questo modello la volatilità ha un feedback sulla media, per

cui tanto più è alta la volatilità, tanto più alto sarà il valore atteso dei rendimenti, in quanto un maggior

rischio deve implicare un maggior rendimento.

y h

=μ +δ +ξ

t t t

ξ h ε , ε NID(0; 1)

=

t t t t

2

h α ξ β h

=α + +

t 0 1 t−1 1 t −1

δ> 0

Dove è il parametro di premio a rischio

Questa formulazione del modello implica una maggiore prevedibilità dei rendimenti, perché se la volatilità è

y

alto allora il rendimento atteso è positivo. Infatti la serie è serialmente correlata ed i rendimenti attesi

t

sono prevedibili attraverso il passato:

y δ h

=μ+

̃ t t

+1∨t +1

MODELLO EGARCH(m,s):Exponential Garch Model ;Modello

di Nelson, 1991.

Il modello EGARCH (m,s) si propone di catturare l’asimmetria dei rendimenti finanziari, ovvero

l’asimmetria di effetti prodotti sulla volatilità nota come Effetto Leverage:

Rendimenti positivi e negativi generano un effetto asimmetrico sulla volatilità, infatti i rendimenti negativi

generano un impatto sulla volatilità più forte dei rendimenti positivi. Quindi rendimenti molto grandi

(shocks) in valore assoluto generano un impatto diverso sulla volatilità a seconda del loro segno, in

particolare shocks negativi generano un impatto sulla volatilità più forte degli shocks positivi.

La struttura del modello è la stessa:

y h ε , ε NID(0 ; 1)

=

t t t t h

Ciò che cambia è il modo in cui viene modellata la varianza condizionata , il modello EGARCH si

t

basa sulla LOG-VOLATILITA’ modellata come un processo ARMA, infatti è ottenuta dal rapporto di due

polinomi di tipo a media mobile (al numeratore) e di tipo autoregressivo (al denominatore) guidati da una

ε

funzione g(.) dello shock passato .

t 83

s−1

1+ β L+ …+ β L

1 s−1

ln h g ε

( )

=α +

t 0 t−1

m

1−α L−…−α L

1 m

Il modello EGARCH si basa sul concetto di log-volatilità per evitare di imporre vincoli sui coefficienti α e β

al fine di garantire che la volatilità sia positiva, infatti se considero la log-volatilità e poi vado ad

“esponenziarla” per ottenere la volatilità sono certo di ottenere una volatilità strettamente positiva (perché la

funziona esponenziale è positiva).

Il modello EGARCH modella la log-volatilità come un processo ARMA perché esso presenta il vantaggio di

scrivere la serie come un rapporto di polinomi che a loro volta convergono nel polinomio di Wold il quale ha

il vantaggio di consentire una rappresentazione parsimoniosa/sintetica nel generare infiniti coefficienti che

consentano di esprimere il processo stocastico in funzione degli infiniti ritardi degli shocks passati.

θ(L) 2

y ε Ψ L ε , ε WN σ

( )

=μ + =μ+ (0; )

t t t t

L)

ϕ(

Però nel modellare il processo come un ARMA occorre tener conto di due condizionamenti:

α L , β L L

∣ ∣

( )=0 ( )=0 >1

Condizione di STAZIONARIETÀ che è verificata quando le radici del polinomio auto regressivo

- sono in modulo superiore ad 1 (= esterne al cerchio unitario)

Condizione di INVERTIBILITÀ o anche condizione di IDENTIFICABILITÀ (perché se soddisfatta

- garantisce per ogni polinomio di questo tipo non esista un altro polinomio che abbia le stesse

evidenze empiriche) che è verificata quando le radici del polinomio auto regressivo sono in modulo

superiore ad 1 (= esterne al cerchio unitario)

Osservazione: Nel modello EGARCH la volatilità diviene una funzione moltiplicativa (e non più additiva)

degli shock passati, perché stiamo modellando la log-volatilità quindi nel momento in cui andiamo a

derivare la volatilità prendendone l’esponente, questa combinazione lineare (somma) di funzioni g(.) diviene

un prodotto. [ ]

∣ ∣ (∣ ∣)

g ε ε ε ε

g(ε ( )

=θ +γ −E

)

Analizziamo ora la Funzione degli Shock Passati t t t t

t

ε

ε N 0 ;1) ¿ ∨¿

(

Se allora ha una distribuzione “Half-

t t

Normal” coincidente con metà ramo della normale opportunamente

riscalato perché la densità deve integrare a 1, per cui

(∣ ∣)

E ε 2/π

= .

t θ ε

La funzione g(.) è divisa in due parti, la prima che dipende

t

ε γ ∨ε ∨¿

dal segno di ed una seconda che prescinde dal

t t ε

segno (in quanto considera il valore assoluto di ) e quindi dipende solo dalla sua dimensione, la terza

t 84

(∣ ∣)

E ε g(ε )

componente invece non ha un valore interpretativo, serve solo a centrare la funzione in

t t

quanto garantisce che essa abbia valore atteso nullo.

g(ε )

In sostanza la funzione serve a catturare due effetti (effetto segno e effetto dimensione) per

t

modellare l’effetto leverage, per cui ci aspettiamo che i due coefficienti associati assumano i seguenti valori:

γ >0

- ε

θ<0 <0

in modo da garantire che in presenza di uno shock negativo ( ), l’impatto

- t

complessivo sulla log-volatilità e quindi sulla volatilità sia complessivamente positivo.

Nel modello così teorizzato, testare l’ipotesi secondo cui gli shocks generano effetti simmetrici sulla

H :θ=0

volatilità, equivale a verificare la seguente ipotesi .

0

CASO PARTICOLARE: EGARCH(1,1)

1

ln h g( ε

=α + )

t 0 t−1

1−α L

1

1−α L ln h 1−α g( ε

( ) ( )

=α + )

1 t 0 1 t−1

ln h 1−α α ln h g(ε

( )

=α + + )

t 0 1 1 t t

−1 −1 [ ]

∣ ∣ (∣ ∣)

ln h 1−α α ln h ε ε ε

( )

=α + +θ +γ −E

t 0 1 1 t t−1 t t

−1 −1 −1

Al numeratore della prima formula compare la costante 1 perché stiamo considerando un EGARCH (1,1) in

s=1

cui . Ovviamente, ciò equivale a dire che un modello EGARCH(m,0) non esiste.

Quindi proseguendo i passaggi: 85

γ >0

Otteniamo un modello che è effettivamente in grado di catturare l’effetto leverage, perché posto che

θ<0 γ

e , il fattore moltiplicativo in presenza di rendimenti negativi (a sottraggo una quantità

γ

negativa) è più alto del fattore moltiplicativo in presenza di rendimenti positivi (a sommo una quantità

negativa).

MODELLI GARCH CON UNA DIVERSA DISTRIBUZIONE

DELL’ERRORE

ε T , v >2

Per esempio, considerando: t v

Questa generalizzazione prevede che gli errori del modello si distribuiscano come una T-Student e quindi

y T , v

∨Y >2

anche , ciò garantisce una migliore capacità di approssimare la distribuzione di un

t t−1 v

processo (come quello rappresentato dalla serie dei rendimenti) che è leptocurtico.

v+12

( )

Γ v 2

−( )

+1 /

[ ]

2

y

( )

−μ

t t ∨t−1

f y Y 1+

( )

=

t t−1 v−2 h

√ ( )

Γ v π v−2 h

( ) ( )

/2 t

t

∫ u−1 −x

Γ u x e dx

( )=

Dove è la funzione Gamma.

0

La generalizzazione prevista dal modello deriva dal fatto che quando stimiamo un modello GARCH

ε N 0 ;1)

(

standard con assunzione di distribuzione normale degli errori e quindi

t

y NID( 0; h

∨Y ) .

t t−1 t

In sede di verifica a posteriori del modello stimato, quando confrontiamo i residui standardizzati con una

distribuzione normale, più spesso siamo indotti a rigettare l’ipotesi normalità dei residui della regressione a

causa della curtosi, perché spesso i rendimenti finanziari assumono, in valore assoluto, valori così alti, che

una distribuzione normale, e quindi priva di curtosi, non è in grado di catturare. v >2

ovviamente questa estensione implica l’esigenza di stimare un nuovo parametro, che misura i gradi

di libertà della T, da cui dipende la flessibilità del modello teorizzato, in quanto è il numero di gradi di

v >30

libertà che guida la curtosi, nel caso limite in cui , non è più necessario ricorrere alla T-Student in

quanto l’approssimazione normale è sufficiente.

MODELLI GARCH MULTIVARIATI

Il passaggio da un modello uni variato ad un modello multivariato è piuttosto problematico perché richiede

un equilibrio tra generalità/realismo che porta a considerare un numero maggiore di serie storiche

86

contestualmente (pensiamo all’esigenza di gestire un portfolio che rappresenta una attività finanziaria

complessa ottenuta come combinazione di più attività finanziarie, per la cui gestione siamo interessati ad

osservare come queste si muovano insieme), e complessità parametrica dovuta al fatto che i parametri da

stimare aumentano significativamente.

y

Indichiamo con una serie storica vettoriale composta da N componenti, quindi un vettore di

t

dimensione Nx1, nel modello GARCH Multivariato possiamo formularla come segue:

1

2

y H ε

=μ +

t t∨t t t

−1 μ

( )

1 t∨t−1

μ 2 t∨t−1

μ y

( )

=E ∨Y =

Media condizionata (vettore Nx1): t∨t t t−1

- −1 ⋮

μ Nt∨t−1

[ ]

'

H y y y

( ) ( )( )

=Var ∨Y =Ε −μ −μ ∨Y =¿

Matrice Var-Cov (matrice NxN):

- t t t t t∨t t t t

−1 −1 ∨t−1 −1

[ ]

[ ] ∣

VAR y COV y ; y Y

( )

∨Y ⋮

1 t t 1 t 2 t t

−1 −1

∣ [ ]

COV y ; y Y VAR y

( ) ∨Y ⋮

2t 1 t t 2 t t−1

−1 [ ]

… VAR y

⋯ ∨Y

Nt t −1

'

H =H

che è una matrice simmetrica dato che e anche semidefinita positiva, cioè preso un

t t

'

x H x> 0

qualsiasi vettore x non nullo di N elementi, .

t

ε

La componente erratica presenta le seguenti caratteristiche:

- t

E ε ∨Y =0

( )

o t t −1

'

( )

E ε ε ∨Y =I

o t t t−1 N

Matrice radice quadrata (che nell’ambito dell’algebra delle matrici non è definita univocamente)

- 1 1 1 '

2 2 2

H H H

=H

è una matrice NxN, non necessariamente simmetrica, tale che .

t t t t 87

ξ y

= −μ

Errore di previsione un passo avanti è , che per definizione ha valore atteso

- t t t ∨t−1

E ξ

( )

∨Y =0

condizionato nullo .

t t−1

y

Nel modello multivariato, descrive una serie storica vettoriale composta da N componenti, per cui

t μ y

( )

=E ∨Y

occorre formulare un modello per il valore atteso condizionato e per la varianza

t∨t t t−1

−1

H y

( )

=Var ∨Y

condizionata .

t t t −1

Per la media condizionata possiamo utilizzare un VAR(p) che rappresenta la media condizionata come

combinazione lineare dei valori passati della serie con ritardi di ordine p:

Per la varianza condizionata esistono tre possibili approcci:

Diretta generalizzazione del modello GARCH Univariato: VEC e BEKK(che ne rappresenta una

1. semplificazione)

Modelli di correlazione condizionata: CCC, DCC

2. Modelli fattoriali: Factor GARCH, O-GARCH.

3. μ y N 0 ; H

=0 ∨Y ( )

Assumiamo però la seguente semplificazione: , ciò implica che , quindi

t t−1 t

t∨t −1

1

2

y ε

=H

possiamo riscrivere il modello come: .

t t t

1. GENERALIZZAZIONE GARCH:

MODELLO VEC

1

2

y ε , ε N ; I

=H (0 )

t t t t N '

( )

VECH H A VECH y y B VECH

( ) =α + + (H )

t 0 1 t t 1 t

−1 −1 −1

'

y y

Dove è la matrice NxN dei prodotti esterni.

t−1 t−1

In base a questa rappresentazione generica, ogni varianza e covarianza condizionata dipende dal quadrato e

dal prodotto incrociato dei rendimenti e dalla varianza e covarianza ritardata. 88

Il VEC è una operazione tra matrici che consente di trasformare una matrice in un vettore colonna, mettendo

una sull’altra le colonne della matrice.

Consideriamo il seguente esempio a titolo esemplificativo:

[ ]

h h

H 11,t 12, t

=

matrice simmetrica: t h h

12,t 22, t

Nel nostro caso, trattandosi di una matrice simmetrica si osserva un inutile aumento di valori. Per questo

motivo si preferisce l’operatore VECH che esegue la medesima operazione però considerando unicamente

gli elementi sulla matrice triangolare inferiore, come illustrato a pagina seguente:

h

( )

11, t

h

⃗ 2

12, t

H vettore N X 1

( ) =

t h 12, t

h 22, t

( )

h 11,t N N 1)

( +

VECH A vettore X 1

h

( )= 12,t 2

h 22,t N N

( )

( )

+1

H che sono

Quindi il modello VEC prende ciascun elemento unico della matrice e

t 2

A B

postula, per ognuno di essi, un modello GARCH (1;1). Siccome e sono matrici piene

1 1

2

( )

( )

N N 1

( )

+

di dimensione , ciascuno di questi elementi dipende da tutti gli altri.

2

Caratteristiche del modello:

Dal punto di vista pratico questo modello risulta difficilmente implementabile in quanto

- eccessivamente oneroso nel numero di parametri da stimare:

2

N 1) N N

( )

( )

(N + +1 4

+2 =O(N )

2 2 4

N

Il numero di parametri, infatti, è dell’ordine di . Quindi, abbiamo una sovraparametrizzazione;

il modello non è facilmente stimabile.

È difficile individuare il set di vincoli da imporre sui coefficienti del modello per garantire che la

- H

matrice var-cov sia una matrice definita positiva

t 89

A +B

Il modello è stazionario se gli auto valori della matrice somma sono in modulo minori di

- 1 1

uno.

MODELLO DVEC – DIAGONAL VEC

Il modello Diagonal VEC rappresenta una possibile semplificazione del modello VEC, tale da ridurre il

A B

numero di parametri da stimare. In sostanza si impongono delle restrizioni sulle matrici e per

1 1 2

N

trasformarle in matrici diagonali. In questo modo il numero di parametri da stimare è una funzione di ,

4

N

non più . '

( )

¿ ¿ ¿

H A y y B H

=A + ⊙ + ⊙

t 0 1 t t 1 t

−1 −1 −1

dove: ¿

( )

α VECH A

( )

=diag

- 0 0

¿

( )

A VECH A

( )

=diag

- 1 1

¿

( )

B VECH B

( )

=diag

- 1 1

⊙ questo simbolo denota il prodotto elemento per elemento, cioè moltiplico ciascun elemento

- della matrice per l’elemento dell’altra matrice in posizione corrispondente.

Esempio: consideriamo il caso in cui N=2, allora il modello DVEC si compone di tre equazioni:

2

h α y β h

=α + +

11,t 0,11 1,11 1,t−1 1,11 11, t −1

h α y y β h

=α + +

12,t 0,12 1,12 1,t−1 2, t−1 1,12 12, t −1

2

h α y β h

=α + +

22,t 0,22 1,22 2,t−1 1,22 22, t −1

¿ ¿ ¿

H A A B

è definita positiva se è definita positiva e e sono semidefinite positive.

t 0 1 1

Nel modello DVEC si riduce il realismo interpretativo, perché considerare esclusivamente matrici diagonali

equivale ad escludere che la volatilità del primo asset dipenda dalla volatilità del secondo asset.

α β α

+ =1 =0

Prescindendo da questo limite interpretativo, se assumiamo che e che , il modello

1,ij 1,ij 0,ij

DVEC conduce un livellamento esponenziale sulla serie per stimare la volatilità e la covolatilità (come

abbiamo osservato nel modello uni variato, dove il livellamento esponenziale del quadrato dei rendimenti

può essere interpretato come risultante da un processo GARCH (1,1) con restrizioni nei parametri). 90

Infatti, attraverso sostituzioni ricorsive viene fuori che la volatilità stimata è ottenuta come livellamento

esponenziale del quadrato e del prodotto incrociato dei rendimenti:

h y y 1−λ h

( )

=λ +

ij ,t ij i ,t−1 j , t−1 ij ij ,t −1

Questa impostazione consente di fare previsioni su varianza e covarianza dei rendimenti, per un valore

λ

fissato ed unico del parametro . Ed inoltre consente di stimare le correlazioni dinamiche (che cambiano

nel tempo):

h ij, t

r =

ij ,t √ √

h h

ii ,t jj ,t

MODELLO BEKK (4 AUTORI)

È il modello più usato tra i VEC. In questo modello la matrice H è espressa come un’equazione matriciale

t

ricorsiva del 1° ordine, dove H è legata agli elementi passati H :

t t-1

A è una matrice triangolare superiore, A e B sono NxN.

0 1 1

Inoltre, se facciamo il prodotto matriciale (A ’A )’= A ’A notiamo che la matrice (A ’A ) è simmetrica ed

0 0 0 0 0 0

anche definita positiva, purché A è di rango pieno.

0

Con matrici di rango pieno (noi assumiamo che lo siano), comunque prendo x ho che x’A ’A x è > 0.

0 0

¿

x A x

¿' ¿ ¿' ¿

=

x x x x

Infatti, quello che abbiamo appena scritto equivale a , dove . è il prodotto

0

scalare di un vettore per se stesso, dunque un quadrato, che sappiamo essere sempre >0 , a meno che qualche

¿

x

elemento di sia 0, ma questo lo escludiamo perché abbiamo detto che il rango della matrice è pieno.

Con questa fattorizzazione (trucco sandwich: considerare il prodotto di una matrice con se stessa trasposta)

conseguiamo la simmetria e la positività della matrice H .

t

Quanti parametri abbiamo?

• A è triangolare superiore, quindi N(N+1)/2 parametri;

0

• 2

A e B sono NxN, quindi abbiamo 2(N ) parametri;

1 1 N N 1

( )

+

2 2

( )

2 N N

+ =O

Quindi, in totale abbiamo .

2

In particolare nel caso bivariato abbiamo 11 parametri (2 in più del DVEC): 91

Dall’equazione dello sviluppo della volatilità del primo asset possiamo notare come questa volatilità dipende

non soltanto dal quadrato del suo rendimento passato e dalla sua volatilità passata, ma anche dal prodotto dei

rendimenti, dal quadrato dei rendimenti e dalla volatilità del secondo asset.

Questo è dunque un modello intermedio tra DVEC e VEC, buon compromesso tra realismo e parsimonia del

numero di parametri.

2. MODELLI DI CORRELAZIONE CONDIZIONATA

Un altro approccio che porta una forte semplificazione nella stima e nel numero dei parametri consiste nel

modellare le correlazioni piuttosto che le varianze e covarianze.

In questo approccio H , matrice di varianze e covarianze condizionate, è scritta e fattorizzata nel prodotto di

t

3 matrici:

H P D

=D

t t t t

• D è una matrice diagonale con le deviazioni standard condizionate di ciascun asset:

t

[ ]

√ h 0 0

11, t √

0 h 0

22,t √

0 0 h

33, t

• P è una matrice di correlazione condizionata:

t

[ ]

1 ρ ρ

12,t 13,t

ρ 1 ρ

12,t 23,t

ρ ρ 1

13,t 23, t

Sulla diagonale la correlazione è pari ad 1.

Sappiamo che, con 2 variabile x e y, il coefficiente di correlazione è ρ = cov(x,y) / σ σ .

x y

Allora cov(x,y)= σ σ ρ . Se riformuliamo questo ragionamento in termini matriciali otteniamo H

x y xy t.

L’elemento generico della matrice H in tutti i modelli è dato da :

t √ √

h h h

= ∗ ∗ρ cov(i,j)=σ σ ρ

ij ,t ii ,t jj ,t ij i j ij

I modelli di correlazione condizionata sono modelli per questa matrice P .

t

Il primo modello che analizziamo è il c.d. Constant conditional correlation. 92

MODELLO CCC H P D

=D

Assumiamo che P sia fissa, statica, infatti, sparisce il pedice t: .

t t t

La semplificazione appena introdotta ci costa, poiché non possiamo valutare come le correlazioni tra gli

asset variano nel tempo, perché abbiamo ipotizzato che esse siano fisse.

Questa ipotesi, però, comporta una notevole semplificazione, perché, in sostanza, possiamo stimarci il nostro

modello in due stadi:

Per ciascun asset stimiamo le h con un GARCH (1,1), quindi la volatilità dello i-esimo asset viene

1) ii,t 2

h α y β h

=α + +

stimata con un GARCH uni variato: .

ii ,t i0 i1 i , t−1 i1 ii ,t−1

H α 0 α , β ≥ 0 y α β

>0 > ∀i + <1 ∀i

Inoltre, se e . è stazionario se .

t i0 i1 i1 t i1 i1

Poi devolatilizzo ciascun asset, rimuovendo la volatilità e calcolo la matrice di varianze e covarianze

2) degli asset de volatilizzati.

Questa è appunto una stima di P.

Questo modello è, dunque, molto elementare.

Infatti, nel primo stadio ci stimiamo la matrice Dt, fittando n GARCH univariati, poi prendiamo

y

( )

it

¿

y

¿ −1 =

y y

=D per costruire i residui de volatilizzati e sulla base di questi costruiamo la

t t t h

√ ii, t

matrice di correlazione statica P. ¿ −1

y y

=D

È importante sottolineare che se abbiamo ben de volatilizzato allora è tale che

t t t

¿ y N 0 ; H

y N 0 ; P ( )

∨Y

( )

∨Y , perché .

t t−1 t

t t−1 N N

( )

+5

Il numero di parametri del modello è pari a .

2

MODELLO DCC.

Vediamo il caso che ci interessa di più , che è quello in cui la correlazione varia nel tempo.

Quelli che illustreremo sono due modelli, molto simili, entrambi denominati dinamic conditional correlation

(uno elaborato da Tse e Tsui e l’altro da Engle). H P D

=D

Gli Aspetti comuni sono: H è fattorizzata come prima: . Gli elementi diagonali (h )

t t t t

t ii,t

2

h α y β h

=α + +

seguono un processo GARCH (1,1) uni variato: .

ii ,t i0 i1 i , t−1 i1 ii ,t−1

VERSIONE DI TSE TSUI

Andiamo a formulare un modello dinamico per P:

Vediamo allora come evolve P:

• C’è un legame con il suo passato (componente GARCH), dato dal coefficiente b, che è positivo e in

genere varia tra 0 e 1. Esso è uguale per tutti gli elementi di P . b è un numero, uno scalare da

t-1

stimare e rappresenta la componente di inerzia (il legame con il passato). 93

• Abbiamo, poi, la nuova informazione, data da S , che è la matrice di correlazione degli ultimi M

t-1 y i ,τ

¿

y , τ=t−1, … ,t−M

=

rendimenti de volatilizzati, a partire da t-1, indietro fino a t-M: i ,τ √ h ii, τ

• S è una matrice incognita simmetrica e definita positiva, che rappresenta il valore di lungo periodo

della matrice P.

• Davanti abbiamo il fattore (1-a-b), questo è un trucchetto nuovo.

Per capirlo meglio, pensiamo ad un modello AR(1) con una costante: y = φ(y ) +m+WN; se |φ|<1,

t t-1

il valore atteso incondizionato di y =m/1- φ.

t

Se riscrivo la costante come m = (1- φ) μ il valore atteso del processo = μ.

Questa parametrizzazione, che useremo qualche volta, è utile perché, per φ  1, abbiamo un RW, che

è un modello che ha molta continuità con un AR(1). Cosa che non succedeva prima, quando m era

una costante, perché li, quando φ→1, avevamo un RW con un drift, che si comporta in modo molto

diverso rispetto ad un AR(1) (ha un trend in media, anche se la varianza cresce indefinitamente).

Quindi questa parametrizzazione è utile quando il parametro che regola la stazionarietà va verso la

regione di non stazionarietà, perchè così si elimina il drift.

Riprendiamo il GARCH (1,1) fatto rispetto a P ; il processo P è stazionario se (a+b) < 1, come per un

t t

GARCH (quindi dobbiamo imporre questa condizione).

Se, però, (a+b)=1, la matrice S si leva e abbiamo un IGARCH. In questo caso vogliamo che la costante vada

a 0, per avere previsioni di volatilità che siano un livellamento esponenziale.

I parametri da stimare sono a, b (scalari) e la matrice S.

In laboratorio, non stimeremo S direttamente ma porremo S=A’A dove A è una matrice triangolare superiore,

con elementi liberi di variare in R (in questo modo S sarà definita positiva).

VERSIONE DI ENGEL

In questo caso non modelliamo direttamente la matrice P, ma una matrice ausiliaria Q, che modelliamo con

un modello molto simile a quello visto per P prima:

́ ¿ ¿' ¿ −1

Q 1−a−b Q+a y y Q y y

=( ) +b =D

, con

t t t−1 t t t t

−1 −1

¿ ¿'

y y

• possiamo vedere come un caso particolare della matrice S , di cui utilizziamo

t−1 t−1 t-1

un’osservazione sola (l’ultima), piuttosto che un blocco di osservazioni come prima.

¿

́ y

a+b Q

>1

• Se , è la matrice di covarianze incondizionata di , cioè il limite cui tende Q,

t

come nel caso autoregressivo.

́

Q

I parametri da stimare sono a, b e .

Una volta stimati i parametri, otteniamo gli elementi di P attraverso una normalizzazione degli elementi di

Q; infatti, se Q è una sorta di matrice di covarianza, per ottenere le correlazioni, dobbiamo dividere i suoi

P ρ

{ }

=

elementi (le covarianze) per le deviazioni standard, che sono gli elementi sulla diagonale: ,

t ij ,t

q ij ,t

ρ =

ij ,t √ √

q q

ii, t jj, t

́

Q

a, b e ce li stimiamo attraverso il metodo di max verosimiglianza. 94

N N

( ) ( )

+1 +4

I parametri di entrambi i modelli DCC sono 2

METODO MAX VEROSIMIGLIANZA

È un metodo Facile da applicare perché il modello è formulato sulla base della densità di y condizionata al

passato (la densità predittiva):

La log verosimiglianza è costruita come abbiamo visto prima:

I parametri stanno in H . Dobbiamo massimizzare la funzione sotto i vincoli imposti sui parametri.

t

Nel modello di Engle la stima di massima verosimiglianza è equivalente a questa procedura a due stadi:

Per ciascun asset stimiamo le h con un GARCH (1,1), e devolatizziamo il processo costruendo

1. ii,t

y it

¿

y = .

it √ h

ii ,t ¿

y N 0 ; P

( )

∨Y

Come prima, se abbiamo ben de volatilizzato , perché:

t t−1 t

́

Q

2. Stimiamo a, b e massimizzando la log-verosimiglianza parziale:

T

−1 [ ]

́ ∑ ¿

¿' −1 ¿ y

∣ ∣

lnL a , b , Q Nln 2π ln P y P y

( )= ( ) + + Cioè la logverosimiglianza associata a .

t

t t t t

2 t =1

−1 −1

̂ ̂

2 2

P Q Q Q

=

dove, ,

t t t t

−1 −1 −1

( )

̂ 2 2 2

Q q ,… ,q

=diag

dove .

t 11, t NN ,t 95

1. MODELLI FATTORIALI

Vediamo una nuova classe di modelli a volatilità multivariata che fa appello alla nozione di fattori.

Cosa sono i fattori?

L’ informazione economico finanziaria può essere distillata in pochi fattori fondamentali che riassumono le

caratteristiche di molte serie.

Quella dei modelli fattoriali è una metodologia che nasce in ambito psicometrico (per misurare attitudini).

Successivamente si è sviluppata e, in generale, viene utilizzata nelle procedure di valutazione: immaginiamo

ad esempio di avere una scala da 1 a 10, per diverse voci, per dare una valutazione ad un corso. La volontà è

quella di estrarre dalle diverse valutazioni, una sintesi. Un fattore è proprio una sintesi di più elementi.

La tecnica si è molto diffusa negli ultimi anni. Nella realtà abbiamo molti indicatori economici, per molti

settori e, per capire come va l’ economia, le condensiamo in poche variabili.

La novità è, quindi, che non restringiamo lo spazio parametrico, ma riassumiamo tutta l’informazione

necessaria per prevedere il futuro in poche variabili.

L’idea alla base dei modelli fattoriali è che i movimenti in comune fra gli asset sono guidati da fattori

comuni.

FACTOR GARCH

In questo modello i fattori comuni si comportano secondo un modello GARCH.

H

y N 0, H

∨Y ( )

Come al solito , dove è pari a :

t t−1 t t

Ω

dove è una matrice simmetrica e definita positiva, che rappresenta la matrice varianze-covarianze

' '

w w w , per k ≠ j w w

=0

incondizionata. sono vettori ortogonali (cioè tali che ) di N elementi.

k k j k k

H f

è una matrice NxN che ci garantisce la positività di . I fattori comuni evolvono secondo un

t kt

GARCH (1;1):

γ

Dove è un vettore di pesi.

Questo è un modo di cogliere la volatilità congiunta di n asset attraverso pochi fattori comuni (k, in genere è

1 o 2).

In fine, ci stimiamo il modello con tecniche di verosimiglianza.

COMPONENTI PRINCIPALI e O-GARCH

y

In questo modello, i rendimenti (che assumiamo avere media 0) sono generati da una trasformazione

t

ortogonale di N processi GARCH univariati. La matrice della trasformazione deriva dalla scomposizione

spettrale della matrice varianze-covarianze incondizionata dei rendimenti: 96

Λ=diag λ , … , λ Σ V

( )

Dove è la matrice diagonale formata dagli autovalori di e è la matrice che

1 N ' '

V V V

=V =I

contiene gli autovettori corrispondenti; N

Il modello O-GARCH è definito come:

y f

=V

t t

f E f

( ) =0

Dove sono N fattori ortogonali che seguono processi GARCH uni variati: quindi e

t t t

−1

f ' f f

( ) ( )

H Var f f f h , … , h

( )

¿ =E =diag

t t−1 t t−1 t t 1t Nt

itf 2 f

h 1−α f β h

( )

= −β +α +

Con i i i i ,t i i ,t

−1 −1 f '

y H y H V

( )

=Var =V

Quindi la matrice varianze-covarianze condizionate di è : .

t t t t t

−1

È importante notare che i fattori sono osservati. Infatti, essi rappresentano le componenti principali di

'

y :f y

=V . Il modello richiede di stimare N modelli GARCH univariati per le componenti principali.

t t t 97

MODELLO A VOLATILITÀ STOCASTICA

MODELLI A VOLATILITÀ STOCASTICA

UNIVARIATA Di BASE

Il modello a volatilità stocastica uni variata di base è formulato attraverso le due equazioni:

η α ε

Per il momento assumiamo che (e quindi ) sia indipendente da .

t t t

Y

La prima equazione considera (i rendimenti uniperiodali di un asset finanziario) dati da un fattore di

t

scala che moltiplica un disturbo gaussiano (un processo WN gaussiano forte (IID)). Il termine moltiplicativo

α

qui è scritto come funzione esponenziale (quindi è sempre positivo) di un processo stocastico ( ).

t

α

( )

t

exp

L’ rappresenta la deviazione standard.

2

α è un AR(1), che assumiamo stazionario, la cui dinamica è data dalla seconda relazione: il valore al

t η

ϕ

tempo t+1 è legato al valore al tempo t attraverso il coefficiente autoregressivo , più disturbi

normali e indipendenti (quindi un WN forte) più un termine che rappresenta la media.

α

Dunque, in questi modelli, la volatilità è generata dal processo , che è un processo AR(1) stazionario

t

2 s 2

σ σ

ϕ

η η

E α

( ) =μ Var α Cov α α

( ) ( )

= =

gaussiano con , e .

t t t t−s

2 2

1−ϕ 1−ϕ

α entra in modo non lineare nell’equazione di y (viene diviso per 2 ed esponenziato). Questo processo

t α

ha caratteristiche diverse da quelli visti in precedenza (ARCH, GARCH). guida la volatilità (la log

t

volatilità in realtà) ed è una componente latente: non dipende dalle osservazioni y, ma è perturbato (guidato)

η

da che è latente.

Questo modello è noto anche come modello a volatilità stocastica log normale.

MOMENTI :

Utilizziamo la legge valori attesi iterati per calcolare le caratteristiche del modello: 98

y

∣ ∣

ϕ <1

Quindi avremmo che se , è un processo stazionario, non gaussiano, con valore atteso pari a

t

E α Var α

( ) ( )

0, varianza che dipende da e da , asimmetria pari a 0 e curtosi maggiore di 3. Il

t t

2

σ η 2

σ

processo è leptocurtico perché è sempre maggiore di 0, a meno che è uguale a 0 (in questo

η

2

1−ϕ

α η α

caso non è perturbato da (che è costante perché ha varianza pari a 0) e, quindi, è costante,

t t t

non è più un processo stocastico, ma un processo deterministico, e si ritorna al caso gaussiano

omoschedastico). Quindi il processo è leptocurtico perché l’esponenziale di un numero maggiore di 0 è

maggiore di 1.

Dimostrazioni dei momenti attraverso la legge dei valori attesi iterati e le proprietà della distribuzione log

normale: 99

ϕ

2

Il nostro modello risponde alla caratteristica della curtosi, che dipende da σ di η e .

Il clustering della volatilità è preso in considerazione dalla dinamica autoregressiva, fenomeni di volatilità

accentuata persistono.

Un altro modo di riscrivere il modello è:

In questo modo abbiamo utilizzato h , che è la varianza condizionata del modello.

t

Quindi α è il ln di h , cioè la log volatilità. Essa va esponenziata per avere h da cui dipende la varianza di y .

t t t t

2

( )

( )

α h ln h 1−ϕ μ , η NID 0 ; σ

=ln = ϕ + +η

t+1 t t t t η

+1

Ricordiamo sempre che questo è un modello diverso dal GARCH, molto più vicino al IGARCH (o modello

di Nelson). In quest’ultimo, però, ciò che guidava la volatilità era osservabile, dipendeva dai rendimenti

y

standardizzati. il passato di y aveva un ruolo. Qui invece questo non accade, non c’è , ma ci sono

t

t 2

η σ

shock di volatilità che si distribuiscono come Normali (0 ; ). Questo ci dice che la log volatilità è

t η

η α

una componente latente, guidata dagli shock . non è osservabile al tempo t. L’ inferenza sulla log

t t

α

volatilità sarà più complicata, perché dipende in modo implicito, e non esplicito, dai rendimenti

t

passati.

È importante rimarcare la differenza con GARCH e IGARCH: h

qui la media di y condizionata al passato è 0. la varianza condizionata ( ) non è osservabile al tempo t,

t

t

ma possiamo far inferenza calcolando il valore atteso di una sua trasformazione esponenziale condizionato

al set informativo al tempo t-1.

In un modello cosi formulato anche il futuro ha importanza per stimare la volatilità.

Nei modelli GARCH, invece, h è osservabile:

t h α y β h

=α + +

t 0 1 t−1 1 t−1

t-12 t-22

Come ricordiamo, h è una combinazione lineare di y , y …. Essa giace dunque nel set informativo

t

disponibile al tempo t-1. 100

Come abbiamo detto, il modello di Nelson modellava l’effetto leverage, ovvero il fatto che la volatilità è più

alta in caso di shock negativi. Quindi, si legava la volatilità ad un fattore moltiplicativo che espandeva la

volatilità quando ε aveva valore negativo. ε

Per introdurre questa caratteristica in questo modello, introduciamo una correlazione negativa tra gli t

η

ed . Rimuoviamo, dunque, l’ipotesi di indipendenza introdotta prima.

t ε η

Se sono correlati negativamente quando c’ è uno shock ( ) negativo, è positivo, e quindi c’ è un

t t

impatto sulla log volatilità.

Assumiamo che ε ed η hanno una distribuzione congiunta bivariata gaussiana, con coefficiente di

ε η η

correlazione negativo. In questo modo, quello che succede in ha un impatto contrario su e

t t t

guida la volatilità.

Ovviamente questo è il modello più semplice, posso generalizzare il processo di volatilità prendendo un

arma, ma ora non serve.

ϕ

Inoltre se va a 1, la parametrizzazione che abbiamo funziona bene, perchè la log volatilità è un RW

senza drift. Noi non vogliamo un drift, non vogliamo un sentiero in media (anche se è vero che la media non

è un attrattore), non vogliamo che la volatilità abbia un drift. Infatti, se, ad esempio, il drift fosse negativo la

ϕ

varianza tenderebbe a 0, e noi non vogliamo questo. Quindi, quando va a 1 il temine di drift se ne va.

Perchè usiamo questi modelli?

Perché sono la discretizzazione di modelli in tempo continuo, come quelli che usiamo per prezzare le

opzioni, ad esempio il modello generatore di Black e Sholes.

Quindi c’è un legame stretto con la teoria matematica dei mercati finanziari. La generalizzazione in ambito

multivariato è molto più semplice rispetto ai modelli GARCH. Lì, infatti, ci dovevamo preoccupare di

garantire la positività della matrice H. Qui invece no, perché usiamo l’esponenziale, modellando una log

volatilità che ci garantisce la positività della volatilità (come nell’EGARCH).

y

Le proprietà di si ottengono molto facilmente. C’è un però:

t

il modello non è formulato in termini di densità predittiva, non la conosciamo. Quindi la verosimiglianza

α

non è disponibile in forma chiusa. non è osservabile al tempo t.

t

Quindi non conosciamo la densità predittiva, essa non è gaussiana. Tuttavia, possiamo stimarci il modello di

volatilità stocastica con un approccio di quasi verosimiglianza: approssimiamo il modello stimandolo come

se fosse gaussiano.

Questo è un approccio sub ottimale, perchè non si usano le distribuzioni vere, quindi gli stimatori non sono

efficienti. Comunque avremo un vantaggio in termini computazionali.

Questo modello apre la strada ai metodi Montecarlo e ai metodi di inferenza bayesiana, per stimarsi la

verosimiglianza.

Consideriamo una strategia sub ottimale di stima, ma fattibile. vogliamo linearizzare il modello, perchè

α

( )

t

y ε

=exp

quello che ci disturba è l’ esponenziale di α . Il modello ci dice che . Se condizioniamo

t t

2

t

abbiamo che: 101

α

( )

se y N 0, e

∨α t

t t −1

( )

y

∗ t

2

1 t

α

e

allora f y α

( ) = ∗e

t t t

α 2

√ 2 π e

Il problema è che la densità incondizionata di y, che possiamo trovare integrando la densità condizionata

rispetto ad α, è una MISTURA, di cui non conosciamo la distribuzione in forma esplicita.

Cominciamo col trasformare il modello: prendiamo il quadrato di entrambi i membri e poi il logaritmo:

2 αt 2

trasformiamo quindi y ε

=e

t t

2 2

y α log ε

=¿ +

t t t

log

¿ ¿ 2

con ε N 0,1 e il quadrato quindi è una χ .

( )

t 1 2

π

[ ] [ ]

2 2

si dimostra c h e E log ε e VAR log ε

=−1,27 =

t t 2

2

log ε

La distribuzione è asimmetrica. Sommando ad ambo i membri dell’equazione 1,27, la

t

2

log ε

distribuzione di , pur rimanendo asimmetrica, è centrata in 0.

t

u ε ε

è un WN perché è incorrelato, e questo perché è indipendente e qualsiasi funzione di è

t t t

indipendente.

Questo modello è un modello elementare che appartiene alla classe dei modelli State Space, non gaussiani

(infatti α è gaussiano, ma u no).

t

Noi assumeremo che u sia gaussiano, quindi avremo un approccio di quasi verosimiglianza (come prima).

t

Se u fosse gaussiano il modello sarebbe uno state space gaussiano, potremmo stimarcelo col metodo della

t

massima verosimiglianza e fare inferenza lineare sugli α sarebbe molto facile. Purtroppo però u non è

t

gaussiano, ma ha una distribuzione asimmetrica di cui non terremo conto. 102

Riepilogo della procedura: α

prendiamo il modello, lo trasformiamo per avere la log-volatilità ( ) in modo lineare. ora faremo

t

inferenza sulla log volatilità e stimeremo i parametri.

Noi prendiamo il logaritmo del quadrato dei rendimenti che però non funziona se i rendimenti sono

esattamente uguali a 0. Questo succede soprattutto se i dati sono ad alta frequenza. In questo caso, invece del

2

( )

log y costante piccola

+una

logaritmo semplice si prende il (c=0.001).

t

MODELLI STATE SPACE

Dobbiamo fare inferenza su α e stimare i parametri.

La metodologia dei modelli State Space consiste in 2 equazioni (equazione di transizione ed equazione di

misura).

Questo modello è utile quando abbiamo variabili latenti nelle serie. Per esempio quando vogliamo modellare

trend e cicli nella serie che in genere sono latenti. Queste componenti latenti hanno la loro evoluzione

dinamica che viene formulata nell’equazione di transizione.

Esempio: ho un vettore di n serie storiche, tutte guidate da k fattori comuni, ho una matrice Θ dei pesi dei

fattori latenti f . Ho, inoltre, delle componenti idiosincratiche, cioè specifiche delle singole serie, che non

t

modificano le altre.

Questa è l’ equazione di misura :

y f ε

=Θ +

t t t

f inoltre ha una sua equazione dinamica (equazione di transizione) ad esempio:

t f =f +η

t t−1 t

Il modello di questo esempio ci dice che l’economia è guidata da k fattori RW. Questo è un modello di

cointegrazione: esistono k fattori comuni che guidano la non stazionarietà, mentre quello che residua è un

WN stazionario. È un modello di cointegrazione perché se abbiamo una matrice C per la quale vale:

'

C Θ=0 allora abbiamo che

' '

C y ε

=C

t t

In questo modo uccidiamo i fattori comuni. Abbiamo delle combinazioni lineari delle serie che sono

stazionarie (sono WN)

Quindi nei modelli state space abbiamo 2 equazioni, una di misura e una di transizione, per stimare qualcosa

che non osserviamo direttamente nelle serie, la cui evoluzione è specificata dall’equazione di transizione.

Il modello, generalmente, è così formulato: 103

Nell’equazione di misura:

d è un vettore di termini noti (per noi saranno nulli);

- t

inoltre, abbiamo una trasformazione lineare di disturbi ε . G è una matrice che seleziona i disturbi (gli

- t

errori di misura).

Questa rappresentazione annida dentro di se tutti i processi markoviani che siamo abituati ad usare, ed è

quindi una rappresentazione molto generale. ε

Noi assumeremo Z = 1, d = 0. metteremo u ed η nel vettore , prendendo il primo elemento in modo

t

t

opportuno.

Nel nostro modello saranno cruciali la gaussianità di ε ed il fatto che Y e α dipendono linearmente da

t t+1

α .

t

Le matrici del modello prendono il nome di Matrici del sistema. Esse dipendono da un set di parametri Θ.

Molto spesso esse saranno invarianti nel tempo, quindi non cambiano con t; inoltre quello che guida la prima

equazione, i disturbi selezionati da G, sono incorrelati con i disturbi della seconda equazione, selezionati da

H.

Quali sono le condizioni iniziali? Come parte α ?

t

Se il modello è stazionario, α ha una distribuzione iniziale con una certa media e una certa varianza. In

t

particolare nel nostro modello di volatilità stocastica abbiamo che la prima log volatilità (α ) è :

1

2

( )

σ η

α N μ,

1 2

1−ϕ

MODELLI STATE SPACE : CASO PARTICOLARE

Noi analizzeremo un caso particolare di modello State Space. Torneremo su questo punto verso la fine, ma l’

idea è che il nostro modello di volatilità stocastica può essere rappresentato in forma State Space attraverso

la formulazione generale vista prima :

y α G ε , t … , n

=Z +d + =1,2

t t t t t t

α α c H ε

=T + +

t+1 t t t t t

Noi studieremo un caso particolare, avremo che la serie è univariata, quindi N=1: 104

ε

Come è stato costruito il vettore ?

t

Sostanzialmente prendiamo nell’equazione di misura il primo elemento del vettore ε . In particolare la

t

matrice G è un vettore riga che seleziona il primo elemento di ε e lo riscala per σ , restituendo u . Poi, nella

t t u t

ε σ η

seconda equazione, la matrice H riscala il secondo elemento di con , ottenendo .

t η t

t 2

( )

μ , ,σ

ϕ

Con questo modello vogliamo stimare i parametri incogniti , ma vogliamo anche stimare gli

aspetti più importanti della distribuzione α: vogliamo prevedere la volatilità e stimarla al tempo t, usando le

informazioni disponibili.

Per fare questo introdurremo degli algoritmi, fra cui il principale è il c.d. filtro di Kalman, fondamentale per

lo studio delle serie.

FILTRO DI KALMAN

Si tratta di un metodo generale per costruire la verosimiglianza di qualsiasi modello che appartiene alla

classe markoviana, ovvero quei modelli, come gli ARMA e ARIMA che dipendono in maniera finita dal

passato.

In generale, si può rappresentare un ARMA o ARIMA con un modello state space, e questo è ciò che viene

fatto per la stima di max verosimiglianza.

Il filtro ortogonalizza le osservazioni e fattorizza la verosimiglianza in modo naturale, dandoci le densità

predittive, che non abbiamo in partenza. Otteniamo queste densità predittive processando le osservazioni e

esprimendo y in funzione del suo passato.

t 105

α

̃

Noi sappiamo che è il previsore ottimale di α 1 periodo in avanti.

- t∨t−1 α

P è la matrice di covarianza di condizionata al passato.

- α

̃

α è quindi un processo stocastico con media condizionata pari a e matrice di varianze e covarianze

t∨t−1

data da P. t=1,.. , N

Il filtro è un algoritmo ricorsivo che, per , calcola queste quantità, alcune dipendenti dalle altre.

α

̃

Supponiamo di essere al tempo iniziale 1. In 1 avremo e P . Queste cose vengono dalle condizioni

1|0 1|0

iniziali:

Supponiamo di partire con questi due momenti dati e al tempo t calcoliamo le cinque quantità necessarie per

utilizzare il filtro:

v è l’ innovazione al tempo t, ovvero la parte di y che non può essere prevista dal passato. Si

1) t

tratta della deviazione dalla previsione ottimale; quello che non ci aspettiamo di y.

Infatti: .

La previsione ottimale di y , e cioè il valore atteso condizionato al passato, viene dall’ equazione di

t

misura: [ ] [ ] [ ] [ ]

y y Z α d ε E α d E ε

=E ∨Y =E + +G ∨Y =Z ∨Y + +G ∨Y =¿

̃ t∨t t t t t t t t t t t t t t t t−1

−1 −1 −1 −1

Z α d

¿ +

̃

t t∨t t

−1

Quindi la previsione di y sarà data dalle combinazioni delle previsioni di α più d che è noto al tempo t.

t

v y α y y

= −Z −d = −

̃ ̃

t t t t∨t t t t∨t−1

−1 106

Per quanto riguarda

2) 2

VAR y Y F

( ) =σ

Si può dimostrare che :

t t−1 t

v

riprendiamo l’ innovazione :

t α

t− α ε

¿ ̃

(¿ )+G

t∨t −1 t t

v y α α G ε α

= −Z ̃ −d =Z +d + −Z ̃ −d =Z ¿

t t t t∨t t t t t t t t t t t

−1 ∨t −1

α

t−̃

α

¿

(¿ )

dove è l’errore di stima di α.

t∨t −1

¿ v

Allora possiamo riscrivere come somma di due componenti:

t

la prima dipende dall’errore di stima di α, la seconda da ε .

t

v

Questo significa che la varianza di è la somma delle varianze di queste componenti, che sono

t

ortogonali tra loro. Il contributo del primo termine è Z P Zt’ e quello del secondo è G G ’.

t t|t-1 t t

Allora F è la varianza condizionata di y dato il passato, cioè è la varianza dell’ innovazione a meno

t 2

del fattore di scala σ .

Quindi, le prime due formule ci danno l’ innovazione e la varianza dell’ innovazione.

Abbiamo altre tre formule, un po’ più difficili.

Ricapitoliamo:

Siamo al tempo t, abbiamo processato l’osservazione t-esima, vogliamo propagare questa

informazione nuova per prevedere un periodo in avanti gli stati (α).

Il filtro di Kalman è un algoritmo che agisce così: usa la previsione al tempo t-1 per il tempo t, e

propaga la previsione, la espande per tenere conto della nuova informazione derivante

dall’osservazione al tempo t, che viene usata per aggiornare la previsione un periodo in avanti.

Il filtro è un algoritmo ricorsivo, che usa le quantità degli stati precedenti per la previsione degli stati

un periodo in avanti.

K è detta guadagno di Kalman. Si tratta di una matrice di regressione:

3) t

Sappiamo che α è data da:

t+1

α α H ε

=T +C +

t+1 t t t t t 107

[ ] [ ] [ ]

E α E α E H ε

∨Y =T ∨Y +C +

t t−1 t t t t t t

+1 −1 0

¿

[ ]

quindi E α α

∨Y =T +C

̃ .

t t−1 t t t

+1 ∨t−1

La matrice K consente di proiettare nel futuro la nuova informazione. Si tratta della matrice di

regressione del futuro degli stati sull’informazione presente, ovvero la matrice che consente di

trasmettere l’informazione nuova per prevedere il futuro di α.

P è la varianza di α , data l’informazione in t:

4) t+1|t t+1 2

σ

I primi due pezzi sono, a meno di un fattore di scala ( ), la varianza di α condizionata a t-1.

t+1

Ma adesso abbiamo aggiunto nuova informazione, quindi la varianza si riduce. Infatti sottraggo un

'

K F K

nuovo termine ( ) che è sicuramente positivo.

t t t

La nuova informazione entra nel set informativo e incide sulla previsione del futuro di α, ottenendo

quindi una riduzione dell’incertezza della previsione.

Come si dimostra l’ algoritmo? Bozza della dimostrazione:

Comincio con scrivere la distribuzione congiunta condizionata di α e y dato il passato, questa è una

t+1 t

Normale multivariata (medie condizionate, varianze)

¿

errore di previsione)

¿ ⋯ (cov

⋮ ⋱

¿

err . previsione

(cov )'

T α

( )

+C 2

f α , y Y N multiv. ; σ

t t∨t t

( ) ¿⋯¿¿

−1 [ ]

t t t−1

+1 Z α d

̃ +

t t t

∨t −1

Usiamo questa distribuzione per ottenere la distribuzione di α |Y e y , ovvero, α |Y . Questa distribuzione

t+1 t-1 t t+1 t

è Normale.

A questo punto è importante ricordare un risultato fondamentale:

( )( )

μ Σ Σ

( )

Y −1 −1

se N alloraY N Σ Σ X−μ ; Σ Σ Σ

y y xy ( )

∨X (μ + −Σ )

y yx x x y yx x xy

X μ Σ Σ

x yx x

Ovvero, alla media incondizionata aggiungo una regressione su x, e la matrice di regressione è legata alle

covarianze: la covarianza di y e x è scalata per l’ inversa della matrice di varianza di x;

Quindi il risultato è semplice. 108

Nel nostro caso avremo che il filtro di Kalman calcola : −1

[ ] [ ]

∣ ∣ ∣ ∣

E α Y α Y α , y Y VAR y Y y α

( ) ( ) ( ) ( )

=E +COV ∗ ∗ −Z ̃ −d

t+1 t t t−1 t t t−1 t t−1 t t t∨t t

+1 +1 −1

Il filtro di Kalman, quindi, calcola il valore atteso di una distribuzione condizionato ad un set informativo

più largo, rispetto a quello che aveva prima; quindi non riparte dall’inizio, ma aggiunge al passato la nuova

informazione: questa è l’ efficienza dell’ algoritmo.

Noi usiamo il filtro di Kalman per la volatilità: vogliamo la previsione 1 periodo in avanti della log

volatilità; una volta processata l’ informazione al tempo t, vogliamo ottenere la stima aggiornata (Real time)

α

del nostro stato α (che è la log volatilità); vogliamo il valore atteso di condizionato anche

t

all’informazione corrente. Ma il filtro passa da una previsione un periodo in avanti ad un’altra previsione un

periodo avanti. Quindi esso ci da le previsioni, ma non ci da le stime aggiornate. Sarà allora necessario

aggiungere due equazioni al filtro in modo tale che esso calcoli la stima aggiornata ottimale:

La prima equazione: −1

[ ] [ ]

∣ ∣ ∣ ∣ ∣

E α Y α Y COV α , y Y VAR y Y y y Y

( ) ( ) ( ) ( ) ( )

=E + ∗ ∗ −E

t t t t t t t−1 t t−1 t t t−1

−1 Il secondo e terzo termine sono come una regressione

è il solito algoritmo che utilizziamo per ottenere il valore atteso di una distribuzione Normale condizionata a

partire dai momenti incondizionati, come visto prima.

Questo risultato è molto importante. Esso vale nel caso Gaussiano.

La seconda equazione ci serve per calcolare la varianza condizionata:

−1

[ ]

∣ ∣ ∣ ∣ ∣

VAR α Y α Y α , y Y VAR y Y y , α Y

( ) ( ) ( ) ( ) ( )

=VAR −COV ∗ ∗COV

t t t t t t t t t t t t−1

−1 −1 −1

In questo modo il filtro fornisce la densità predittiva di Y. Vediamo come è fatta questa densità:

2

y y N Z α , σ F

∨ ( ̃ +d )

t t−1 t t∨t t t

−1

Il filtro è la chiave per valutare la verosimiglianza del modello in funzione dei parametri incogniti.

ϕ 2η

Sia Θ il vettore dei c.d. iperparametri. Θ include dentro di se μ, e σ . Supponiamo che Θ non includa

2

σ

il fattore di scala .

Il modello dipende da Θ (e, quindi, dai parametri incogniti) attraverso le matrici del sistema T, C, H, e le

condizioni iniziali. 109

Costruiamo la verosimiglianza, ossia la densità congiunta della serie osservata in funzione dei parametri. Si

tratta di un oggetto complesso (è una densità multidimensionale), che, come al solito fattorizziamo nel

prodotto di densità predittive uniperiodali.

Le densità predittive sono Normali con una certa media e varianza, generate dal filtro di Kalman, che

dipendono dai parametri.

Quindi, la log verosimiglianza è una somma di densità Normali con una certa media e varianza:

n

2 2 2

( ) ( ) ( )

L Y ; Θ , σ y , … , y ; Θ , σ lnf y ; Θ , σ

=lnf = ∨Y

n 1 n t t −1

t=1

La loro somma, a meno di un fattore che dipende da 2π è :

n n

( )

1

−1 ∣ ∣

∑ ∑

2 2 '

( ) −1

L Y ; Θ , σ ln σ F v F v

= +

n t t t t

2

2 σ

t=1 t =1

In quanto: { }

−1 ' −1

F v

∗v

t t t

2

1 2

σ

f y Y e

( )

=

t t−1 1

N ∣ ∣

2 2

2

2 π σ F

( ) t

' v

v perché la differenza dalla media di y è l’innovazione .

t

t

L’ idea è che la verosimiglianza è definita a partire dalle quantità calcolate dal filtro di Kalman (innovazione

2

Θ σ

e matrice F) e possiamo pensare di trovare il max della funzione per i valori di e attraverso un

algoritmo quasi Newton.

Riassunto (che non serve a niente):

Abbiamo capito che un modello a volatilità stocastica è un caso particolare del modello State Space, se

u

approssimiamo la distribuzione di mediante una gaussiana (ricorda che essa in realtà non è gaussiana).

t 2

σ

Vogliamo fare inferenza su questo modello, ovvero stimarci i parametri incogniti che sono tre: η

α ϕ

(η)

(varianza degli shock che guidano ); (determina la persistenza della volatilità (volatilità

α μ

clustering). Se fosse 0 sarebbe un WN senza persistenza); (media incondizionata del processo

t →1

ϕ

auto regressivo. Scompare quando ).

Abbiamo, quindi, la rappresentazione state space del modello introdotta in precedenza: 110

u

Iniziamo, allora, con l’inferenza: abbiamo detto che se il nostro disturbo ( ) è gaussiano possiamo

t

stimarci il modello attraverso un approccio di quasi verosimiglianza (che è chiamato così perché costruiamo

u

la verosimiglianza utilizzando un’approssimazione della distribuzione di ). Questa verosimiglianza (o,

t

meglio, log verosimiglianza) si ottiene attraverso un algoritmo detto filtro di Kalman.

Il filtro di Kalman prende le osservazioni, le processa ricorsivamente una alla volta e restituisce le

innovazioni. Quest’ultime sono un processo che non dipende dal passato, infatti, le innovazioni sono

ortogonali fra loro.

Quindi, mentre la serie y è correlata nel tempo, il filtro ortogonalizza le osservazioni e restituisce

t 2 2

σ F , .., σ F

innovazioni incorrelate (che sono, però, eteroschedastiche ( )).

1 N

Inoltre il filtro restituisce la previsione un periodo avanti degli stati e la loro matrice di covarianze.

Quindi la densità predittiva di y dato il passato è gaussiana con una media e varianza costruite proprio dal

t

filtro: ( )

f y

( )

∨Y

Da questo risultato costruiamo la densità della t-esima osservazione condizionata al passato .

t t−1

Se poi sommiamo i logaritmi, per t che va da 1 a n, abbiamo la log verosimiglianza, che dipende solo da F e

da V.

FINE RIASSUNTO

La log verosimiglianza deve essere massimizzata rispetto ai parametri incogniti che stanno dentro F e dentro

le innovazioni.

Essi non ci sono esplicitamente, ma modificano le matrici del sistema. Ad esempio, la matrice di transizione

ϕ

T dipende da , altri parametri li troviamo dentro H, G e così via. L’unico parametro che vediamo

t 2

esplicitamente è σ . 111

Ciò significa che questo parametro può esser “concentrato” fuori dalla verosimiglianza, cioè possiamo

2

σ 2

massimizzare la verosimiglianza rispetto a , ottenendo, così, la stima esplicita di σ , sostituirla e

ottenere la verosimiglianza concentrata o profilo. Possiamo, quindi, ridurre il problema di ottimizzazione di

2

un parametro: questa massimizzazione, infatti, non è difficile da fare; basta solo derivare rispetto a σ , che

compare al denominatore e al determinante.

Se la serie fosse una sola il determinante sarebbe un numero, uno scalare. a∗Σ

Vediamo che succede se avessimo una matrice. Supponiamo di voler ottenere il determinante di ,

N 2 ∣ ∣

∣ ∣ ∣ ∣

Σ a Σ Σ σ ln F

=a =Nln + +..

dove è una matrice NxN. In questo caso il determinante è: t

Una volta ottenuta la stima di massima verosimiglianza dei parametri incogniti vogliamo:

• stimare α (solitamente lo facciamo condizionatamente al set informativo disponibile)

Tra le linee rosse, che rappresentano l’ interva

Dunque vogliamo stimare la volatilità e preo estrar α

• stimarci il valore atteso dell’esponenziale di , dato il set informativo disponibile. Questa è una

t

stima della volatilità (non più della log volatilità) data tutta l’informazione disponibile.

Dunque, vogliamo stimare la volatilità e prevederla in avanti. Vogliamo estrarre il processo di volatilità e

prevederlo. Ci chiediamo, inoltre, qual’è la densità predittiva di domani dato tutto il passato fino ad oggi? E,

quindi, proveremo a stimarla. 112

Vediamo adesso come facciamo a fare queste cose: ̂

̃ 2

Θ σ

una volta stimati i parametri abbiamo un e un , che mettiamo nel modello. A questo punto, se

facciamo correre il filtro di Kalman abbiamo le previsioni in avanti della volatilità (

α α K v

=T +c +

̃ ̃ ). All’ennesima iterazione avremo la previsione un periodo avanti della

t+1∨t t t t t t

∨t−1

volatilità.

Ma qual’è la previsione 2 periodi avanti? Applichiamo la stessa espressione di prima, annullando l’ultimo

α α

=T +c

̃ ̃

pezzo ( . In questo caso non abbiamo alcun aggiornamento perché non abbiamo

t+2∨t t t t

∨t−1

processato nessun altra informazione).

Possiamo, poi, vedere qual è la stima della volatilità alla fine del campione attraverso le stime real time, che

utilizzano tutta l’ informazione al tempo t.

Inoltre, possiamo stimare la volatilità storica, ovvero α ad un tempo passato sulla base di tutta l’

informazione cumulata, considerando anche l’ informazione successiva al tempo t. Questa operazione si

chiama Smoothing.

SMOOTHING

Come sappiamo il filtro di Kalman è un algoritmo predittivo che, utilizzando l’informazione fino al tempo t-

α

α ̃

1, prevede un periodo in avanti . Quindi il filtro di Kalman restituisce . Quello che vogliamo

t+1∨t

E α E α y y … y α

( ) ( )

∨Y ∨Y ̃

fare adesso è passare da al , che è indicato con . Lo

t t t t t t t+ n t∨n

−1 −1 +1 α .

̃

smoothing utilizza un algoritmo che usa le stime del filtro di Kalman per arrivare a t∨n

α

̃ è data da:

t|n

Quindi questo algoritmo aggiunge all’ informazione di kalman una regressione su tutte le nuove

osservazioni, conteggiate in r .

t-1 α

̃

L’idea è che abbiamo un algoritmo che fa queste operazioni in modo efficiente, perché utilizza e

t∨t−1

α

aggiunge una regressione del vecchio ( ) sul nuovo (conteggiato in r ). Quest’algoritmo tiene conto di

t t-1

α

come l’ informazione futura modifica le nostre inferenze su .

È importante ricordare che α non sta nel set passato (come capita nei GARCH), è latente, inosservata. Per

t

questo anche il futuro ci aiuta a capire il presente.

Bisogna, però, tenere conto che u non è gaussiano, ma una log chi quadro centrato in 0, ma cmq

t

asimmetrico.

Cosa succede dunque a tutto l’impianto che abbiamo appena presentato?

Innanzitutto le stime dei parametri sono di quasi verosimiglianza. Esse sono consistenti ma non efficienti,

perchè non usano la simmetria, l’ informazione, nel modo migliore.

Che succede alle inferenze su α?

Il filtro di Kalman e gli algoritmi associati non ci restituiscono il valore atteso condizionato, che diventa una

funzione non lineare. Siamo in un caso in cui le inferenze non sono ottimali, ma sub ottimali. Esse

rimangono pur sempre le miglior inferenze in senso lineare. 113

ϕ

In particolare se è 1 la logvolatilità è una RW, un processo non stazionario, senza drift. In questo caso

α

̃

accade che (generata dal filtro di Kalman) sono un livellamento esponenziale, con pesi

t|t t2

geometricamente descrescenti della nostra serie ln (y +1,27).

E α

α ( )

∨Y

̃

In questo caso, non è ma è il migliore stimatore lineare della log volatilità al tempo t.

t t

t|t

Detto questo se volessimo inferenze esatte o l’ intera distribuzione di alpha dato il passato cosa

dovremmo fare?

In questo caso non possiamo calcolare le distribuzioni in modo analitico, ma dobbiamo ricorrere ad

inferenze Montecarlo,.

Sono possibili 2 strade:

• Approccio bayesiano , di cui non parliamo. In sostanza costruiamo un “a priori” sui parametri: ad

ϕ

esempio diciamo che ha, a priori (senza guardare i dati), una distribuzione uniforme (0,1).

Dopo di che i dati, attraverso il teorema di bayes, mi diranno la distribuzione a posteriori del

parametro. Essa sarà diversa da quella a priori, è sarà proporzionale al prodotto della distribuzione a

priori per la verosomiglianza. Per passare dalla distribuzione a priori a quella a posteriori si usano

Simulazioni Montecarlo e metodi macro chain Montecarlo, che producono campioni della

distribuzione congiunta a posteriori in modo sequenziale, generando una catena di markow. Questo è

interessante, ma lasciamo perdere.

• Approccio del campionamento d’ importanza . Sappiamo che il modello non è gaussiano. Per stimarci

la distribuzione di α a posteriori (dati i dati), che non abbiamo in forma analitica, immaginiamo a

priori una gaussiana: 2

( )

y

−1 t

1 α

2 e

e t

√ t

α 2

2 π e

Dove α (volatilità) è dentro l’ esponenziale. Come sappiamo la verosimiglianza non è gaussiana, quindi,

t

quando metto insieme la distribuzione a priori con la verosimiglianza, la distribuzione a posteriori non è

gaussiana, non è nota. Quindi, per conoscerla, approssimiamo la distribuzione con una distribuzione da cui

sappiamo simulare, ad esempio una gaussiana, con la stessa moda, stesso massimo e stessa curvatura alla

moda. Fatto questo, generiamo campioni dalla gaussiana. Questi campioni vanno ripesati per dargli

l’importanza giusta, in quanto molti di essi non sono molto rappresentativi, perché sotto la distribuzione vera

hanno una densità più bassa.

Ultima cosa: possiamo pensare che il modello di volatilità preso sia troppo semplificato, ma possiamo

pensare di avere modelli più complicati come un ARMA(2,1) per la volatilità: 114

115

REALIZED VOLATILITY

LONG MEMORY IN REALIZED VOLATILITY

Analizziamo a questo punto la volatilità realizzata; essa è rappresentata da nuove serie che cercano di

misurare direttamente la volatilità, dette appunto serie di volatilità realizzata.

Vedremo che per modellare tali serie necessitiamo di modelli a memoria lunga, diversi da quelli

precedentemente analizzati. Introdurremo, quindi, i principali modelli long memory. Concluderemo parlando

del VaR.

Introduciamo dunque tali nuove serie di RV che hanno la forma in figura:

Nella prima figura è rappresentata la serie

di RV di 50 titoli con 3000 osservazioni.

Nella seconda il logaritmo della serie:

come ci aspettiamo tende a diminuire

l’ampiezza dei picchi presenti nella prima

figura.(tende cioè a smorzare quello che è

molto grande e accentuare quello che è

molto piccolo).

il comportamento della serie nella seconda,

dunque, risulta più omogeneo.

Queste nuove serie sono state ottenute da dati raccolti ad alta frequenza; infatti, la tecnologia odierna ci

permette di registrate anche la singola transazione (dati trade by trade); quindi, possiamo avere dati

estremamente dettagliati sulle transazioni finanziarie.

Questa base di dati consente nuovi orizzonti per l’analisi di serie finanziarie e, come vedremo, ci permette di

stimare la volatilità giornaliera.

I dati ad alta frequenza, dunque, permettono di stimare la volatilità di qualsiasi attività finanziaria in un

orizzonte temporale definito, come il giorno, sfruttando tutte le misurazioni che abbiamo entro il giorno (dati

intraday).

La maggior parte delle misure di RV vengono costruite a partire dalla Somma dei quadrati dei rendimenti

infragiornalieri. N. B : Se i rendimenti hanno approssimativamente media zero questa somma è praticamente

la devianza dei rendimenti ed è una stima della volatilità del giorno.

Queste misure di RV non sono solo d’interesse di per se, ma sono anche indirettamente rilevanti, perche

nella letterature, le misure di RV vengono usate come variabile esplicativa della volatilità in modelli

GARCH; quindi entrano come variabile nei modelli che abbiamo già considerato.

Le misure RV Sono facili da costruire e hanno una notevole capacità esplicativa. 116

Possiamo utilizzare queste misure anche per valutare la capacità predittiva dei modelli di volatilità che

abbiamo considerato come i GARCH: infatti, un termine di raffronto per vedere se stimiamo bene la

volatilità nel futuro è confrontare le previsioni della volatilità con la volatilità realizzata. quindi la RV

diventa anche uno strumento per validare i nostri modelli in senso predittivo.

Vediamo come vengono costruite le misure di RV:

Poniamo l’attenzione su un giorno di mercato t e supponiamo di osservare i prezzi a m intervalli di tempo

equi spaziati. Supponiamo quindi di dividere il giorno in m istanti identicamente spaziati, in cui osserviamo i

prezzi.

Pensiamo ad un osservazione ogni 5 minuti. Ciò, però, è realistico dato che le transazioni avvengono ad

intervalli non regolari. Per questo necessitiamo di interpolare i prezzi (che hanno dei salti discreti) cercando

di campionare il processo come se fosse continuo, ad istanti equi spaziati di 5 minuti. Noi, quindi,

prenderemo i prezzi così come sono osservati realmente (ad intervalli non regolari) e ricostruiremo una serie

dei prezzi regolare (ogni 5 minuti), campionando sistematicamente questo processo. Nel caso non ci sia un

osservazione ad un tempo, prendiamo l’ultimo valore osservato. Questo procedimento è detto interpolazione

costante in base all’ultimo valore osservato.

Se i prezzi fossero RW questa interpolazione sarebbe ottimale, in quanto sappiamo che il previsore ottimale

di un RW senza drift è l’ultimo valore osservato.

Cmq esistono anche altri schemi interpolativi o di campionamento (ad es. interpoliamo linearmente i prezzi

osservati).

Assumiamo di avere m prezzi osservati in una giornata; il prezzo in zero è dato dal prezzo di apertura o dal

prezzo di chiusura del giorno precedente. In quest’ultimo caso il primo rendimento è detto overnight return.

Abbiamo, quindi, m p ,con i=1….m, e con t che, ora, rimane fisso. quindi al giorno t abbiamo m rilevazioni

it

dei prezzi e una rilevazione iniziale p .

0t

Assumeremo sempre che p rappresentino i logaritmi dei prezzi.

it

Questa è l’idea!!

Possiamo, quindi, costruirci la serie dei rendimenti logaritmici, y = p - p .

it it i-1t

Come abbiamo detto una misura di RV è la somma dei quadrati dei rendimenti infragiornalieri del giorno t:

Questa è la misura di RV a cui faremo riferimento, anche se non è l’unica.

La RV dipende dalla frequenza di campionamento quindi dagli m valori equi spaziati (m cresce

all’aumentare della frequenza di campionamento).

Perche questa misura è utile?

Innanzitutto se i prezzi sono generati da un equazione differenziale stocastica di questo tipo: 117

Si dimostra che la RV è una misura consistente della volatilità giornaliera:

l’equazione differenziale stocastica appena scritta è un RW generalizzato al tempo continuo, cioè un

processo browniano con drift μ e con volatilità σ costanti (μ e σ non cambiano con t).

Qui abbiamo, essenzialmente, una trasformazione lineare di un processo di wiener standard (che è una sorta

di RW in tempo continuo che parte in zero con valore zero, ha incrementi indipendenti, in ogni intervallo è

normale, con varianza crescente, dipendente dall’ampiezza dell’intervallo).

Se i prezzi sono generati in questo modo allora si dimostra facilmente che RV è una stima consistente della

volatilità dato che: 2

se μ è diverso da zero abbiamo che la RV è una misura distorta della volatilità (che è σ ), ma la distorsione è

asintoticamente trascurabile nel senso che se aumentiamo la frequenza campionaria o tasso di

campionamento(passiamo da 5 minuti ad ogni secondo) il termine di distorsione va a zero.

Quindi RV è una misura asintoticamente corretta. 2

Se inoltre valutiamo la varianza della nostra stima accade che il primo termine è dell’ordine di m , per cui va

a zero molto velocemente al crescere di m. Anche il secondo termine va a zero al crescere di m. Quindi

anche la varianza va a zero.

Questo, abbinato al fatto che la distorsione va a zero asintoticamente, ci dice che la volatilità realizzata è una

stima consistente della volatilità.

Normalmente quando accadono queste due cose si dice che RV converge in media quadratica, che è una

condizione che implica la consistenza.

Ma noi non ci aspettiamo che i prezzi siano generati da questo tipo di processo, perche sappiamo che la

volatilità varia nel tempo (anche il drift potrebbe cambiare nel tempo). Per questo consideriamo modelli del

tipo:

Si dimostra (noi non lo facciamo) che, sotto questa assunzione per i prezzi, la RV al crescere di m converge

in probabilità a quella che noi chiamiamo integreted variance;

possiamo interpretare la varianza integrata come l’integrale della funzione di volatilità nell’arco temporale

di un giorno (t, t+1).

Quindi la nostra misura di RV è una stima consistente della varianza integrata che è la volatilità del giorno,

che è l’integrale di un processo che adesso è indipendente dal tempo.

Questo risultato (che la RV converge a questa quantità che noi vogliamo misurare) vale se è assente una

caratteristica dei prezzi delle attività finanziarie che è il microstructure noise, un rumore dovuto al modo in

cui funzionano i mercati finanziari. 118

MICROSTRUCTURE NOISE *it

L’idea è che noi non riusciamo a osservare direttamente i prezzi efficienti p (che sono una sintesi

dell’informazione disponibile per gli operatori), ma ne osserviamo una forma perturbata da un errore:

Questo u dipende dal fatto che il mercato è fatto da operatori che gestiscono la liquidità. Essi hanno due

it ¿

p

prezzi bid e ask. Quindi, c’è un prezzo a cui i trader acquistano i titoli (che è più basso di ) e un prezzo

it

¿

p

a cui vendono titoli (che è più alto di ).

it

Quindi l’idea è che, dato che c’è questa perturbazione da considerare nei prezzi che osserviamo, quando

¿

p

andiamo a analizzare la RV sui prezzi osservati essa conterrà non solo la volatilità in (che è quella che

u

ci interessa), ma anche un termine di varianza che raccoglie il ruolo di it

Un modello molto semplice per catturare questo fenomeno è ipotizzare che u sia un WN particolare:

it

Con E(I )=0 e V(I )=1/4

it it ± S

Quindi u è un WN (0,1/4) incorrelato e indipendente, ma non gaussiano. Esso assume valori con

it

probabilità 0,5.

Dimostrazione: *it *i-1t *it

y = p - p = p – p + ( u – u ) = y + (u – u ). Questo tra parentesi è una combinazione lineare di

it it i-1 t it i-1t it i-1t

y

WN. è un MA(1) non invertibile, perché il coefficiente media mobile è pari a -1.

it *it

Infatti se assumiamo che E(y ) = 0 e che y sia indipendente da u , allora:

it it [ ]

¿ ¿ ¿ ¿

( ) ( )( )

E y y y , y y u , y u y u y u

( ) ( ) ( ) ( ) ( ) ( )

=Cov =Cov + −u + −u =E + −u + −u

it i−1t it i−1t it it i−1t i−1t i−1t i−2t it it i−1t i−1t i−1t i −2t

119

Come si vede, la autocovarianza al ritardo uno è diversa da zero, per cui possiamo affermare che y è un

it

MA(1). C.V.D.

Ciò implica che RV è uno stimatore distorto della varianza integrata, perché coglie il contributo di u alla

it

variabilità totale. Avremo quindi una misura di RV distorta verso l’alto. u

Se m cresce la situazione peggiora (aumenta la distorsione), perchè aumenta il contributo del noise ( )

it

quindi non ha senso far crescere troppo m. Va bene prendere dati ad alta frequenza, ma non ad altissima

frequenza. Il suggerimento è, dunque, di tenere m alto ma non troppo!(5 min. è lo standard)

.

L’idea di base è semplice ma rivoluzionaria: la volatilità può essere misurata piuttosto che stimata mediante

un modello parametrico, in quanto sappiamo che con i modelli parametrici ci sarà sempre qualcuno non

d’accordo con la specificazione del modello e i suoi parametri. Invece qui abbiamo una stima non

parametrica e quindi nessun modello, perché abbiamo la disponibilità di dati ad alta frequenza. Infine è

importante ricordare che la RV è una stima efficace, ed è efficiente nel validare modelli anche parametrici.

Andiamo a vedere come modellare queste serie:

Per prima cosa è importante sottolineare che modelliamo tali serie per prevedere la volatilità nel futuro.

(ricorda che le i sono misure infragiornaliere, le t sono misure giornaliere).

Vi sono diversi modelli che ci aiutano per il nostro scopo:

I° MODELLO: HAR MODEL

Questo modello è molto semplice ed ha una logica auto regressiva.

Come vediamo è collassato l’indice i. Ciò significa che siamo di fronte a misure giornaliere (per ogni giorno

abbiamo un dato di RV). In questo modello la volatilità realizzata viene spiegata dalla volatilità del giorno

precedente, dalla media della volatilità realizzata della settimana di trading precedente (5 giorni) e dalla

media della volatilità realizzata del mese di trading precedente (22 giorni).

Questo modello può essere interpretato come un modello auto regressivo di ordine 22.

( )

ϕ

I parametri del modello ce li stimiamo tramite i minimi quadrati ordinari (OLS). 120

Inoltre, per valutare la dipendenza di RV dai propri valori passati, dobbiamo analizzare le derivate parziali di

∂ RVt 1 1 ∂ RVt 1 1 ∂ RVt 1

=ϕ + ϕ + ϕ = ϕ + ϕ = ϕ

• • •

1 5 22 5 22 22

∂ RVt j 5 22 ∂ RVt j 5 22 ∂ RVt j 22

− − −

RV al tempo t

Per j=1 per j=2,…,5 per j=6,…,22

Questo modello è un modo molto elegante di cogliere la dipendenza della volatilità dal passato (anche molto

lontano (22 giorni)).

Questo è un modello molto parsimonioso; infatti esso considera solo 3 parametri ed un intercetta stimabili

con gli OLS. 121

Una cosa che dovremmo catturare con il nostro modello è la

presenza di long memory: Qui abbiamo:

Analizziamo la funzione di autocorrelazione della serie RV Funzione di autocorrelazione campionaria

per tutti i ritardi fino a 150.

Le autocorrelazioni sono alte e positive

anche per ritardi molto alti ( a 40 siamo a

0,20 a 110 siamo a 0,1)

Le autocorrelazione sì declinano ma ad un

tasso che non è geometrico. Se RV fosse

modellabile con un AR(1) stazionario

l’ACF andrebbe a zero molto velocemente

φ k

(a tasso geometrico ).

Nei processi a memoria lunga le

autocorrelazioni invece declinano ad un

tasso iperbolico.

Il secondo grafico è l’autocorrelazione

campionaria dei logaritmi di RV.

LONG MEMORY IN RV

Ritorniamo ad analizzare la nostra serie. Guardando i logaritmi (figura in basso) possiamo notare come

questa serie ha una caratteristica: sembra oscillare intorno ad una media costante, ma quando la serie si

allontana da quella media impiega molto tempo per riavvicinarcisi (infatti non attraversa molte volte il

valore medio).

Questo fenomeno si chiama memoria lunga: se ci allontaniamo dalla media, ci ritorniamo, ma nel lungo

periodo (dopo moltissimi giorni).

Quindi le serie di RV presentano questa caratteristica di memoria lunga.

Quindi, dobbiamo analizzare le nostre serie in un mondo Long Memory.

Esistono molti modi di emulare un processo a memoria lunga:

un modo possibile è quello di utilizzare un modello auto regressivo molto lungo (es. AR(20), come abbiamo

appena visto). 122

Un altro approccio per emulare i processi long memory tramite processi short memory è quello di combinare

assieme processi auto regressivi del primo ordine indipendenti (in questo caso, i non è l’infraday, ma il

processo): ϕ ϕ

con y AR(1), prendiamo y = y + ε e y = y + ε ne facciamo la

1 2

it 1t 1t-1 1t 2t 2t-1 2t

somma, e otteniamo: ε 1−ϕ L 1−ϕ L

ε ε ( ) ( )

1t 2 2t 1

1t 2t

yt = + = dove:

1−ϕ L 1−ϕ L 1−ϕ L L)

( ) (1−ϕ

1 2 1 2

• Al numeratore abbiamo un MA (1)

• Al denominatore un AR (2)

Quindi il risultato è un ARMA (2;1).

Dobbiamo sottolineare che se sommassimo n AR(1) indipendenti avremmo un modello ARMA (n,n-1).

Questa è un introduzione ai processi long memory i quali, tecnicamente, hanno una funzione di auto

covarianza iperbolica (che declina a zero a ritmo iperbolico)(definizione teorica):

−α

γ k ≈ c k dove α 0 , 1 , e c 0

( ) ( )

∈ >

γ γ 1−α

( )

d=

Essi sono caratterizzati da un parametro (c.d. parametro di memoria) che è legato al ritmo con

2

cui si va a zero secondo questa legge iperbolica. Esso varia tra zero e 0,5 , perchè α deve essere compreso tra

0 e 1 per avere questo ritmo iperbolico.

Ragioneremo, quindi, in termini di d e ci interesseremo al caso in cui d giace in questo range (0;0,5).

∑ ∣ ∣

γ j

( )

Quando accade questo avremo che le auto covarianze sono così elevate a ritardi elevati che j=−∞

diverge mentre, per i processi short memory essa converge.

Un'altra implicazione della memoria lunga è la seguente:

Lo spettro per i processi long memory diverge alla frequenza zero.

Inoltre, possiamo ottenere una classe di modelli a memoria lunga prendendo l’equazione definitoria di un

modello ARIMA e considerando l’esponente d frazionario piuttosto che intero: 123

d

L 1−L y L)ε

( )( ) ( )

ϕ −μ =θ(

t t

II° MODELLO: FRACTIONALLY INTEGRATED PROCESSES

Sappiamo che con d=1 abbiamo un ARIMA (p,1,q); con d=0 abbiamo un ARMA (p,q) stazionario.

Inoltre, con d frazionario abbiamo un ARFIMA (p,d,q). questo è il caso che analizzeremo adesso.

L)

ϕ( e θ(L) sono polinomi con tutte le radici esterne al cerchio unitario, quindi il polinomio φ(L) è

stazionario e il polinomio θ(L) è invertibile.

Si può dimostrare che questo processo è stazionario e invertibile se il parametro d di memoria è compreso

d

∣ ∣

>0,5

tra -0,5 e 0,5. Per il processo non è stazionario. Noi ci concentreremo sul caso c.d. persistente,

−0,5<d <0

cioè quando d è compreso tra zero e 0,5 estremi esclusi (con abbiamo il caso

d ; 0,5)

∈ (0

antipersistente) Quindi, nel proseguo, ci concentreremo su ARFIMA (p,d,q) con . In questo

caso il processo è stazionario, invertibile ed ha memoria lunga.

Come descrivere il processo ARFIMA?

Partiamo dal caso più elementare, in cui l’operatore auto regressivo è 1 e θ(L) è un polinomio unitario (1).

In questo caso abbiamo un processo detto fractional noise.

FRACTIONAL NOISE

È un processo in cui y è espresso nel modo seguente:

t

-d

Il polinomio (1-L) può essere espresso tramite un polinomio di ordine infinito:

dove 124

Questa espressione è il rapporto di funzioni gamma valutate in alcuni punti.

Se sostituiamo tale trasformazione nel modello otteniamo la rappresentazione di Wold per i processi

ARFIMA.

Ma il polinomio frazionario può essere anche espresso tramite un processo auto regressivo di ordine infinito:

Da questa trasformazione otteniamo la rappresentazione auto regressiva di ordine infinito di un ARFIMA.

Quindi dopo aver introdotto per i processi stazionari il WN, che è il processo stazionario elementare, e dopo

aver presentato il RW, che è il processo integrato più elementare, abbiamo individuato nell’ambito

frazionario il fractional noise che è il processo integrato frazionario più elementare.

AUTOCOVARIANCE AND SPECTRUM

Usando questi risultati possiamo derivarci la funzione di auto covarianza, la funzione di autocorrelazione

parziale e la densità spettrale Se sostituiamo h=0 otteniamo la varianza

Se rapportiamo γ(h) su γ(0) otteniamo

l’autocorrelazione ρ(h)

L’autocorrelazione la possiamo valutare nel grafico: 125

Con d=0.1 c’è memoria lunga ma il parametro di

memoria lunga è piccolo, le autocorrelazioni

sono tutte piccole ma declinano molto

lentamente.

Più d è piccolo più si è vicino al WN infatti con

d=0 avremmo un WN perche il polinomio è 1!

Al crescere di d verso 0,5 le autocorrelazioni

aumentano.

Si può notare come con d=0.4 si possono

interpretare i fenomeni che ci interessano a noi.

Infatti l’ultimo grafico è molto simile a quello

Analizziamo a questo punto cosa accade allo spettro:

Lo spettro è una funzione della frequenza ω ed ha questa forma:

questa è la densità spettrale di un fractional noise che si ottiene sostituendo γ(0) e γ(h) (viste prima) nella

formula classica della densità spettrale: 126

[ ]

1 ∑ ⁡

f ω γ 0 2 γ k ω

( )= ( )+ ( )∗cos ( )

k

2 π k=1

Se la rappresentiamo

graficamente otteniamo una se ω va a zero: il sin(ω/2) va a zero e quindi la funzione va a infinito.

funzione che a zero diverge: Questa forma dello spettro è importante perche se prendiamo il logaritmo

dello spettro esso dipenderà linearmente da d (parametro di memoria), in

quanto l’esponente -2d diventa un fattore moltiplicativo. Questo ci interessa

quando, fra poco, andremo a stimarci d.

Ricapitoliamo: un processo long memory può essere modellato tramite un ARFIMA (che è generato da una

sorta di noise frazionario che però ha anche una componente ARMA e dipende da i parametri auto

2

regressivi ,dai parametri a media mobile, da d e da σ ). Esso è un modello parametrico per i processi long

memory.

Dopo aver visto il caso ARFIMA(0,d,0) cioè il fractional noise andiamo ad analizzare un modello che

chiameremo semi-parametrico, alternativo al modello ARFIMA che abbiamo appena presentato.

III° MODELLO: FRACTIONAL EXPONENTIAL SPECTRAL

MODEL

Quello che vogliamo fare adesso è costruire un modello ARMA per quel che resta dopo aver filtrato la serie;

l’idea è che lo spettro di un processo stocastico stazionario può essere approssimato attraverso funzioni

trigonometriche.

Quindi cerchiamo di costruire un modello spettrale , un modello nuovo che è formulato non in termini di un

equazione che coinvolge y ma in funzione dello spettro di y.

2

Se ε è un WN abbiamo il caso già presentato con σ /2; ma se ε assume la forma seguente (forma più

t t

generale del classico WN):

La densità spettrale di ε è limitata ovunque (superiormente e inferiormente) e diversa da zero per tutti gli ω.

t

ε è dunque un processo stazionario, invertibile e a memoria corta, quindi la sua funzione di densità spettrale

t

non diverge.

Allora lo spettro di y sarà: 127

Questo è un modello più generale rispetto al precedente;

è modello moltiplicativo per lo spettro di y: lo spettro consiste in un fattore, che deriva dalla proprietà di

long memory, per un fattore che deriva dallo spettro di ε (nel caso particolare in cui ε è WN lo spettro è

2

piatto pari a σ /2 ), che può essere non piatto.

se prendiamo il logaritmo, otteniamo:

A questo punto necessitiamo di considerare un approssimazione generale per l’ultimo termine.

Sappiamo che ogni funzione può essere approssimata, con taylor, mediante un polinomio. In questo modo,

approssimiamo una funzione complicata con una funzione polinomiale semplice, perché dipende

linearmente da dei coefficienti incogniti. Il problema serio è la multicollinearità.

Noi dobbiamo approssimare lo spettro che è una funzione periodica (si ripete uguale a se stessa ogni 2 π) ed

è, inoltre, simmetrica rispetto a zero. Per questo usiamo l’approssimazione in serie di Fourier troncata, che

approssima funzioni periodiche tramite funzioni trigonometriche:

Tale trasformazione è più conveniente perché mantiene la simmetria dello spettro e anche la sua periodicità.

Questo modello dunque è formulato solamente in termini di spettro; non troviamo un legame di y col suo

passato mediante un modello parametrico (cosa che avevamo nel fractional noise).

f (ω)

Con questo meccanismo possiamo approssimare qualsiasi funzione .

ϵ

Questo modello è chiamato Modello Frazionario Esponenziale Spettrale:

è un modello frazionario perché c’è un integrazione frazionaria data dall’ esponente -2d che nei logaritmi

diventa un fattore moltiplicativo. Modello esponenziale perchè lo spettro deriva dai logaritmi.

Il modello è “carino” perche i parametri essenziali (d,c ,c ) entrano linearmente e li potremmo stimare con

0 k

gli OLS, i quali permettono stime consistenti e asintoticamente efficienti.

Un altro vantaggio è che i regressori di Fourier (cos(ω)) sono tutti ortogonali, quindi l’informazione che

utilizziamo per stimare c non entra in conflitto con quella che usiamo per stimarci c .

k 0

Con la trasformazione di Fourier viene fuori un modello di regressione per il log spettro dove le

variabili esplicative sono funzioni seno e coseno di una qualche funzione ( ω/2 o ωk nella formula sopra).

Ora, quindi, sappiamo cosa vogliamo fare “da grandi”:

vogliamo stimare un modello long memory (che sia il primo o il secondo presentato), e vogliamo fare

inferenza su i parametri fondamentali come d, come i coefficienti auto regressivi, come i coefficienti in

media mobile o nel caso semiparametrico i nostri c .

i

quindi vogliamo fare inferenza: 128

INFERENZA

Un modo possibile di fare inferenza è andare nel dominio temporale, costruire la verosimiglianza, e stimarci

i parametri incogniti con il metodo della massima verosimiglianza.

Come sappiamo la verosimiglianza è la funzione di densità congiunta delle osservazioni. Vediamo in che

modo essa è legata ai nostri parametri:

Prendiamo la nostra serie di RV. Cmq possiamo avere anche il caso in cui

la media sia diversa da zero, ma questo è

un caso semplificato.

Questa è la matrice di varianze covarianze delle nostre n osservazioni, la struttura di questa matrice dipende

dalla stazionarietà.

Tale matrice è detta matrice di Tebitz perché è simmetrica in entrambe le direzioni. L’indice di posizione ij

dipende solo dalla distanza tra i e j; la costruiamo con i dati del modello.

Allora: 2

( )

d , σ

La log verosimiglianza dipende dai parametri incogniti del nostro modello (N.B: se usassimo

modelli più complessi, i parametri incogniti aumenterebbero).

Dobbiamo, quindi, massimizzare tale funzione rispetto ai parametri incogniti.

Questo non è tanto facile da fare, perchè con n grande dobbiamo calcolare il determinante e l’inversa della

matrice gamma, e questo è piuttosto complesso.

Esistono algoritmi che ci aiutano a costruire queste quantità (Durbin-Levinson) ma hanno costi

2

computazionali alti (dello stesso ordine di n ).

Per ridurre il costo computazionale possiamo:

1. approssimare il modello e usare il filtro di Kalman (che ha un costo computazionale dell’ordine di

n); il problema è che il nostro modello non può essere scritto come un modello Markoviano di 129

ordine finito. Per questo motivo possiamo approssimare il modello usando la rappresentazione MA o

AR, rappresentarlo in forma state space e applicargli il filtro di Kalman.

2. Un'altra possibile strada è quella di fare una trasformazione dei dati, alternativa al filtro di Kalman,

che si chiama trasformazione di Fourier. Questo è ciò che analizziamo nel prosieguo:

Con Kalman a pertire da y ottenevamo le innovazioni (u) che sono eteroschedastiche e incorrelate tra loro.

Con Fourier costruiremo nuove osservazioni chiamate spettro empirico che sono incorrelate tra loro

asintoticamente. In questo modo semplificheremo il problema.

Data una serie di osservazioni y il filtro di Kalman le trasforma, ortogonalizzandole. Possiamo fare questo

anche nel dominio frequenziale, attraverso la trasformata di Fourier che proietta le osservazioni (y) in uno

spazio in cui le componenti sono ortogonali fra loro.

Se lavoriamo con strutture di dati che sono ortogonali, la loro matrice Var-Cov Gamma sarà diagonale.

Una volta conseguita la diagonalità della matrice Var-Cov (attraverso questa trasformazione), il

determinante e l’inversione risultano semplificati:

Il determinante è dato dal prodotto degli elementi sulla diagonale e gli elementi dell’inversa (anch’essa

diagonale) sono i reciproci di gamma.

Con questo metodo riusciremo a ridurre il costo computazionale, che sarà dell’ordine di n.

L’inferenza statistica nel dominio delle frequenze è basata sul Periodogramma (o spettro campionario).

Il Periodogramma viene indicato con I(ω ): esso varia al variare di ω ,che è una frequenza particolare che

j j

chiamiamo frequenza di Fourier. L’espressione del Periodogramma è molto simile a quella dello spettro:

con: γ k

( )

( )

̂

Il Periodogramma è una combinazione delle auto covarianze campionarie della nostra serie.

γ γ

̂ ̂

(0) (k )

Ovviamente, nel Periodogramma possiamo combinare soltanto n auto covarianze ( e le n-1

che possiamo formare utilizzando la nostra serie), mentre nello spettro ce ne avevamo infinite:

[ ]

1 ∑ ⁡

f ω γ 0 2 γ k ωk

( )= ( )+ ( )∗cos ( )

2 π k=1

Dove γ(0) è la varianza teorica della nostra serie e γ(k) è l’autocovarianza di ordine k del nostro processo.

( )

I ω

( )

f ω

( )

( )

Quindi per passare dallo spettro al Periodogramma , valutiamo lo spettro a delle

j

frequenze ω dette di Fourier; e sostituiamo le auto covarianze teoriche con quelle campionarie, calcolate

j

sulla serie osservata.

Come abbiamo già detto, nel Periodogramma la sommatoria si estende fino ad n-1, perche l’autocovarianza

di ordine più elevato che possiamo costruire dai dati è quella di ordine n-1 che lega y con y .

1 n

N.B. l’ultima auto covarianza (di ordine n-1) usa solo due osservazioni per essere calcolata quindi è molto

variabile! 130

Quindi, il Periodogramma è l’analogo campionario dello spettro.

*t

y è o la nostra serie stessa, o la serie privata della media (cioè la nostra serie con media 0).

2 π∗j

ω =

Analizziamo le ω : esse sono frequenze particolari date da con j = 0, ……, n-1, dette

j n

j

frequenze di Fourier.

Quindi ω sarà 0, ω sarà pari a 2π/n, ω sarà pari 4π/n e cosi via. Ciò significa che tali frequenze sono equi

0 1 2

spaziate nel campo di variazione di ω ( 0 e 2π) , equidistanti una dall’altra di 2π/n.

j

Tale struttura di frequenze permette un campionamento sistematico di passo 2π/n (il passo quindi dipende

dal numero di osservazioni), e questo è importante perche i seni e coseni (o in generale funzioni

trigonometriche) valutati a queste frequenze sono ortogonali fra loro.

In questo modo semplificheremo il problema perche quando proietteremo i nostri dati su questo set di

frequenze avremo dei dati ortogonalizzati.

L’idea fondamentale di tutto quello che stiamo raccontando è questa:

le nostre osservazioni verranno processate cosi:

da n dati passeremo a n dati che derivano dalle nostre osservazioni processate attraverso le auto covarianze,

componendo quindi il Periodogramma I(ω ), che valuteremo per n frequenze a partire da 0. (N.B. j=0,…n-1.)

j

Il valore di tale trasformazione consiste nel fatto che ora gli I(ω ) (che sono i nostri nuovi dati) sono

j

incorrelati almeno asintoticamente (quando n è grande). Sono incorrelati perche stiamo proiettando i nostri

dati su una base ortogonale.

Come si comporta il Periodogramma?

Supponiamo di avere una serie di RV e supponiamo di averla sterilizzata dalla media trovando quindi gli

scarti dalla media.

*

Da queste y ci calcoliamo le auto covarianze e le inseriamo nella formula del Periodogramma e otteniamo

questo:

Questo è il Periodogramma o spettro campionario della nostra serie:

è il grafico degli I(ω ) contro le frequenze di Fourier, delle quali ne abbiamo utilizzate solo la metà n/2.

j

Questo perche considero solo il grafico tra 0 e π (3,14 in ascissa), perche tra π e 2π avrei lo stesso grafico a

specchio, in quanto il Periodogramma è simmetrico rispetto a π.

N.B. il Periodogramma come lo spettro è una funzione simmetrica e periodica!!!

Cosa ci dice il grafico?

È espressione del fatto che il nostro processo è long memory. Gran parte della variabilità del processo viene

catturata alle frequenze basse, c’è poco alle frequenze alte. È alle frequenze basse (che corrispondono a cicli

di lungo periodo) che si accumula la densità spettrale. Le ordinate vicino a zero spiegano molto del 131

comportamento del processo e tendenzialmente, se il nostro processo viene da un long memory, ci

aspettiamo che in zero il Periodogramma vada a infinito.

C’è quindi un addensamento della densità campionaria intorno a zero.

È importante notare come I(ω ) sia proporzionale allo spettro sottostante.

j

Facciamo un passo indietro:

il Periodogramma si costruisce tramite la trasformata di Fourier delle nostre osservazioni:

ω t

−i

e j

Con esprimiamo un esponenziale complesso: , dove la parte reale

è un coseno (che è una funzione periodica di periodo 2π/ω (è un onda che in zero ha il suo valore massimo e

j

ritorna al suo valore ogni 2π/ω )) e la parte immaginaria è un seno (anch’esso funzione periodica di periodo

j √

i= −1

2π/ω, che in zero vale zero), e i è l’unità immaginaria .

In questo modo otteniamo un numero complesso: *

Quindi la trasformata di Fourier è una sorta di somma dei prodotti incrociati tra una sequenza la y e un'altra

sequenza che è complessa.

Tale trasformazione ha delle proprietà notevoli, in quanto ortogonalizza i nostri dati.

A(ω ) può essere considerata come una sorta di covarianza della nostra serie osservata, con una sequenza

j

periodica e B(ω ) una sorta di covarianza della nostra serie osservata, con una sequenza periodica sfalsata di

j

π/2.

Quindi, gli A(ω ) e B(ω ) sono una misura di associazione tra la nostra serie e una funzione periodica.

j j

C’è un legame tra il Periodogramma e queste due componenti, infatti questo può essere scritto come:

J(ω ) rappresenta un punto nello spazio, con coordinata reale A(ω ) e immaginaria B(ω ). Il Periodogramma

j j j

è il quadrato della distanza di quel punto dall’origine.

Il Periodogramma misura, dunque, l’associazione che esiste tra la nostra serie e i seni e coseni definiti a

*

quella frequenza. Misura quanto y covaria con questi seni e coseni definiti a queste frequenze.

Se il Periodogramma fosse zero significa che A(ω ) e B(ω ) sono zero. Se A(ω ) e B(ω ) sono zero significa

j j j j

che non c’è associazione tra la nostra serie e quelle funzioni trigonometriche. Questo accade quando

abbiamo una serie che va su e giù con periodo 2. La correlazione tra questa serie e un coseno di periodo

molto lungo è presso a poco nulla . 132

Quindi il Periodogramma è zero quando la nostra serie non è associata a delle funzioni trigonometriche con

un certo periodo.

Dunque, in conclusione il Periodogramma o spettro campionario è la norma al quadrato di un numero

complesso e si dimostra non troppo facilmente che :

È uguale a:

E, quindi, possiamo esprimere il Periodogramma in funzione delle auto covarianze.

Quindi, a noi interessa sapere che c’è un modo per passare da n osservazioni a nuove osservazioni che

chiamiamo I(ω ), che hanno proprietà diverse: sono ortogonalizzate in qualche modo!!

j

Un altro risultato interessante del Periodogramma è il seguente:

Il significato è questo: prendiamo il Periodogramma lo moltiplichiamo per 2π e sommiamo tutte le ordinate.

In questo modo otteniamo la varianza del processo.

Tale risultato si interpreta nel modo seguente:

la variabilità del processo può essere scomposta nel contributo che ciascuna frequenza da al comportamento

*

del processo e, nel nostro caso, vediamo che, nella spiegazione della variabilità di y contribuiscono di più le

frequenze basse, quelle che sono associate a periodi elevati, molto persistenti.

Questa è l’idea del Periodogramma e tale risultato si chiama Teorema di Parseval.

Un'altra interpretazione consentita è questa: 2

supponiamo di prendere la nostra serie e regredirla sul coseno e seno a ω e prendiamo l’R di questa

j

2 *

regressione. A meno di un fattore di scala, il Periodogramma è l’R della regressione di y su questi seni e

*

coseni a ciascuna frequenza e misura il contributo alla spiegazione della varianza di y fornito dai due

repressori coseno e seno a ω . Sommando tali contributi, per effetto dell’ortogonalità dei regressori,

j

ricostruiamo la varianza del processo.

Queste sono le idee del Periodogramma che escono fuori dalla trasformata di Fourier.

A questo punto prima di utilizzare il Periodogramma per le nostre analisi approfondiamo un risultato che ci

permette di collegare il Periodogramma allo spettro. Come anticipato in precedenza, infatti, dimostreremo

che il Periodogramma è uno stimatore dello spettro.

Il Periodogramma è una manifestazione dello spettro sottostante del nostro processo, che è ciò che vogliamo

stimare.

Il Periodogramma è la somma dei quadrati di due variabili casuali A(ω ) e B(ω ).

j j 133

¿

y

se è normale allora entrambe sono normali. Quindi quando prendiamo il quadrato di A(ω ) e il

j

quadrato di B(ω ) e le sommiamo, se A(ω ) e B(ω ) fossero indipendenti, avremmo un chi-quadrato sommato

j j j

a un chi-quadrato.

quindi l’idea è questa!

asintoticamente A(ω ) e B(ω ) sono due v.a. normali, indipendenti fra di loro, per n grande. Se sommiamo

j j

assieme i loro quadrati avremo qualcosa che è proporzionale ad una chi-quadrato con 2 gradi di libertà.

Il risultato è questo: si dimostra che asintoticamente I(ω ) è una chi-quadrato con 2 gradi di libertà,

j

f

( )

(ω )

moltiplicata per lo spettro vero e per un fattore moltiplicativo pari a ½.

j

Tutto questo risultato si riscrive in questo modo: I(ω ) è, asintoticamente, identicamente distribuito con

j

distribuzione esponenziale e con media f(ω )

j

1 2

χ

Perche è una chi- quadro divisa la sua media ed è

2

2

quindi un esponenziale a media 1.

Il punto fondamentale è che possiamo capire come è distribuito I(ω ):

j

ha una distribuzione che è proporzionale, a meno di un fattore di scala, ad una v.a. esponenziale con media

1; il fattore di scala è lo spettro vero.

Quindi I(ω ) ci parla dello spettro. Possiamo quindi utilizzare I(ω ) per fare inferenza sullo spettro e, quindi,

j j

sul nostro modello di memoria lunga.

C’è un piccolo dettaglio tecnico: se prendiamo le frequenze 0 e π, accade che il seno di 0 è sempre 0, quindi

B(ω ) se ne va e abbiamo solo un grado di libertà, in questo caso cambia un pò la teoria distributiva:

j

Per evitare il problema, toglieremo le frequenze 0 e π.

Quindi, per tutte le ω diverse da 0 e π, vale questo risultato:

j

Che può essere anche scritto come: 134

Che significa che la densità delle nostre nuove osservazioni I(ω ) è nota ed ha una forma molto semplice.

j

Il riassunto è:

siamo passati dalle nostre y processandole a nuove osservazioni I(ω ); adesso possiamo basare le nostre

j

inferenze (la verosimiglianza) su questo risultato, perchè i nostri dati risultano da una distribuzione

indipendente.

Ciò significa che la densità congiunta dei dati sarà data dal prodotto delle densità marginali.

È questo quello che volevamo ottenere:

siamo partititi da delle osservazioni, che avevano una densità congiunta difficile da calcolare, e siamo

arrivati al prodotto di densità marginali, le quali sono fatte tutte allo stesso modo:

Il modello e i nostri parametri sono dentro a f(ω ) .

j

Questi risultati ci permettono di mostrare che:

• Il Periodogramma ha valore atteso, valutato alla frequenza ω , pari a f(ω ). Quindi I(ω ) è uno

j j j

stimatore corretto o non distorto dello spettro alla frequenza ω .(ricorda che il valore atteso chi-

j

quadrato = gradi di libertà)

• 2

la sua varianza è invece pari a f(ω ) . Questa non è una buona notizia, perche al crescere di n la

j

varianza dello stimatore non cambia. Sarebbe stato bello avere n al denominatore, perchè cosi, al

crescere del numero di osservazioni, il Periodogramma era sempre più vicino allo spettro vero,

avrebbe avuto una varianza che diventava 0, ma non è cosi. (varianza chi-quadrato= 2*gradi di

libertà).

Quindi il Periodogramma è uno stimatore corretto ma non consistente dello spettro.

Infatti il suo grafico è molto irregolare anche se abbiamo 3000 osservazioni.

Se fosse consistente qui avremmo una funzione liscia ma non è cosi.

Il Periodogramma è variabile perche la varianza non dipende da n.

Questo stimatore non è consistente, perché, come detto all’inizio, questo Periodogramma utilizza

auto covarianza di ordine elevato che hanno una variabilità non domabile, perché l’utlima

autocovarianza sarà sempre calcolata con due osservazioni.

LOG PERIODOGRAM REGRESSION 135

Le proprietà statistiche del Periodogramma sono note, almeno asintoticamente: possiamo dire che è corretto

ma non consistente e che vale una teoria distributiva(quella esponenziale), che ora andremo a sfruttare:

Il Periodogramma è proporzionale allo spettro vero per una variabile casuale nota.

Se prendiamo i logaritmi di entrambi i membri otteniamo:(con i log si passa dai prodotti alle somme)

1 2

χ 2

2 )

logI ω ω log

( ) ( )

=logf + ¿

j j

La nostra idea è questa:

avendo preso il logaritmo, abbiamo linearizzato il nostro modello e quindi ora per fare inferenza sullo

spettro utilizziamo una regressione del logaritmo del Periodogramma su particolari variabili esplicative.

1 2

χ è una variabile casuale e il suo logaritmo è il nostro termine di disturbo.

2

2

Se pensiamo ad un modello di regressione, dove il logaritmo dello spettro è lineare nei parametri

incogniti(in d parametro di long memory e in alcuni coefficienti chiamati cepstrali) a meno di un termine di

scala, otteniamo:

c e c entrano linearmente e quindi possiamo fare inferenza su questi coefficienti attraverso una regressione

0 k

lineare grazie a questa teoria.

Il termine di disturbo non è gaussiano, ma è rappresentato dal logaritmo di una v.a. chi-quadrato con 2 gradi

di libertà e media non zero.

Possiamo, quindi, basare le nostre inferenze su quella che ora chiamiamo regressione del log

Periodogramma:

in pratica facciamo la regressione del log Periodogramma su alcune variabili esplicative, e i coefficienti che

ci interessano entrano linearmente nel modello di regressione.

La prima tipologia di regressione basata sul log-Periodogramma è detta regressione di Geweke-Porter-

Hudak:

Questo è uno dei metodi più semplice per stimare il parametro d di long memory, attraverso la regressione

lineare. 136

L’idea di questa regressione è che intorno alla frequenza zero prevarrà il comportamento long memory.

Infatti, se analizziamo questo modello per il log spettro, vediamo che intorno a zero prevarrà questa

componente sin(ω /2) di long memory. intono allo zero lo spettro va a più infinito e il logaritmo sarà più

j

calmo.

Quindi, l’idea è questa: se prendiamo solo le prime ω prevarrà la parte di lungo periodo (la prima) su quella

j

di short memory (da c in poi rappresenta la componente di breve periodo(short memory)).

0

Quindi, un modo molto semplice per stimarci d è:

prendere soltanto alcune frequenze (dalla prima alla R-esima, dove generalmente R= n/4,n/8,n/16).

∣ ∣)

( ω j

2sin

−2dln

Regrediamo lnI(ω ) su un regressore di long memory , che è la variabile esplicativa, e

2

j

su una costante che contiene u +0,57722 e otteniamo:

j

Se, quindi, regrediamo lnI(ω ) possiamo stimarci d.

j

Graficamente: 137

Nel grafico viene rappresentato lnI(ω ) in ordinata contro la nostra variabile esplicativa

j

( )

ω

( )

j

ω 2sin

= −2ln , che è sempre positiva, misurata in ascissa.

j 2

Il d stimato (d cappello) è pari alla pendenza della retta.

Un altro approccio è quello di considerare anche le altre osservazioni, quindi considerare anche le frequenze

più alte:

facciamo la regressione di ln I(ω ) su queste variabili esplicative in questo modo:

j

ω

cos(¿¿ j)+u j

cos(¿¿ j)+ 2c cos(2ω … … … .+2 c

)+ ¿

2 j k

[ ]

ω j

log I ω – 2 d ln 2 sin c

( )

=c +2 ¿

j o 1

2

In questo modo catturiamo anche la componente di short memory.

Graficamente:

Il primo regressore contiene la componente di long memory. Gli altri derivano dalla trasformazione di

Fourier dello spettro di breve, servono a catturare la componente di breve periodo e determinano le

fluttuazioni intermedie.

Quindi, facciamo una regressione del ln I(ω ) su queste variabili esplicative e stimo i coefficienti del

j

modello attraverso una regressione lineare.

Comportamento long comportamento short

d entra linearmente quindi è facile da stimare con gli OLS, come gli stessi c . L’unico problema è che sono

k

ω k ¿

associati a regressori del tipo cos( . Essi servono per modellare il breve.

j

Il problema di questi metodi (che si basano sulla regressione di nuovi dati in logaritmi su specifici

repressori) è che sono potenzialmente inefficienti, perche la distribuzione di u non è normale.

j 138

L’inefficienza deriva dal fatto che usiamo la teoria della regressione lineare (che è ottimale nel caso

gaussiano) per disturbi non gaussiani.

È, quindi, possibile avere stimatori più efficienti basati sulla verosimiglianza. La verosimiglianza può essere

basata sul seguente risultato:

WHITTLE LIKELIHOOD ESTIMATION

Ortogonalizzando le osservazioni originali otteniamo nuovi dati

Con funzione di densità

La log-verosimiglianza sarà la somma dei logaritmi di queste densità, e quindi:

Questa verosimiglianza è funzione dei parametri incogniti racchiusi in Ξ. Essa viene calcolata su gli I(ω ) e

j

non più sulla serie originale.

Se applichiamo alla verosimiglianza qui sopra un approssimazione asintotica basata sul Periodogramma

otteniamo: <- Dati

<- Modello

Che è molto più semplice di prima: per ottenere la log verosimiglianza sommiamo n termini indipendenti

unidimensionali.

Essa è detta verosimiglianza di Whittle che deriva dalla formula generale con alcune semplificazioni;

si dimostra infatti che:

Il messaggio fondamentale è che il Periodogramma è indipendente da una frequenza all’altra. una volta

ortogonalizzate le osservazioni sommeremo il logaritmo delle densità del tipo trovato q(I(ω ) )

j

Il nostro intento è stimarci parametri di un modello che poi ci aiuta a capire il parametro di long memory e

gli altri parametri di serie temporali; pensiamo a un modello del tipo: 139

Vogliamo stimarci d, θ, ; questi modelli implicano uno spettro per la serie e possiamo stimarci lo spettro

ϕ

implicato e i parametri connessi attraverso i metodi di stima visti, alcuni approssimati, altri più efficienti.

Fatto questo possiamo utilizzare i risultati per prevedere la volatilità realizzata; abbiamo visto che per la RV

dobbiamo prendere in seria considerazione il problema della memoria lunga e dobbiamo trattarlo.

Ci stimiamo il parametro d di memoria lunga attraverso una regressione log Periodogramma o attraverso

metodi di verosimiglianza esatta o approssimata. VAR

Il VaR è una misura di rischio ed è definito in termini di perdita potenziale ed è sempre positivo.

L

La v. c. (l) è la variazione del portafoglio cambiata di segno.

V

dove è il valore di mercato del portafoglio al tempo t.

t

L (l) esprime, dunque, la perdita dovuta alla variazione del valore del portafoglio dal tempo t al tempo

t+l.

Ci chiediamo, a questo punto, qual è quel valore L, che esprime la perdita massima in cui si può incorrere

con una probabilità pari a p in un orizzonte l periodale:

(c’è scritto: la probabilità di subire una perdita superiore a L è pari a p).

Data una distribuzione delle perdite cerchiamo il valore L, che è il valore della perdita, tale che la probabilità

che la nostra varabile casuale sia superiore a questo valore soglia è pari a p.

L,dunque, è un quantile (l’1-p percentile) della distribuzione delle perdite. quindi analizziamo la coda destra

della distribuzione. se p =5% L sarà il 95-esimo percentile. 140


ACQUISTATO

4 volte

PAGINE

154

PESO

4.39 MB

AUTORE

FolKlorE

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea magistrale in economia dei mercati e degli intermediari finanziari
SSD:
A.A.: 2017-2018

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher FolKlorE di informazioni apprese con la frequenza delle lezioni di Finanza quantitativa e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Tor Vergata - Uniroma2 o del prof Proietti Tommaso.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea magistrale in economia dei mercati e degli intermediari finanziari

Ragioneria - Domande e risposte
Appunto
Ragioneria - primo appello prova scritta 2012
Esercitazione
Soggetti d'azienda
Dispensa
Processo produttivo
Dispensa