Che materia stai cercando?

Previsione serie storiche applicando la foresta casuale Appunti scolastici Premium

Tesi per la facoltà di Scienze statistiche, dell'università degli Studi di Milano - Unimib elaborata dall’autore nell’ambito del corso di Machine learning, serie storiche, previsioni con modelli ARIMA tenuto dal professor Fattore dal titolo Previsione serie storiche applicando la foresta casuale. Scarica il file in formato PDF!

Materia di Machine learning, serie storiche, previsioni con modelli ARIMA relatore Prof. M. Fattore

Anteprima

ESTRATTO DOCUMENTO

1 Introduzione

L’obiettivo alla base della tesi è quello di usare la serie storica osservata per

individuare il processo stocastico generatore da utilizzare per fare previsioni

future. I processi stocastici stazionari e non stazionari godono di particolari

proprietà probabilistiche che risultano utili per modellare molte serie storiche

che si incontrano nella realtà.

La metodologia statistica più adatta ai fini predittivi è il modello di regres-

sione.

Nell’ultimo decennio però si è visto lo sviluppo di tecniche alternative ai

modelli di regressione, cioè i metodi di data mining, originariamente lega-

ti ai campi dell’informatica, della statistica e dell’intelligenza artificiale. I

metodi di data mining esplorano i dati alla ricerca di relazioni sistematiche

tra variabili per poi validare i risultati applicando i pattern ottenuti a nuovi

sottoinsiemi di dati.

In questo campo sono presenti algoritmi basati sull’apprendimento automati-

co (Machine Learning), distinguibili in due tipologie principali: apprendimen-

to supervisionato e apprendimento non supervisionato. E’ stato analizzato

solo il primo tipo.

L’apprendimento supervisionato richiede che la variabile di destinazione sia

ben definita e che venga fornito un numero sufficiente di valori.

L’apprendimento supervisionato è il tipo di Machine Learning che si veri-

fica quando i risultati dell’output corretto (o variabili di destinazione) per

gli input delle istanze di training sono noti. L’obiettivo del training di un

algoritmo di Machine Learning è di trovare il modello (ovvero una regola o

una funzione) che mappa gli input ai valori di output noti. Si tratta di una

procedura simile a quando si dispone di un supervisore che può indicare al-

l’agente algoritmico se gli input vengono mappati correttamente agli output.

Quando, dopo aver completato il processo di apprendimento, si dispone di

un modello utilizzabile, questo può essere applicato ai nuovi dati di input

per stimare l’output previsto dove, a differenza del set di dati di training, i

valori di destinazione non sono noti in anticipo.

Esistono due ampie categorie di analisi che utilizzano l’apprendimento su-

pervisionato: classificazione e regressione.

Nell’apprendimento supervisionato, le variabili prese in esame possono essere

suddivise in due gruppi: variabili esplicative (denominate anche predittori)

e variabili dipendenti (denominate anche variabili di risposta). L’obiettivo

dell’analisi consiste nel definire una relazione tra le variabili esplicative e le

variabili dipendenti come avviene nell’analisi di regressione. Per una parte

sufficientemente grande del set di dati, è necessario conoscere i valori della

variabile dipendente. 2

L’obiettivo ultimo del data mining è la predizione e il maggior vantaggio

nell’utilizzo di tali metodi consiste nelle loro capacità predittive. Una del-

le tecniche di data mining sviluppate più di recente è quella delle Foreste

Casuali (Random Forests). Questa tecnica estende quella relativa gli alberi

di regressione/classificazione integrandola con una procedura di simulazione

Monte Carlo.

La tesi è cosı̀ organizzata. Nel primo capitolo è stato esplicato in maniera

esaustiva il significato di apprendimento automatico, chiarendo due elementi

di cui è composto: gli alberi di decisione e le foreste casuali. Nel secondo

capitolo sono state introdotte le nozioni di serie storica, illustrando quella che

è l’analisi classica delle serie storiche, soffermandosi sui processi stazionari

e non stazionari, evidenziando le loro caratteristiche e i processi dal quale

sono costituite. Vengono inoltre illustrati diversi metodi per ricondursi da

una serie storica non stazionaria ad una stazionaria. Nel capitolo successivo

sono state simulate e analizzate due classi di processi stocastici: stazionari e

non stazionari, i quali sono molto importanti nella modellizzazione delle serie

storiche: i processi autoregressivi a media mobile (in inglese, autoregressive

moving average processes), detti processi ARMA e i processi autoregressivi

integrati a media mobile, chiamati ARIMA.

La simulazione include un’analisi dettagliata sulla composizione e sulla rap-

presentazione del processo stocastico stazionario e non stazionario, al fine

di realizzare un determinato numero di features che spiegheranno al meglio

l’outcome della foresta casuale. Dopo aver eseguito questo lavoro, si è deciso

di effettuare un confronto tra la previsione ottenuta con il metodo classico

della regressione e quello alternativo operando con Machine Learning, più in

dettaglio con il classificatore foresta casuale.

3

2 Apprendimento supervisionato

L’apprendimento supervisionato è un approccio top down, applicabile quan-

do è chiaro l’obbiettivo da prevedere, che genera previsioni, stime, caratte-

rizzazioni rispetto al comportamento di alcune variabili target, individuate

in funzione di variabili di input. Nei modelli previsionali l’obiettivo è quello

di apprendere in modo che la conoscenza acquisita sia applicabile anche in

futuro, quindi il modello migliore non è solo quello che presenta migliore ef-

ficacia ma quello meglio performante con i dati futuri.

Esistono due ampie categorie di analisi che utilizzano l’apprendimento su-

pervisionato: classificazione e regressione.

Con il termine “classificazione”supervisionata, si intende il processo stati-

stico mediante il quale si costruiscono criteri per allocare individui a gruppi

dati, sulla base di un’analisi del legame tra covariate e outcome. Le proce-

dure di classificazione statistica hanno due obiettivi principali:

1) Prevedere l’appartenenza a un gruppo di un soggetto, sulla base dei criteri

individuati.

2) Mettere in evidenza quali sono le features e gli attributi più rilevanti, per

l’appartenenza di un soggetto a un gruppo.

Il primo obiettivo è strumentale , il secondo è interpretativo. Come spesso

accade, i due obiettivi sono in parte in conflitto: massimizzare il potere pre-

visivo, spesso conduce a criteri poco interpretabili (ma utili, se l’obiettivo è

la previsione).

Analizzeremo ora il processo di classificazione: Al centro di un processo di

classificazione vi sono tecniche statistiche in grado di analizzare il legame tra

covariate e outcome (regressione logistica, Alberi di Classificazione, Foreste

Casuali, Support Vector Machine, Analisi discriminante, Boosting).

Queste tecniche hanno caratteristiche e modalità di applicazione differenti,

ma vi sono tratti fondamentali e comuni.

Un classificatore viene costruito a partire da un campione di dati, con l’o-

biettivo tipico di essere utilizzato per prevedere l’outcome di unità statistiche

nuove . In questa prospettiva, vi sono due macro-fasi principali, nella co-

struzione di un classificatore:

1) Training del classificatore: il classificatore viene costruito a partire

dai dati campionari.

2) Validazione del classificatore: le performance del classificatore vengono

4

valutate, per stabilirne l’affidabilità e le potenzialità d’uso su dati extra cam-

pionari.

Per rendere operative le due fasi, usualmente i dati campionari vengono sud-

divisi in due parti. La prima (training set), più numerosa, è usata per il

training del classificatore. La seconda (test set), meno ampia, è usata per la

validazione (in questo modo, il classificatore è validato su dati che non sono

entrati nella sua costruzione).

Fase di training:

I dati selezionati vengono utilizzati per analizzare il legami tra covariate e

outcome. Ciò può essere fatto ricorrendo a tecniche statistiche alternative e

in parte le specificità della fase di training dipendono dal tipo di strumento

statistico utilizzato. L’output della fase di training è il classificatore, cioè

l’insieme di regole che associano, a un profilo di feature, il corrispondente

(presunto) outcome.

Fase di validazione:

Una volta costruito il classificatore, si utilizzano i dati di test (e in parte anche

quelli del training set) per verificare e validare le performance del classificato-

re. Indipendentemente dalla tecnica statistica utilizzata, la validazione di un

classificatore si imposta quasi sempre ricorrendo a un insieme di indicatori e

grafici che traducono in modo formale alcuni criteri di valutazione operativa

naturali (ma non del tutto banali), sostanzialmente di natura logica.

Per quanto riguarda la “regressione”supervisionata, la variabile dipenden-

te o risposta sarà una variabile continua, ma il procedimento da effettuare è

similare a quello della “classificazione”supervisionata.

Si studierà nei successivi sottocapitoli le foreste casuali, partendo dal pre-

supposto che siano un insieme di alberi di decisione.

2.1 Alberi di decisione

Gli alberi di decisione rappresentano un metodo supervisionato per la co-

struzione di un modello che mira alla previsione del valore di una variabile di

risposta (target) in funzione di un insieme di variabili indipendenti (input).

Il modello è strutturato secondo un diagramma ad albero. A seconda della

natura della variabile target, gli alberi di decisione sono definiti:

5

ˆ Alberi di classificazione: la variabile target è qualitativa.

ˆ Alberi di regressione: la variabile target è quantitativa.

ˆ Le variabili in input possono essere sia quantitative che qualitative.

Che cos’è un diagramma ad albero?

Un diagramma ad albero è un insieme di nodi collegati tra loro attraver-

so dei rami, che formano un grafo orientato in senso discendente che parte

da un unico nodo radice e termina in una serie di nodi foglia.

Partendo dal nodo radice, le osservazioni vengono attribuite ai nodi succes-

sivi sulla base di una regola di ripartizione basata sulle variabili input, con

l’obiettivo di determinare nodi progressivamente più omogenei rispetto alla

variabile target.

Ogni ramo conduce ad un nodo successivo che viene ulteriormente ripartito.

L’albero di decisione è dunque costruito attraverso una bipartizione ricorsiva

delle osservazioni, che vengono suddivise in sottogruppi via via più omogenei

internamente. Il criterio di divisione (split) si basa sulle variabili input, men-

tre il grado di omogeneità interna ai gruppi è misurato sulla variabile target:

ˆ ‚ ƒ

I nodi terminali (o foglia) degli alberi di classificazione sono etichettati da

una modalità della variabile di risposta (target) qualitativa.

ˆ ‚ ƒ

I nodi terminali (o foglia) degli alberi di regressione sono etichettati da

un intervallo di valori della variabile di risposta (target) quantitativa.

In ottica esplorativa, un albero di decisione si utilizza per descrivere qua-

li sono i valori delle variabili input che determinano intervalli/categorie della

variabile target.

In ottica decisionale, un albero decisionale si utilizza per predire il valore del-

la variabile di risposta da attribuire ad una osservazione di cui si conoscono

i valori delle variabili in input.

Quali sono gli elementi per la costruzione di un albero decisio-

nale?

ˆ Per ciascun nodo, valutare l’insieme dei possibili split.

Il numero di possibili split dipende dalla natura delle variabili in questione.

Se è il numero di modalità di una variabile qualitativa, ed N il numero di

m

valori di una variabile quantitativa, allora il numero di split per la variabi-

m−1

le qualitativa corrisponderà a 2 − 1 mentre per la variabile quantitativa

− 1.

N 6

Da cui sceglieremo lo split migliore.

ˆ definire il criterio di partizione.

Il criterio di partizione al fine di costruire gli alberi di decisione è la proce-

dura CART (Classification And Regression Trees).

L’idea generale del CART è di suddividere ciascun nodo dell’albero in modo

che i nodi generati dallo split siano più puri del nodo originale.

- Negli alberi di classificazione, il nodo A è più puro del nodo B se la pro-

porzione di osservazioni nel nodo A che presentano la stessa modalità della

variabile di risposta è maggiore che in B.

L’impurità del nodo si misura mediante l’indice di eterogeneità di Gini (o

attraverso l’indice di entropia).

- Negli alberi di regressione, il nodo A è più puro del nodo B se la varianza

di Y è più bassa in A che in B.

L’impurità del nodo si misura mediante la varianza.

ˆ valutare la regola di decisione dell’albero costruito.

In generale, la qualità della regola di decisione d è per valutare la regola di

decisione. Si ricorre alle seguenti misure:

X

= r(h)p(h)

R(d) h∈H T

dove = (h)/N è la proporzione di osservazioni presenti nel nodo-foglia

p(h) N

h dell’albero caratterizzato da .

H

t

A seconda della natura dell’albero, r(h) viene definito:

ˆ Alberi di classificazione: tasso di errata classificazione.

‚ ƒ

E’ il rapporto tra il numero di osservazioni etichettate correttamente e il

totale delle osservazioni N

h

1 X )]

= I[d(x

R(h) i

N

h i=1

·

dove I[ ] = 1 se l’espressione contenuta è vera (se l’osservazione è stata

x i

classificata correttamente), 0 altrimenti.

ˆ alberi di regressione: errore di previsione.

1 X 2

= (y − )

R(h) ŷ

i i

N

h h∈H T

7

Il calcolo del tasso di errata classificazione o l’errore di previsione si basa su

osservazioni che non siano state utilizzate per la costruzione dell’albero. I

dati a disposizione vengono dunque suddivisi:

- Campione di apprendimento (training set): osservazioni utilizzate per co-

struire l’albero.

- Campione test (test set): osservazioni utilizzate per valutare la regola di

decisione dell’albero.

Gli alberi di decisione sono caratterizzati da vantaggi e svantag-

gi:

ˆ Vantaggi:

- Possono gestire data set di grandi dimensioni.

- Possono gestire predittori di diversa natura (quantitativi e qualitativi).

- Consentono di trattare variabili ridondanti e valori mancanti.

- facilità di interpretazione di alberi di dimensioni contenute

ˆ Svantaggi:

- Difficoltà di interpretazione di alberi di grandi dimensioni.

- Rispetto ad altri metodi, le performance di previsione sono talora peggiori.

Alberi di grandi dimensioni ottenuti dal processo di splitting troppo ampio

con un numero elevato di foglie, sono responsabili dell’ iper-adattamento de-

gli alberi ai dati. L’albero ottimale, che minimizzi il misclassification rate

generale , ha meno foglie ed è quindi meno articolato. L’individuazio-

ne dell’albero ottimale avviene attraverso il processo di pruning (potatura),

mediante il quale si tagliano i rami dell’albero ottenuto dallo splitting,

riducendolo in modo opportuno.

Con quale criterio si effettua il pruning? Ogni splitting produce due effetti:

1) Rende più omogenee le foglie.

2) Aumenta la complessità dell’albero, rendendolo meno interpretabile e me-

no robusto quando applicato sui dati nuovi.

L’idea è di ridurre l’albero cercando un compromesso tra omogeneità del-

le foglie e complessità.

Quindi, il criterio di eliminazione di un ramo consiste nel valutare se la

maggiore eterogeneità delle foglie dell’albero ottenuto potando quel ramo è

compensata dalla sua minore complessità.

8

La scelta dell’albero migliore dipende sia dall’accuratezza che dalla taglia

di quest’ultimo: (T ) = ) + |

R R(T α|

T

α e

dove R(T) è il tasso di errata classificazione o previsione, | | è il numero di

T

e

foglie (nodi terminali) dell’albero e è il parametro di complessità.

α

Il parametro misura la complessità dell’albero in base al numero di nodi

α

terminali. Sia il sottoalbero dell’albero che minimizza (T )

T T R

α max α

) = min (T )

R(T r

α α

⊂T

T max

Più elevato è il valore di più piccola sarà la taglia dell’albero migliore.

α,

Qualche osservazione finale sugli alberi di decisione:

ˆ Gli alberi di classificazione forniscono anche misure di importanza del-

le variabili, cioè consentono di valutare quanto una variabile discrimina fra

classi. In questo senso possono aiutare ad interpretare il meccanismo che

genera l’outcome.

ˆ Tuttavia, essi rimangono strumenti black-box , più orientati alla previ-

sione che alla spiegazione.

ˆ Gli alberi sono piuttosto instabili, nel senso che ricostruendo alberi diffe-

renti su campioni estratti dalla medesima popolazione, si possono ottenere

strutture molto diverse, (ma con Misclassification Rate simile).

ˆ In realtà, oggi gli alberi sono superati da strumenti meno euristici, che ne

sfruttano il principio, ma che hanno performance più solide: le foreste casuali.

2.2 Foreste casuali

Fin’ora abbiamo evidenziato le caratteristiche utili degli alberi decisionali e

la loro capacità di maneggiare i dati dando risultati facilmente interpretabili.

Un problema però degli alberi è la loro instabilità, in quanto se dovessimo

introdurre dati supplementari od ometterne alcuni dal gruppo di dati ori-

ginale, è probabile che la segmentazione nell’albero decisionale risulterebbe

diversa.

Sono stati studiati vari metodi per superare questo problema, uno di questi è

il boosting degli alberi di classificazione: il risultato ottenuto non è un singolo

albero ma una foresta di alberi in successione, in cui ogni albero è costruito

tenendo conto degli errori di previsione commessi dai precedenti. Gli alberi

vengono quindi aggregati con quella che è sostanzialmente un’operazione di

9

media aritmetica pesata, creando un unico classificatore. Ciò può rendere

difficile l’interpretazione del modello. Il criterio ottimale per la scelta del

numero di alberi da utilizzare nel modello è ancora oggetto di dibattito.

Altri metodi simili hanno come elemento in comune il fatto che per l’albe-

ro k-esimo viene generato un vettore random , indipendente dai passati

O

k

vettori casuali , ma con la stessa distribuzione: un albero cresce sia

O ....O

1 k

usando il training set sia ; Il risultato viene quindi inserito in un classifi-

O

k

catore ) dove x è un vettore di input.

h(x, O

k

Random Forest, introdotto nel 2001 da Breiman, cerca di sviluppare quest’i-

dea. Esso può essere utilizzato perchè maneggia bene diversi tipi di variabili,

è invariante per trasformazioni monotone dei dati da input, è robusto rispetto

gli outlier, dà una stima dell’errore, della correlazione, dell’importanza delle

variabili e consente di adottare diverse strategie per trattare i dati mancanti.

E’ stato inoltre dimostrato che, per la legge dei grandi numeri, i modelli di

tipo random forest convergono sempre, cosicchè non presentino problemi di

overfitting. L’accuratezza di Random Forest dipende dalla forza della clas-

sificazione dei singoli alberi e dalla misura della loro dipendenza reciproca

(OOB). Gli esiti risultano essere insensibili al numero di elementi selezionati

per ogni nodo.

Ogni albero è costruito usando un diverso campione bootstrap dei dati ori-

ginali (composto, cioè, di N elementi estratti, con sostituzione, in un insieme

di N); I casi non selezionati per la costruzione dell’albero sono utilizzati per

la stima degli errori di classificazione.

Negli alberi decisionali, il criterio di decisione associato a ciascun nodo è scel-

to considerando tutte le variabili esplicative disponibili; In Random Forest,

ogni nodo è deciso sulla base di un diverso sottoinsieme dei predittori, scelti

casualmente. E’ questa strategia a garantire la robustezza rispetto l’overfit-

ting. Inoltre, il modello è di semplice utilizzo, in quanto prevede l’inserimento

di soltanto due parametri (il numero di variabili nel sottoinsieme di variabili

casuali usate in ogni nodo ed il numero di alberi nella foresta) e non è molto

sensibile ai loro valori. ‚ ƒ

Dopo che è stato generato un gran numero di alberi, essi votano e, per cia-

scun vettore di input x, viene selezionata la classe più popolare.

Più in dettaglio, dunque, l’algoritmo può essere descritto come segue:

1) estrae un certo numero n di campioni bootstrap dai dati originali;

2) per ciascuno degli n campioni bootstrap, sviluppa un albero di classifica-

zione o regressione fino alla massima estensione (unpruned), con la seguente

modifica: per ogni nodo, invece di scegliere il criterio di classificazione mi-

gliore su tutti gli M predittori, campiona casualmente m predittori (m )

< M

e limita la scelta a queste variabili; 10

3) esegue la previsione sui nuovi dati usando la moda delle previsioni degli n

alberi nei problemi di classificazione, o la media per la regressione.

Una stima degli errori può essere ottenuta come segue:

1) usando l’albero cresciuto con il campione bootstrap, si predicono i dati

non presenti nel campione bootstrap (OOB: out of bag);

2) calcolando il tasso di errore nelle previsioni degli OOB (in media, ogni

œ

dato sarebbe out of bag attorno al 36 delle volte).

Random Forest fornisce ulteriori informazioni: la possibiltà di misurare l’im-

portanza della variabile predittore ed una misura della struttura interna dei

dati (prossimità).

L’importanza della variabile è difficile da determinare, perchè può essere do-

vuta alla possibile interazione con le altre variabili. Breiman ha proposto

quattro diverse misure che quantificano la rilevanza di ogni variabile.

misura 1) Random Forest valuta l’importanza guardando a quanto l’errore

di previsione aumenta quando, nei casi OOB, i valori della variabile conside-

rata vengono permutati, mentre tutte le altre restano invariate.

Misura 2 e 3) Si considera alla fine della simulazione, il margine dell’en-

nesima unità statistica. Il margine è dato dalla proporzione dei voti per la

sua vera classe di appartenenza (nota) meno il massimo tra le proporzioni di

voti per ognuna delle rimanenti classi. la seconda misura per la m-esima va-

riabile si ottiene come media dei margini che si sono abbassati per ogni caso

quando la variabile m-esima è permutata, come per la misura 1. La misura

3 rappresenta il conteggio di quanti margini si sono abbassati, diminuita del

numero di margini che si sono alzati.

Misura 4) Ad ogni suddivisione, una delle variabili è usata per formare

la suddivisione, evento che comporta una riduzione dell’indice del Gini. La

somma di tutti i decrementi nella foresta dovuti ad una certa variabile, nor-

malizzato per il numero di alberi, costituisce la misura 4.

Commento finale:

ˆ Le foreste casuali sono molto più efficienti degli alberi di classificazione

e regressione, che quindi ormai sono meno utilizzati.

ˆ Naturalmente, sono computazionalmente più pesanti, ma le potenze dispo-

nibili non rendono problematica la loro implementazione.

ˆ Sono progettate per scopi previsivi/classificatori, quindi non sono pensate

per far emergere esplicitamente le interazioni fra variabili.

ˆ Tuttavia, la misura di importanza delle variabili fornisce almeno un quadro

di riferimento sulla rilevanza delle covariate.

11

3 Serie storiche

3.1 I processi stocastici

Un processo stocastico è una sequenza ordinata di variabili casuali dove l’or-

dinamento è dato da un indice opportunamente scelto, In questo caso il tem-

po. La nozione di processo stocastico rappresenta un’estensione, in termini

dinamici, della nozione di variabile casuale. Ogni processo stocastico può

essere visto come un complesso di meccanismi che presentano caratteristiche

simili e che possono interagire fra loro, le cui realizzazioni (serie storiche)

presentano differenze interpretabili in termini probabilistici.

Definizione: Un PROCESSO STOCASTICO è una famiglia di variabili ca-

suali indicizzate dal tempo, dove appartiene ad uno spazio campio-

Z(t, ω) ω

nario e t appartiene ad una famiglia di indici. Per un t = fissato,

τ Z(τ, ω)

è una variabile casuale. Per un dato = come funzione di t è

ω ω̄, Z(t, ω̄)

chiamata traiettoria o realizzazione campionaria. Una SERIE STORICA è

proprio una singola realizzazione (o meglio una parte finita di essa) di un

processo stocastico, cioè una delle possibili traiettorie temporali del fenome-

no descritto dal processo stesso. Dunque ogni processo stocastico può essere

visto come sequenza ordinata di variabili casuali oppure come fascio di tra-

iettorie generate congiuntamente dal processo.

Il nodo fondamentale che si deve sciogliere prima di cominciare a studia-

re modelli e a fare stime e previsioni è come fare a risalire alle caratteristiche

‚ ƒ

di un processo stocastico generatore se si ha a disposizione cosı̀ poco ?

Servirebbero realizzazioni multiple e indipendenti di un processo per poter

tentare di caratterizzarlo. Si vedrà che si potrà utilizzare la nostra traietto-

ria per fare inferenza se si può ragionevolmente considerarla come generata

da un processo stocastico che possiede due proprietà, che ci consentono di

‚ ƒ

considerare le caratteristiche della singola realizzazione come estendibili ,

da un lato alle altre realizzazioni e dall’altro nel tempo. Quali caratteristiche

della serie osservata sono specifiche della nostra traiettoria e quali invece si

ripresenterebbero anche in altre realizzazioni? La possibilità di riprodurre i

risultati desumibili da una generica ed arbitraria realizzazione del processo

stocastico ha a che fare con l’ERGODICITA’. Se anche potessi usare una sola

realizzazione per fare inferenza sulle caratteristiche del processo stocastico,

è necessario che la sua struttura probabilistica sia invariante nel tempo. La

STAZIONARIETA’ riguarda l’invarianza, rispetto ad una traslazione arbi-

traria lungo l’asse dei tempi, di determinate caratteristiche distributive del

processo, il che si traduce in qualche forma di stabilità nel tempo dei com-

12

portamenti del fenomeno rappresentato dal processo. Il processo, in altre

parole, mantiene nel tempo un certo equilibrio statistico.

3.2 Stazionarietà ed ergodicità

STAZIONARIETA’- Si parla di processo stocastico stazionario in due sen-

si: stazionarietà forte e stazionarietà debole.

Per definire la stazionarietà forte, si prende in esame un sottoinsieme qua-

lunque delle variabili casuali che compongono il processo. Si considera perciò

‚ ƒ

una finestra aperta sul processo di ampiezza k, ossia un sottoinsieme del

k

tipo = (z ). Questa è naturalmente una variabile casuale a k

Z , ..., z

t t+k−1

t

dimensioni, con una sua funzione di densità che, in generale, può dipendere

k

da t. Se però ciò non accade, allora la distribuzione di è uguale a quella

Z t

k

k e cosı̀ via.

di , Z

Z t+2

t+1

Si è in presenza di stazionarietà forte quando questa invarianza vale per qual-

siasi k. In altri termini, quando un processo è stazionario in senso forte le

caratteristiche distribuzionali di tutte le marginali rimangono costanti al pas-

sare del tempo.

E’ evidente che questa è una condizione molto forte che è praticamente im-

possibile da verificare perchè non si può osservare la distribuzione congiunta

di un processo.

Poichè spesso però le distribuzioni sono completamente caratterizzate da un

certo numero di momenti, si può pensare a una definizione di stazionarietà

più debole che faccia riferimento proprio ai momenti (ancora definire).

Dato un processo a valori reali, {Z : = 0, ±1, ±2,

t ...}

t

Si definisce funzione media di un processo stocastico:

= )

µ E(Z

t t

la funzione varianza del processo:

2 2

= − )

σ E(Z µ

t t

t

la funzione autocovarianza tra e :

Z Z

t t

1 2

) = − )(Z − )

γ(t , t E(Z µ µ

1 2 t t t t

1 1 2 2

la funzione autocorrelazione: )

γ(t , t

1 2

) =

ρ(t , t

1 2 p p

2 2

σ σ

t t

1 2

13

Si dice che un processo è stazionario in senso debole di ordine n-simo

se tutti i suoi momenti congiunti fino all’ordine n esistono e sono invarianti

rispetto all’origine temporale. Un processo stazionario in senso debole del

second’ordine, o stazionario in covarianza ha media e varianza costanti e

covarianze e correlazioni dipendenti solo dall’intervallo di tempo considerato.

In particolare, se i momenti congiunti fino al secondo ordine esistono e sono

finiti, la stazionarietà in senso stretto implica la stazionarietà in covarianza.

Infatti, un processo stazionario in senso stretto ha media costante, =

µ µ,

t

se esiste finita. La funzione di ripartizione è infatti la stessa per ogni t. Allo

2

2

2 = per ogni t e perciò anche la

) ∞, allora

stesso modo, se σ

< σ

E(Z t

t

varianza è costante. Inoltre, siccome la stazionarietà in senso stretto implica

che (z ) = (z ) per ogni intero e ogni k, si ha che:

F , z F , z t , t

t t t +k t +k 1 2

1 2 1 2 ) = + + =

γ(t , t γ(t k, t k) γ

1 2 1 2 k

e quindi: ) = + + =

ρ(t , t ρ(t k, t k) ρ

1 2 1 2 k

Perciò un processo stazionario in senso stretto con i primi due momenti finiti

ha autocovarianza e autocorrelazione che dipendono solo dall’intervallo di

tempo k (e non dall’origine del tempo).

Le due definizioni (stazionarietà stretta e in covarianza) coincidono in un

caso particolare che ci interessa molto, e cioè nel caso dei processi gaussia-

ni. Un processo stocastico è gaussiano se la sua distribuzione congiunta è

normale. In questo caso, poichè la normale è completamente caratterizzata

dai suoi primi due momenti, stazionarietà forte e stazionarietà in covarianza

coincidono.

ERGODICITA’- L’ergodicità è una condizione che limita la memoria del

processo: un processo non ergodico è un processo che ha caratteristiche di

persistenza cosı̀ accentuate da far sı̀ che un segmento del processo, per quanto

lungo, sia insufficiente a dire alcunché sulle sue caratteristiche distributive. In

un processo ergodico, al contrario, la memoria del processo è debole su lunghi

orizzonti e all’aumentare dell’ampiezza del campione aumenta in modo signi-

ficativo anche l’informazione in nostro possesso. Le condizioni sotto le quali

un processo stocastico stazionario è ergodico sono troppo complesse per essere

descritte qui; per farmi capire, vi sottoporrò ad un’overdose di virgolette: eu-

‚ ƒ

risticamente, si può dire che un processo è ergodico se eventi molto lontani

‚ ƒ

fra loro possono essere considerati virtualmente indipendenti; osservando

‚ ƒ

il processo per un lasso di tempo abbastanza lungo, è possibile osservare

‚ ƒ

quasi tutte le sottosequenze che il processo è in grado di generare. In altri

termini, si può dire che, in un sistema ergodico, se qualcosa può succedere

14

allora prima o poi deve succedere. Il fatto che eventi lontani fra loro nel

tempo possano essere considerati indipendenti da un punto di vista pratico

è poi spesso sintetizzato nella seguente proprietà dei processi ergodici (che a

volte viene usata come definizione di processo ergodico):

n

1 X

lim ) = 0

Cov(z , z

t t−k

n

n−→∞ k=1

Di conseguenza, se un processo è ergodico, è possibile (almeno in linea di

principio) usare le informazioni contenute nel suo svolgimento nel tempo per

‚

inferirne le caratteristiche. Esiste un teorema (detto appunto teorema ergo-

ƒ

dico ) che dice che, se un processo è ergodico, l’osservazione di una sua realiz-

‚ ƒ

zazione abbastanza lunga è equivalente, ai fini inferenziali, all’osservazione

di un gran numero di realizzazioni. Se, ad esempio, un processo ergodico z

t

ha valore atteso allora la sua media aritmetica nel tempo è uno stimatore

µ, T p

−1 P

consistente di (in formule, →

− e quindi può essere stimato

µ T z µ), µ

t

t=1

in modo consistente come se si disponesse di molte realizzazioni del processo

anziché di una sola. In linea generale, si può dire che l’inferenza è possibile

solo se il processo stocastico che si sta studiando è stazionario ed ergodico.

Va detto per altro che, se esistono dei metodi per sottoporre a test l’ipotesi

di non stazionarietà, l’ipotesi di ergodicità non è testabile se si dispone di

una sola realizzazione del processo, quand’anche fosse di ampiezza infinita.

3.3 L’operatore ritardo

Le serie storiche sono, in buona sostanza, sequenze di numeri. Per mezzo di

appositi operatori si manipolano queste sequenze.

L’operatore ritardo viene generalmente indicato con la lettera B; è un opera-

tore che si applica a sequenze di oggetti piuttosto generali, fra cui rientrano

sia sequenze di variabili casuali (e cioè i processi stocastici) che sequenze di

numeri (e cioè le loro traiettorie); tale operatore trasforma una sequenza Z

t

in un altra sequenza che ha la curiosa caratteristica di avere gli stessi valori

di , ma sfalsati di un periodo. Se applicato ad una grandezza costante nel

Z t

tempo, la lascia invariata. In formule:

BZ = Z

t t−1 n

L’applicazione ripetuta n volte di B viene indicata con la scrittura B , e

n 0

quindi si ha B Z = Z . Per convenzione si pone B = 1. L’operatore B è

t t-n

un operatore lineare, nel senso che, se e sono costanti, si ha:

a b

B(aZ + = + = +

b) aBZ b aZ b

t t t−1

15

La caratteristica più divertente dell’operatore B è che le sue proprietà appena

enunciate permettono, in molte circostanze, di manipolarlo algebricamente

come se fosse un numero. Questo avviene soprattutto quando si considerano

polinomi nell’operatore B.

3.4 Processi stazionari

3.4.1 Processi White Noise

Si dice che un processo stocastico è un processo WHITE NOISE se è una

a t

successione di variabili casuali incorrelate da una distribuzione data con me-

2

dia costante ) = , di solito pari a zero, varianza costante ) =

E(a µ V ar(a σ

t a t a

e = ) = 0 per ogni 6 = 0.

γ Cov(a , a k

k t t+k

Un White Noise è quindi, in sostanza, un processo composto di un numero

infinito di variabili casuali a media zero e varianza costante; queste variabili

casuali, inoltre, sono tutte incorrelate l’una all’altra. A rigore, questo non

significa che esse siano indipendenti. Se però si parla di White Noise gaus-

siano, ossia di un White Noise in cui la distribuzione congiunta di tutte le

coppie (a ) sia una normale bivariata, allora sı̀. Ci sono due cose che

, a

t t+k

vale la pena di far notare:

ˆ Nel caso di normalità, una realizzazione di ampiezza N di un White Noise

può anche essere considerata del tutto legittimamente una realizzazione di

N variabili casuali indipendenti ed identiche. In questo senso, un campione

cross-section può essere visto come un caso particolare.

ˆ Non c’è sostanziale differenza fra le condizioni che definiscono un White

‚ ƒ

Noise e le cosiddette ipotesi classiche sul termine di disturbo nel model-

lo OLS, eccezion fatta per l’incorrelazione fra regressori e disturbi; non si

‚

sbaglierebbe riassumendo le ipotesi classiche nel modello OLS nella frase il

ƒ

termine di disturbo è un white noise incorrelato coi regressori .

La caratteristica principale del White Noise è dunque non esibisce nessun

tipo di persistenza. Per questo motivo è difficile trovare nella realtà una se-

rie che si comporti come un White Noise. Un processo White Noise si dice

Gaussiano se la sua distribuzione congiunta è normale. Nel seguito, un White

2

Noise sarà considerato sempre normale con media nulla, cioè ∼ (0, )

a N σ

t a

e ∼ i.i.d.

a t 16

3.4.2 Scomposizione di Wold

Ogni processo stazionario in covarianza a media nulla, , può essere rappre-

Z

t

sentato nella forma ∞

X

= +

Z ψ a k

t j t−j t

j=0

∞ 2

P

dove = 1 e ∞ e il termine è un white noise che rappresenta

ψ ψ < a

0 t

j

j=0

l’errore nel prevedere sulla base di una funzione lineare di Z ritardate:

Z t ≡ − |Z )

a Z Ê(Z , Z , . . .

t t t t−1 t−2

Il valore di è incorrelato con per ogni j, e k può essere previsto senza er-

k a

t t−j

rore da una funzione lineare dei valori passati di Z : = |Z

k Ê(k , Z , ...).

t t t−1 t−2

La componente k è chiamata componente deterministica in senso lineare

P

mentre è la componente non deterministica in senso lineare. Se k è

ψ a

j t−j

j=0

nulla, si dirà che il processo è puramente non deterministico in senso lineare,

o più semplicemente che è un processo lineare puramente stocastico.

3.4.3 Processo MA

La scomposizione di Wold dice che ogni processo stazionario puramente stoca-

stico può essere rappresentato come combinazione lineare di una successione

di variabili casuali incorrelate: ∞

X

= + + + + = +

Z µ a ψ a ψ a ... µ ψ a

t t 1 t−1 2 t−2 j t−j

j=0

2 2

P

dove = 1, ∼ (0, ) e ∞.

ψ a W N σ ψ <

0 t a j

j=0

Tale rappresentazione viene anche chiamata a media mobile (Moving Ave-

rage, da cui MA), perchè somiglia ad una media temporale ponderata dei

valori della variabile .

a t

La rappresentazione MA contiene un numero infinito di parametri che è

impossibile stimare, perciò nel modellare i fenomeni osservati ci si rifà al

modello MA di ordine finito.

Si pone = per i q e = 0 per ottenendo cosı̀ un processo MA

ψ θ ψ i > q,

6

j i i

di ordine finito q, MA(q): 17

Un processo MA(q) è una sequenza di variabili casuali che può essere scritta

nella forma q

X

= =

Z θ a C(B)a

t i t−i t

i=0

dove C(B) è un polinomio di ordine q nell’operatore ritardo e è un White

a t

Noise. Generalmente, e senza perdita di generalità, si pone = = 1.

C(0) θ 0

Se C(B) è un polinomio di grado q, si dice anche che è un processo MA(q),

Z

t

‚ ƒ

che si legge processo MA di ordine q .

Esaminando i suoi momenti: per quanto riguarda il momento primo, si ha

q q

X X

) = = ) = 0

E(Z E θ a θ E(a

t i t−i i t−i

i=0 i=0

Per quanto riguarda la varianza, il fatto che il momento primo sia nullo,

consente di scriverla come il momento secondo, ossia

q 2

X

2

) = ) =

V ar(Z E(Z E θ a

t i t−i

t i=0

Sviluppando il quadrato, si può scomporre la somma in due parti distinte

q q q

2

X X X X

2 2

= +

θ a θ a θ θ a a

i t−i i j t−i t−j

i t−i

i=0 i=0 i=0 j6 = i

Dovrebbe essere ovvio, dalla proprietà del White Noise, che il valore atteso

della seconda sommatoria è nullo, cosicché

q q q q

X X X X

2 2 2 2 2 2 2 2 2

) = = ) = =

E(Z E θ a θ E(a θ σ σ θ

t i t−i i t−i i i

i=0 i=0 i=0 i=0

q 2

P

che ha valore finito se ∞, cosa sempre vera se q è finito.

θ <

i

i=0

Dopo aver studiato valore atteso e varianza, al fine di analizzare un pro-

cesso MA, cosı̀ come per lo studio generale di processi stocastici stazionari e

18

non stazionari, si calcola l’autocovarianza (γ ) e l’autocorrelazione (ρ )

k k

) = − − − − )

E(Z Z E[(a θ a θ a . . . θ a

t−k t t−k 1 t−k−1 2 t−k−2 q t−k−q

×(a − − − − )]

θ a θ a . . . θ a

t 1 t−1 2 t−2 q t−q

2 2 2

2 )

+ +

= + + . . . θ θ a

E(−θ a θ θ a θ θ a q q−k

k k+1 1 k+2 2 t−q

t−k−2

t−k t−k−1

2 (−θ + + + ) = 1, 2,

σ θ θ . . . θ θ k . . . , q

k 1 k−1 q−k q

a

=

γ

k 0 k>q

(−θ + + + )

θ θ . . . θ θ

k 1 k−1 q−k q

= 1, 2,

k . . . , q

2

= 2

(1 + + + )

ρ θ . . . θ

k 1 q 0 k>q

L’ACF si annulla dopo il lag q, mentre la PACF decresce con andamento

che dipende dalla natura delle radici. Se vi sono radici complesse la PACF

conterrà onde sinusoidali. La PACF di un processo MA(q) si presenta in

forma piuttosto complicata a seconda dell’ordine del processo, perciò non è

stata generata. In linea di massima la PACF ricorda la ACF di un processo

AR.

Tanto per avere un’idea più concreta, si prende un processo MA(1) di esem-

pio e si fa un grafico: se il processo è = + , l’andamento di per

Z a θa Z

t t t−1 t

diversi valori di è rappresentato nelle figure sottostanti.

θ

Figura 1: MA(1): = 0 (white noise) Figura 2: MA(1): = 0.6

θ θ

Naturalmente, quando =0 (come nella figura a sinistra) il processo è un

θ

White Noise. Come si vede, al crescere di le caratteristiche di persisten-

θ

‚ ƒ

za divengono più visibili (la serie si smussa ) e la sua varianza (misurata

19

approssimativamente dall’ordine di grandezza delle ordinate) aumenta. Si-

mulando un processo MA di ordine superiore, la cosa sarebbe stata ancor più

evidente.

3.4.4 Processo AR

Un’altra importante classe di processi è data dai processi AR. Questi pro-

cessi forniscono, in un certo senso, una rappresentazione più intuitiva di una

serie persistente di quella dei processi MA, poiché l’idea è che il livello della

serie al tempo t sia una funzione lineare dei propri valori passati, più un

White Noise. Si dice allora che il processo può essere scritto in forma AU-

TOREGRESSIVA poichè un modello AR somiglia molto ad un modello di

regressione in cui le variabili esplicative sono i valori passati della variabile

dipendente: = + + +

Z π Z π Z . . . a

t 1 t−1 2 t−2 t

in questo caso la rappresentazione è autoregressiva di ordine infinito: AR(∞).

Non è ozioso notare che, in questo contesto, il White Noise può essere inter-

a t

pretato in modo analogo al disturbo di un modello di regressione, cioè come

la differenza fra e la sua media condizionale; in questo caso, le variabili

Z

t

casuali che costituiscono l’insieme di condizionamento sono semplicemente

il passato di . I processi AR sono in un certo senso speculari ai processi

Z t

MA perché, se un processo MA è un processo definito dall’applicazione di

un polinomio nell’operatore B ad un White Noise, un processo AR è definito

come un processo l’applicazione al quale di un polinomio nell’operatore B

produce un White Noise.

∞ j

P

Definendo = 1 − B si può riscriverla come

π(B) π j

j=1 =

π(B)Z a

t t

P

dove 1 + |π | ∞. Un processo che può essere scritto in questa forma si

<

j

j=1

dice anche invertibile (Box e Jenkins, 1976). Non tutti i processi stazionari

sono invertibili: affinchè un processo lineare = sia invertibile le

Z ψ(B)a

t t

radici di = 0 come funzione di B devono giacere al di fuori del cerchio

ψ(B)

unitario.

Un processo AR è dunque sempre invertibile. Per quanto riguarda la sta-

zionarietà, un processo AR è stazionario se le radici dell’equazione π(B)

giacciono al di fuori del cerchio unitario.

La rappresentazione AR cosı̀ come visto in precedenza con una rappresenta-

zione MA, contiene un numero infinito di parametri che è impossibile stimare,

20

perciò nel modellare i fenomeni osservati ci si rifà al modello AR di ordine

finito. Si otterrà quindi un AR di ordine p, AR(p), ponendo = per i ≤

π φ

i i

p e = 0 per i p:

φ >

i − − − − =

Z φ Z φ Z . . . φ Z a

t 1 t−1 2 t−2 p t−p t

Esaminando i suoi momenti:

Nel caso preso in considerazione in cui si sta studiando un AR(p) stazionario,

la media è nulla, per come è stato definito

) = 0

E(Z

t

Per un processo con media nonnulla del tipo

= + + + + +

Z c φ Z φ Z . . . φ Z a

t 1 t−1 2 t−2 p t−p t

Il momento primo equivale a: c

=

µ 1 − − − −

φ φ . . . φ

1 2 p

Per trovare la funzione di autocorrelazione parziale si moltiplica l’espressione

di per a sinistra e a destra e si prende il valore atteso, trovando cosı̀

Z Z

t t−k

per k 0 le cosiddette equazioni di Yule-Walker:

> = + + +

γ φ γ φ γ . . . φ γ

k 1 k−1 2 k−2 p k−p

= + + +

ρ φ ρ φ ρ . . . φ ρ

k 1 k−1 2 k−2 p k−p

Mentre per k=0 si ricava la varianza: 2

= + + + +

γ φ γ φ γ . . . φ γ σ

0 1 1 2 2 p p a

Dunque autocovarianze e autocorrelazioni seguono la stessa equazione al-

le differenze di ordine p che soddisfa il processo stesso: l’andamento delle

autocorrelazioni è definito dalle soluzioni di tale equazione, per ogni k 0:

>

2 p

(B)ρ = (1 − B − B − − B )ρ = 0

φ φ φ . . . φ

p k 1 2 p k

l’ACF si spegne come mistura di esponenziali o di onde sinusoidali smorza-

ρ k

te, a seconda della natura delle radici, mentre la funzione di autocorrelazione

parziale si annulla dopo il p-esimo lag.

Come per il processo MA(q), per avere un’idea più concreta, si prende un

processo AR(1) di esempio e si fa un grafico: se il processo è = + ,

Z a φZ

t t t−1

l’andamento di per diversi valori di è rappresentato nelle figure sotto-

Z φ

t

stanti. 21

Figura 3: AR(1): = 0 (white noise) Figura 4: AR(1): = 0.6

φ φ

La figura di sinistra non rappresenta altro che il White Noise già presentato

come esempio sui processi MA(1). Applicando a questo White Noise l’ope-

−1

ratore (1 − , con = 0.6. Anche in questo caso, si nota un aumento

φB) φ

delle caratteristiche di persistenza all’aumentare del parametro (φ in questo

caso), anche se qui è molto più evidente.

3.4.5 Processo ARMA

La classe dei processi ARMA comprende sia i processi AR che i processi MA

come caso particolare. Un processo ARMA(p,q) è infatti definito da

(B)Z = (B)a

φ θ

p t q t

p

dove (B) = 1−φ (B)−. (B ) è il polinomio autoregressivo di ordine

φ . .−φ

p 1 p q

p e (B) = 1 − (B) − − (B ) è il polinomio a media mobile di ordine

θ θ . . . θ

q 1 q

q. Tale processo sarà stazionario se le radici di (B) = 0 giacciono fuori dal

φ

p

cerchio unitario, mentre sarà invertibile se le radici di (B) = 0 giacciono

θ

q

fuori dal cerchio unitario. Inoltre si richiede che (B) = 0 e (B) = 0 non

φ θ

p q

abbiano radici comuni.

Ogni processo ARMA(p,q) ammette, date le condizioni di stazionarietà e

invertibilità, una rappresentazione AR: =

π(B)Z a

t t

con (B)

φ

p

=

π(B) (B)

θ q

22

E una rappresentazione MA: =

Z ψ(B)a

t t

con (B)

θ q

=

ψ(B) (B)

φ

p

Riscrivendo il processo lasciando a sinistra solamente Z

t

= + + + + − − − −

Z φ Z φ Z . . . φ Z a θ a θ a . . . θ a

t 1 t−1 2 t−2 p t−p t 1 t−1 2 t−2 q t−q

Moltiplicando a destra e a sinistra per e prendendo il valore atteso

Z

t−k

otteniamo:

= + + + + ) − − )

γ φ γ φ γ . . . φ γ E(Z a . . . θ E(Z a

k 1 k−1 2 k−2 p k−p t−k t q t−k t−q

Poichè ) = 0 per ogni k>q:

E(Z a

t−k t−q

= + + +

γ φ γ φ γ . . . φ γ per k > q

k 1 k−1 2 k−2 p k−p

= + + +

ρ φ ρ φ ρ . . . φ ρ per k > q

k 1 k−1 2 k−2 p k−p

La funzione di autocorrelazione di un ARMA(p,q) ha lo stesso comporta-

mento di quella di un AR(p), ovvero decresce dopo il ritardo q.

Per quanto riguarda la PACF, dato che il modello ARMA(p,q) ha come caso

particolare il modello MA(q), la sua PACF sarà una mistura di esponenziali

e di curve sinusoidali smorzate a seconda della natura delle radici.

Che senso ha studiare processi ARMA? In linea teorica, nessuna, visto che il

teorema di rappresentazione di Wold dice che qualunque processo stazionario

può essere rappresentato come un processo MA. Da un punto di vista prati-

co, tuttavia, c’è il problema che la rappresentazione di Wold è, in generale,

infinita. Questo non è un problema a livello teorico, ma lo diventa nella pra-

tica: le serie che si osservano vengono infatti pensate come realizzazione di un

processo stocastico, i cui parametri sono i coefficienti dei polinomi nell’ope-

ratore B che ne determinano le caratteristiche di persistenza (più la varianza

del White Noise). Se si considera una serie osservata come una realizzazione

di un qualche processo stazionario, utilizzare un processo MA per riassu-

merne le caratteristiche di media e covarianza comporta quindi il problema

inferenziale di stimare un numero potenzialmente infinito di parametri.

23

3.5 Processi non stazionari

La modellistica ARMA vista sin qui è quindi utile per rappresentare fenomeni

stazionari. Questa, però, non è la situazione standard quando ci si occupa di

serie storiche macroeconomiche.

Osserviamo tanto per fare un esempio, un processo non stazionario simulato

con il software R-studio.

Possiamo supporre allora che la serie segua un trend di crescita stabile nel

tempo (considerando una serie economica, è identificabile con il progresso

tecnico e l’accumulazione di capitale) che possiamo considerare, nel caso

più semplice, come una funzione lineare del tempo. A questo sentiero di

crescita si sovrapporrà il ciclo economico, che è intuitivamente modellabile

con un processo stazionario, perchè per definizione il ciclo è un processo di

breve periodo a media zero. Dunque, modellando la media con un trend

deterministico funzione del tempo:

= +

µ α α t

t 0 1

si potrebbe usare il modello deterministico lineare

= + +

Z α α t a

t 0 1 t

2

dove ∼ (0, ) o qualche altro processo stazionario a media nulla. Più

a W N σ

t a

in generale, se il trend deterministico è dato da una funzione polinomiale del

24

tempo, il modello sarà k

= + + + +

Z α α t . . . α t a

t 0 1 k t

E’ evidente che un processo di questo tipo non è stazionario in quanto la sua

media non è costante. Tuttavia, la non-stazionarietà del processo è limitata

‚ ƒ

a questo aspetto. Una volta scontate le variazioni del trend, quello che ri-

mane è un processo stazionario, o meglio un processo stazionario attorno a

un trend (TS: Trend Stationary). In altre parole tali processi mostrano un

comportamento omogeneo nel tempo nel senso che a parte il livello locale o

il livello locale e il trend, una singola porzione della serie si comporta come

qualsiasi altra porzione. Si parla allora di comportamento non stazionario

omogeneo.

3.5.1 Processo ARIMA

Nel caso in cui non si ravvisi la presenza di un trend deterministico, ci si può

rifare alla modellistica ARMA poichè fenomeni caratterizzati da questo tipo

di non stazionarietà si possono rappresentare supponendo che un’opportuna

differenza del processo sia stazionaria.

Per processi non stazionari si prenderanno in considerazione i processi a

radice unitaria. Tali processi mostrano un comportamento nonstazionario

omogeneo per cui il comportamento della serie non dipende dal suo livello.

Considerando il modello =

φ̃(B)Z θ(B)a

t t

dove è un operatore autoregressivo nonstazionario tale che

φ̃(B) = + =

φ̃(B)Z φ̃(B)(Z c) θ(B)a

t t t

Per ogni costante c. Questo implica che = 0.

φ̃(B)(c)

Dunque, supponendo che il polinomio ammetta radici unitarie, si può

φ̃(B) d

riscrivere il modello di partenza come d

− B) =

φ(B)(1 Z θ(B)a

t t

dove è un operatore AR stazionario, o in modo ancora più stringato

φ(B)

come d =

φ(B)∆ Z θ(B)a

t t d

dove ∆ = 1 − B è l’operatore differenza. Definendo = ∆ si ottiene

W Z

t t

infine una rappresentazione ARMA del tipo usuale:

=

φ(B)W θ(B)a

t t

25

Dove è la serie originale differenziata volte, che quindi può essere rap-

W d

t

presentata con un modello stazionario.

Un modello del tipo d

(B)∆ = (B)a

φ Z θ

p t q t

viene chiamato modello autoregressivo integrato a media mobile ARIMA(p,d,q).

Si dice che il modello è integrato di ordine d perchè il modello stazionario

‚ ƒ

è ottenuto differenziando volte (nel senso di fare “d” volte la differenza)

d

la serie. Tali modelli vengono anche detti a trend stocastico perchè anche la

media cambia stocasticamente nel tempo.

Nulla vieta che una serie sia caratterizzata da un trend deterministico misto

ad un trend stocastico (cioè la media segue un percorso prevedibile ma oscilla

intorno ad esso stocasticamente). Questa situazione si può rappresentare con

un modello generale del tipo: d

(B)∆ = + (B)a

φ Z θ θ

p t 0 q t

dove viene detto trend deterministico. Naturalmente nel caso =0 ci si

θ d

0

riconduce ai modelli stazionari ARMA già visti.

3.5.2 Random Walk

Se p=0, q=0 e d=1 si ottiene il modello Random Walk, che può anche essere

visto come limite del processo AR(1) per −→ 1:

φ

(1 − B)Z = a

t t

o anche = +

Z Z a

t t−1 t

Questo modello è stato largamente usato nel campo delle serie storiche per

descrivere l’andamento dei prezzi della borsa e viene anche detto il modello

della passeggiata dell’ubriaco poichè il valore del processo all’istante t dipen-

de solo dal valore del processo all’istante t-1 più uno shock casuale. Siccome

l’AR(1) ha ACF data da , per −→ 1 il Random Walk è caratterizzato da

φ φ

k

ampi picchi persistenti nell’ACF campionaria e ACF nulle non significative

per la serie differenziata, infatti differenziando il modello si ottiene semplice-

mente un White Noise.

Un aspetto caratteristico dei Random Walk è quello per cui l’assenza di mean

reversion provoca periodi — anche molto lunghi — in cui la serie presenta

un andamento crescente o decrescente piuttosto marcato. È per questa ca-

ratteristica che spesso, quando si parla di Random Walk o più in generale

26

di processi I(1), si parla di trend stocastici, opposto a trend deterministici,

che sono semplici funzioni del tempo. Naturalmente, nessuno esclude che

ci possano essere effettivamente dei trend deterministici sovrapposti a quel-

li puramente stocastici. Questo accade, ad esempio, nei cosiddetti random

walk con drift.

Attraverso una semplice modificazione del Random Walk, si ottiene quindi

il Random Walk con drift: (1 − B)Z = +

θ a

t 0 t

o anche = + +

Z Z θ a

t t−1 0 t

Si fa riferimento a come al trend deterministico. Se quest’ultimo è po-

θ

0

sitivo, si avrà un processo che tende a salire, ma con fluttuazioni intorno a

questo trend via via più marcate al passare del tempo.

Figura 5: Random Walk Figura 6: Random Walk con drift

= + = 2 + +

Z Z a Z Z a

t t−1 t t t−1 t

27

4 Simulazioni

I capitoli precedenti hanno coinvolto una breve ma esaustiva descrizione teo-

rica degli argomenti che verranno approfonditi in questa sezione. Qui si

entrerà più nel dettaglio per quanto riguarda le caratteristiche dei processi

stazionari e non stazionari, prevedendo questi attraverso un metodo classi-

co che sarebbe la regressione e successivamente confrontato con un metodo

inusuale per la previsione di serie storiche che corrisponde ad una tecnica

alternativa ai modelli sopra citati, cioè un metodo di data mining: la foresta

casuale.

Sono state quindi simulate con il software R-studio delle serie storiche sta-

zionarie, esaminando in dettaglio i processi MA, AR e ARMA. Una volta

che è stata ricavata la serie storica, in base alle caratteristiche del processo

si è deciso di evidenziare le features che permettono di minimizzare il divario

esistente tra la serie storica osservata e quella prevista.

Con l’utilizzo del software statistico R-studio, è stato implementato il pac-

chetto e successivamente immesso il codice per generare la

RandomForest

foresta casuale con l’outcome e le features a disposizione.

Cosı̀ come è stato spiegato nel capitolo apprendimento supervisionato , la

serie è stata suddivisa in training set e test set, operando sui dati di training

e testando i valori previsti con due indici statistici: MSE e RMSE.

Attraverso questi due indici si può visualizzare il confronto tra la previsione

ottenuta con il metodo classico (regressione) e quello ottenuto con il metodo

inusuale (random Forest).

Il procedimento eseguito viene quindi ripetuto anche per processi integrati,

che mostreranno determinati problemi riguardo la non stazionarietà, ma che

saranno risolti grazie allo studio delle differenze, esaminando la serie come si

vedrà nel sottocapitolo Simulazione processi stazionari

4.1 Simulazione processi stazionari

4.1.1 Processo MA

Con l’utilizzo del programma R-studio, è stato simulato un proces-

so MA(1) composto da 1000 osservazioni con coefficiente = 0.5

θ

1

= (n = 1000, (order = (0, 0, 1), =

s arima.sim list c ma c(0.50)))

dove n corrisponde alla lunghezza della serie mentre list produce una lista

con gli ordini del modello e i coefficienti MA. 2

La varianza del processo simulato corrisponde a: = 1.261

σ

28

Figura 7: = − 0.5a

Z a

t t t−1

Il processo a media mobile di ordine 1:

= − = (1 − B)a

Z a θ a θ

t t 1 t−1 1 t

2 ), è sempre stazionario, mentre è invertibile se |θ | 1

dove ∼ (0, <

a W N σ 1

t t

cioè se la radice di (1 − B) = 0 è in modulo maggiore di 1. Infatti, quando

θ

1

|θ | 1, l’inverso dell’operatore MA può essere sviluppato in serie per otte-

<

1

nere la rappresentazione AR del processo.

Il processo simulato ha = 0.5, quindi oltre ad essere stazionario per defi-

θ

1

nizione, è anche invertibile.

La rappresentazione AR sarà:

1 = = (1 + B + B + = (B)

Z a θ θ . . .)Z π ∞

t t 1 2 t

1 − B

θ

1

Quindi un processo MA(1) stazionario ed invertibile può essere rappresen-

tato in forma AR(∞). Da questa deduzione, è quindi possibile creare delle

features che spiegheranno al meglio l’outcome.

Dopo aver descritto brevemente l’innovazione al tempo t, si può analizza-

2

re ∼ (0, ) che può essere considerato come un disturbo di un

a W N σ

t−1 t−1 ˆ

modello di regressione ricavato da − . Si parlerà quindi di regres-

Z Z

t−1 t−1

sione multipla, dove la variabile dipendente è influenzata da un numero

Z

t

di elementi che corrisponde all’ordine del processo AR(∞).

29


PAGINE

63

PESO

465.95 KB

AUTORE

Pagani21

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea magistrale in scienze statistiche ed economiche
SSD:
A.A.: 2017-2018

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Pagani21 di informazioni apprese con la frequenza delle lezioni di Machine learning, serie storiche, previsioni con modelli ARIMA e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Milano Bicocca - Unimib o del prof Fattore Marco.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea magistrale in scienze statistiche ed economiche

Statistica Aziendale M
Appunto
Economia Applicata M
Esercitazione
Statistical learning
Appunto
Schema Statistica economica M
Appunto