ANALISI DELLE SERIE STORICHE – Introduzione
Definizione intuitiva di serie storica: insieme di osservazioni relative ad un
dato fenomeno, ordinate nel tempo.
Esempi di serie storiche:
• temperatura corporea oraria di pazienti sottoposti ad un trattamento
medico;
• prezzi giornalieri di un titolo;
• importazioni totali mensili o trimestrali;
• movimenti migratori annuali.
Differenze tra serie storiche:
• natura del fenomeno (sociale, finanziaria, economica, demografica)
• frequenza di rilevazione (oraria, giornaliera,… annuale – non
necessariamente i dati devono essere equispaziati)
• numerosità campionaria (legata alla natura del fenomeno e alla
frequenza di rilevazione)
Caratteristica fondamentale comune alle serie storiche: relazione di
dipendenza tra le osservazioni, che sono ordinate nel tempo. L’ipotesi è che
le n osservazioni provengano da n diverse variabili aleatorie dipendenti
contrariamente alla statistica classica dove in genere si dispone di n
osservazioni indipendenti provenienti dalla stessa variabile aleatoria.
Campionamento casuale semplice: inferenza dal campione alla popolazione
Analisi delle serie storiche: inferenza dalla serie storica al processo
generatore. 1
Obiettivo dell’analisi delle serie storiche: studio della natura di tale
dipendenza, attraverso modelli atti a spiegare e prevedere la dinamica delle
serie storiche e attraverso la scomposizione di una serie nelle componenti
(non osservabili) che la costituiscono.
Modellistica: l’ipotesi alla base della modellistica è che la serie osservata sia
stata generata da un processo stocastico descritto da un modello
probabilistico parametrico .
t
Scomposizione: l’ipotesi alla base è che la serie osservata sia il risultato
dell’azione combinata di componenti non direttamente osservabili (variabili
latenti) che possono però essere definite, identificate e stimate sulla base di
ipotesi circa il loro comportamento nel tempo.
Esempi di grafici di serie storiche
Serie della produzione dei beni industriale di investimento (base 1990=100)
gennaio 1985 – ottobre 1995: dati mensili
140
120
100
80
60
40
20
0 gen-85 gen-86 gen-87 gen-88 gen-89 gen-90 gen-91 gen-92 gen-93 gen-94 gen-95
lug-85 lug-86 lug-87 lug-88 lug-89 lug-90 lug-91 lug-92 lug-93 lug-94 lug-95 2
La serie mostra un leggero trend crescente con una diminuzione nell’anno
1993. Evidente presenza di picchi di minimo nei mesi di agosto: presenza di
stagionalità.
Serie dei disoccupati in senso stretto (in migliaia), gennaio 1984 – dicembre
1995: dati trimestrali
1200
1000
800
600
400
200
0 gen-84 gen-85 gen-86 gen-87 gen-88 gen-89 gen-90 gen-91 gen-92 gen-93 gen-94 gen-95
lug-84 lug-85 lug-86 lug-87 lug-88 lug-89 lug-90 lug-91 lug-92 lug-93 lug-94 lug-95
La serie non presenta una tendenza (crescente o decrescente) ma un “salto”
in corrispondenza di gennaio 1993. Si tratta di un cambiamento strutturale di
origine deterministica: in quell’anno, infatti, è stata modificato il modo di
misurare la disoccupazione in senso stretto. Se il cambiamento fosse stato di
natura stocastica e non avesse riguardato solo la disoccupazione (e
l’occupazione) ma l’intera economia, tutte le serie storiche economiche e
sociali mostrerebbero un “salto” in corrispondenza di gennaio 1993 o di
qualche periodo successivo. Si nota anche un picco stagionale di minimo nel
trimestre estivo dovuto all’occupazione stagionale. 3
Serie storica dei turisti in Emilia Romagna, gennaio 1985 – agosto 1995: dati
mensili
14000000
12000000
10000000
8000000
6000000
4000000
2000000
0 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
JAN JAN JAN JAN JAN JAN JAN JAN JAN JAN
JUL JUL JUL JUL JUL JUL JUL JUL JUL JUL
Serie puramente stagionale caratterizzata da punte di massimo nei mesi di
agosto. E’ evidente la presenza di un dato anomalo, nell’agosto del 1989: in
quell’anno il mare Adriatico è stato colpito dal fenomeno delle mucillagini. 4
Serie storica delle importazioni dall’Irlanda, gen. 1984 – set. 1995 e previsioni
da modello ARIMA (0,1,1)(0,1,1) fino a dicembre 1996 (dati mensili)
12
450,00 x t
400,00 Serie osservata
350,00 Valori stimati e previsti
300,00
250,00
200,00
150,00
100,00
50,00 t
0,00 4 5
5 6 8 9 1 2 6
0
4 7 3 4
8 1
5 93
4 6 9 2 5
87 90 96
9
8 9 9
9
9
8 8 8 9
8 8 9 9
8 9
8
8 8 8 9 9
n-
n- n- n-
n-
n-
n- n- n- n-
n- n- n-
g-
g- g- g-
g- g- g- g- g-
g-
g- g- g-
ge
ge ge ge ge ge ge ge
ge ge ge ge
ge lu lu
lu lu lu lu lu
lu
lu lu lu lu lu
Serie caratterizzata da un trend ascendente e da una variabilità irregolare e
crescente. Sospetto valore anomalo in corrispondenza di dicembre1995. Un
modello lineare che tenesse conto della stagionalità è stato identificato e
adattato alla serie: dallo stesso è stato ottenuto un anno di previsioni.
Come accennato all’inizio, identificare un processo che si suppone abbia
generato la serie osservata è un modo per analizzare una serie storica.
Alternativamente, o meglio, in modo complementare, si può supporre che la
serie osservata sia il risultato dell’azione combinata di diverse componenti
che non sono direttamente osservabili, ma possono essere stimate sulla base
di ipotesi circa il loro comportamento nel tempo. 5
Serie storica delle donne canadesi disoccupate di età maggiore di 25 anni nel
periodo dal 1976 al 1997(dati mensili)
600
550
500
450
400
350
300
250
200
150
100 gen-76 gen-77 gen-78 gen-79 gen-80 gen-81 gen-82 gen-83 gen-84 gen-85 gen-86 gen-87 gen-88 gen-89 gen-90 gen-91 gen-92 gen-93 gen-94 gen-95 gen-96 gen-97
Serie caratterizzata da un trend ascendente, cambiamenti strutturali,
presenza di componente stagionale.
Trend-ciclo
550
500
450
400
350
300
250
200
150
100 gen-76 gen-77 gen-78 gen-79 gen-80 gen-81 gen-82 gen-83 gen-84 gen-85 gen-86 gen-87 gen-88 gen-89 gen-90 gen-91 gen-92 gen-93 gen-94 gen-95 gen-96 gen-97 6
La tendenza è un movimento liscio che descrive i cambiamenti di lungo
periodo della serie.
Componente stagionale
120
110
100
90 gen-76 gen-77 gen-78 gen-79 gen-80 gen-81 gen-82 gen-83 gen-84 gen-85 gen-86 gen-87 gen-88 gen-89 gen-90 gen-91 gen-92 gen-93 gen-94 gen-95 gen-96 gen-97
La componente stagionale è caratterizzata da un andamento oscillatorio che
si ripete regolarmente ogni anno. In questa serie, la componente stagionale è
di tipo evolutivo, ossia il suo comportamento non è costante ma caratterizzato
da periodi di maggiore e minore ampiezza.
Una volta spiegato l’andamento della serie attraverso tendenza-ciclo e
stagionalità quel che resta è la cosiddetta componente irregolare ben
rappresentata da un processo puramente casuale. Trend-ciclo e componente
irregolare costituiscono la serie storica destagionalizzata. E’ importante
correggere la serie da fattori stagionali per effettuare previsioni. 7
Componente irregolare
120.00
110.00
100.00
90.00
80.00 gen-76 gen-77 gen-78 gen-79 gen-80 gen-81 gen-82 gen-83 gen-84 gen-85 gen-86 gen-87 gen-88 gen-89 gen-90 gen-91 gen-92 gen-93 gen-94 gen-95 gen-96 gen-97
Serie destagionalizzata
600
550
500
450
400
350
300
250
200
150
100 gen-76 gen-77 gen-78 gen-79 gen-80 gen-81 gen-82 gen-83 gen-84 gen-85 gen-86 gen-87 gen-88 gen-89 gen-90 gen-91 gen-92 gen-93 gen-94 gen-95 gen-96 gen-97 8
Un esempio di serie storica finanziaria
Serie storica dei prezzi dell'IndiceDAX
01/01/90-07/07/01 dati giornalieri
9000
8000
7000
6000
5000
4000
3000
2000
1000
0 01/01/90 16/04/90 30/07/90 12/11/90 25/02/91 10/06/91 23/09/91 06/01/92 20/04/92 03/08/92 16/11/92 01/03/93 14/06/93 27/09/93 10/01/94 25/04/94 08/08/94 21/11/94 06/03/95 19/06/95 02/10/95 15/01/96 29/04/96 12/08/96 25/11/96 10/03/97 23/06/97 06/10/97 19/01/98 04/05/98 17/08/98 30/11/98 15/03/99 28/06/99 11/10/99 24/01/00 09/05/00 22/08/00 05/12/00 20/03/01 03/07/01
Indice DAX: 10 anni di dati giornalieri
Serie storica dei prezzi dell'IndiceDAX
01/01/90-31/12/90 dati giornalieri
2400
2200
2000
1800
1600
1400
1200
1000 01/01/90 10/01/90 19/01/90 30/01/90 08/02/90 19/02/90 28/02/90 09/03/90 20/03/90 29/03/90 09/04/90 18/04/90 27/04/90 08/05/90 17/05/90 28/05/90 06/06/90 15/06/90 26/06/90 05/07/90 16/07/90 25/07/90 03/08/90 14/08/90 23/08/90 03/09/90 12/09/90 21/09/90 02/10/90 11/10/90 22/10/90 31/10/90 09/11/90 20/11/90 29/11/90 10/12/90 19/12/90 28/12/90
Indice DAX: 1 anno di dati giornalieri
L’analisi del grafico di una serie storica è fondamentale nell’analisi delle serie
storiche: è importante tuttavia essere consapevoli delle caratteristiche dei dati
che si stanno analizzando. 9
DEFINIZIONE FORMALE DI SERIE STORICA: sono necessari i concetti di
variabile aleatoria e processo stocastico.
Definizione di variabile aleatoria. Una variabile aleatoria (v.a.) è una
funzione misurabile a valori reali definita su uno spazio probabilistico ossia
→(R, ), ∈
-1
X: (Ω, F,P) B(R), P X (B) F per ogni B∈ B(R)
X
dove
Ω: spazio degli eventi
Ω
F sigma-algebra di
P probabilità definita su (Ω,F)
B(R) sigma-algebra di Borel definita sull’insieme dei numeri reali R
(R,
P probabilità indotta da X su B(R).
X
Definizione di processo stocastico. Un processo stocastico è una
successione di variabili aleatorie indicizzate da un parametro che nell’analisi
delle serie storiche è il tempo, t∈T, dove T è uno spazio parametrico discreto
o continuo. Il processo stocastico si indica come {X } .
t t∈T
ω
Casi particolari: come varia X (ω) al variare di e t
t
• ω ω∈Ω
t e variabili, {X (ω), } processo stocastico;
t t∈T
• ω ω=ω , {X (ω )} “traiettoria” del processo
t variabile e fissato 0 t 0 t∈T
stocastico;
• ω
t fissato e variabile t=t , {X (ω)} variabile aleatoria;
0 t0
• ω ω=ω
t e fissati, ossia t=t e , {X (ω )} numero reale;
0 0 t0 0
• ω ω ω
dati t , t ,…, t e fissati , ,…, , {x , x ,…, x }, serie storica.
1 2 N 1 2 N 1 2 N 10
Definizione di serie storica. Una serie storica è una realizzazione finita di
un processo stocastico. La serie storica si indica come {x } , dove N<∞.
t t=1,…,N
Le variabili aleatorie che costituiscono un processo stocastico sono diverse,
ossia caratterizzate da diverse distribuzioni di probabilità.
Legge di un processo stocastico.
La legge di un processo è data dalla famiglia di funzioni di ripartizione
∈R
n
{F (x)} , dove T={t=(t ,…, t ), t < t <…< t , n=1,2,…} e x =(x ,…, x ) ,
t t∈T 1 n 1 2 n 1 n
∩X ∩ ∩
ossia F (x) = P(X <x <x … X <x ).
t t1 1 t2 1 tn n
Teorema di Kolmogorov (1933) per la caratterizzazione univoca di un
processo sulla base delle sue funzioni di distribuzione marginali.
Le {F (x)} caratterizzano univocamente un processo stocastico {X } se e
t t∈T t t∈T
∀t∈T, ∀n=1,2,… ∀1≤i≤n,
solo se e lim F (x)= F (x(i)), dove t(i)e x(i) sono i
xi→∞ t t(i)
vettori n-1 dimensionali che si ottengono dai vettori t(i) e x(i) rispettivamente
eliminandone le componenti t e x .
i i
Ad esempio, per i=2 ed n=2 dovrà essere, lim F (x) =
x2→∞ t
∩X ∩X
P(X <x <x )=P(X <x <∞)= P(X <x ), ossia la distribuzione
t1 1 t2 2 t1 1 t2 t1 1
congiunta di X e X deve essere convergere alla distribuzione marginale di
t1 t2
X quando x tende all’infinito.
t1 2 11
MODELLISTICA
Impossibilità, a livello pratico, di caratterizzare un processo tramite le
condizioni di Kolmogorov (anche ammettendo che la distribuzione del
processo fosse nota, ci sarebbero infiniti parametri da stimare), quindi
necessità di
(a) sintetizzare le distribuzioni attraverso indicatori di posizione e
variabilità (in genere momenti di ordine 1 e 2) e
(b) restringere la classe dei processi entro cui identificare quello che ha
generato la serie (in genere vincoli di memoria ed eterogeneità).
Ciò avviene attraverso
(a) indicatori sintetici di posizione e di variabilità (momenti primo e
secondo) e
(b) vincoli di memoria sul grado di dipendenza tra le variabili al tempo t e t-
k; vincoli di eterogeneità affinchè il processo sia omogeneo, in termini
probabilisitici, nel tempo (proprietà dei processi stocastici).
MOMENTI DI UN PROCESSO STOCASTICO
Valore atteso o media di un processo stocastico
∫ μ
E[X ] = xdF (x) = , t∈T
t R Xt t
è una misura di posizione o della tendenza del processo al tempo t.
Varianza di un processo stocastico
σ
2 2t
V [X ] = E[X - E(X ) ] = , t∈T
t t t 12
è una misura di dispersione o variabilità del processo rispetto alla media al
tempo t.
Covarianza tra due variabili di un processo stocastico
γ ±1, ±2,…
Cov [X ,X ] = E{[X - E(X )] [X - E(X )] = (k), t∈T, k=0,
t t-k t t t-k t-k t
è una misura della dipendenza lineare tra due variabili distanti k ritardi al
tempo t.
PROPRIETA’ DI UN PROCESSO STOCASTICO
Stazionarietà in senso forte e in senso debole. Un processo è stazionario
in senso forte se la sua distribuzione è invariante rispetto a traslazioni
sull’asse temporale, mentre è stazionario in senso debole se i suoi momenti
centrati di ordine uno e due non dipendono dall’istante in cui sono rilevati.
Stazionarietà forte
Un processo stocastico {X } è stazionario in senso forte se F (x)= F (x)
t t∈T t+τ t
∀t∈T ∀τ=1,2,...,
e ossia se la sua legge è è invariante rispetto a traslazioni
nell’asse dei tempi.
Stazionarietà debole
Un processo stocastico {X } è stazionario in senso debole se
t t∈T
μ ∞ ∀
E[X ] = < t∈T
t σ ∞ ∀
2
V[X ] = < t∈T
t γ ∀ ±1, ±2,…
Cov[X , X ] = t∈T, k=0,
t t-k k 13
ossia se ha media e varianza finite e costanti e autocovarianza che non
dipende dal tempo t ma solo dal ritardo k.
La proprietà di stazionarietà è necessaria per potere effettuare inferenza sul
processo stocastico generatore sulla base di una realizzazione finita. La
proprietà assicura infatti che la struttura probabilistica del processo, pur non
restando invariata nel tempo, sia caratterizzata da una certa omogeneità. A
questa condizione, la stima dei momenti del processo sulla base del
campione risulta corretta indipendentemente dall’intervallo in cui viene
rilevato dal momento che intervalli della serie della stessa lunghezza hanno
le stesse caratteristiche probabilistiche.
Relazione tra stazionarietà forte e debole. La stazionarietà in senso forte
riguarda la struttura probabilistica del processo che deve rimanere invariata al
variare dell’insieme di variabili che viene considerato. La stazionarietà in
senso debole riguarda i momenti primo e secondo del processo che si
suppongono indipendententi dall’istante temporale in cui sono rilevati. La
stazionarietà forte implica la stazionarietà debole se e solo se i primi due
momenti del processo sono finiti (condizione non necessaria affinché un
processo sia stazionario in senso forte). La stazionarietà debole non implica
necessariamente quella forte (dal momento che l’uguaglianza dei momenti
non è informativa circa la forma distributiva delle variabili coinvolte).
Esempio di processo stocastico stazionario in senso debole: il
processo white noise. σ ∞ ∀
a2
Un processo stocastico {a } tale che E(a )=0, V(a )= < t∈T e
t t∈T t t
∀
,a )=0 k≠0 si dice processo white noise e si indica con
Cov(a t t-k
∼wn(0,σ a2
{a } ).
t t∈T 14
Esempio di processo stocastico stazionario in senso forte: il processo
i.i.d (indipendente e identicamente distribuito).
ε ε ε
Un processo stocastico { } tale che , ,… sono variabli aleatorie i.i.d. a
t t∈T 1 2
ε ε σ ∞ ∀
2
media nulla E( )=0 e varianza costante V( )= < t∈T è un processo
ε
t t
ε ∼i.i.d. 2
i.i.d. e si indica con { } (0,σ ).
ε
t t∈T
Essendo finiti i momenti di primo e secondo ordine, il processo è stazionario
anche in senso debole.
Esempio di processo stocastico stazionario in senso debole e in senso
forte: il processo gaussiano.
Un processo stocastico {X } è gaussiano se e solo se le distribuzioni di
t t∈T -1
tutte le {X } sono normali multivariate, ossia se f (x)=(2π)-(n/2)|Σ| exp[-
t t∈T t
Σ μ Σ
T -1
(1/2)(x-μ) (x-μ)]), dove è la media (vettore) e è la matrice di varianza e
covarianza del processo.
Invertibilità
Un processo stocastico {X } è invertibile se può essere espresso come
t t∈T
funzione dei suoi valori passati più una componente puramente casuale,
∼wn(0,σ a2
ossia X =f(X , X ,&
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.