Estratto del documento

Università degli Studi di Bergamo

Statistica II: Modelli dinamici e previsione statistica

Indice

  • Introduzione teorica: Serie storica …3
  • Autocorrelazione …5
  • Modelli per la previsione statistica …7
    • Modello AR
    • Modello MA
    • Modello ARMA
  • Analisi della Serie storica …10
  • Domanda 1: Introduzione teorica, Modelli ARIMA e SARIMA ..13, Test di Ljung-Box ..18, Svolgimento ..19, Criterio di Akaike ..26
  • Domanda 2: Introduzione teorica, Modelli State Space ..28, Svolgimento ..32
  • Domanda 3: Svolgimento ..41
  • Domanda 4: Introduzione teorica, Indicatori di capacità previsiva (ME, MAE, RMSE, MPE, MAPE, MSE) ..42, Svolgimento ..43
  • Domanda 5: Introduzione teorica, Previsioni ..46, Svolgimento ..46
  • Domanda 6: Introduzione teorica ..47, Svolgimento ..51

Pagina | 2

Introduzione teorica: Serie storica

In statistica, una serie storica è una serie di osservazioni del medesimo fenomeno a intervalli regolari di tempo. L'analisi delle serie storiche consiste in una serie di metodologie che permettono di scomporre l'andamento di una serie e di determinare quindi le componenti che ne descrivono i caratteri utili alla formazione delle decisioni (tendenza, stagionalità) ed alla previsione. Tali componenti sono composte principalmente secondo un modello additivo o un modello moltiplicativo.

L'obiettivo dell'analisi è identificare le componenti dell'andamento della serie in modo da potersi concentrare sul movimento di fondo della stessa, ed utilizzare queste informazioni per effettuare previsioni. Nell'analisi delle serie storiche, l'unica cosa cui si è interessati è dare una spiegazione quantitativa all'andamento nel tempo di un fenomeno, in modo da poter formulare delle ipotesi realistiche sul suo andamento futuro; il fenomeno viene modellato solamente rispetto al tempo.

Una prima analisi intuitiva che conviene effettuare per avere un'idea del fenomeno che si sta analizzando è un'analisi grafica. Il grafico più semplice per rappresentare una serie temporale è il time plot, che rappresenta l'evoluzione della serie rispetto al tempo.

L'analisi di una serie storica deve quindi:

  • Descrivere sinteticamente l'andamento nel tempo di un fenomeno; il grafico di una serie, in particolare, mette facilmente in evidenza sia eventuali regolarità, sia valori anomali;
  • Spiegare il fenomeno, individuando il suo meccanismo generatore ed eventuali relazioni con altri fenomeni (attraverso un modello matematico);
  • Prevedere l'andamento futuro del fenomeno, con l’obiettivo di avere una stima puntuale o un intervallo di previsione per gli intervalli futuri;
  • Filtrare la serie; con ciò si intende la scomposizione della serie stessa nelle sue componenti non osservabili.

In generale, si assume che i dati in serie storica relativi ad un fenomeno siano generati da un processo del tipo: Y(t) = S(t) + ε(t), nel quale il valore del fenomeno al tempo t risulta dalla composizione di una sequenza deterministica, detta parte sistematica, e di una sequenza di variabili aleatorie, detta parte stocastica.

Pagina | 3

Nell'approccio tradizionale si assume che esista una "legge" di evoluzione temporale del fenomeno, rappresentata da S(t), e che i residui (differenze tra valori teorici e valori osservati) siano dovuti al caso e, pertanto, siano assimilabili ad errori accidentali. I residui vengono normalmente indicati con ε(t) ed intesi come variabili aleatorie indipendenti, identicamente distribuite, con media nulla e varianza costante. Nell'approccio moderno, invece, si ipotizza che la parte sistematica manchi o sia già stata eliminata, mediante stime o altri modelli, e si studia la componente stocastica ε(t).

Si ritiene, inoltre, che la parte sistematica sia la risultante di tre componenti non direttamente osservabili:

  • Trend (Tt): tendenza di lungo termine all’incremento o al decremento dei valori della serie.
  • Stagionalità (St): scostamenti regolari intorno al trend con cadenza fissa inferiore ad un anno.
  • Ciclicità (Ct): spiega gli scostamenti verso l’alto o verso il basso dei dati rispetto al trend di natura più o meno regolare, non stagionale.

Si definisce “rumore bianco” una serie storica il cui comportamento futuro risulta imprevedibile in base al passato. Un fenomeno è generalmente caratterizzato da una parte di rumore bianco e una parte che rende possibile la previsione. Una serie storica composta da errori ε(1), ε(2), … , ε(n) risulta imprevedibile poiché gli errori sono indipendenti tra loro, risultano infatti avere valore atteso nullo e varianza σ².

Definita l’osservazione Xt al tempo t nel processo stocastico {X(t)}, possono considerarsi alcuni indicatori di sintesi:

  • Media di Xt: E[Xt] dove t ∈ T
  • Varianza di Xt: Var(Xt) = E[(Xt - μ)²] dove t ∈ T
  • Covarianza tra Xt e Xs: Cov(Xt, Xs) = E[(Xt - μ)(Xs - μ)] dove t, s ∈ T
  • Correlazione tra Xt e Xs: ρ(Xt, Xs) = Cov(Xt, Xs) / √[Var(Xt)Var(Xs)]

Pagina | 4

Autocorrelazione

Alcuni fenomeni presentano una dipendenza dal tempo in cui sono osservati. Tale caratteristica è detta autocorrelazione per il fatto che i dati rilevati nel presente hanno una dipendenza con il passato. L’autocorrelazione può estendersi al passato più o meno recente. In particolare, se il valore del presente è correlato solo al valore precedente si dice che l’autocorrelazione è di ordine 1. Si parla invece di autocorrelazione di ordine k se il valore presente della serie è correlato con valori precedenti X(t-k).

Lo studio della funzione di autocorrelazione al variare di k permette di analizzare quanto a lungo permane un’influenza di una particolare osservazione di tale serie storica sulle osservazioni. L’autocorrelazione può essere di due tipi:

  • Totale;
  • Parziale.

L’autocorrelazione totale è così definita:

ρ(k) = Cov(X(t), X(t+k)) / √[Var(X(t))Var(X(t+k))]

dove k è il ritardo temporale, cioè il numero di periodi presi in considerazione per il calcolo dell’indicatore a partire da quello più recente.

L’autocorrelazione parziale è una misura della relazione lineare che esiste fra il termine del processo al tempo t+k e il termine del processo al tempo t depurata dalla correlazione dei valori intermedi del processo. Essa è calcolata con la seguente formula:

ρ(t, t+k | t+1, t+2, ..., t+k-1) = [Cov(X(t), X(t+k)) - Cov(X(t), X(t+1))Cov(X(t+1), X(t+k))] / √[(Var(X(t)) - Cov(X(t), X(t+1))²)(Var(X(t+k)) - Cov(X(t+1), X(t+k))²)]

che definisce appunto la correlazione parziale tra X(t) e X(t+k) al netto delle altre variabili intermedie.

Per ogni autocorrelazione viene formulata l’ipotesi nulla H0: ρ(k) = 0 contro l’alternativa che l’autocorrelazione sia diversa da zero. Le autocorrelazioni che cadono all’interno della fascia di accettazione sono autocorrelazioni che non sono significativamente diverse da zero, si possono considerare nulle a meno di una variabilità campionaria, cioè quelle per cui vale l’ipotesi nulla.

Scelto un livello α, ossia la probabilità di commettere un errore di primo tipo, si divide in due parti uguali sulle code di una normale e poi si cercano i percentili che dividono l’area in questo gruppo. L’intervallo di accettazione del test è dato da:

± zα/2 / √n

dove zα/2 è il percentile della normale standard. Se l’autocorrelazione cade all’interno di questo intervallo si può accettare l’ipotesi nulla, in caso contrario no. Ciò che è importante determinare in questi grafici sono le correlazioni significativamente diverse da zero. È importante controllare che tutte cadono all’interno della banda di accettazione, il passo successivo sarà quello di utilizzare le informazioni a fini previsivi.

Per verificare l’esistenza di autocorrelazione si può procedere in diversi modi:

  • In maniera grafica;
  • In maniera analitica.

Per quanto riguarda la maniera grafica, si può usare il correlogramma, consiste in un diagramma ad “aste” (detti spike) che contiene in ascissa i ritardi, ordinati dal più recente al più remoto e, in ordinata, i corrispondenti valori di autocorrelazione. Per determinare l’ordine di autocorrelazione che la serie presenta con il passato è necessario vedere quante “aste” consecutive, dalla più recente alla più remota cadono fuori da un’area evidenziata dalle bande di confidenza. L’analisi dei correlogrammi delle autocorrelazioni globali (ACF) e parziali (PAC) è utile anche ai fini dell’individuazione degli ordini p e q dei modelli AR e MA che generano la serie osservata.

In maniera analitica si può procedere in due modi: una prima strada consiste nel calcolo degli indici di correlazione sia totale che parziale, e quindi attraverso la verifica dell’ordine di relazione che la serie presenta con il passato. Un’alternativa della verifica della correlazione consiste nell’effettuare la stima del parametro di una regressione, fra il valore della serie al tempo t e il valore della serie ritardato di un periodo. Se il t-ratio della statistica è superiore a circa 2, allora esiste una relazione fra il termine della serie al tempo t e i termini della serie ritardati di un periodo. La strada preferibile è la prima, ma possono essere utilizzate entrambe per verificare i risultati ottenuti con la prima.

Pagina | 6

Modelli per la previsione statistica

Modello AR

Il modello AR permette di spiegare la dipendenza delle varie osservazioni nel tempo. In particolare, le osservazioni al tempo t sono combinazioni lineari di quelle precedenti con l’aggiunta di un errore casuale denominato rumore bianco o “white noise” e caratterizzato da variabili indipendenti di tipo normale standard con valore atteso nullo e varianza σ².

ε(t) ~ N(0, σ²)

Il modello AR può essere scritto secondo la seguente equazione:

X(t) - ΣφiX(t-i) = ε(t), dove i = 1, 2, ..., p

  • p è l’ordine della componente autoregressiva
  • φi sono i coefficienti autoregressivi che dovranno essere stimati

Modello MA

Il modello MA, invece, serve a modellare le serie storiche basandosi sui termini a media mobile del passato. Possiamo scrivere il modello MA secondo la seguente equazione:

X(t) - Σθjε(t-j) = ε(t), dove j = 1, 2, ..., q

  • q è l’ordine di componenti a media mobile
  • θj sono i coefficienti a media mobile da stimare

Modello ARMA

Il modello ARMA (acronimo di Autoregressive Moving Average, «autoregressivo e a media mobile») estende il modello autoregressivo considerandone gli errori come serialmente correlati. Nascono dalla combinazione dei modelli AR e MA e sono caratterizzati dal fatto che il comportamento della variabile risposta dipende linearmente sia dai suoi valori passati, che dai valori presenti e passati degli shock.

Sommando le due equazioni mostrate precedentemente si ottiene il modello ARMA (p,q) che presenta la seguente equazione:

X(t) - ΣφiX(t-i) = ε(t) + Σθjε(t-j), dove i = 1, 2, ..., p e j = 1, 2, ..., q

  • p è l’ordine della componente autoregressiva
  • φi sono i coefficienti autoregressivi da stimare
  • q è l’ordine dei componenti a media mobile
  • θj sono i coefficienti a media mobile da stimare

Analiticamente un processo ARMA (p,q) può essere descritto nel seguente modo:

X(t) = φ1X(t-1) + ... + φpX(t-p) + ε(t) + θ1ε(t-1) + ... + θqε(t-q)

  • p è l’ordine della componente autoregressiva
  • q è l’ordine della componente a media mobile

Può essere considerato come un modo per approssimare le autocovarianze di X(t). Il motivo è che qualunque serie temporale con covarianza finita può essere scritta come un AR o come un MA con errori non correlati, sebbene i modelli AR o MA possano richiedere un ordine infinito. In generale, una volta scelto l’ordine (p, q), i parametri di un modello ARMA (p, q) possono essere stimati per esempio attraverso lo stimatore di massima verosimiglianza.

Come per il modello autoregressivo, la scelta dell’ordine del modello deve rispondere alle esigenze contrapposte di un buon adattamento ai dati e di parsimonia nel numero di parametri da stimare. Nel caso in cui i dati evidenzino la presenza di non stazionarietà, è talvolta possibile rimuovere tale non stazionarietà attraverso la trasformazione in differenze prime, X(t) - X(t-1). Il modello ARMA (p, q), applicato ai dati così trasformati, prende il nome di modello ARIMA con parametri (p, d, q), dove d ≥ 0. La trasformazione dei dati in differenze prime può essere applicata d volte, ottenendo così il modello ARIMA (p, d, q). In particolare, il modello ARIMA (0, d, 0) coincide con il modello ARMA (0, q).

Pagina | 8

Analisi della serie storica

Il file "test2016” riporta la serie storica delle temperature medie mensili di Dallas (USA), espresse in gradi centigradi dal 01-01-1988 al 31-12-1995. La serie storica contiene 96 osservazioni, di cui le prime 48 sono state usate come dati di apprendimento per stimare il modello, le restanti per valutarne l’affidabilità del modello stimato, o meglio l’affidabilità delle previsioni da esso fornite, valutandone la capacità. Qui di seguito possiamo visualizzare la rappresentazione grafica della serie delle temperature fornite, ottenuta tramite il software R.

Anteprima
Vedrai una selezione di 10 pagine su 52
Esame Statistica 2 Pag. 1 Esame Statistica 2 Pag. 2
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Esame Statistica 2 Pag. 6
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Esame Statistica 2 Pag. 11
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Esame Statistica 2 Pag. 16
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Esame Statistica 2 Pag. 21
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Esame Statistica 2 Pag. 26
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Esame Statistica 2 Pag. 31
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Esame Statistica 2 Pag. 36
Anteprima di 10 pagg. su 52.
Scarica il documento per vederlo tutto.
Esame Statistica 2 Pag. 41
1 su 52
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher daniela.invernizzi09 di informazioni apprese con la frequenza delle lezioni di Statistica 2 e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bergamo o del prof Colombi Roberto.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community