vuoi
o PayPal
tutte le volte che vuoi
E
[ ] E
[ ] 0 Var
[ ]
+ +
t i t i t i t i t i
= − = − = −
i m i m i m
m 2
ϑ <
∑ 1
i
=−
i m
la serie trasformata, se , ha varianza ridotta. La m.m. in questo caso ha un’azione
spianante, cioè tende a ridurre le irregolarità di tipo casuale presenti nella serie.
ATTENZIONE: le variabili così trasformate sono tra loro correlate. L’esistenza di correlazioni non
nulle tra i valori successivi del modello introduce effetti di correlazione spuria (effetto di Slutsky-
Yule). 6
2.6.1 Diversi tipi di modelli
• MODELLI POLINOMIALI:
- Vantaggi: i modelli polinomiali godono di numerose proprietà analitiche e di una buona
capacità di approssimazione al crescere del grado del polinomio
- Svantaggi: molto rigidi, spesso inaccettabili per utilizzazioni differenti
• MODELLI RAZIONALI:
- Vantaggi: consentono una parametrizzazione più efficiente rispetto ai polinomi interi anche
con gradi non elevati
- Svantaggi: la stima dei parametri richiede algoritmi non lineari, la loro utilizzazione non è
molto diffusa
• MODELLI SIGMOIDI:
Sono caratterizzati da un andamento sigmoide con asintoti adattabili in funzione dei dati.
Sono utili in quelle situazioni in cui la dinamica di un fenomeno incontra dei limiti obiettivi
nel sistema di riferimento.
2.6.2 Principali tipi di trend
Le funzioni più usate per rappresentare il trend dei principali fenomeni sono:
La retta:
T = a + bt
t
La funzione esponenziale:
t
T = α β
t
La parabola di secondo grado:
2
T = a + bt + ct
t
La logistica:
1
T = t
a+c
t
Per quanto riguarda il trend esponenziale, esso rappresenta quelle serie storiche che aumentano e
diminuiscono secondo una progressione geometrica. Essendo non lineare, non posso stimare β e β
0 1
con il metodo dei minimi quadrati, ma devo attuare una trasformazione in logaritmo (artificio). Per
far questo bisogna però utilizzare un modello di tipo moltiplicativo:
α t
ε α ε
= × = ×
y f ( t ) e 1
t t 0 t
da cui α α ε
= + +
log y log t log
t 0 1 t
α α ε
* *
= + +
t
0 1 t 7
2.6.3 SCELTA DEL GRADO DEL POLINOMIO.
- CRITERIO DELLE DIFFERENZE SUCCESSIVE serve per evidenziare i dati nascosti nella serie
e trasformare genericamente i dati. Lo utilizziamo principalmente per decidere il grado del
polinomio che rappresenti il trend. Si indichi con B l’operatore ritardo
Y = By
t-1 t
∆B operatore differenza prima
∆BY = Y - Y
t t t-1
Y = β + β t
t 0 1
∆BY = (β + β t) – [β + β (t-1)]
t 0 1 0 1
= β costante
1
β elimina una crescita lineare: questo criterio trasforma il polinomio in maniera tale da ottenere una
1
costante se il grado del polinomio è uguale al grado della differenza. Se non ho il grado del
polinomio provo a calcolarmi il ∆ fino a quando non trovo una costante. Quando effettuo questa
trasformazione, anche e deve essere trasformato: resteranno valide, dunque, solo le ipotesi sul
t
valore medio mentre per quanto concerne covarianza non sarà più uguale a zero e per quanto
riguardo la varianza essa non sarà più costante. Non sarà, dunque, il miglior stimatore lineare non
distorto. L’operatore B fa sentire i suoi effetti sulla componente accidentale εt, aumentando
marcatamente la varianza della serie.
2
- CRITERIO DEL VALORE R è possibile scegliere il grado del polinomio in base al valore
assunto dall’indice di bontà dell’adattamento. Siccome l’aggiunta di una variabile provoca sempre
2 2
un aumento dell’indice R non è possibile utilizzare tale indice, ma si utilizza R corretto
Dev(e)/(n− p)
2
R = 1 - Dev (T )/(n−1)
e sceglierò il grado del polinomio di grado m se
2m 2m+1
R ≥ R
2.7 La componente stagionale.
E’ costituita dai movimenti del fenomeno nel corso dell’anno che, per effetto dell’influenza di
fattori climatici e sociali, tendono a ripetersi in maniera pressoché analoga nel medesimo periodo
(mese o trimestre).
2.7.1 Destagionalizzazione di una serie
Quando le osservazioni si riferiscono a frazioni di anno, la componente da eliminare, dopo quella
tendenziale, è quella stagionale. Il metodo più semplice fa uso delle medie mobili.
Il procedimento della perequazione con medie mobili attenua le oscillazioni presenti in una serie di
valori. Se, in particolare, le oscillazioni sono perfettamente ricorrenti (ossia se hanno lo stesso
periodo e la stessa ampiezza), la perequazione con medie mobili con un numero di termini pari alla
lunghezza del periodo elimina le oscillazioni stesse, fornendo una serie destagionalizzata.
Lo studio della stagionalità presenta due problemi fondamentali:
a) la semplice stima di questa componente;
b) l’eliminazione, dopo la stima, di tale componente dall’andamento generale della serie
storica (destagionalizzazione).
Per prima cosa si stimano le componenti trend-ciclo con m.m. centrate e si ricava la componente
stagionale ed erratica, a seconda del modello di composizione: 8
y
**
− t
y y
t t **
y t
Sviluppando il ragionamento per il modello moltiplicativo:
y
ε ≡ = = + −
t
S IS t m 1,..., n m
t t **
y t
Tali quantità sono dette indici specifici di stagionalità.
Prima di procedere a separare le due componenti stagionale ed erratica occorre verificare se
quest’ultima è significativamente presente. Si ipotizza l’assenza di stagionalità e, se questa è vera,
le medie degli IS per lo stesso mese calcolate in anni diversi non differiscono significativamente tra
loro.
Se si rigetta tale ipotesi, otteniamo una serie di 12 valori detti coefficienti grezzi di stagionalità:
1 N
ˆ * = =
∑
S IS j 1,...,12
j T , j
N =
T 1
12 ˆ * =
∏ S 1
j
=
j 1
Per il modello moltiplicativo deve valere che , ma questo non accade quasi mai, dunque si
devono ricorreggere i coefficienti: ˆ *
S
ˆ j
=
S j 12 ˆ *
∏ S
12 j
=
j 1
detti coefficienti ideali di stagionalità. Ŝ j
La serie destagionalizzata si ottiene dividendo yt per .
Dunque avremmo bisogno delle variabili dummy, i cui coefficienti rappresentano i coefficienti di
stagionalità. Se il coefficiente è significativo allora c’è stagionalità:
1. Applico le medie mobili, destagionalizzo, verifico con test anova.
2. Inserisco nel modello della variabili dummy, stimo l’effetto dei coefficienti delle variabili
dummy sulla mia serie
TEST ANOVA: confronto tra diversi coefficienti di regressione; confronto tra le diverse medie di k
campioni che ha come ipotesi H che le medie tra i gruppi siano uguali tra loro. Simile al
0
procedimento della T di Studenti, solo che ora la estendiamo a k campioni (anziché 2)
dev (B)
dev (W )
Nel test anova:
- Costruisco degli indici di stagionalità per tutta la serie storica
- Faccio la media di questi indici con i valori dello stesso mese nei diversi anni
- Confronto le medie a livello di popolazione
H = m = m = m
0 1 2 k
rifiutare H nel test anova vuol dire che le medie non sono uguali tra loro.
0
Generalmente mi auguro di accettare H perché dopo non dovrò più fare altri passaggi, in quanto la
0
serie sarà destagionalizzata e dovrò analizzare solo se sono dei white noise. 9
2.8 Individuazione della componente ciclica. y’ = y + T
Per individuare la componente ciclica occorre operare sulla serie detrendizzata ( ),
t t t
eseguendo una perequazione con medie mobili di 3 o 5 termini semplice, o ponderata con pesi
y* = (y’ + 2y’ + y’ )/4 )
maggiori al centro ( esempio .
t t-1 t t+1
In questo modo, agendo sulla serie detrendizzata, il procedimento delle medie mobili elimina tutta
o in gran parte la componente erratica, facendo emergere la componente ciclica.
3. Regressione lineare multipla
La Regressione lineare multipla rappresenta una estensione del modello di regressione
semplice.
Questa tecnica è utilizzata per studiare le variazioni di una variabile dipendente, in funzione
di più variabili indipendenti
L’obiettivo è costruire un modello che approssimi i dati meglio del modello di regressione
lineare semplice.
Utilizzando l’algebra lineare si ha: ɛ
Il modello può essere scritto nella forma compatta y = Xβ +
e la stima dei m.q. β= ( X’X)-1 x’y
3.1Le ipotesi.
Le ipotesi su cui si basa il modello di regressione multipla costituiscono una generalizzazione delle
ipotesi introdotte nel caso del modello di regressione semplice
Ipotesi 1: La grandezza Xβ definisce la parte sistematica del modello mentre
ɛ
la variabile definisce la componente di errore
Ipotesi 2: La matrice delle v.c. X viene fissata alla particolare realizzazione
X=x Ipotesi 3: La matrice X ha rango uguale a k (k<n) e conseguentemente la
matrice X’X non è singolare ɛ ɛ
Ipotesi 4: Il vettore casuale ha valore atteso 0 (E( /X)) e quindi
conseguentemente E(y/X)=Xβ ɛ
Ipotesi 5: La matrice delle varianze e covarianze del vettore casuale è data
ɛɛ
da E( ’/X)=s2Ik dove Ik è la matrice di Identità di ordine k
Stima dei coefficienti e valutazione del modello
La procedura:
– Ottenere i coefficienti e le statistiche del modello utilizzando un software statistico;
– Se il modello supera i test diagnostici, utilizzare i coefficienti per prevedere i valori della y.
– Valutare la bontà di adattamento del modello utilizzato;
– Diagnosticare le alle ipotesi del modello, cercando di risolvere i problemi se presenti; 10
Errore standard
Coefficiente di determinazione
Dunque, se almeno un coefficiente βi non è uguale a zero allora almeno una variabile è
indipendente è legata linearmente a y: il modello di regressione è valido.
3.2 Scopi del modello di regressione lineare multipla
– Il modello può essere utilizzato per:
• Predire un intervallo per un particolare valore di y, a partire da un set di valori dati di xi.
• Produrre una stima ad intervallo per un valore atteso di y, a partire da un set di valori dati di xi.
– Il modello può essere utilizzato per capire le relazioni tra le variabili indipendenti xi, e la
variabile dipendente y