vuoi
o PayPal
tutte le volte che vuoi
Introduzione - 0
L'obiettivo de questo corso è mettere ordine ed eventualmente estrarre informazione da dati estratti da un sistema ambientale.
Analisi delle serie temporali (o storiche) - 1
L'analisi delle serie temporali si compone essenzialmente de tre obiettivi:
- Esame dei dati: scomposizione nelle componenti deterministiche, analisi de presenza di varia anomale e durata del fenomeno
- Filtraggio dei dati: rimozione del rumore, rimozione di dati inconstante e estrazione di comportamenti tipici
- Utilizzo dei dati: previsione di andamenti futuri
Definiamo prima de tutto cosa è una serie temporale (storica)
Una serie temporale è un insieme di dati indiatiati dal tempo y = f(t)
Una serie temporale è composta da component (movue) generato da un processo continuo
Tali serie temporali possono essere utilizzate per simulazioni, celebrazione de modelli e previsione de andamenti futuri
In particolare una serie storica può essere prosta come composizione di varie componenti:
-
componente deterministica, ovvero la parte riproducibile che include:
- trend, ovvero la componente che vario lentamente nel tempo e che rappresento la tendenza della serie (rapresentabile con una retta)
- cicio, ovvero una collezione di fluttuazioni, representative con serie di armoniche sinusoidali.
Stazionarità
che risente nel ciclo mm può essere riferito al ciclo annuale
- componente stocastica: ovvero la componente non riproducibile e può essere associata ad un processo stocastico stazionario.
- l'obiettivo è dunque quello di scomporre il segnale nelle sue componenti spettorando che la componente deterministica sa quella che contiene l'informazione. quella stocastica, invece, solo il rumore.
Queste componenti possono essere scomposte sfruttando che:
- il segnale può essere espresso come somma di sinusoidi, g(t)= ∑ₖ₌₁,∞ aₖ sin(kt)
- le base frequenze rappresentano la componente deterministica e contengono dunque l'informazione; le frequenze alte contengono il rumore.
Sulla base di tali ipotesi la separazione delle componenti può essere eseguita attraverso la tecnica di denoising:
- splines: utile per lo smoothing e l'interpolazione di dati monconi
- wavelets: conveniente da estrarre la componente deterministica
Prima di modellare le tecniche di denoising è importante analizzare l'effetto del comporamento ed il detrending.
Relativamente al comporamento sappiamo che un segnale continuo viene campionato in determinati istanti di tempo, detti periodi di campionamento Tₛ.
Il campionamento produce una riduzione di informazione rispetto al segnale continuo in quanto si perde l'informazione sul valore assunto in tutti gli istanti diversi dai quelli di campionamento.
l'integrale delle due distribuzioni fornisce la statistica accumulata su cui
eseguire il test di Kolmogoroff-Smirnov (la distribuzione deve rientrare all'interno delle bande di confidenza del test).
Un ulteriore test di normalità dei dati è quello di Lilliefors.
Tale test (basato sul test K-S) considera l'ipotesi che i dati X siano distribuiti gaussianamente e ordina la differenza tra la distribuzione X ed una distribuzione equivalente gaussiana con stessa media e varianza di gaussiani da confronto durante accettato da
la differenza tra i due test e comunque che il test K-S richiede che le distribuzione di riferimento sia specificata, il test Lilliefors può essere applicato stimando le distribuzione di riferimento dai dati
le seconda analisi da eseguire sui residui è il test di bianchezza sulle loro correlazione
- H1: non gaussiani
- H0: gaussiani
Anche i residui non siano autocorrelati e necessario che il valore di autocorrelazione. F se contenuto nelle fascia di zero statistica : z0 2.96
2. Transformata Wavelet - 2
Amladiacomo con le altre tecnica per eseguire il denoising wavelet
la transformate wavelet può essere considerato una estenzione dell'analisi di Fourier.
L'analisi di Fourier e molto utile poiché consente di decomporre un
segnale nelle sue armoniche, rivela però i contenuti in frequenza del
segnale spostando l'analisi dal dominio del tempo a quello della frequenza.
viene raddoppiato (2 Ts → Ts) ed i dati vengono aumentati (Nb → 2Nb)
La scomposizione continua fino a che non sono ottenute altre.. Se il segnale ha N campioni il numero massimo di livelli (scomposizioni) può essere ⬇logN. In Matlab la decomposizione multivello viene eseguita attraverso la funzione [C,L] = wavedec(X,N, 'wname'), in cui X sono i dati del segnale, N il livello della scomposizione e 'wname' il nome della wavlet.
Il comando restituisce i vettori dei coefficienti (approssimazioni e dettagli) fino all’ordine fissato. In particolare è importante sottolineare che le approssimazioni effettuano uno smothing del segnale progressivo di grado di approssimazione. Una volta che il segnale è stato filtrato (scomposto), il segnale puo essere ricostruito sommando l’approssimazione relativa all’ultimo livello (liv.esimo) con i dettagli relativi ai vari livelli • Srec = An + ⬇Di D
Ad esempio ripetendo una decomposizione in tre livelli (pagina precedente), il segnale ricostruito è Srec = A3 + D3 + D2 + D1.
È importante osservare che il segnale ricostruito ha lo stesso numero di dati del segnale originale. Con riferimento all’esempio a tre livelli: Nb/8(A3) = Nb/4 (D3) , Nb/2 (D2), Nb (D1), Srec
In Matlab la funzione più usata è wavrec (C, L, 'wname') dove C ed L sono i coefficienti di decomposizione e la lunghezza ottenuta nella decomposizione.
Vi sono dei dati che se considerati singolarmente sarebbero entro la fascia di confidenza ma non se si considera le regioni di confidenza bidimensionali.
Anelogamente gli autovalori e gli autovettori risultanti della matrice di covarianza consentono di definire la covarianza e dunque le redenziona dei dati.
In ambedue i casi (matrice C ed R) gli autovettori definiscono le direzioni degli assi, gli autovalori la lunghezza [...]
Abbiamo già detto che gli obiettivi principali della PCA sono la riduzione del numero di variabili e soprattutto l’eliminazione delle redenziona (coparse delle covarianza nelle matrici C o R)
La eliminazione delle redenziona è ottenuta attraverso la diagonolarizzazione della matrice C oppure R: la diagonalizzazione è esegueta attraverso la similitudine W tra le matrice diagonale degli autovalori e la matrice di covarianza L = diag (1, 2, ..., n) = W
-t . C . W
La matrice W è la matrice le cui colonne sono ordinute in colume di autvalori decarenta
La transformate dei dati X nelle componenete principali: Z = X.W (z det minesie). Volendo è posibule ridure le dimensionalità del probelma (il numeo di dati) considendo le prime k componeneti della matrice W (ovice i prime k autocalei)
Si ottiene dunque Z = X.W (Z sono le componente principali).
Chiaramente l’eliminaione di decine autoval enscompata una peridta
[...]