vuoi
o PayPal
tutte le volte che vuoi
Proprietà della Covarianza
La Cov(X,Y) = 0 quando X e Y sono incorrelate. Questo non significa che le due variabili sono indipendenti, ma semplicemente che non esiste una relazione lineare tra di loro. Potrebbe significare che non esiste alcuna relazione o che esiste una relazione non lineare.
Altre proprietà della covarianza sono:
- È un indice simmetrico: COV(X,Y) = COV(Y,X), scambiando X con Y non cambia nulla.
- COV(X, X) = VAR(X), la somma degli scostamenti al quadrato diviso n.
- È invariante rispetto a trasformazioni lineari: COV(bX + a, dY + c) = b d COV(X,Y).
- Il valore massimo che la covarianza può assumere è il prodotto delle deviazioni standard: COV(X,Y) = σ(X) · σ(Y).
Questo risultato indica che esiste una relazione lineare diretta tra le due variabili, ma non possiamo determinare se questa relazione è forte o debole.
Si può, partendo dalla covarianza (indice
assoluto)ricavare un indicerelativo. Cioè il COEFFICIENTE DI CORRELAZIONE.
Gli scostamenti standardizzati sono : una trasformazione delle variabili originarie che riporta delle variabili che hanno tutti media pari a 0, varianza unitaria e che sono numeri puri. Per cui non risentono più dell’unità di misura, non risentono più dell’ordine di grandezza e il risultato è un indice relativo normalizzato. Esempio.
Il risultato è 0,7. Significa che tra le due variabili esiste una relazione lineare diretta più che discreta. È piuttosto elevata perché l’indice presenta un valore massimo di 1 (minimo di -1). È il 70% del valore massimo che l’indice può assumere.
Tra le due variabili esiste una relazione lineare diretta pari al 73% del valore massimo possibile.
Correlazione Spuria si manifesta soprattutto quando calcoliamo il coefficiente di correlazione tra i dati di due serie storiche. Ciò succede
Perché in generale le serie storiche presentano un trend (andamento di fondo); ciò che effettivamente andiamo a misurare è la relazione tra gli andamenti tra i trend. Se sono entrambi positivi danno origine ad un coefficiente di correlazione positivo; se una è crescente e l'altra decrescente danno origine ad un valore elevato del coefficiente di correlazione con segno negativo. Questo ci potrebbe portare a concludere erroneamente che tra le due variabili esiste una relazione quando in realtà non c'è nessun nesso logico. - Se rappresentiamo le variabili andiamo a rilevare che i punti, con poche differenze, si collocano su una retta con una pendenza positiva. Notiamo che: all'aumentare del prezzo, aumenta anche la quantità venduta. Questo risultato va contro l'affermazione "quando il prezzo aumenta la q. venduta diminuisce". Relazione (1,68/1,50 -1) x100 di tipo inversa. Ho tolto l'effetto trend. Calcolato sui
livelli ci porterebbe a concludere erroneamente che tra prezzi e quantità vendute esiste una relazione lineare diretta elevatissima. Calcolato sulle variazioni percentuali (togliendo l'effetto trend), questo valore ci porta a concludere che effettivamente, tolto l'effetto del trend, tra quantità vendute e prezzo, esiste una fortissima relazione lineare di tipo inverso. Ultima osservazione: Per togliere l'effetto trend, abbiamo utilizzato le variazioni percentuali rispetto all'anno precedente. Avremmo ottenuto lo stesso risultato anche se avessimo utilizzato i numeri indici a base mobile. Questo perché i numeri indici a base mobile sono una trasformazione lineare crescente delle variazioni percentuali. Il coefficiente di correlazione è invariante in senso forte per questo tipo di trasformazioni. Si ottiene rxy=-0,998 anche effettuando il calcolo sui numeri indici a base mobile (proprietà di invarianza per trasformazioni lineari crescenti). Infatti: numeri indici.basemobile= var% + 100.Cenni alle analisi multivariate:
Possiamo identificare tutte le possibili coppie di fenomeni che posso creare partendo da queste p variabili e calcolare il coefficiente di correlazione lineare o la covarianza tra tutte queste possibili coppie. Quindi riassumiamo in uno schema tutti i risultati che abbiamo ottenuto; questo schema si chiama matrice di covarianza.
Il nostro punto di partenza sono p variabili osservate.
La matrice di covarianza è una matrice quadrata (ha lo stesso numero di righe e colonne), ciascuna riga e ciascuna colonna rappresenta una variabile, incrociando righe e colonne andiamo ad individuare la relazione tra queste coppie di variabili.
Sulla diagonale principale ci stanno le varianze (si incrocia ciascuna variabile con se stessa), al di fuori di essa ci stanno le covarianze. Questa matrice è anche simmetrica.
La covarianza è un indice assoluto, quindi da questa matrice vogliamo passare alla matrice dei coefficienti di
Correlazione lineare
Questa matrice di covarianza contiene tutte le informazioni necessarie per poter passare al calcolo del coefficiente di correlazione perché ci sono le covarianze e le varianze delle singole variabili. Per cui tramite questa espressione del coefficiente di correlazione, noi sostituiamo a varianze e covarianze della matrice precedente, i valori del coefficiente di correlazione.
In questa nuova matrice dunque nella diagonale principale ci sarà 1 perché il coefficiente di correlazione tra una variabile e sé stessa è pari a 1. In posizione 1,2, ci sarà il coefficiente di correlazione tra la variabile X2 e la variabile X1. Anche questa è una matrice simmetrica per cui è sufficiente scrivere o la parte superiore alla diagonale principale, o la parte inferiore proprio per la proprietà di simmetria del coefficiente di correlazione.
In questa matrice ci sono tutte le informazioni che ci