vuoi
o PayPal
tutte le volte che vuoi
ANALISI delle COMPONENTI PRINCIPALI
- È una tecnica matematica non statistica
- Si applica solamente a variabili di tipo quantitativo e comunque su scale; si scalabilizzano su scale variabili dicotomiche e diusuale
- Per le qualitative effettuorono l'analisi delle consipovenze derivate
Scopo: Ridurre il numero di variabili limitando la perdita di informazione attraverso "poche" variabili non osservabili e poi concrete tra loro
Partiamo da un insieme di variabili Xj di dimensioni p e dobbiamo arrivare ad un numero q < p, in modo che la perdita di informazione sia il più possibile e le q componenti principali (CP) non devono essere osservabili e concrete tra loro.
Le variabili componenti principali sono costruite come combinazioni lineare delle variabili osservate Xj in un modo tale che le proiezioni su spazio affini che propongono le componimenti principali, in sovrapposizione sui comuni lineali e hanno lo scopo di far rispondere, con facili probabilità originatrici, ai fondi coincidenti delle misurazione dei variabili.
- CP1 - una proporzione di variabilità totale pesature
- CP2 - una proporzione di variabilità totale pesature
Sovrapporre incrociare se sono in modo crescente
GEOMETRICAMENTE
Insieme di punti IRp, si vuole proiettare ciascun punto dell’insieme X su uno spazio affinie a dimensione q < p in modo che le nuvole dei punti sia deformata il meno possibile.
ESEMPIO p=2, tra X1e X2 ho un forte correlazione lineare (andamento lineare)
Il punto Ya prendere la proiezione ortogonale sulla retta -> competente principale
Riesco a riassumere, con una bonissima perlitas informativa, utilizzando uno solo dimensione anziché due.
Se ho una situazione di questo tipo:
le CP hanno portato a nessuna sintesi dei dati, ciò è colpa dei dati
COME DETERMINARE LE COMPONENTI PRINCIPALI
(A) METODO ANALITICO (metodo francese)
X̄(u×p) → C̄j tali che cov(Ci, Cj) = 0 e spiegino la maggiore parte della variabilità totale j=1∑p σ̄j2 = j=1∑p Var(xj)
COMPONENTI PRINCIPALI:
C1 = a11 X1 + a12 X2 + ... + a1p Xp = j=1∑p a1j Xj combinazione lineare
In forma vettoriale:
C̄1 = X̄(u×1) ā1 [ a11 a12 ... a1p ]
max Var(C1) ā1T ā1 = 1 vettore normalizzato, è un vincolo se uso la soluzione precedente altrimenti dopo calcolabili
Var(C1) = Var(j=1∑p a1j Xj) = j=1∑p j=1∑p-1 a1j σ1 σ̄1 cov(Xj, Xs) = ā1T Σ ā1
λ1: max V(C1) = ā1T Σ ā1 = λ1 ā1T ā1
Tema
Uso il metodo di lagnare → devo minimizzare V max V = Σ ā1T Σ ā1 - λ(ā1T ā1 - 1)
δV/δā1 = 2 Σ ā1 - 2 λ ā1 = 0
δV/δλ = (ā1T ā1 -1) = 0
Σ - λĪp ā1 = 0 sistema lineare omogeneo di p equazioni in p incognite
CONDIZIONE NECESSARIA SUFFICIENTE
perché ci sia soluzione non banale è che det(Σ - Īp) = 0
questa è l'equazione caratteristica di Σ le cui p radici (eventualmente coincidenti) sono gli autovalori di Σ
RICHIAMIAMO
Σ è una matrice simmetrica 1. gli autovalori sono reali (nuc necessariamente distinti) 2. autovettori corrispondenti ad autovalori distinti sono ortogonali 3. se m autovalori ha molteplicità 1 n1 è possibile scegliere un insieme di m autovettori tali autovettori sono dimensionalmente ortogonali sono ortogonali
CP1 = 0,8269 . 5 + 0,5625 . 6 = 7,51
CP2 = 0,8269 . 8 + 0,5625 . 6 = 9,99
CP3 = 0,8269 . 9 + 0,5625 . 7 = 11,38
CP4 = 0,8269 . 2 + 0,5625 . 5 = 4,47
CP5 = 0,8269 . 4 + 0,5625 . 4 = 5,56
CP6 = 0,8269 . 3 + 0,5625 . 5 = 5,29
CP8 = 0,8269 . 8 + 0,5625 . 7 = 11,68
CP8 = 0,8269 . 5 + 0,5625 . 7 = 8,07
CP9 = 0,8269 . 6 + 0,5625 . 8 = 9,46
CP10 = 0,8269 . 3 + 0,5625 . 3 = 4,17
In forma tabellare
| x1 | x2 | CP |
| -- | -- | --- |
| 5 | 6 | 7.51|
| 8 | 6 | 9.99|
| 9 | 7 | 11.38|
| 2 | 5 | 4.47|
| 4 | 4 | 5.56|
| 3 | 5 | 5.29|
| 8 | 9 | 11.68|
| 5 | 7 | 8.07|
| 6 | 8 | 9.46|
| 3 | 3 | 4.17|
(B) METODO GEOMETRICO
Retta di regressione con il metodo dei minimi quadrati
∑ = a + b x1
S = ∑ (x2 - (a + b x1))
d2(P, Q) = d2 (P, O) - d2 (O, Q)
= - < ∑ ai>2 (< ∑ Ci ai)2
Siano Ci e ci i coseni direzionali di P e Q quindi
∑ ai = d ci
∑ (i=1) 2aici = d< ∑ Ci ai2 = d
cos(α) = ∑ Đ> ci ci = Đ> ci ai
1/d ∑ ai ci
cos(α) = d(O, Q) - d(OP)
- d(O, P)
cos(O, Q) = ∑ai ci