Analisi delle Componenti Principali
- È una tecnica matematica non statistica
- Si applica solamente a variabili di tipo quantitativo e comunque su scale; è sconsigliato su scale variabili dicotomiche e disgiunte
- Per le qualitative effettuiamo l'analisi delle corrispondenze
Scopo: Ridurre il numero di variabili limitando la perdita di informazione attraverso "poche" variabili non osservabili e non correlate tra loro
Partiamo da un insieme di variabili Xj di dimensione p e dobbiamo arrivare ad un numero q q q q, in modo che la perdita di informazione sia il minimo possibile e le q componenti principali (CP) non devono essere osservabili e non correlate.
I vettori componenti principali sono costruite come combinazione lineare delle variabili osservate Xj in modo tale da riproporre un proporzione massima di variabilità totale che spiega tra le componenti principali: le righe sono combinazioni lineari e hanno la proprietà di farsi proiezioni ortogonali l'una con l'altra (si deduce che un nuovo paragrafo di variabili troffa
CP1 → un'uguale porzione di variabili' totale pesante'
CP2 → un'uguale porzione di variabili' totale pesante'
sono tutte incolerete e si volano in modo crescente.
Geometricamente
Sistene di punti IRp e si vuole proiettare ciascun punto dell' insieme X su uno spazio affine di dimensione q q p in modo che che la nuvola dei punti sia sdramatta il meno possibile.
Esempio
Tra X1 e X2 ho una forte correlazione lineare (coinvolisendo lineare)
Riesto a riassumere, con una bassissima perdita informativa, utilizzando una sola dimensione anziché due.
Se ho una situazione di questo tipo:
Le CP può invece portato in nessuna sinvesi dei dati, poè colpa dei dati
ANALISI delle COMPONENTI PRINCIPALI
- È una tecnica matematica non statistica
- Si applica solamente a variabili di tipo quantitativo e comunemente su scale; è sconsigliato su scale variabili dicotomiche e discontinue per le qualitative effettuiamo l’analisi delle corrispondenze.
SCOPO: Ridurre il numero di variabili limitando la perdita di informazione attraverso "poche" variabili non osservabili e non correlate tra loro
Partiamo da un insieme di variabili Xj di dimensione p e dobbiamo arrivare ad un numero q < p, in modo che la perdita di informazione sia il minore possibile e le q componenti principali (CP) una devono essere osservabili e non correlate.
I nuovi componenti principali sono costruite come combinazione lineare delle variabili osservate Xj in modo da riprodurre le proporzione massima di variabilità totale. Le faqnto tra le componenti principali, le q sono basate sulla linea e hanno la coorte di fornire risponsi angusti (andamento lineale) e sono detti il maggiore perare di variabilità totale
CP1 — rapporto porzione di variabilità totale pestanteCP2 — rapporto porzione di variabilità totale pestante
Sono tutte incomplete e si svolgono in modo crescente
GEOMETRICAMENTE
Dato un insieme di punti Rp si vuole proiettare ciascun punto dell’insieme X su uno spazio affine di dimensione g < p in modo che le nuvole dei punti sia deformata il meno possibile.
ESEMPIO
tra X1 e X2 ho una forte correlazione lineeare (accudimento lineare)
Risca realizzando, con una bassissima perdita informativa, utilizzando uno solo dimensionale aggiuntivo cioè
Se ho una situazione di questo tipo:
le CP una puno portato a nessuno sintesi dei dati, poi è colpa dei dati
COME DETERMINARE LE COMPONENTI PRINCIPALI
(A) METODO ANALITICO (metodo francese)
X(uxp) → Cj tali che COV(Ci, Cj) = 0 e
spieghino la maggior parziale di variabilità totale
Σuj=1 σj2 = Σpj=1 VAR(xj)
COMPONENTI PRINCIPALI:
C1 = α11 X1 + α12 X2 + ... + α1p Xp = Σpj=1 α1j xj
combinazione lineare
In forma vettoriale: c1 = X(ux1) α1
α1 = [α11 α12 ... α1p]T
max αVα(C1)
vincolo αΣ1α = 1
vetore normalizzato, è unitario se e solo se la combinazione precedente avviene con
Vα(C1) = Vα(Σpj=1 α1j xj)
= Σpj=1 Σps=1 α1jΣ1s COV (XjXs)
= ΣjΣ1α1j
V(pxp) Σpx1Σpx1
CONDIZIONE NECESSARIA E SUFFICIENTE
perché ci sia soluzione non banale è che
det (Σ1 - Ip) = 0
questa è l'equazione caratteristica di Σ
RICHIAMIAMO
Σ è una matrice simmetrica
- gli autovalori sono reali (non necessariamente distinti)
- a autovalori corrispondono a autovettori distinti, sono ortogonali
- se m autovalori, ho molteplicità, m ≤ t è possibile scegliere un m-lisce tale che t autovettori sono altri ortogonali
- Prima componente principale
λ1 : max V(C1) = ΣTΣ1Σj=1
ΣTΣ1Σ1j
autovalore max ∑ coincide con la varianza della prima componente principale se
λ₁ ∑j=1p λj = % di variabilità spiegato da CP1
Com'è la seconda CP?
C₂ = ∑j=1p a2j xj → C₂ = X a₂ tale che
(1) Var (C₂) max stesse della C₁
a₂T ∑ a₂ = 1
Cov (C₁, C₂) = 0
Cov (C₁, C₂) = 1/m C₁T C₂ = 1/m (X a₁)T (X a₂) =
= 1/m a₁T XT X a₂ = a₁T ∑ a₂ = a₁T ∑l=11 (a₁T a₂)
a₁T ∑ a₁ = 1 →
Cov (C₁, C₂) = a₁T ∑ a₂ = 0
quindi a₁ e a₂ sono tra loro ortogonali
Ritornando al sistema (1)
a₂T ∑ a₂ - λ₂ (a₂T ∑ a₂ - 1) - μ (a₁T a₂) = 0
∂V/∂a₂₁ = 2∑ a₂ - 2λ₂ a₂ - μ a₁ = 0
∂V/∂λ₂ = a₂T a₂ - 1 = 0
∂V/∂μ = a₁T a₂ = 0 vincolazione
{ λ₂ è l'autovalore della seconda CP
{ λ₃ è l'autovalore della 3° CP
{ associato a a₂ e ortogonale a a₁
Per tutte le CP si procede analogamente.
Generalmente si avrà
λj = Var (cj)
ajT aj = 1
ajT as = 0
j|s = 1...p
λ₁ ≥ λ₂ ≥ ... ≥ λp
le CP sono ordinate in ordine di variabilità spiegata
la procedura si può iterare al massimo p volte perché X ha rango p
le CP hanno varianza λk e così creiamo
Σc = [ λ₁ 0 ] = Dλ
[ 0 λp ]
A = [Θ1, ..., Θp] C = [c1, ..., cp]
C = X A
(u x p) uxp uxp p x p
Σx A = A∙D1
AT A = I
quindi
D1 = 1/m CT C = 1/m ( XT )( X A ) = 1/m AT XT X A =
= AT Σx A = AT A D1 = D1
A diagonalizza Σ
La varianza totale e la varianza generalizzata delle cp coincidono con quelle delle variabili precedenti cioè
a Σ Vαr (Cj) = Σ Vαr (Xj) = Σλj
j=1 j=1
perché
Σ Vαr (Cj) = Σλj = tr (D1) = tr (AT Σx A) =
= tr (AT A Σ) = tr (Σ)
a varianza generalizzata
det (D1) = det (Σx)
|D1| = Π λj = |AT Σx A| = |AT| |Σx| |A| =
= |AT A| |Σx| = |Σx|
In pratica le X1 e X2 vengono trasformate in C1 e C2 e la variabilità dei dati viene toccata
(diagram)
Se standardizzo le mie variabili zj: cioè passo a zj, si diagonalizza Σz = R
R = [1 1]
ρ
[1 ρj]
Σ Vαr (zj) = ρ
CP = ρ1 x1 + ρ2 x2 +... + ρp xp
ESEMPIO
10 Bambini
X1 = memoria visiva (punteggio 1-10)
X2 = memoria motitiva (punteggio 1-10)
X =
CENTROIDE
μ = [5.5 6]
Σ =
det (Σ - λ1I) = 0
R =
- 5,21 - λ1 (3 - λ1) - 2,82 = 0
λ12 - 8,21 λ1 + 7,79 = 0
λ1,2 =
Ho due autovalori
Vαr (C4) = λ1 = 7,105
Vαr (C2) = λ2 = 1,095
(Σ - λ1I) z1 = 0
VINCULO
Sotto il vincolo trovo la soluzione:
z11 = 0,8269
z21 = 0,5625
CP1 = 0,8269 x1 + 0,5625 x2
V(CP1) = λ1 = 7,105
% varianza spiegata =
= 0,8666 = 86%
La prima CP mi spiega più dell'86% della varianza totale
CP1 = 0.8269 · 5 + 0.5625 · 6 = 7.51
CP2 = 0.8269 · 8 + 0.5625 · 6 = 9.99
CP3 = 0.8269 · 9 + 0.5625 · 7 = 11.38
CP4 = 0.8269 · 2 + 0.5625 · 5 = 4.47
CP5 = 0.8269 · 4 + 0.5625 · 4 = 5.56
CP6 = 0.8269 · 3 + 0.5625 · 5 = 5.29
CP7 = 0.8269 · 8 + 0.5625 · 9 = 11.68
CP8 = 0.8269 · 5 + 0.5625 · 7 = 8.07
CP9 = 0.8269 · 6 + 0.5625 · 8 = 9.46
CP10 = 0.8269 · 3 + 0.5625 · 3 = 4.17
In forma tabellare
x1x2CP567.51869.999711.38254.47445.56355.298911.68578.07689.46334.17(B) METODO GEOMETRICO
Rette di regressione con metodo dei minimi quadrati
Siamo Ci e ci i coseni direzionali di P e Q quindi
d²(P, Q) = d²(P, o) - d²(Q, o)
d²(P, o) = ∑i=1n Ci²
d²(Q, o) = ∑i=1n diCi²
cos(α) = ∑i=1n ciCi / ∑i=1n diCi = P/d
cos(α) = d(o, Q) / d(o, P) = d(o, P)/d = ∑2ici
d²(P;Q) = ∑i=1 r [∑j=1 M (aj - μ)2 - ∑(ãi - μ)ai2]
Consideriamo un generico individuo Xj, allora
S = m/N ∑i=1 r ∑j=1 M (Xj - μ)2 [∑j=1 M (Xj - μ)Cj2]
... rispetto ad un generico punto μ (ui).
adesso devo minimizzare le totto rispetto a m.
dS/dμ = ∑i=1 N (Xj - μ) + ∑i=1 M (Xj - Cj)Cj = 0
quindi sarà soluzione è dato da μ = M(X)
X̄j = Xj - μ
S = m ∑i=1 r Gj2 (∑i=1 m (X̄j - Cj)2 sotto il vucuco
∑i=1 N Cj2 = 1
devo minimizzare S rispetto a Cj sotto le vucco e significa applicare lagrange
min gS∑i=1 N Cj2 = 1 lagrangiana S - ∧(∑Cj2 - 1)
∂S - ∧(∑Cj2 - 1) = 0 ......∑j=1 m Cj μ Gm + 2 λCk = 0
∑c = λc ∑ XX=1,...p
minimi quadrati sulle distanze
ýi = aij x1 + axj x
{∑A = AD1 AΛA = I
Όj = Vαi (ýi j) λj λ1 ≥ λ2 ... ≥ λp
∑j=1 p λj = ∑j=1 p τότεσ
Il problema dal punto di vista operativo è la scelta delnumero delle componenti cioè la scelta dell'arnestoquindi devo scegliere le CP junigioni che devonospiegore il più possibile della variance totdo cioè la di
∑j=1 j λj
deve essere più "grande" possibile
Non esiste un criterio principale per scegliere le vieie componenti
CRITERI
1) 9
-
Data Mining- Analisi in Componenti Principali
-
Appunti Analisi dei dati
-
Analisi multivariata
-
Appunti di Analisi esplorativa - Analisi statistica multivariata