Estratto del documento

Analisi delle Componenti Principali

  • È una tecnica matematica non statistica
  • Si applica solamente a variabili di tipo quantitativo e comunque su scale; è sconsigliato su scale variabili dicotomiche e disgiunte
  • Per le qualitative effettuiamo l'analisi delle corrispondenze

Scopo: Ridurre il numero di variabili limitando la perdita di informazione attraverso "poche" variabili non osservabili e non correlate tra loro

Partiamo da un insieme di variabili Xj di dimensione p e dobbiamo arrivare ad un numero q q q q, in modo che la perdita di informazione sia il minimo possibile e le q componenti principali (CP) non devono essere osservabili e non correlate.

I vettori componenti principali sono costruite come combinazione lineare delle variabili osservate Xj in modo tale da riproporre un proporzione massima di variabilità totale che spiega tra le componenti principali: le righe sono combinazioni lineari e hanno la proprietà di farsi proiezioni ortogonali l'una con l'altra (si deduce che un nuovo paragrafo di variabili troffa

CP1 → un'uguale porzione di variabili' totale pesante'

CP2 → un'uguale porzione di variabili' totale pesante'

sono tutte incolerete e si volano in modo crescente.

Geometricamente

Sistene di punti IRp e si vuole proiettare ciascun punto dell' insieme X su uno spazio affine di dimensione q q p in modo che che la nuvola dei punti sia sdramatta il meno possibile.

Esempio

Tra X1 e X2 ho una forte correlazione lineare (coinvolisendo lineare)

Riesto a riassumere, con una bassissima perdita informativa, utilizzando una sola dimensione anziché due.

Se ho una situazione di questo tipo:

Le CP può invece portato in nessuna sinvesi dei dati, poè colpa dei dati

ANALISI delle COMPONENTI PRINCIPALI

- È una tecnica matematica non statistica

- Si applica solamente a variabili di tipo quantitativo e comunemente su scale; è sconsigliato su scale variabili dicotomiche e discontinue per le qualitative effettuiamo l’analisi delle corrispondenze.

SCOPO: Ridurre il numero di variabili limitando la perdita di informazione attraverso "poche" variabili non osservabili e non correlate tra loro

Partiamo da un insieme di variabili Xj di dimensione p e dobbiamo arrivare ad un numero q < p, in modo che la perdita di informazione sia il minore possibile e le q componenti principali (CP) una devono essere osservabili e non correlate.

I nuovi componenti principali sono costruite come combinazione lineare delle variabili osservate Xj in modo da riprodurre le proporzione massima di variabilità totale. Le faqnto tra le componenti principali, le q sono basate sulla linea e hanno la coorte di fornire risponsi angusti (andamento lineale) e sono detti il maggiore perare di variabilità totale

CP1 — rapporto porzione di variabilità totale pestanteCP2 — rapporto porzione di variabilità totale pestante

Sono tutte incomplete e si svolgono in modo crescente

GEOMETRICAMENTE

Dato un insieme di punti Rp si vuole proiettare ciascun punto dell’insieme X su uno spazio affine di dimensione g < p in modo che le nuvole dei punti sia deformata il meno possibile.

ESEMPIO

tra X1 e X2 ho una forte correlazione lineeare (accudimento lineare)

Risca realizzando, con una bassissima perdita informativa, utilizzando uno solo dimensionale aggiuntivo cioè

Se ho una situazione di questo tipo:

le CP una puno portato a nessuno sintesi dei dati, poi è colpa dei dati

COME DETERMINARE LE COMPONENTI PRINCIPALI

(A) METODO ANALITICO (metodo francese)

X(uxp) → Cj tali che COV(Ci, Cj) = 0 e

spieghino la maggior parziale di variabilità totale

Σuj=1 σj2 = Σpj=1 VAR(xj)

COMPONENTI PRINCIPALI:

C1 = α11 X1 + α12 X2 + ... + α1p Xp = Σpj=1 α1j xj

combinazione lineare

In forma vettoriale: c1 = X(ux1) α1

α1 = [α11 α12 ... α1p]T

max αVα(C1)

vincolo αΣ1α = 1

vetore normalizzato, è unitario se e solo se la combinazione precedente avviene con

Vα(C1) = Vαpj=1 α1j xj)

= Σpj=1 Σps=1 α1jΣ1s COV (XjXs)

= ΣjΣ1α1j

V(pxp) Σpx1Σpx1

CONDIZIONE NECESSARIA E SUFFICIENTE

perché ci sia soluzione non banale è che

det (Σ1 - Ip) = 0

questa è l'equazione caratteristica di Σ

RICHIAMIAMO

Σ è una matrice simmetrica

  • gli autovalori sono reali (non necessariamente distinti)
  • a autovalori corrispondono a autovettori distinti, sono ortogonali
  • se m autovalori, ho molteplicità, m ≤ t è possibile scegliere un m-lisce tale che t autovettori sono altri ortogonali
    • λ1 : max V(C1) = ΣTΣ1Σj=1

      ΣTΣ1Σ1j

      autovalore max ∑ coincide con la varianza della prima componente principale se

      λ₁ ∑j=1p λj = % di variabilità spiegato da CP1

      Com'è la seconda CP?

      C₂ = ∑j=1p a2j xj → C₂ = X a₂ tale che

      (1) Var (C₂) max stesse della C₁

      a₂T ∑ a₂ = 1

      Cov (C₁, C₂) = 0

      Cov (C₁, C₂) = 1/m C₁T C₂ = 1/m (X a₁)T (X a₂) =

      = 1/m a₁T XT X a₂ = a₁T ∑ a₂ = a₁Tl=11 (a₁T a₂)

      a₁T ∑ a₁ = 1 →

      Cov (C₁, C₂) = a₁T ∑ a₂ = 0

      quindi a₁ e a₂ sono tra loro ortogonali

      Ritornando al sistema (1)

      a₂T ∑ a₂ - λ₂ (a₂T ∑ a₂ - 1) - μ (a₁T a₂) = 0

      ∂V/∂a₂₁ = 2∑ a₂ - 2λ₂ a₂ - μ a₁ = 0

      ∂V/∂λ₂ = a₂T a₂ - 1 = 0

      ∂V/∂μ = a₁T a₂ = 0 vincolazione

      { λ₂ è l'autovalore della seconda CP

      { λ₃ è l'autovalore della 3° CP

      { associato a a₂ e ortogonale a a₁

      Per tutte le CP si procede analogamente.

      Generalmente si avrà

      λj = Var (cj)

      ajT aj = 1

      ajT as = 0

      j|s = 1...p

      λ₁ ≥ λ₂ ≥ ... ≥ λp

      le CP sono ordinate in ordine di variabilità spiegata

      la procedura si può iterare al massimo p volte perché X ha rango p

      le CP hanno varianza λk e così creiamo

      Σc = [ λ₁ 0 ] = Dλ

      [ 0 λp ]

      A = [Θ1, ..., Θp]      C = [c1, ..., cp]

      C = X A

      (u x p)       uxp       uxp     p x p

      Σx A = A∙D1

      AT A = I

      quindi

      D1 = 1/m CT C = 1/m ( XT )( X A ) = 1/m AT XT X A =

      = AT Σx A = AT A D1 = D1

      A diagonalizza Σ

      La varianza totale e la varianza generalizzata delle cp coincidono con quelle delle variabili precedenti cioè

      a  Σ Vαr (Cj) = Σ Vαr (Xj) = Σλj

        j=1    j=1

      perché

      Σ Vαr (Cj) = Σλj = tr (D1) = tr (AT Σx A) =

      = tr (AT A Σ) = tr (Σ)

      a varianza generalizzata

      det (D1) = det (Σx)

      |D1| = Π λj = |AT Σx A| = |AT| |Σx| |A| =

      = |AT A| |Σx| = |Σx|

      In pratica le X1 e X2 vengono trasformate in C1 e C2 e la variabilità dei dati viene toccata

      (diagram)

      Se standardizzo le mie variabili zj: cioè passo a zj, si diagonalizza Σz = R

      R = [1   1]

           ρ

      [1   ρj]

      Σ Vαr (zj) = ρ

      CP = ρ1 x1 + ρ2 x2 +... + ρp xp

      ESEMPIO

      10 Bambini

      X1 = memoria visiva (punteggio 1-10)

      X2 = memoria motitiva (punteggio 1-10)

      X =

      CENTROIDE

      μ = [5.5 6]

      Σ =

      1. Prima componente principale

      det (Σ - λ1I) = 0

      R =

      - 5,21 - λ1 (3 - λ1) - 2,82 = 0

      λ12 - 8,21 λ1 + 7,79 = 0

      λ1,2 =

      Ho due autovalori

      Vαr (C4) = λ1 = 7,105

      Vαr (C2) = λ2 = 1,095

      (Σ - λ1I) z1 = 0

      VINCULO

      Sotto il vincolo trovo la soluzione:

      z11 = 0,8269

      z21 = 0,5625

      CP1 = 0,8269 x1 + 0,5625 x2

      V(CP1) = λ1 = 7,105

      % varianza spiegata =

      = 0,8666 = 86%

      La prima CP mi spiega più dell'86% della varianza totale

      CP1 = 0.8269 · 5 + 0.5625 · 6 = 7.51

      CP2 = 0.8269 · 8 + 0.5625 · 6 = 9.99

      CP3 = 0.8269 · 9 + 0.5625 · 7 = 11.38

      CP4 = 0.8269 · 2 + 0.5625 · 5 = 4.47

      CP5 = 0.8269 · 4 + 0.5625 · 4 = 5.56

      CP6 = 0.8269 · 3 + 0.5625 · 5 = 5.29

      CP7 = 0.8269 · 8 + 0.5625 · 9 = 11.68

      CP8 = 0.8269 · 5 + 0.5625 · 7 = 8.07

      CP9 = 0.8269 · 6 + 0.5625 · 8 = 9.46

      CP10 = 0.8269 · 3 + 0.5625 · 3 = 4.17

      In forma tabellare

      x1x2CP567.51869.999711.38254.47445.56355.298911.68578.07689.46334.17

      (B) METODO GEOMETRICO

      Rette di regressione con metodo dei minimi quadrati

      Siamo Ci e ci i coseni direzionali di P e Q quindi

      d²(P, Q) = d²(P, o) - d²(Q, o)

      d²(P, o) = ∑i=1n Ci²

      d²(Q, o) = ∑i=1n diCi²

      cos(α) = ∑i=1n ciCi / ∑i=1n diCi = P/d

      cos(α) = d(o, Q) / d(o, P) = d(o, P)/d = ∑2ici

      d²(P;Q) = ∑i=1 r [∑j=1 M (aj - μ)2 - ∑(ãi - μ)ai2]

      Consideriamo un generico individuo Xj, allora

      S = m/N ∑i=1 rj=1 M (Xj - μ)2 [∑j=1 M (Xj - μ)Cj2]

      ... rispetto ad un generico punto μ (ui).

      adesso devo minimizzare le totto rispetto a m.

      dS/dμ = ∑i=1 N (Xj - μ) + ∑i=1 M (Xj - Cj)Cj = 0

      quindi sarà soluzione è dato da μ = M(X)

      j = Xj - μ

      S = m ∑i=1 r Gj2 (∑i=1 m (X̄j - Cj)2 sotto il vucuco

      i=1 N Cj2 = 1

      devo minimizzare S rispetto a Cj sotto le vucco e significa applicare lagrange

      min gS∑i=1 N Cj2 = 1 lagrangiana S - ∧(∑Cj2 - 1)

      ∂S - ∧(∑Cj2 - 1) = 0 ......∑j=1 m Cj μ Gm + 2 λCk = 0

      c = λc ∑ XX=1,...p

      minimi quadrati sulle distanze

      ýi = aij x1 + axj x

      {∑A = AD1 AΛA = I

      Όj = Vαii j) λj λ1 ≥ λ2 ... ≥ λp

      j=1 p λj = ∑j=1 p τότεσ

      Il problema dal punto di vista operativo è la scelta delnumero delle componenti cioè la scelta dell'arnestoquindi devo scegliere le CP junigioni che devonospiegore il più possibile della variance totdo cioè la di

      j=1 j λj

      deve essere più "grande" possibile

      Non esiste un criterio principale per scegliere le vieie componenti

      CRITERI

      1) 9

Anteprima
Vedrai una selezione di 3 pagine su 10
Analisi delle Componenti Principali Pag. 1 Analisi delle Componenti Principali Pag. 2
Anteprima di 3 pagg. su 10.
Scarica il documento per vederlo tutto.
Analisi delle Componenti Principali Pag. 6
1 su 10
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher ile.87 di informazioni apprese con la frequenza delle lezioni di Analisi Statistica Multivariata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Migliorati Sonia.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community