Analisi delle Componenti Principali

Esame Analisi Statistica Multivariata

Facoltà Scienze statistiche

Dal corso del Prof. Migliorati Sonia

Università Università degli Studi di Milano - Bicocca

Appunto

5,0 / 5 (1)

Scarica

Appunti di Analisi Statistica Multivariata sull'analisi delle componenti principali. Appunti basati su appunti personali del publisher presi alle lezioni della prof. Migliorati dell’università degli Studi di Milano Bicocca - Unimib. Scarica il file in formato PDF!

…continua

Anteprima

Vedrai una selezione di 3 pagine su 10

Analisi delle Componenti Principali Pag. 1

Analisi delle Componenti Principali Pag. 2

Anteprima di 3 pagg. su 10.
Scarica il documento per vederlo tutto.

Scarica

Analisi delle Componenti Principali Pag. 6

Disdici quando
vuoi

Acquista con carta
o PayPal

Scarica i documenti
tutte le volte che vuoi

Estratto del documento

ANALISI delle COMPONENTI PRINCIPALI

È una tecnica matematica non statistica
Si applica solamente a variabili di tipo quantitativo e comunque su scale; si scalabilizzano su scale variabili dicotomiche e diusuale
Per le qualitative effettuorono l'analisi delle consipovenze derivate

Scopo: Ridurre il numero di variabili limitando la perdita di informazione attraverso "poche" variabili non osservabili e poi concrete tra loro

Partiamo da un insieme di variabili X_j di dimensioni p e dobbiamo arrivare ad un numero q < p, in modo che la perdita di informazione sia il più possibile e le q componenti principali (CP) non devono essere osservabili e concrete tra loro.

Le variabili componenti principali sono costruite come combinazioni lineare delle variabili osservate X_j in un modo tale che le proiezioni su spazio affini che propongono le componimenti principali, in sovrapposizione sui comuni lineali e hanno lo scopo di far rispondere, con facili probabilità originatrici, ai fondi coincidenti delle misurazione dei variabili.

CP₁ - una proporzione di variabilità totale pesature
CP₂ - una proporzione di variabilità totale pesature

Sovrapporre incrociare se sono in modo crescente

GEOMETRICAMENTE

Insieme di punti IR^p, si vuole proiettare ciascun punto dell’insieme X su uno spazio affinie a dimensione q < p in modo che le nuvole dei punti sia deformata il meno possibile.

ESEMPIO p=2, tra X₁e X₂ ho un forte correlazione lineare (andamento lineare)

Il punto Y_a prendere la proiezione ortogonale sulla retta -> competente principale

Riesco a riassumere, con una bonissima perlitas informativa, utilizzando uno solo dimensione anziché due.

Se ho una situazione di questo tipo:

le CP hanno portato a nessuna sintesi dei dati, ciò è colpa dei dati

COME DETERMINARE LE COMPONENTI PRINCIPALI

(A) METODO ANALITICO (metodo francese)

X̄_(u×p) → C̄_j tali che cov(C_i, C_j) = 0 e spiegino la maggiore parte della variabilità totale _j=1∑^p σ̄_j² = _j=1∑^p Var(x_j)

COMPONENTI PRINCIPALI:

C₁ = a₁₁ X₁ + a₁₂ X₂ + ... + a_1p X_p = _j=1∑^p a_1j X_j combinazione lineare

In forma vettoriale:

C̄₁ = X̄_(u×1) ā₁ [ a₁₁ a₁₂ ... a_1p ]

max Var(C₁) ā₁^T ā₁ = 1 vettore normalizzato, è un vincolo se uso la soluzione precedente altrimenti dopo calcolabili

Var(C₁) = Var(_j=1∑^p a_1j X_j) = _j=1∑^p _j=1∑^p-1 a_1j σ₁ σ̄₁ cov(X_j, X_s) = ā₁^T Σ ā₁

λ₁: max V(C₁) = ā₁^T Σ ā₁ = λ₁ ā₁^T ā₁

Tema

Uso il metodo di lagnare → devo minimizzare V max V = Σ ā₁^T Σ ā₁ - λ(ā₁^T ā₁ - 1)

δV/δā₁ = 2 Σ ā₁ - 2 λ ā₁ = 0

δV/δλ = (ā₁^T ā₁ -1) = 0

Σ - λĪ_p ā₁ = 0 sistema lineare omogeneo di p equazioni in p incognite

CONDIZIONE NECESSARIA SUFFICIENTE

perché ci sia soluzione non banale è che det(Σ - Ī_p) = 0

questa è l'equazione caratteristica di Σ le cui p radici (eventualmente coincidenti) sono gli autovalori di Σ

RICHIAMIAMO

Σ è una matrice simmetrica 1. gli autovalori sono reali (nuc necessariamente distinti) 2. autovettori corrispondenti ad autovalori distinti sono ortogonali 3. se m autovalori ha molteplicità 1 n1 è possibile scegliere un insieme di m autovettori tali autovettori sono dimensionalmente ortogonali sono ortogonali

CP1 = 0,8269 . 5 + 0,5625 . 6 = 7,51

CP2 = 0,8269 . 8 + 0,5625 . 6 = 9,99

CP3 = 0,8269 . 9 + 0,5625 . 7 = 11,38

CP4 = 0,8269 . 2 + 0,5625 . 5 = 4,47

CP5 = 0,8269 . 4 + 0,5625 . 4 = 5,56

CP6 = 0,8269 . 3 + 0,5625 . 5 = 5,29

CP8 = 0,8269 . 8 + 0,5625 . 7 = 11,68

CP8 = 0,8269 . 5 + 0,5625 . 7 = 8,07

CP9 = 0,8269 . 6 + 0,5625 . 8 = 9,46

CP10 = 0,8269 . 3 + 0,5625 . 3 = 4,17

In forma tabellare

| x1 | x2 | CP |

| -- | -- | --- |

| 5 | 6 | 7.51|

| 8 | 6 | 9.99|

| 9 | 7 | 11.38|

| 2 | 5 | 4.47|

| 4 | 4 | 5.56|

| 3 | 5 | 5.29|

| 8 | 9 | 11.68|

| 5 | 7 | 8.07|

| 6 | 8 | 9.46|

| 3 | 3 | 4.17|

(B) METODO GEOMETRICO

Retta di regressione con il metodo dei minimi quadrati

∑ = a + b x₁

S = ∑ (x₂ - (a + b x₁))

d²(P, Q) = d² (P, O) - d² (O, Q)

= - < ∑ a_i>² (< ∑ C_i a_i)²

Siano C_i e c_i i coseni direzionali di P e Q quindi

∑ a_i = d c_i

∑ (i=1) 2a_ic_i = d< ∑ C_i a_i² = d

cos(α) = ∑ Đ> c_i c_i = Đ> c_i a_i

1/d ∑ a_i c_i

cos(α) = d(O, Q) _- d(OP)

_- d(O, P)

cos(O, Q) = ∑a_i c_i

Dettagli

Publisher

ile.87

A.A. 2017-2018

10 pagine

1 download

SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher ile.87 di informazioni apprese con la frequenza delle lezioni di Analisi Statistica Multivariata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Migliorati Sonia.