Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
P P P P
λ λ λ λ
k k k k
= = = = (38)
k 1 k 1 k 1 k 1
2. Teniamo in analisi gli autovalori > 1
Se estraiamo c.p da R matrice di correlazione ciascuna variabile ha varianza = 1 e 1 è anche
x
il valore della varianza media di ogni autovalore. Per come si sono costruite le c.p. si ha:
λ λ λ
...
1 2 p (39)
Perciò si trattengono le c.p. a cui corrispondono autovalori > 1 secondo la cosiddetta regola
di Kaiser. Nel nostro esempio con tale metodo si trattengono le prime due componenti
principali.
3. Criterio dello Scree Plot (gomito)
Spezzata discendente: sono importanti le k c.p. tali per cui tra k e k+1 si manifesta una brusca
variazione della pendenza, cioè la varianza aggiunta dalla componente y a quella spiegata
k+1
dalle c.p. y -y è trascurabile. Nel nostro esempio le c.p. ritenute importanti sono 3.
1 k
Interpretazione delle componenti principali
→Contributi assoluti delle c.p. (peso di ciascuna varibaile xj alla costruzione della c.p.)
È possibile capire il peso con cui ciascuna variabile x ha contribuito alla costruzione della c.p. y
j s
mediante la valutazione del suo contributo assoluto alla spiegazione di y partendo dal fatto che gli
s
= + + + + =
α α α α α 1
' 2 2 2
s s s 1 sj sp
autovettori sono a norma unitaria: (40)
s
e quindi il generico elemento è il contributo assoluto della variabile x alla spiegazione della c.p.
j
y che può variare tra un minimo di 0 e un massimo di 1.
s
→Contributi relativi delle c.p. (quota di varianza di x riprodotta dalla componente principale y )
j s
Si è visto che le c.p. sono costruite con l’obiettivo di spiegare quote maggiori possibili della varianza
totale di un insieme di p variabili osservate x poiché da (37):
j
p p p
= = = =
σ λ σ tr( )
2 2
tr(
S ) L
x x s y
u s
= = =
u 1 s 1 s 1
Se invece di considerare tutte le p c.p. si considerano solo le prime q. si approssima la varianza
totale come in (38) m
λ
+ +
+ λ .... λ
λ λ λ k
= −
=
1 m
1 1 2 k 1
, ,..., *100 75 80%, m p
P P P P
λ λ λ λ
k k k k
= = = =
k 1 k 1 k 1 k 1
Coefficiente di correlazione tra y e X
s
Sia dato (45): Cov (y ,X)=(1/n)(y ,X’)=1/n( α XX’)=α (1/n)(XX’)=α S = α λ
s s s s s x s s
-1/2 -1/2 -1/2
Da cui si ottiene: Cor(y ,X)=(α λ /√λ )diag(S )) =(α √λ )(D ) =(α √λ )(D ) (46)
s s s s x s s x s s x
Con variabili standardizzate: Cor(y ,X)=α √λ (47)
s s s
vettore dei coefficienti di correlazione tra la c.p. y e le variabili X ove α √λ è il coefficiente di correlazione
s j js s
tra la s-esima c.p. y e la j-esima variabile x .
s j
La matrice di correlazione tra le c.p. e le variabili di partenza è detta: "struttura delle c.p.
Manteniamo le prime tre c.p. come
suggerito dalla regola di arresto
precedentemente illustrata.
In grassetto vengono evidenziati i
coefficienti di correlazione più elevati in
valore assoluto.
Entro ogni colonna, le celle colorate
indicano coefficienti di correlazione in
valore assoluto maggiori di 0.4.
PrinC = indicatore variabili fisiologiche
1
PrinC = indicatore dell’età
2
PrinC = indicatore del peso
3
Cerchio di correlazione
Si osservi la posizione relativa delle diverse variabili nel piano cartesiano le cui ascisse e coordinate
sono i primi 2 assi principali.
❑ Una prima interpretazione si ha osservando i punti contrapposti agli estremi del piano
cartesiano.
❑ Un secondo modo di lettura degli assi è determinabile osservando la proiezione dei punti
asse per asse.
In questo esempio si parte da 7 variabili (pre-esistono delle variabili osservate e si devono
sintetizzare), si riducono a 3 [con la costruzione delle componenti principali perché si osserva che
con tre variabili si riesce ad avere l’80% della variabilità complessiva+, non sono cause ma sono
trasformate lineari ci dicono, partendo dagli autovettori, i legami che ci sono con le variabili di
partenza (contributi assoluti). I risultati ci dicono che in questa palestra chi è pesante fa fatica a
correre e si contrappone con quelli giovani. Le correlazioni costruite con le componenti principali
permettono di vedere il legame delle variabili tenendo conto complessivamente del covariare di
tutte le variabili, non ha un valore causale però, non è un modello e non ci sono variabili dipendenti
e variabili indipendenti.
Considerando nel cerchio delle correlazioni le vicinanze e le distanze tra le variabili di partenza sulla
base della loro correlazioni con le c.p., si tiene conto del covariare simultaneo di tutte le variabili
considerate. Ciò non avveniva considerando i coeff. di correlazione tra coppie di variabili che
apparivano in Sx. Quindi anche le componenti principali sono un metodo per superare l’aspetto
spurio delle correlazioni iniziali. Le differenze tra le componenti principali dalla path analysis:
1) Nessun significato causale, le componenti principali sono variabili latenti poiché sono delle
trasformate lineari che non sono direttamente osservabili
2) Costruzioni di nuove variabili latenti intese come trasformate a varianza massima delle variabili
di partenza
Grafico autovettori e individui
STRUTTURA DEGLI INDIVIDUI SULLA BASE DELLE SINGOLI VARIABILI DI PARTENZA
ACP: Matrice S o matrice R?
Abbiamo visto come l’ACP riesce a riprodurre la somma delle varianze delle variabili originarie,
attraverso le p componenti. Tale procedura, applicata su S , risulta appropriata solo se le variabili X
X
originarie sono espresse nella stessa unità di misura e presentano ordini medi di grandezza simili.
Nell’esempio del Data set “Fitness” abbiamo il problema che le grandezze non sono espresse nella
stessa unità di misura. In qs caso è indispensabile usare la matrice di correlazione ove con variabili
standardizzate è eliminato l’effetto di diverse unità di misura. In altri casi si può usare o la matrice
di correlazione o quella di varianze covarianze. Cosa cambia?
Si può interpretare e commentare il significato dell'alternativa tra l'uso di scarti delle medie o di
valori standardizzati 12/05/2022
1b_ANALISI COMPONENTI PRINCIPALI (esempi) 13/05/2022
2a_ANALISI DELLA CORRELAZIONE CANONICA
Esempio 1:
Siano dati due gruppi di variabili:
X: risultati degli studenti al primo anno d’Università
Y: risultati degli studenti nelle materie all’ultimo anno del liceo
x y
1
1 1
1
x y
2 2
2 2
X Y
… …
q
p
x y
p q
Esempio 2:
I dati da analizzare provengono da una ditta che ha intervistato un campione casuale di n = 50 dei
suoi dipendenti nel tentativo di determinare quali fattori influenzano le performance di vendita.
Sales Performance:
Crescita vendite
Redditività vendite
Nuovo Account vendite
Caratteristiche commessi
Età
Livello istruzione
Reddito Famiglia provenienza
Esempio 3:
Punteggi dei test
Test 1,2,3
»
misure di intelligenza
Creatività
Ragionamento meccanico
» Ragionamento astratto
» Capacità Matematica
» Ci sono p = 3 variabili nel primo gruppo e q = 4 variabili del secondo gruppo.
» L’Analisi di Correlazione Canonica avviene in SAS utilizzando una procedura di correlazione
» canonica: la PROC CANCORR.
Metodo per ricavare le variabili canoniche
Occorre verificare il legame lineare esistente tra i 2 insiemi di variabili:
X=(x , x , ..., x )
1 2 p
Y=(y , y , …, y )
1 2 q
z= α Y w= β X
z= α x + α x +...+ α x
1 1 2 2 p p
w= β y + β y +...+ β y
1 1 2 2 q q
con α=[ α , α , …, α ] e β =[ β , β , …, β ]
1 2 p 1 2 q
L’analisi della correlazione canonica riduce ad un numero molto limitato di parametri l’analisi del
legame tra due insiemi di variabili mediante trasformate lineari successive delle matrici X ed Y,
z ,….,z e w ,….,w tali che le correlazioni tra w ed z siano massime, sotto la condizione di
1 q 1 q j j
incorrelazione tra trasformate successive. L’analisi canonica, naturale estensione della regressione
multipla, è quindi la ricerca della dipendenza dell’insieme di variabili X da Y e simultaneamente
dell’insieme di variabili Y da X.
Usualmente si opera su variabili centrate X, Y (senza alcuna perdita di generalità) o standardizzate.
Ciò premesso date le due combinazioni lineari di variabili centrate
Si definiscono:
matrice di correlazione tra le variabili X : S X
matrice di correlazione tra le variabili Y: S Y
matrice di correlazione tra le variabili X e Y: S (S )
XY YX
Correlazione canonica
Si voglia massimizzare il coefficiente di correlazione canonica
( )
cov z , w
=
ρ( 1 1
z , w )
1 1 2z 2w
σ σ
1 1 (3)
Per la (1) (2) si ha:
e quindi la (3) può essere riespressa nel seguente modo: (7)
(si massimizza la correlazione canonica)
La (7) risulta essere invariante per trasformazioni di scala dei parametri incogniti. Infatti se si usasse
in luogo di α un nuovo vettore α *=cα
1 1 1
si otterrebbe in (7): (8)
Per non ottenere valori di α , β indefinitamente elevati, è conveniente massimizzare il coefficiente
1 1
di correlazione (7) ponendo i seguenti vincoli di normalizzazione sulle varianze che appaiono al
denominatore. Significa che le trasformate lineari z e w sono standardizzate
1 1
Uguagliando a zero le derivate parziali rispetto alle incognite α , β , λ , λ * si ottempera alla
1 1 1 1
condizione necessaria (che si dimostra anche sufficiente) perché L sia massima. Si ottiene quindi:
1
Si osserva che i risultati sono identici in termini di autovalori e autovettori se calcolati su variabili
x-1 y-1
standardizzate in termini di matrici di correlazione R R R R o non standardizzate in termini di
xy yx
covarianze S , S , S La correlazione canonica è invariante per variabili standardizzate o meno.
XY X Y.
Perciò d’ora in poi la trattazione sarà riferita a VARIABILI STANDARDIZZATE.