Anteprima
Vedrai una selezione di 9 pagine su 40
Appunti di Modelli lineari generalizzati in Epidemiologia e medicina Pag. 1 Appunti di Modelli lineari generalizzati in Epidemiologia e medicina Pag. 2
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Modelli lineari generalizzati in Epidemiologia e medicina Pag. 6
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Modelli lineari generalizzati in Epidemiologia e medicina Pag. 11
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Modelli lineari generalizzati in Epidemiologia e medicina Pag. 16
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Modelli lineari generalizzati in Epidemiologia e medicina Pag. 21
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Modelli lineari generalizzati in Epidemiologia e medicina Pag. 26
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Modelli lineari generalizzati in Epidemiologia e medicina Pag. 31
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Modelli lineari generalizzati in Epidemiologia e medicina Pag. 36
1 su 40
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

P P P P

   

λ λ λ λ

k k k k

= = = = (38)

k 1 k 1 k 1 k 1

2. Teniamo in analisi gli autovalori > 1

Se estraiamo c.p da R matrice di correlazione ciascuna variabile ha varianza = 1 e 1 è anche

x

il valore della varianza media di ogni autovalore. Per come si sono costruite le c.p. si ha:

  

λ λ λ

...

1 2 p (39)

Perciò si trattengono le c.p. a cui corrispondono autovalori > 1 secondo la cosiddetta regola

di Kaiser. Nel nostro esempio con tale metodo si trattengono le prime due componenti

principali.

3. Criterio dello Scree Plot (gomito)

Spezzata discendente: sono importanti le k c.p. tali per cui tra k e k+1 si manifesta una brusca

variazione della pendenza, cioè la varianza aggiunta dalla componente y a quella spiegata

k+1

dalle c.p. y -y è trascurabile. Nel nostro esempio le c.p. ritenute importanti sono 3.

1 k

Interpretazione delle componenti principali

→Contributi assoluti delle c.p. (peso di ciascuna varibaile xj alla costruzione della c.p.)

È possibile capire il peso con cui ciascuna variabile x ha contribuito alla costruzione della c.p. y

j s

mediante la valutazione del suo contributo assoluto alla spiegazione di y partendo dal fatto che gli

s

= + + + + =

α α α α α 1

' 2 2 2

s s s 1 sj sp

autovettori sono a norma unitaria: (40)

s

e quindi il generico elemento è il contributo assoluto della variabile x alla spiegazione della c.p.

j

y che può variare tra un minimo di 0 e un massimo di 1.

s

→Contributi relativi delle c.p. (quota di varianza di x riprodotta dalla componente principale y )

j s

Si è visto che le c.p. sono costruite con l’obiettivo di spiegare quote maggiori possibili della varianza

totale di un insieme di p variabili osservate x poiché da (37):

j

p p p

  

= = = =

σ λ σ tr( )

2 2

tr(

S ) L

x x s y

u s

= = =

u 1 s 1 s 1

Se invece di considerare tutte le p c.p. si considerano solo le prime q. si approssima la varianza

totale come in (38) m

 λ

+ +

+ λ .... λ

λ λ λ k

=  − 

=

1 m

1 1 2 k 1

, ,..., *100 75 80%, m p

P P P P

   

λ λ λ λ

k k k k

= = = =

k 1 k 1 k 1 k 1

Coefficiente di correlazione tra y e X

s

Sia dato (45): Cov (y ,X)=(1/n)(y ,X’)=1/n( α XX’)=α (1/n)(XX’)=α S = α λ

s s s s s x s s

-1/2 -1/2 -1/2

Da cui si ottiene: Cor(y ,X)=(α λ /√λ )diag(S )) =(α √λ )(D ) =(α √λ )(D ) (46)

s s s s x s s x s s x

Con variabili standardizzate: Cor(y ,X)=α √λ (47)

s s s

vettore dei coefficienti di correlazione tra la c.p. y e le variabili X ove α √λ è il coefficiente di correlazione

s j js s

tra la s-esima c.p. y e la j-esima variabile x .

s j

La matrice di correlazione tra le c.p. e le variabili di partenza è detta: "struttura delle c.p.

Manteniamo le prime tre c.p. come

suggerito dalla regola di arresto

precedentemente illustrata.

In grassetto vengono evidenziati i

coefficienti di correlazione più elevati in

valore assoluto.

Entro ogni colonna, le celle colorate

indicano coefficienti di correlazione in

valore assoluto maggiori di 0.4.

PrinC = indicatore variabili fisiologiche

1

PrinC = indicatore dell’età

2

PrinC = indicatore del peso

3

Cerchio di correlazione

Si osservi la posizione relativa delle diverse variabili nel piano cartesiano le cui ascisse e coordinate

sono i primi 2 assi principali.

❑ Una prima interpretazione si ha osservando i punti contrapposti agli estremi del piano

cartesiano.

❑ Un secondo modo di lettura degli assi è determinabile osservando la proiezione dei punti

asse per asse.

In questo esempio si parte da 7 variabili (pre-esistono delle variabili osservate e si devono

sintetizzare), si riducono a 3 [con la costruzione delle componenti principali perché si osserva che

con tre variabili si riesce ad avere l’80% della variabilità complessiva+, non sono cause ma sono

trasformate lineari ci dicono, partendo dagli autovettori, i legami che ci sono con le variabili di

partenza (contributi assoluti). I risultati ci dicono che in questa palestra chi è pesante fa fatica a

correre e si contrappone con quelli giovani. Le correlazioni costruite con le componenti principali

permettono di vedere il legame delle variabili tenendo conto complessivamente del covariare di

tutte le variabili, non ha un valore causale però, non è un modello e non ci sono variabili dipendenti

e variabili indipendenti.

Considerando nel cerchio delle correlazioni le vicinanze e le distanze tra le variabili di partenza sulla

base della loro correlazioni con le c.p., si tiene conto del covariare simultaneo di tutte le variabili

considerate. Ciò non avveniva considerando i coeff. di correlazione tra coppie di variabili che

apparivano in Sx. Quindi anche le componenti principali sono un metodo per superare l’aspetto

spurio delle correlazioni iniziali. Le differenze tra le componenti principali dalla path analysis:

1) Nessun significato causale, le componenti principali sono variabili latenti poiché sono delle

trasformate lineari che non sono direttamente osservabili

2) Costruzioni di nuove variabili latenti intese come trasformate a varianza massima delle variabili

di partenza

Grafico autovettori e individui

STRUTTURA DEGLI INDIVIDUI SULLA BASE DELLE SINGOLI VARIABILI DI PARTENZA

ACP: Matrice S o matrice R?

Abbiamo visto come l’ACP riesce a riprodurre la somma delle varianze delle variabili originarie,

attraverso le p componenti. Tale procedura, applicata su S , risulta appropriata solo se le variabili X

X

originarie sono espresse nella stessa unità di misura e presentano ordini medi di grandezza simili.

Nell’esempio del Data set “Fitness” abbiamo il problema che le grandezze non sono espresse nella

stessa unità di misura. In qs caso è indispensabile usare la matrice di correlazione ove con variabili

standardizzate è eliminato l’effetto di diverse unità di misura. In altri casi si può usare o la matrice

di correlazione o quella di varianze covarianze. Cosa cambia?

Si può interpretare e commentare il significato dell'alternativa tra l'uso di scarti delle medie o di

valori standardizzati 12/05/2022

1b_ANALISI COMPONENTI PRINCIPALI (esempi) 13/05/2022

2a_ANALISI DELLA CORRELAZIONE CANONICA

Esempio 1:

Siano dati due gruppi di variabili:

X: risultati degli studenti al primo anno d’Università

Y: risultati degli studenti nelle materie all’ultimo anno del liceo

x y

1

1 1

1

 

x y

2 2

2 2

X Y

… …

 q

p

x y

p q

Esempio 2:

I dati da analizzare provengono da una ditta che ha intervistato un campione casuale di n = 50 dei

suoi dipendenti nel tentativo di determinare quali fattori influenzano le performance di vendita.

Sales Performance:

Crescita vendite

Redditività vendite

Nuovo Account vendite

Caratteristiche commessi

Età

Livello istruzione

Reddito Famiglia provenienza

Esempio 3:

Punteggi dei test

Test 1,2,3

»

misure di intelligenza

Creatività

Ragionamento meccanico

» Ragionamento astratto

» Capacità Matematica

» Ci sono p = 3 variabili nel primo gruppo e q = 4 variabili del secondo gruppo.

» L’Analisi di Correlazione Canonica avviene in SAS utilizzando una procedura di correlazione

» canonica: la PROC CANCORR.

Metodo per ricavare le variabili canoniche

Occorre verificare il legame lineare esistente tra i 2 insiemi di variabili:

X=(x , x , ..., x )

1 2 p

Y=(y , y , …, y )

1 2 q

z= α Y w= β X

z= α x + α x +...+ α x

1 1 2 2 p p

w= β y + β y +...+ β y

1 1 2 2 q q

con α=[ α , α , …, α ] e β =[ β , β , …, β ]

1 2 p 1 2 q

L’analisi della correlazione canonica riduce ad un numero molto limitato di parametri l’analisi del

legame tra due insiemi di variabili mediante trasformate lineari successive delle matrici X ed Y,

z ,….,z e w ,….,w tali che le correlazioni tra w ed z siano massime, sotto la condizione di

1 q 1 q j j

incorrelazione tra trasformate successive. L’analisi canonica, naturale estensione della regressione

multipla, è quindi la ricerca della dipendenza dell’insieme di variabili X da Y e simultaneamente

dell’insieme di variabili Y da X.

Usualmente si opera su variabili centrate X, Y (senza alcuna perdita di generalità) o standardizzate.

Ciò premesso date le due combinazioni lineari di variabili centrate

Si definiscono:

matrice di correlazione tra le variabili X : S X

matrice di correlazione tra le variabili Y: S Y

matrice di correlazione tra le variabili X e Y: S (S )

XY YX

Correlazione canonica

Si voglia massimizzare il coefficiente di correlazione canonica

( )

cov z , w

=

ρ( 1 1

z , w )

1 1 2z 2w

σ σ

1 1 (3)

Per la (1) (2) si ha:

e quindi la (3) può essere riespressa nel seguente modo: (7)

(si massimizza la correlazione canonica)

La (7) risulta essere invariante per trasformazioni di scala dei parametri incogniti. Infatti se si usasse

in luogo di α un nuovo vettore α *=cα

1 1 1

si otterrebbe in (7): (8)

Per non ottenere valori di α , β indefinitamente elevati, è conveniente massimizzare il coefficiente

1 1

di correlazione (7) ponendo i seguenti vincoli di normalizzazione sulle varianze che appaiono al

denominatore. Significa che le trasformate lineari z e w sono standardizzate

1 1

Uguagliando a zero le derivate parziali rispetto alle incognite α , β , λ , λ * si ottempera alla

1 1 1 1

condizione necessaria (che si dimostra anche sufficiente) perché L sia massima. Si ottiene quindi:

1

Si osserva che i risultati sono identici in termini di autovalori e autovettori se calcolati su variabili

x-1 y-1

standardizzate in termini di matrici di correlazione R R R R o non standardizzate in termini di

xy yx

covarianze S , S , S La correlazione canonica è invariante per variabili standardizzate o meno.

XY X Y.

Perciò d’ora in poi la trattazione sarà riferita a VARIABILI STANDARDIZZATE.

Dettagli
A.A. 2021-2022
40 pagine
SSD Scienze mediche MED/42 Igiene generale e applicata

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher aurora.musitelli.am56 di informazioni apprese con la frequenza delle lezioni di Modelli lineari generalizzati in epidemiologia e medicina e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Vittadini Giorgio.