Lezioni, Analisi Multivariata dei Dati

Appunti di Analisi multivariata dei dati per l’esame del professor Gallucci. Gli argomenti trattati sono i seguenti: PCSN, regressione, analisi fattoriale, anova, assunzioni,il …

Esame Analisi multivariata dei dati

Facoltà Psicologia

Dal corso del Prof. Gallucci Marcello

Università Università degli Studi di Milano - Bicocca

Publisher Zanna15

A.A. 2014-2015

33 pagine

1 download

Appunto

Vota 5,0 / 5 (1)

Scarica

Estratto del documento

La componente individuale prende il nome di componente unica (u), che è uguale dentro

ogni soggetto, e quindi rende le misurazioni di ogni soggetto correlabili tra loro e diverse

dalle misurazioni di altri soggetti. In pratica è un coefficiente random, che per ogni

soggetto è costante.

Nel nostro esempio, quindi, la variabile “soggetto” è quella che clusterizza i nostri dati,

raggruppandoli in base all'id del soggetto.

Gli effetti fissi, in questo caso, sono intercetta (anche se nell'ANOVA non la guardiamo) e

effetto di “trial”; l'effetto random è l'intercetta individuale, la componente unica (u).

In SPSS trovo questo tipo di regressione e ANOVA nel menù “analizza → modelli misti”.

Aprendo la finestra dell'ANOVA troviamo una prima pagina in cui vengono richiesti

“soggetti” e “ripetute”; nella finestra dei soggetti devo inserire la variabile che clusterizza i

miei dati (nel nostro caso è la variabile che divide i soggetti, ma vale per ogni tipo di

clusterizzazione), nella finestra delle ripetute non devo inserire nulla.

Procedendo oltre devo inserire la variabile dipendente, i fattori (variabili categoriche) e le

covariate (variabili continue). In questa finestra si trova un menù chiamato “fissi” che serve

proprio a inserire gli effetti fissi. Nell'ANOVA e nella regressione l'intercetta è già prevista,

quindi nel mio caso dovrò inserire solo la variabile trial, l'altro effetto fisso che ci interessa.

Infine dovrò inserire gli effetti random che ci interessano: inseriremo l'intercetta (basta

cliccare l'opzione per richiederla) specificando quale tra le variabili inserite inizialmente in

“soggetti” utilizzeremo per la clusterizzazione. Avendo messo solo la variabile “soggetti”,

inseriremo quella.

Anche in questo caso la prima tabella ci spiega il modello, mostrando quali sono gli effetti

fissi e quelli random.

La seconda tabella (covarianza dei parametri) ci dice se è utile il modello misto oppure no:

se il valore stimato è diverso da zero, significa che i nostri soggetti hanno punteggi diversi

tra loro, tra loro correlati. Dato che gli errori, quindi, non sono indipendenti, utilizzeremo il

modello misto. Se invece il valore è zero, significa che non c'è variabilità tra i soggetti, e

quindi si utilizzerà un modello lineare classico.

Abbiamo poi la tabella degli effetti fissi, che si interpreta come un'ANOVA normale:

riporteremo la F e il valore di significatività. Se il valore è significativo, significa che il

numero di trial ha un effetto sul numero di errori. Dobbiamo ricordarci che è un effetto

fisso, quini diremo che “in media” il numero di trial ha un effetto sul numero di errori.

Per valutare quali medie sono statisticamente differenti, utilizzeremo lo stesso post-hoc che

utilizzeremo nell'ANOVA normale, con il metodo di correzione di Bonferroni.

Se si vuole quantificare quanta variabilità c'è di solito si riporta la variabilità dell'intercetta

dei diversi soggetti (in pratica la variabilità tra i punteggi medi dei diversi soggetti),

utilizzando il coefficiente di correlazione intraclasse, o ICR. Quando questo indice è zero

significa che non c'è variabilità tra le intercette, e quindi la variabile “soggetti” non

clusterizza nulla, visto che i soggetti non hanno medie differenti. Tale coefficiente si calcola

dividendo il valore stimato dell'intercetta nella tabella “covarianza dei parametri) per la

somma dei valori stimati riportati in quella tabella.

Al modello precedente potemmo inserire una variabile categorica, come il genere, che

divide i soggetti in maschi e femmine. Questo non cambia la misurazione: abbiamo diverse

misurazioni nel tempo sugli stessi soggetti, che però possono essere uomini o donne.

L'ANOVA che compiamo considererà quindi anche questa variabile oltre a quelle

considerate prima.

Rispetto a prima non cambia nulla, ma stavolta ho due fattori. Inserisco tutte le variabili che

mi interessano nella finestra principale, inserisco come fattori fissi trial e genere (intercetta è

già data) e come fattore random l'intercetta.

La tabella dell'ANOVA, come al solito, ci fornirà gli effetti principali dei fattori che

abbiamo inserito e, in questo caso, l'effetto di interazione. Se l'effetto di interazione è

significativo, lo interpretiamo come nella classica ANOVA: l'effetto di una indipendente

sulla dipendente varia al variare dell'altra indipendente.

Analisi fattoriale

Da non confondere con l'anova fattoriale, ha come scopo l'estrarre da un set di variabili

osservate un numero limitato di fattori al fine di rappresentare la variabilità contenuta nei

nostri item di partenza. Ciò consente di interpretare le relazioni tra un gran numero di

variabili osservate mediante un numero limitato di fattori. La variabilità dei diversi soggetti

nei diversi item è divisibile in una parte definita errore e in una parte definita variabilità

osservata. Questa variabilità osservata viene spiegata attraverso dei fattori (o tratti

latenti), che secondo la teoria sono alla base di questa variabilità (in pratica affermo che i

miei item sono raggruppabili in diversi fattori, che rendono coerenti gli items). L'analisi

fattoriale ha proprio l'obiettivo di individuare i fattori che sottostanno alle nostre variabili

(quali sono i fattori che rendono coerenti i nostri item).

Abbiamo detto che la relazioni fra variabili continue sono calcolabili mediante il

coefficiente r di correlazione di Pearson. Se dalla tabella osserviamo che due nostri item

sono molto correlati tra loro e altri due item sono correlati tra loro ma la correlazione non è

significativa tra queste due coppie, allora è probabile che esistano due diversi fattori alla

base di questi item: il primo fattore (una variabile) spiegherebbe i primi due item, il secondo

fattore spiegherebbe la correlazione tra gli altri due item.

La correlazione tra due variabili, nella rappresentazione vettoriale, è rappresentata dalla

proiezione di un vettore-variabile sull'altro (ogni vettore è lungo quanto la variabilità della

variabile rappresentata da quel vettore). Una correlazione totale, pari a uno, verrebbe

rappresentata da due vettori sovrapposti; a mano a mano che la correlazione diminuisce,

l'angolo tra i due vettori aumenta sempre di più, poiché dovrà diminuire la lunghezza della

proiezione. Se la correlazione è zero i due vettori formeranno un angolo retto (proiezione

assente: variabili ortogonali), e le due variabili saranno indipendenti (più l'angolo è acuto

tra i vettori-variabili, quindi, più c'è associazione). Se noi ci proponiamo di rappresentare le

due variabili mediante un fattore unico nella rappresentazione fattoriale, dove dovrà essere

posto questo fattore unico, rappresentato da un solo vettore?

Il fattore deve essere una nuova variabile (un nuovo vettore) che meglio rappresenti

entrambe le variabili iniziali; ovviamente questo nuovo vettore dovrà andare nella direzione

degli altri due vettori (se due vettori vanno verso est e nord-est il nuovo vettore non potrà

andare verso sud, perché dovrà essere un vettore che rappresenti le altre due variabili, e che

quindi sarà correlato a ciò che è correlato a quelle due variabili). Quindi il nuovo vettore

sarà posizionato tra i due vecchi vettori e avrà la stessa direzione, ma non dovrà possedere

un'inclinazione troppo grande o troppo piccola, che lo avvicinerebbe troppo all'uno o

all'altro vettore. Il mio nuovo vettore-fattore dovrà quindi avere un'inclinazione tale da

ridurre al minimo possibile l'angolo con un vettore e con l'altro, allo stesso momento.

L'angolo tra i due vecchi vettori e il mio nuovo vettore sarà tanto più piccolo tanto più sarà

alta la correlazione tra le due vecchie variabili e il mio fattore (perché maggiore sarà la

correlazione e maggiore dovrà essere il segmento proiettato dai due vecchi vettori sul

nuovo). Se avessi un angolo diverso tra F (nuovo vettore) e V (primo vecchio vettore) e tra

F e X (secondo vecchio vettore) avrei una correlazione diversa tra il fattore e le due

variabili, e non può essere così. In un caso più generale, in cui abbiamo più di due variabili,

le correlazioni (proiezioni) tra i vettori e il fattore saranno diverse (perché non posso

massimizzare la correlazione con tante variabili contemporaneamente), ma il mio fattore

sarà sempre posizionato in modo da avere sempre il minor angolo di inclinazione possibile

tra fattore e vettori.

La varianza di questa nuova variabile-fattore sarà data dalla varianza comune di tutte le

variabili raggruppate: il miglior fattore è quindi quello che cattura meglio la varianza

condivisa dagli item(correlazione al quadrato). La varianza di un fattore è definita

autovalore, e nell'output di SPSS si osserva proprio una tabella in cui, nella prima parte,

sono indicati gli autovalori dei fattori. Sotto la scritta “totale” viene indicata la varianza del

fattore, ma molto più spesso viene guardata la “percentuale di varianza”: indicata con 1 la

varianza di tutti gli items, la percentuale di varianza mi indica quanta parte di quella

varianza viene catturata dal fattore. Più alta è la percentuale, migliore è il nostro fattore.

Nel caso in cui ho due soli items, il fattore verrà posizionato in mezzo ad essi, nella

rappresentazione vettoriale; se avessi più di due items, osservo la seconda tabella del mio

output e osservo quanta correlazione c'è tra gli items e il mio fattore. In base al valore della

correlazione (che solitamente viene considerato accettabile se supera il valore assoluto di

0.30), io stabilisco quanto è grande il segmento proiettato da ogni variabile-item sul fattore,

e posso creare la rappresentazione vettoriale.

In qualche caso noi potremmo avere numerosi items che non hanno varianza tutte condivise:

magari tre items condividono una parte di varianza mentre altri due condividono la varianza

solo con uno di questi primi tre items. In questo caso io comincio a creare il primo fattore,

che spiegherà la varianza tra i primi tre items, e successivamente creerò un altro fattore che

spiegherà la varianza condivisa dagli altri items, una volta tolta la varianza già spiegata dal

primo fattore. Ovviamente questi due fattori non saranno correlati (avranno correlazione

pari a zero), perché le varianze che spiegano non sono correlate. Nella rappresentazione

vettoriale, quindi, i due vettori d

Anteprima

Vedrai una selezione di 8 pagine su 33