Riassunto esame Analisi dei Dati, prof. Ricolfi, libro consigliato Dispense Analisi dei dati, Ricolfi e Testa

Riassunto per l'esame di Analisi dei dati, basato su appunti personali e studio autonomo del testo consigliato dai docenti Ricolfi e Testa: dispense Analisi dei dati, Ricolfi. Gli argomenti …

Esame Analisi dei dati

Facoltà Psicologia

Dal corso del Prof. Ricolfi Luca

Università Università degli studi di Torino

Publisher federicaborsi

A.A. 2016-2017

26 pagine

4 download

Appunto

Vota 3,3 / 5 (3)

Scarica

Estratto del documento

NOTAZIONE

Matrici input:

• Y= matrice NxM di variabili dipendenti

• X= matrice NxK di variabili indipendenti

• D= matrice SxS di similarità tra stimoli

Matrici output:

2 gruppi:

• Contengono il risultato di misurazioni mentali:

- F= matrice NxH con H disposizioni di N

- Z= matrice SxH con H percezioni di S stimoli da parte di uno o più individui

- W= matrice NxH o NxK di salienze individuali

• Contengono i coefficienti d’impatto di uno o più variabili indipendenti su una o più variabili

dipendenti:

- B= matrice MxK con i coefficienti d’impatto di K variabili individuali manifeste e M variabili

dipendenti manifeste

- ʌ= matrice MxH con i coefficienti d’impatto di H variabili indipendenti latenti su M variabili

dipendenti manifeste

l’insieme di queste matrici genera i 3 problemi dell’analisi dei dati:

1. regressione: trovare B date y e X

2. analisi fattoriale: trovare ʌ e F data y

3. scaling: trovare Z data D

Capitolo 1: canone della spiegazione

I termini spiegazioni è usato in 2 accezioni diverse. In entrambe significa mettere in relazione una o più

variabili dipendenti manifeste con una o più variabili indipendenti manifeste.

1° accezione: lo scopo dell’analisi è riprodurre i valori avuti da una o più variabili dipendenti, quindi una



matrice NxM riprodurre la varianza.

2° accezione: lo scopo è riprodurre le relazioni reciproche di un certo numero di variabili manifeste dunque



una matrice MxM riprodurre la covarianza

Queste tecniche che rientrano nel canone della spiegazione si chiamano analisi di dipendenza e si dividono

in 2 gruppi:

• Schemi di interpolazione

• Schemi di dipendenza

Schemi di interpolazione

Parliamo di schemi di interpolazione quando (fonti di variazione) e non si adotta alcun assunto

probabilistico sul meccanismo che genera risposte. Si parte da un input costituito da una matrice di profilo

P di formato Nx(M+K) al cui interno distinguiamo una sottomatrice Y delle variabili dipendenti di formato

NxM che costituirà il bersaglio, e una sottomatr8ice X delle variabili indipendenti di formato NxK che

costituirà il supporto nella formula di ricostituzione.

P= YIX I= accos6tamento laterale

Uno schema di interpolazione è una tecnica di analisi dei dati che trova una forma funzionale f() che

permetta di prevedere il bersaglio (Y) mediante la conoscenza di valori del supporto (X).

M(P)=Y= Ŷ+E= f(X)+E 

Nel caso più semplice M=K=1 la mappa della tecnica è banale (si limita a selezionare da P la sottomatrice

delle variabili dipendenti y) e inoltre la forma di f() è quella di un’equazione lineare con solo 2 parametri b0

e by.

Ciò significa che P è una matrice NxZ che nella prima colonna contiene una variabile dipendente Yn e nella

seconda una variabile indipendente Xn e il problema è stimare i parametri dell’equazione che rende i valori

di Yn predetti il più vicino possibile a quelli osservati: Yn=Ŷn+en=f(Xn)+en=ByXn+B0+EN con la notazione

generale Y=Ŷ+Δ=r(N;S)+Δ dove il nucleo della soluzione N è la coppia < b1,b0> il supporto è la matrice X e la

tecnica (dato che il supporto contribuisce alla produzione del bersaglio è una proiezione a bersaglio fmo).

Se lo stress viene calcolato come somma dei quadrati degli scarti tra valori osservati e predetti e la

soluzione (parametri b1, bo) viene ricercata rendendo minimo lo stress e otteniamo la tecnica della

regressione ordinaria nella sua versione basata sui minimi quadrati ordinari (OLS).

Se il supporto contiene più di una variabile indipendente si parla di regressione multipla. Se il bersaglio

contiene più di una variabile dipendente si parla di regressione multivariata.

La parsimonia: ū= (N-q)/(N-1)

Q= numero di parametri stimati dall’equazione di regressione.

Questi schemi si dicono di interpolazione perché servono a far passare una curva di interpolazione in mezzo

ai punti di una nube.

Se invece adottiamo assunti sul meccanismo probabilistico che genera le risposte allora si parla di modelli.

Modelli di dipendenza:

un modello di dipendenza è una tecnica di analisi dei dati che è:

• Dotata di assunti espliciti sul meccanismo probabilistico che genera i dati

• Capace di stimare i parametri di una o più funzioni che collegano altrettante variabili dipendenti

(endogene) a una o più variabili indipendenti (endogene o esogene).

Per meccanismo probabilistico che genera i dati si intende la presenza di una o entrambe le seguenti fonti

di aleatorietà:

• Natura campionaria delle osservazioni

• Presenza nell’equazione di termini di disturbo che si comportano come variabili aleatorie continue.

Il meccanismo generatore di un modello di dipendenza è una lista di equazioni che collegano M variabili

dipendenti (endogene) a M+K variabili indipendenti (endogene+ esogene):

Y1=f1(y1….yk, x1….xk, Ṍ1)+v1

Y2=f2(y1….yk, x1….xk, Ṍ2)+v2

Y3=fm(y1….yk, x1….xk, Ṍm)+vm

Ṍm= vettore di parametri d’impatto b1b2

Vm= disturbi

Se il compito del modello di dipendenza non è scoprire qual è la rete di interconnessioni tra le variabili, ma

è controllare se una certa rete di legami ipotizzata a priori e incorporata nei vettori Ṍm è compatibile con i

dati o no. Ciò avviene stimando i parametri liberi di ogni vettore Ṍm.

Ci sono 2 tradizioni nei modelli di dipendenza:

• Analisi causale e analisi della varianza

• Conjoint analysis: applicazione di tecniche causali a un problema di natura psicometrica

La distinzione è di natura più che altro semantica perché non riguarda le tecniche di analisi usate ma i tipi di

variabili a cui vengono applicate.

Ci sono anche differenze sintattiche:

1) Distinzione tra modelli con una sola equazione e modelli con più equazioni

2) Livelli di scala delle variabili coinvolte

3) Linearità o meno delle funzioni che collegano variabili dipendenti e variabili indipendenti

1) Nei modelli a equazione singola distinzione tra regressione multipla (variabili tutte cardinali e

specificazione lineare) e analisi della varianza (la variabile dipendente è cardinale, le variabili

indipendenti categoriali o dummy e la specificazione ammette la presenza di termini di interazione

tra variabili indipendenti)

modelli a più equazioni distinzione tra modelli che generalizzano le tre tecniche di base:



- Regressione multipla regressione multivariata



- Regressione logistica modelli multilogit



- Analisi della varianza analisi della varianza multivariata e modelli di dipendenza confermativi

o vincolati (path analysis e modelli di equazione strutturale) il cui compito è sottoporre a

controllo un insieme di ipotesi a priori sulle relazioni tra variabili (pag 33)

Esempio1: l’analisi della varianza

Dell’anova ci sono tante versioni tutte accumunate da alcuni elementi costanti:

a) La distinzione tra variabili dipendenti e indipendenti, entrambe manifeste

b) Livello di scala cardinale per la/le variabili dipendenti

c) Livello di scala categoriale (nominale) o trattato come tale (intervalli) per la/le variabili indipendenti

d) Assunti specifici sul meccanismo che genera i dati

Distinzioni: 

1) 1 sola variabile dipendente cioè 1 equazione analisi della varianza univariata/monovariata

(ANOVA).

Più variabili dipendenti cioè più equazioni analisi della varianza multivariata (MANOVA)

2) 1 sola variabile indipendente cioè una via analisi della varianza a una via (oneway)

a. Più variabili indipendenti cioè più vie analisi della varianza a più vie (kway)

3) Natura e indipendenza delle osservazioni nell’analisi della varianza a misure ripetute le

osservazioni non sono tra loro indipendenti perché lo stesso soggetto è sottoposto a più prove.

4) Inclusione o no di variabili di controllo cardinale denominate covariate analisi della covarianza

5) Carattere delle variabili indipendenti categoriali con modalità note a priori anova a effetti fissi o



che risultano da un campionamento anova a effetti random

6) Natura fissa o mobile del bersaglio

Scopi della tecnica

Ci occupiamo dell’analisi della varianza univariata che ha 3 obiettivi:

1) Controllare attraverso il test inferenziale F un’ipotesi di eguaglianza generalizzata tra due o più

medie di gruppo

2) Scomporre la variabilità della variabile dipendente in una porzione attribuibile all’errore e in una o

più porzioni attribuibili all’influenza di una o più variabili indipendenti (fattori)

3) Stimare i parametri del modello e la loro significatività cioè misurare l’impatto sulla variabile

dipendente di singole modalità della variabile indipendente (effetti principali) o combinazioni di

esse (effetti di interazione.)

Nell’anova:

• Fattori: variabili indipendenti categoriali manifeste

• Livelli: modalità delle variabili indipendenti

• Gruppi: sottoinsiemi che si individuano in base ai livelli del fattore

Scheda della tecnica:

ci soffermiamo sull’analisi della varianza univariata (1 variabile dipendente) a più vie (più variabili

indipendenti, fattori) con disegno bilanciato e parametrizzazione centrale.

Disegno bilanciato:

• Nessuna delle celle della tabella di contingenza multipla tra i K fattori è vuota, ossia priva di casi

(disegno completo)

• Tutte le celle contengono il medesimo numero di casi e tale numero è pari ad almeno 2 (disegno

bilanciato)

Parametrizzazione centrale: gli effetti sono considerati come scostamenti della media generale della Y.

Scheda: ANOVA a più vie con disegno bilanciato

Famiglia Tecniche multivariate

Canone Spiegazione

Status Modello

Architettura Proiezione a bersaglio fisso (supporto)

Struttura dei dati Dati di profilo, 2 set (p2)

Tipo di scala 1 cardinale dipendente, k categoriali indipendenti

Prerequisiti:

di due tipi:

• Prerequisiti logici relativi all’input

• Prerequisiti statistici relativi l meccanismo che genera i dati

L’input deve essere una matrice di profilo con una variabile dipendente cardinale e una o più variabili

indipendenti categoriali (fattori).

Requisiti statistici sono due in tutti i sotto campioni relativi alle celle del disegno fattoriale le distribuzioni

varie della variabile dipendente Y intorno alla propria media siano reciprocamente indipendenti, naturali e

dotate della stessa varianza (omoschedasticità).

Il valore atteso dell’errore è pari a zero.

Le nostre osservazioni sono indipendenti, cioè la distribuzione dell’errore di un

Anteprima

Vedrai una selezione di 7 pagine su 26