Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
NOTAZIONE
Matrici input:
• Y= matrice NxM di variabili dipendenti
• X= matrice NxK di variabili indipendenti
• D= matrice SxS di similarità tra stimoli
Matrici output:
2 gruppi:
• Contengono il risultato di misurazioni mentali:
- F= matrice NxH con H disposizioni di N
- Z= matrice SxH con H percezioni di S stimoli da parte di uno o più individui
- W= matrice NxH o NxK di salienze individuali
• Contengono i coefficienti d’impatto di uno o più variabili indipendenti su una o più variabili
dipendenti:
- B= matrice MxK con i coefficienti d’impatto di K variabili individuali manifeste e M variabili
dipendenti manifeste
- ʌ= matrice MxH con i coefficienti d’impatto di H variabili indipendenti latenti su M variabili
dipendenti manifeste
l’insieme di queste matrici genera i 3 problemi dell’analisi dei dati:
1. regressione: trovare B date y e X
2. analisi fattoriale: trovare ʌ e F data y
3. scaling: trovare Z data D
Capitolo 1: canone della spiegazione
I termini spiegazioni è usato in 2 accezioni diverse. In entrambe significa mettere in relazione una o più
variabili dipendenti manifeste con una o più variabili indipendenti manifeste.
1° accezione: lo scopo dell’analisi è riprodurre i valori avuti da una o più variabili dipendenti, quindi una
matrice NxM riprodurre la varianza.
2° accezione: lo scopo è riprodurre le relazioni reciproche di un certo numero di variabili manifeste dunque
una matrice MxM riprodurre la covarianza
Queste tecniche che rientrano nel canone della spiegazione si chiamano analisi di dipendenza e si dividono
in 2 gruppi:
• Schemi di interpolazione
• Schemi di dipendenza
Schemi di interpolazione
Parliamo di schemi di interpolazione quando (fonti di variazione) e non si adotta alcun assunto
probabilistico sul meccanismo che genera risposte. Si parte da un input costituito da una matrice di profilo
P di formato Nx(M+K) al cui interno distinguiamo una sottomatrice Y delle variabili dipendenti di formato
NxM che costituirà il bersaglio, e una sottomatr8ice X delle variabili indipendenti di formato NxK che
costituirà il supporto nella formula di ricostituzione.
P= YIX I= accos6tamento laterale
Uno schema di interpolazione è una tecnica di analisi dei dati che trova una forma funzionale f() che
permetta di prevedere il bersaglio (Y) mediante la conoscenza di valori del supporto (X).
M(P)=Y= Ŷ+E= f(X)+E
Nel caso più semplice M=K=1 la mappa della tecnica è banale (si limita a selezionare da P la sottomatrice
delle variabili dipendenti y) e inoltre la forma di f() è quella di un’equazione lineare con solo 2 parametri b0
e by.
Ciò significa che P è una matrice NxZ che nella prima colonna contiene una variabile dipendente Yn e nella
seconda una variabile indipendente Xn e il problema è stimare i parametri dell’equazione che rende i valori
di Yn predetti il più vicino possibile a quelli osservati: Yn=Ŷn+en=f(Xn)+en=ByXn+B0+EN con la notazione
generale Y=Ŷ+Δ=r(N;S)+Δ dove il nucleo della soluzione N è la coppia < b1,b0> il supporto è la matrice X e la
tecnica (dato che il supporto contribuisce alla produzione del bersaglio è una proiezione a bersaglio fmo).
Se lo stress viene calcolato come somma dei quadrati degli scarti tra valori osservati e predetti e la
soluzione (parametri b1, bo) viene ricercata rendendo minimo lo stress e otteniamo la tecnica della
regressione ordinaria nella sua versione basata sui minimi quadrati ordinari (OLS).
Se il supporto contiene più di una variabile indipendente si parla di regressione multipla. Se il bersaglio
contiene più di una variabile dipendente si parla di regressione multivariata.
La parsimonia: ū= (N-q)/(N-1)
Q= numero di parametri stimati dall’equazione di regressione.
Questi schemi si dicono di interpolazione perché servono a far passare una curva di interpolazione in mezzo
ai punti di una nube.
Se invece adottiamo assunti sul meccanismo probabilistico che genera le risposte allora si parla di modelli.
Modelli di dipendenza:
un modello di dipendenza è una tecnica di analisi dei dati che è:
• Dotata di assunti espliciti sul meccanismo probabilistico che genera i dati
• Capace di stimare i parametri di una o più funzioni che collegano altrettante variabili dipendenti
(endogene) a una o più variabili indipendenti (endogene o esogene).
Per meccanismo probabilistico che genera i dati si intende la presenza di una o entrambe le seguenti fonti
di aleatorietà:
• Natura campionaria delle osservazioni
• Presenza nell’equazione di termini di disturbo che si comportano come variabili aleatorie continue.
Il meccanismo generatore di un modello di dipendenza è una lista di equazioni che collegano M variabili
dipendenti (endogene) a M+K variabili indipendenti (endogene+ esogene):
Y1=f1(y1….yk, x1….xk, Ṍ1)+v1
Y2=f2(y1….yk, x1….xk, Ṍ2)+v2
Y3=fm(y1….yk, x1….xk, Ṍm)+vm
Ṍm= vettore di parametri d’impatto b1b2
Vm= disturbi
Se il compito del modello di dipendenza non è scoprire qual è la rete di interconnessioni tra le variabili, ma
è controllare se una certa rete di legami ipotizzata a priori e incorporata nei vettori Ṍm è compatibile con i
dati o no. Ciò avviene stimando i parametri liberi di ogni vettore Ṍm.
Ci sono 2 tradizioni nei modelli di dipendenza:
• Analisi causale e analisi della varianza
• Conjoint analysis: applicazione di tecniche causali a un problema di natura psicometrica
La distinzione è di natura più che altro semantica perché non riguarda le tecniche di analisi usate ma i tipi di
variabili a cui vengono applicate.
Ci sono anche differenze sintattiche:
1) Distinzione tra modelli con una sola equazione e modelli con più equazioni
2) Livelli di scala delle variabili coinvolte
3) Linearità o meno delle funzioni che collegano variabili dipendenti e variabili indipendenti
1) Nei modelli a equazione singola distinzione tra regressione multipla (variabili tutte cardinali e
specificazione lineare) e analisi della varianza (la variabile dipendente è cardinale, le variabili
indipendenti categoriali o dummy e la specificazione ammette la presenza di termini di interazione
tra variabili indipendenti)
modelli a più equazioni distinzione tra modelli che generalizzano le tre tecniche di base:
- Regressione multipla regressione multivariata
- Regressione logistica modelli multilogit
- Analisi della varianza analisi della varianza multivariata e modelli di dipendenza confermativi
o vincolati (path analysis e modelli di equazione strutturale) il cui compito è sottoporre a
controllo un insieme di ipotesi a priori sulle relazioni tra variabili (pag 33)
Esempio1: l’analisi della varianza
Dell’anova ci sono tante versioni tutte accumunate da alcuni elementi costanti:
a) La distinzione tra variabili dipendenti e indipendenti, entrambe manifeste
b) Livello di scala cardinale per la/le variabili dipendenti
c) Livello di scala categoriale (nominale) o trattato come tale (intervalli) per la/le variabili indipendenti
d) Assunti specifici sul meccanismo che genera i dati
Distinzioni:
1) 1 sola variabile dipendente cioè 1 equazione analisi della varianza univariata/monovariata
(ANOVA).
Più variabili dipendenti cioè più equazioni analisi della varianza multivariata (MANOVA)
2) 1 sola variabile indipendente cioè una via analisi della varianza a una via (oneway)
a. Più variabili indipendenti cioè più vie analisi della varianza a più vie (kway)
3) Natura e indipendenza delle osservazioni nell’analisi della varianza a misure ripetute le
osservazioni non sono tra loro indipendenti perché lo stesso soggetto è sottoposto a più prove.
4) Inclusione o no di variabili di controllo cardinale denominate covariate analisi della covarianza
5) Carattere delle variabili indipendenti categoriali con modalità note a priori anova a effetti fissi o
che risultano da un campionamento anova a effetti random
6) Natura fissa o mobile del bersaglio
Scopi della tecnica
Ci occupiamo dell’analisi della varianza univariata che ha 3 obiettivi:
1) Controllare attraverso il test inferenziale F un’ipotesi di eguaglianza generalizzata tra due o più
medie di gruppo
2) Scomporre la variabilità della variabile dipendente in una porzione attribuibile all’errore e in una o
più porzioni attribuibili all’influenza di una o più variabili indipendenti (fattori)
3) Stimare i parametri del modello e la loro significatività cioè misurare l’impatto sulla variabile
dipendente di singole modalità della variabile indipendente (effetti principali) o combinazioni di
esse (effetti di interazione.)
Nell’anova:
• Fattori: variabili indipendenti categoriali manifeste
• Livelli: modalità delle variabili indipendenti
• Gruppi: sottoinsiemi che si individuano in base ai livelli del fattore
Scheda della tecnica:
ci soffermiamo sull’analisi della varianza univariata (1 variabile dipendente) a più vie (più variabili
indipendenti, fattori) con disegno bilanciato e parametrizzazione centrale.
Disegno bilanciato:
• Nessuna delle celle della tabella di contingenza multipla tra i K fattori è vuota, ossia priva di casi
(disegno completo)
• Tutte le celle contengono il medesimo numero di casi e tale numero è pari ad almeno 2 (disegno
bilanciato)
Parametrizzazione centrale: gli effetti sono considerati come scostamenti della media generale della Y.
Scheda: ANOVA a più vie con disegno bilanciato
Famiglia Tecniche multivariate
Canone Spiegazione
Status Modello
Architettura Proiezione a bersaglio fisso (supporto)
Struttura dei dati Dati di profilo, 2 set (p2)
Tipo di scala 1 cardinale dipendente, k categoriali indipendenti
Prerequisiti:
di due tipi:
• Prerequisiti logici relativi all’input
• Prerequisiti statistici relativi l meccanismo che genera i dati
L’input deve essere una matrice di profilo con una variabile dipendente cardinale e una o più variabili
indipendenti categoriali (fattori).
Requisiti statistici sono due in tutti i sotto campioni relativi alle celle del disegno fattoriale le distribuzioni
varie della variabile dipendente Y intorno alla propria media siano reciprocamente indipendenti, naturali e
dotate della stessa varianza (omoschedasticità).
Il valore atteso dell’errore è pari a zero.
Le nostre osservazioni sono indipendenti, cioè la distribuzione dell’errore di un