Problema dell'impostazione causale
4 idee basilari sull'impostazione causale
1. Asimmetria/direzionalità: tra causa ed effetto.
2. Produttività: la causa è in grado di produrre un effetto.
3. Controfattualità: si mette a confronto un insieme di fatti accaduti con un insieme di fatti ipotetici.
4. Canone della differenza: a parità di altre condizioni, differenze in X provocano differenze in Y.
Accettati questi canoni, le scuole di pensiero si dividono. Per alcuni, si parla di impostazione causale solo se si può manipolare la variabile indipendente X.
Soluzione
Si usa il termine influenzare per situazioni generali in cui una variabile X agisce sulla Y, e si usa il termine causare per situazioni in cui modificando la X si esercita un’azione sulla Y.
Il problema dell'imputazione causale è che spesso non si ha il perfetto controllo di X e cioè non si può randomizzare la somministrazione del trattamento, quindi non possiamo escludere che le differenze in Y non siano dovute a X ma bensì a qualche altra variabile z che è connessa a X e può non essere direttamente osservabile. Si dice in questo caso che la relazione tra X e Y è spuria.
Strategie per risolvere il problema dell'imputazione causale
- Randomizzazione
- Matching variabili between
- Variabili di controllo
- Variabili strumentali
Variabili within
- Variabili di controllo
- Variabili strumentali
- Analisi del singolo con serie interrotte (ITS)
- Difference in difference (DID)
- Panel analysis
Problema delle misurazioni mentali
Le tecniche di analisi dei dati consentono di analizzare 7 proprietà mentali:
- Disposizioni
- Percezioni psicometriche
- Salienze
- Utilità soggettive
- Credenze
- Avversione al rischio
- Apparati categoriali
Hanno in comune il fatto di non essere direttamente osservabili, quindi vanno ricostruite attraverso varie tecniche.
In psicometria si lavora con 2 tipi di oggetti: individui e stimoli; e le proprietà latenti sono cardinali. Se si lavora con N individui, le variabili latenti con cui li descriviamo si chiamano disposizioni; se invece si lavora con S stimoli, le variabili latenti con cui li descriviamo si chiamano percezioni.
Se lavoriamo con disposizioni, la tecnica da usare è quella dell'analisi fattoriale: matrice input NXM e matrice output NXH. Se lavoriamo con le percezioni, la tecnica è lo scaling multidimensionale: matrice input SXS e matrice output SXH.
Esiste anche una tecnica che descrive congiuntamente differenze tra individui e tra stimoli: multidimensional unfolding, che ha come input una matrice NXS e come output una matrice (N+S)Xh le cui variabili latenti sono percezioni e autopercezioni.
Se lavoriamo con salienze si hanno 2 casi
- Si usa la tecnica indscal (individual differences scaling) che assume che tutti gli individui giudichino gli stimoli con gli stessi H criteri ma che assegnino un'importanza diversa alle varie percezioni. L'input è una matrice SxH e una NxH (di salienze).
- Conjoint analysis: ha come oggetti N individui, ha come matrice input Sx(N+K) e output NxK.
Notazione
Matrici input
- Y= matrice NxM di variabili dipendenti
- X= matrice NxK di variabili indipendenti
- D= matrice SxS di similarità tra stimoli
Matrici output
2 gruppi:
- Contengono il risultato di misurazioni mentali:
- F= matrice NxH con H disposizioni di N
- Z= matrice SxH con H percezioni di S stimoli da parte di uno o più individui
- W= matrice NxH o NxK di salienze individuali
- Contengono i coefficienti d'impatto di uno o più variabili indipendenti su una o più variabili dipendenti:
- B= matrice MxK con i coefficienti d'impatto di K variabili individuali manifeste e M variabili dipendenti manifeste
- ʌ= matrice MxH con i coefficienti d'impatto di H variabili indipendenti latenti su M variabili dipendenti manifeste
L'insieme di queste matrici genera i 3 problemi dell'analisi dei dati:
- Regressione: trovare B date Y e X.
- Analisi fattoriale: trovare ʌ e F data Y.
- Scaling: trovare Z data D.
Capitolo 1: canone della spiegazione
I termini spiegazione è usato in 2 accezioni diverse. In entrambe significa mettere in relazione una o più variabili dipendenti manifeste con una o più variabili indipendenti manifeste.
- Lo scopo dell'analisi è riprodurre i valori avuti da una o più variabili dipendenti, quindi una matrice NxM riprodurre la varianza.
- Lo scopo è riprodurre le relazioni reciproche di un certo numero di variabili manifeste, dunque una matrice MxM riprodurre la covarianza.
Queste tecniche che rientrano nel canone della spiegazione si chiamano analisi di dipendenza e si dividono in 2 gruppi:
- Schemi di interpolazione
- Schemi di dipendenza
Schemi di interpolazione
Parliamo di schemi di interpolazione quando non si adotta alcun assunto probabilistico sul meccanismo che genera risposte. Si parte da un input costituito da una matrice di profilo P di formato Nx(M+K) al cui interno distinguiamo una sottomatrice Y delle variabili dipendenti di formato NxM che costituirà il bersaglio, e una sottomatrice X delle variabili indipendenti di formato NxK che costituirà il supporto nella formula di ricostituzione.
P= YIX I= accostamento laterale
Uno schema di interpolazione è una tecnica di analisi dei dati che trova una forma funzionale f() che permetta di prevedere il bersaglio (Y) mediante la conoscenza di valori del supporto (X).
M(P)=Y= Ŷ+E= f(X)+E
Nel caso più semplice M=K=1 la mappa della tecnica è banale (si limita a selezionare da P la sottomatrice delle variabili dipendenti Y), e inoltre la forma di f() è quella di un'equazione lineare con solo 2 parametri b0 e by.
Ciò significa che P è una matrice NxZ che nella prima colonna contiene una variabile dipendente Yn e nella seconda una variabile indipendente Xn. Il problema è stimare i parametri dell'equazione che rende i valori di Yn predetti il più vicino possibile a quelli osservati: Yn=Ŷn+en=f(Xn)+en=ByXn+B0+EN con la notazione generale Y=Ŷ+Δ=r(N;S)+Δ dove il nucleo della soluzione N è la coppia <b1,b0>, il supporto è la matrice X e la tecnica (dato che il supporto contribuisce alla produzione del bersaglio) è una proiezione a bersaglio fmo.
Se lo stress viene calcolato come somma dei quadrati degli scarti tra valori osservati e predetti, e la soluzione (parametri b1, bo) viene ricercata rendendo minimo lo stress, otteniamo la tecnica della regressione ordinaria nella sua versione basata sui minimi quadrati ordinari (OLS).
Se il supporto contiene più di una variabile indipendente si parla di regressione multipla. Se il bersaglio contiene più di una variabile dipendente si parla di regressione multivariata.
La parsimonia: ū= (N-q)/(N-1)Q= numero di parametri stimati dall'equazione di regressione.
Questi schemi si dicono di interpolazione perché servono a far passare una curva di interpolazione in mezzo ai punti di una nube.
Modelli di dipendenza
Un modello di dipendenza è una tecnica di analisi dei dati che è:
- Dotata di assunti espliciti sul meccanismo probabilistico che genera i dati
- Capace di stimare i parametri di una o più funzioni che collegano altrettante variabili dipendenti (endogene) a una o più variabili indipendenti (endogene o esogene).
Per meccanismo probabilistico che genera i dati si intende la presenza di una o entrambe le seguenti fonti di aleatorietà:
- Natura campionaria delle osservazioni
- Presenza nell'equazione di termini di disturbo che si comportano come variabili aleatorie continue.
Il meccanismo generatore di un modello di dipendenza è una lista di equazioni che collegano M variabili dipendenti (endogene) a M+K variabili indipendenti (endogene+ esogene):
Y1=f1(y1…yk, x1…xk, Ṍ1)+v1
Y2=f2(y1…yk, x1…xk, Ṍ2)+v2
Y3=fm(y1…yk, x1…xk, Ṍm)+vm
Ṍm= vettore di parametri d'impatto: b1, b2
Vm= disturbi
Se il compito del modello di dipendenza non è scoprire qual è la rete di interconnessioni tra le variabili, ma è controllare se una certa rete di legami ipotizzata a priori e incorporata nei vettori Ṍm è compatibile con i dati o no. Ciò avviene stimando i parametri liberi di ogni vettore Ṍm.
Ci sono 2 tradizioni nei modelli di dipendenza:
- Analisi causale e analisi della varianza
- Conjoint analysis: applicazione di tecniche causali a un problema di natura psicometrica
La distinzione è di natura più che altro semantica, perché non riguarda le tecniche di analisi usate, ma i tipi di variabili a cui vengono applicate. Ci sono anche differenze sintattiche:
- Distinzione tra modelli con una sola equazione e modelli con più equazioni.
- Livelli di scala delle variabili coinvolte.
- Linearità o meno delle funzioni che collegano variabili dipendenti e variabili indipendenti.
Nei modelli a equazione singola, distinzione tra regressione multipla (variabili tutte cardinali e specificazione lineare) e analisi della varianza (la variabile dipendente è cardinale, le variabili indipendenti categoriali o dummy e la specificazione ammette la presenza di termini di interazione tra variabili indipendenti).
Modelli a più equazioni, distinzione tra modelli che generalizzano le tre tecniche di base:
- Regressione multipla: regressione multivariata
- Regressione logistica: modelli multilogit
- Analisi della varianza: analisi della varianza multivariata e modelli di dipendenza confermativi o vincolati (path analysis e modelli di equazione strutturale) il cui compito è sottoporre a controllo un insieme di ipotesi a priori sulle relazioni tra variabili.
Esempio 1: l'analisi della varianza
Dell’ANOVA ci sono tante versioni tutte accomunate da alcuni elementi costanti:
- La distinzione tra variabili dipendenti e indipendenti, entrambe manifeste.
- Livello di scala cardinale per la/le variabili dipendenti.
- Livello di scala categoriale (nominale) o trattato come tale (intervalli) per la/le variabili indipendenti.
- Assunti specifici sul meccanismo che genera i dati.
Distinzioni:
- Una sola variabile dipendente cioè 1 equazione: analisi della varianza univariata/monovariata (ANOVA). Più variabili dipendenti cioè più equazioni: analisi della varianza multivariata (MANOVA).
- Una sola variabile indipendente cioè una via: analisi della varianza a una via (oneway). Più variabili indipendenti cioè più vie: analisi della varianza a più vie (kway).
- Natura e indipendenza delle osservazioni: nell’analisi della varianza a misure ripetute le osservazioni non sono tra loro indipendenti perché lo stesso soggetto è sottoposto a più prove.
- Inclusione o no di variabili di controllo cardinale denominate covariate: analisi della covarianza.
- Carattere delle variabili indipendenti categoriali con modalità note a priori: ANOVA a effetti fissi o che risultano da un campionamento ANOVA a effetti random.
- Natura fissa o mobile del bersaglio.
Scopi della tecnica
Ci occupiamo dell’analisi della varianza univariata che ha 3 obiettivi:
- Controllare attraverso il test inferenziale F un’ipotesi di eguaglianza generalizzata tra due o più medie di gruppo.
- Scomporre la variabilità della variabile dipendente in una porzione attribuibile all’errore e in una o più porzioni attribuibili all’influenza di una o più variabili indipendenti (fattori).
- Stimare i parametri del modello e la loro significatività cioè misurare l’impatto sulla variabile dipendente di singole modalità della variabile indipendente (effetti principali) o combinazioni di esse (effetti di interazione).
Nell’ANOVA:
- Fattori: variabili indipendenti categoriali manifeste
- Livelli: modalità delle variabili indipendenti
- Gruppi: sottoinsiemi che si individuano in base ai livelli del fattore
Scheda della tecnica
Ci soffermiamo sull’analisi della varianza univariata (1 variabile dipendente) a più vie (più variabili indipendenti, fattori) con disegno bilanciato e parametrizzazione centrale.
Disegno bilanciato
- Nessuna delle celle della tabella di contingenza multipla tra i K fattori è vuota, ossia priva di casi (disegno completo)
- Tutte le celle contengono il medesimo numero di casi e tale numero è pari ad almeno 2 (disegno bilanciato)
Parametrizzazione centrale: gli effetti sono considerati come scostamenti della media generale della Y.
Scheda: ANOVA a più vie con disegno bilanciato
- Famiglia: Tecniche multivariate
- Canone: Spiegazione
- Status: Modello
- Architettura: Proiezione a bersaglio fisso (supporto)
- Struttura dei dati: Dati di profilo, 2 set (p2)
- Tipo di scala: 1 cardinale dipendente, k categoriali indipendenti
Prerequisiti:
Di due tipi:
- Prerequisiti logici relativi all’input
- Prerequisiti statistici relativi al meccanismo che genera i dati
L’input deve essere una matrice di profilo con una variabile dipendente cardinale e una o più variabili indipendenti categoriali (fattori).
Requisiti statistici sono due: in tutti i sotto campioni relativi alle celle del disegno fattoriale le distribuzioni varie della variabile dipendente Y intorno alla propria media siano reciprocamente indipendenti, naturali e dotate della stessa varianza (omoschedasticità).
Il valore atteso dell’errore è pari a zero. Le nostre osservazioni sono indipendenti, cioè la distribuzione dell’errore di un individuo non deve covariare con l’errore di un altro individuo.
Test degli assunti statistici
Data una variabile dipendente Y e K fattori si valutano gli assunti. Il vero problema è valutare il grado delle violazioni.
Alcune regole:
- Raccogliere i dati in modo che le osservazioni siano indipendenti
- Adottare disegni bilanciati
- Controllare la normalità delle distribuzioni
- Controllare che non ci siano squilibri nelle varianze, soprattutto quando il disegno non è bilanciato
Modello
- Nel caso di un solo fattore, il modello dell’analisi della varianza univariata, a una via è questo: Yni=μ0+μi+Vni, dove:
- I= livelli del fattore
- M= effetto generale
- N= n-esima osservazione entro il gruppo individuato del livello i-esimo, n non varia tra Y e N ma tra 1 e N.
Il modello dice che il valore della Y è la somma di un effetto generale μ più un effetto di gruppo μ più un errore σ.
- Nel caso di più fattori il modello si complica di più: aumentano le μ ma anche perché possono comparire termini misti (a due o più pedici) che indicano le interazioni dei vari ordini. Un modello con due fattori X1 e X2 si scrive: Ynij=ỹnij+Vnij=μ…..+μi+μj [+μij]+Vnij, che è il modello dell’ANOVA a due vie in cui ci sono 4 contributi o effetti:
- Effetto generale μ…
- Effetto specifico μi relativo al livello i-esimo del fattore X1
- Effetto specifico μj relativo al livello j-esimo del fattore X2
- Effetto di interazione eventuale μij. Se non è presente, modello a effetti principali. Se presente, modello saturo.
Algoritmo
Anche nel caso dell’ANOVA a due vie con effetti di interazione e disegno bilanciato, se si adotta la parametrizzazione centrale, si possono stimare i parametri con la procedura della doppia centratura della matrice rettangolare di formato IxJ che contiene le medie degli IxJ gruppi che si possono formare incrociando il fattore X1 e il fattore X2.
Fattore X2: Ӯ11 Ӯ12 Ӯ13 Ӯ1*
Fattore X1: Ӯ21 Ӯ22 Ӯ23 Ӯ2*
Ӯ*1 Ӯ*2 Ӯ*3 Ӯ**
Μij=Ӯij-Ӯi-Ӯj+Ӯ..
La stima dei parametri equivale alla determinazione dei parametri espliciti: 1+I+J+IxJ=(I+1)(J+1) che sono soggetti a vincoli: I+J+1. Di conseguenza, il numero di parametri liberi è minore del numero di parametri espliciti.
Parametri liberi= parametri espliciti – vincoli=IxJ
Soluzione
Sia nell’ANOVA che nella regressione, il bersaglio della tecnica è il vettore degli N valori della variabile dipendente Y. Se il disegno è bilanciato e ogni cella del disegno contiene N* casi, il valore di N è dato dal numero delle celle per la numerosità di ogni cella. Nel caso a due vie N=N*xIxJ.
Poiché l’ANOVA standard è una tecnica a bersaglio fisso, la mappa della tecnica non ha parametri e quindi la soluzione coincide con il suo nucleo che è l’insieme dei parametri espliciti individuati dall’algoritmo.
Soluzione= <μ,μi,μj,μij>.
A partire dal nucleo della soluzione con la formula di ricostruzione calcoliamo i valori delle ŷ. L’ANOVA è la proiezione, quindi è dotata di supporto. Nel caso dell’ANOVA a 2 vie, il supporto è dato dalla matrice Nx(1+I+J+IxJ) che contiene:
- Vettore di soli 1
- I vettori di X1 corrispondenti alle I dummies della codifica disgiuntiva completa di X1
- I vettori di X2 corrispondenti alle J dummies della codifica disgiuntiva completa di X2
- Se il modello è saturo, gli IxJ vettori dei termini di interazione tra X1 e X2.
Tale matrice la chiamiamo X e la chiamiamo μ il valore degli 1+I+J+IxJ=E parametri espliciti.
La formula di ricostruzione è: ŷ=r(N;S)Ŷ=X μ Nx1= NxE Ex1
Valutazione della soluzione
Grazie al teorema di decomposizione, la varianza Vt può essere scomposta come:
Vt=Vf+Vr
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Riassunto esame Analisi dei Dati, prof. Ricolfi, libro consigliato Analisi dei dati, Ricolfi
-
Riassunto esame Analisi dei dati, Prof. Pastore Massimiliano, libro consigliato Analisi dei dati in psicologia, Pas…
-
Riassunto esame Diritto Commerciale, prof. Ricolfi, libro consigliato Campobasso
-
Riassunto esame Teorie e tecniche dei test e analisi dei dati, prof. Innamorati, libro consigliato teorie e tecnich…