Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
L’ANALISI BIVARIATA: LE RELAZIONI CAUSALI TRA VARIABILI
Il concetto di causalità è intrinseco allo stesso pensare umano e scientifico: come può il cambiamento di
una variabile produrre il cambiamento di un’altra? Il concetto di produzione è connesso a quello di
causalità, per la quale viceversa non è sufficiente la semplice “associazione” tra due eventi. Tuttavia
malgrado l’appartenenza di questo concetto all’idea stessa della scienza esso sembra pure uno dei più
difficili da tradurre in termini operativi, uno dei più esposti a quel “divario tra il linguaggio della teoria e
quello della ricerca”. In statistica abbiamo 3 trappole:
1) Correlazioni spurie: è il caso classico di covariazione in assenza di causazione. Esempio: i nidi di
cicogna in un’area e il numero di nascite. La collocazione urbano/rurale delle aree costituisce la
terza variabile (Z): nelle zone rurali le famiglie sono più prolifiche e ci sono anche più nidi di
cicogne. Quindi:
a. 1. è presente una causa comune alle due variabili covarianti
b. 2. la causa di Y non proviene da X ma da una terza variabile a questa correlata
2) Paradosso di Simpson: è un fenomeno di probabilità e statistica in cui una tendenza sembra uscire
fuori, almeno apparentemente, da gruppi di dati distinti, ma scompare – o addirittura si inverte –
quando i gruppi vengono combinati tra loro. Di fatto, induce errori di valutazione e falsa causalità
tra fenomeni
3) Simmetria:
a. la malattia (X) causa i sintomi (Y) Y = mX + b
b. i sintomi (Y) causano la malattia (X) X = (Y – b)/m
NON È TUTTAVIA INUTILE PENSARE IN TERMINI CAUSALI
Anche se una legge causale non può mai essere dimostrata empiricamente, essa è tuttavia empiricamente
saggiabile. La oggettività delle asserzioni della scienza risiede nel fatto che esse possono essere controllate
intersoggettivamente: variabile indipendente variabile dipendente
Prima di affrontare l’analisi della relazione di causalità tra variabili e lo studio della relazione tra due
variabili è utile la distinzione tra:
- covariazione (variabile variabile)
- causalità (variabile indipendente variabile dipendente)
Il concetto di causalità presenta due elementi in più:
- Direzionalità dell’azione: il variare di una variabile precede il variare dell’altra
- Legame diretto: il variare di una variabile è dovuto e non meramente associato al variare
dell’altra
Mentre la covariazione è empiricamente osservabile, la causalità appartiene al dominio della teoria
TEORIA E DATI APPARTENGONO A MONDI SEPARATI MA NON PER QUESTO PRIVI DI CONNESSIONI
Due variabili:
• possono covariare senza essere causalmente legate
• viceversa è possibile che esse siano causalmente legate senza mostrare covariazione
E’ evidente che il nesso tra teoria e dati, tra causalità e covariazione, sia un problema di non immediata o
intuitiva soluzione.
IL DISEGNO SPERIMENTALE
Il ricercatore crea una situazione artificiale, o di laboratorio, nella quale tutte le altre possibili cause di
variazione sulla variabile dipendente sono mantenute costanti o tenute sotto controllo. Solo alle variabili
oggetto dell’esperimento, in tale sistema definito isolato, è consentito variare
variabile indipendente variabile dipendente
Al ricercatore è possibile variare artificialmente la variabile indipendente.
Nel caso dell’esperimento in laboratorio questo è praticabile anche se non si potrà provare che il sistema
sia completamente isolato. Tuttavia la strategia è ancor più complessa nel caso dello studio delle variabili
biologiche nell’ambiente esterno al laboratorio in quanto non esiste il presupposto dell’isolamento del
sistema né, nella maggioranza dei casi, quello di poter far variare artificialmente la variabile indipendente.
Nel caso del disegno non sperimentale o osservazionale il ricercatore ha a disposizione solo:
• i dati osservati
• le relazioni osservate tra le variabili
L’unico modo di procedere sarà quello di formulare una teoria quale ipotesi e confrontare quanto i risultati
previsti da tale teoria sono in accordo con i dati osservati.
PROCESSO DI VERIFICA EMPIRICA DELLA TEORIA
1. Formulazione del modello teorico di relazioni causali esistenti tra le variabili
2. Simulazione di una realtà quale è quella prefigurata dal modello con produzione di dati
3. Confronto fra i dati prodotti dal modello teorico e quelli osservati in realtà
4. Valutazione della discrepanza o “residuo” fra dati attesi e dati osservati e, sulla base della sua
entità, “rifiuto” del modello teorico ovvero “non-rifiuto”, il che non vuol dire “accettazione” del
modello teorico
Ci sono 4 tipi di relazione causale tra due variabili:
1) DIRETTA: Si tratta del tipo di relazione causale di primo e immediato interesse del ricercatore: una
teoria scientifica è spesso un insieme di proposizioni causali e la sua rappresentazione formalizzata,
il modello, non è altro che una rete di relazioni causali in prevalenza dirette. Per illustrare la
relazione causale diretta fra due variabili consideriamo due variabili, esse sono legate da relazione
causale diretta quando il variare dell’una, la “causa”, produce un mutamento nella variabile
“effetto”
a. Asimmetria (o direzionalità senza la quale avremmo una relazione reciproca)
b. Concetto di “produzione” (senza il quale avremmo una covariazione e cioè una relazione
spuria)
c. Immediatezza del nesso (senza la quale avremmo una relazione indiretta)
Ad esempio una sostanza che ha la capacità di interagire con il DNA causa
direttamente il danno genotossico.
2) RECIPROCA: Quando viene meno l’asimmetria del rapporto tra variabili, e queste si influenzano
reciprocamente; si parla anche di retroazione o causazione reciproca. In questo caso viene meno la
distinzione fra variabile causa e variabile effetto. Esempio: il feed-back nella regolazione dei
processi biologici: ormoni tiroidei e TSH ipofisario. La quantità di ormoni tiroidei T3 e T4 in circolo a
bassi livelli stimola la produzione da parte dell’ipofisi di TSH (tyroid stimulating hormone) che a sua
volta stimola la tiroide a rilasciare T3 e T4 (feedback positivo). Quando l’ipofisi attraverso il TSH
determina un elevato livello di questi ormoni T3 e T4 viene inibita (feedback negativo) la
produzione da parte dell’ipofisi di TSH
3) INDIRETTA: Quando il legame causale tra due variabili X e Y è mediato da una terza variabile Z
Esempio: etnia e quoziente intellettivo QI. L’etnia (X) agisce sul livello di istruzione (Z) il quale agisce
su Y (basso QI). La terza variabile viene chiamata variabile interveniente Il legame causale esiste ma
non è diretto ossia non è l’etnia, ossia la variabile genetica, a determinare il grado di intelligenza
4) CONDIZIONATA (interazione): E’ il caso in cui la relazione tra due variabili cambia a seconda del
valore assunto da una terza variabile. Esempio: infezione da HPV e cervicocarcinoma. Assenza di
relazione fra HPV (X) e cervicocarcinoma (Y) in alcuni gruppi di donne; con l’introduzione di una
terza variabile Z (polimorfismi genetici) emerge la relazione. L’azione della variabile Z si esercita
non su X o su Y, ma sul legame che lega X a Y (relazione condizionata).
Lo studio della relazione tra le variabili viene condotto mediante tecniche diverse che dipendono dalla
natura delle variabili analizzate.
COVARIAZIONE E DIPENDENZA
Covariazione, quando due variabili presentano variazioni concomitanti, ossia quando al variare dell’una
varia anche l’altra.
Dipendenza, quando esiste una relazione tale che una variabile X indipendente, costituisca la causa della
variabile Y dipendente che ne è l’effetto: è implicata la nozione di produzione.
Si definisce covarianza di X e Y il prodotto degli scarti dei valori di X e Y dalle rispettive medie, la quantità:
OVVERO:
Nella prima formula della covarianza il denominatore è N cioè il numero di osservazioni totali, ossia nel
caso della popolazione considerata nel suo complesso. Se studio un campione uso la seconda formula con
n-1 al denominatore e non N: la ragione di ciò è che in un campione la media di (x – Mx)2 sarà più piccola
i
del valore (x – Mx)2 della popolazione e quindi se si divide per N si avrà una sottostima della covarianza
i
della popolazione. È possibile dimostrare che dividendo per n-1 invece che per N si rimuove questo bias
delle stime campionarie. Si dimostra che la covarianza di due variabili X e Y è data dalla media dei loro
prodotti meno il prodotto delle loro medie: Cov(X,Y) = M(X × Y) - M(X) × M(Y).
COEFFICIENTE DI CORRELAZIONE LINEARE
Una misura della relazione esistente fra le componenti di una variabile statistica doppia (X,Y) viene fornita
dal coefficiente di correlazione lineare di Pearson:
Il coefficiente di correlazione è dato dalla covarianza tra x e y (cioè il valore atteso del prodotto degli scarti
dei valori di X e Y dalle rispettive medie) fratto il prodotto delle deviazioni standard di x e y. Il coefficiente di
correlazione gode di alcune proprietà. Risulta sempre -1 ≤ ρ ≤ 1.
Se ρ = 0 si parla di indipendenza correlativa: non c’è relazione lineare tra le due variabili
Se ρ = +1 è il caso di perfetta relazione lineare diretta
Se ρ = -1 è il caso di perfetta relazione lineare inversa
ρ è indipendente da cambiamenti di unità di misura e di origine per le variabili statistiche X e Y.
Esempio:
In questo caso ρ = -0.79 quindi esiste una forte relazione lineare negativa tra la percentuale di bambini
vaccinati contro DTP in un determinato Paese ed il tasso di mortalità al di sotto di 5 anni.
Non dimentichiamoci che ci sono dei limiti ossia che il coefficiente di correlazione del campione è
estremamente sensibile a valori estremi e una correlazione tra due variabili non implica una relazione
causa-effetto.
ANALISI DELLA DIPENDENZA
Il problema che ci si pone è quello di fornire una misura che esprima la dipendenza fra due variabili
statistiche relative ad una stessa popolazione. Vogliamo esaminare se esiste una relazione tale che una
variabile X indipendente costituisca la causa della variabile Y dipendente che ne è l’effetto. Due casi limite
di dipendenza:
Perfetta dipendenza: la modalità del carattere X che si presenta in un’osservazione determina
univocamente la modalità che assume la variabile statistica Y nella stessa osservazione. Esiste una
f