Anteprima
Vedrai una selezione di 11 pagine su 49
Appunti di Statistica Pag. 1 Appunti di Statistica Pag. 2
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 6
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 11
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 16
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 21
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 26
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 31
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 36
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 41
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Appunti di Statistica Pag. 46
1 su 49
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

L’ANALISI BIVARIATA: LE RELAZIONI CAUSALI TRA VARIABILI

Il concetto di causalità è intrinseco allo stesso pensare umano e scientifico: come può il cambiamento di

una variabile produrre il cambiamento di un’altra? Il concetto di produzione è connesso a quello di

causalità, per la quale viceversa non è sufficiente la semplice “associazione” tra due eventi. Tuttavia

malgrado l’appartenenza di questo concetto all’idea stessa della scienza esso sembra pure uno dei più

difficili da tradurre in termini operativi, uno dei più esposti a quel “divario tra il linguaggio della teoria e

quello della ricerca”. In statistica abbiamo 3 trappole:

1) Correlazioni spurie: è il caso classico di covariazione in assenza di causazione. Esempio: i nidi di

cicogna in un’area e il numero di nascite. La collocazione urbano/rurale delle aree costituisce la

terza variabile (Z): nelle zone rurali le famiglie sono più prolifiche e ci sono anche più nidi di

cicogne. Quindi:

a. 1. è presente una causa comune alle due variabili covarianti

b. 2. la causa di Y non proviene da X ma da una terza variabile a questa correlata

2) Paradosso di Simpson: è un fenomeno di probabilità e statistica in cui una tendenza sembra uscire

fuori, almeno apparentemente, da gruppi di dati distinti, ma scompare – o addirittura si inverte –

quando i gruppi vengono combinati tra loro. Di fatto, induce errori di valutazione e falsa causalità

tra fenomeni

3) Simmetria:

a. la malattia (X) causa i sintomi (Y) Y = mX + b

b. i sintomi (Y) causano la malattia (X) X = (Y – b)/m

NON È TUTTAVIA INUTILE PENSARE IN TERMINI CAUSALI

Anche se una legge causale non può mai essere dimostrata empiricamente, essa è tuttavia empiricamente

saggiabile. La oggettività delle asserzioni della scienza risiede nel fatto che esse possono essere controllate

intersoggettivamente: variabile indipendente variabile dipendente

Prima di affrontare l’analisi della relazione di causalità tra variabili e lo studio della relazione tra due

variabili è utile la distinzione tra:

- covariazione (variabile variabile)

- causalità (variabile indipendente variabile dipendente)

Il concetto di causalità presenta due elementi in più:

- Direzionalità dell’azione: il variare di una variabile precede il variare dell’altra

- Legame diretto: il variare di una variabile è dovuto e non meramente associato al variare

dell’altra

Mentre la covariazione è empiricamente osservabile, la causalità appartiene al dominio della teoria

TEORIA E DATI APPARTENGONO A MONDI SEPARATI MA NON PER QUESTO PRIVI DI CONNESSIONI

Due variabili:

• possono covariare senza essere causalmente legate

• viceversa è possibile che esse siano causalmente legate senza mostrare covariazione

E’ evidente che il nesso tra teoria e dati, tra causalità e covariazione, sia un problema di non immediata o

intuitiva soluzione.

IL DISEGNO SPERIMENTALE

Il ricercatore crea una situazione artificiale, o di laboratorio, nella quale tutte le altre possibili cause di

variazione sulla variabile dipendente sono mantenute costanti o tenute sotto controllo. Solo alle variabili

oggetto dell’esperimento, in tale sistema definito isolato, è consentito variare

variabile indipendente variabile dipendente

Al ricercatore è possibile variare artificialmente la variabile indipendente.

Nel caso dell’esperimento in laboratorio questo è praticabile anche se non si potrà provare che il sistema

sia completamente isolato. Tuttavia la strategia è ancor più complessa nel caso dello studio delle variabili

biologiche nell’ambiente esterno al laboratorio in quanto non esiste il presupposto dell’isolamento del

sistema né, nella maggioranza dei casi, quello di poter far variare artificialmente la variabile indipendente.

Nel caso del disegno non sperimentale o osservazionale il ricercatore ha a disposizione solo:

• i dati osservati

• le relazioni osservate tra le variabili

L’unico modo di procedere sarà quello di formulare una teoria quale ipotesi e confrontare quanto i risultati

previsti da tale teoria sono in accordo con i dati osservati.

PROCESSO DI VERIFICA EMPIRICA DELLA TEORIA

1. Formulazione del modello teorico di relazioni causali esistenti tra le variabili

2. Simulazione di una realtà quale è quella prefigurata dal modello con produzione di dati

3. Confronto fra i dati prodotti dal modello teorico e quelli osservati in realtà

4. Valutazione della discrepanza o “residuo” fra dati attesi e dati osservati e, sulla base della sua

entità, “rifiuto” del modello teorico ovvero “non-rifiuto”, il che non vuol dire “accettazione” del

modello teorico

Ci sono 4 tipi di relazione causale tra due variabili:

1) DIRETTA: Si tratta del tipo di relazione causale di primo e immediato interesse del ricercatore: una

teoria scientifica è spesso un insieme di proposizioni causali e la sua rappresentazione formalizzata,

il modello, non è altro che una rete di relazioni causali in prevalenza dirette. Per illustrare la

relazione causale diretta fra due variabili consideriamo due variabili, esse sono legate da relazione

causale diretta quando il variare dell’una, la “causa”, produce un mutamento nella variabile

“effetto”

a. Asimmetria (o direzionalità senza la quale avremmo una relazione reciproca)

b. Concetto di “produzione” (senza il quale avremmo una covariazione e cioè una relazione

spuria)

c. Immediatezza del nesso (senza la quale avremmo una relazione indiretta)

Ad esempio una sostanza che ha la capacità di interagire con il DNA causa

direttamente il danno genotossico.

2) RECIPROCA: Quando viene meno l’asimmetria del rapporto tra variabili, e queste si influenzano

reciprocamente; si parla anche di retroazione o causazione reciproca. In questo caso viene meno la

distinzione fra variabile causa e variabile effetto. Esempio: il feed-back nella regolazione dei

processi biologici: ormoni tiroidei e TSH ipofisario. La quantità di ormoni tiroidei T3 e T4 in circolo a

bassi livelli stimola la produzione da parte dell’ipofisi di TSH (tyroid stimulating hormone) che a sua

volta stimola la tiroide a rilasciare T3 e T4 (feedback positivo). Quando l’ipofisi attraverso il TSH

determina un elevato livello di questi ormoni T3 e T4 viene inibita (feedback negativo) la

produzione da parte dell’ipofisi di TSH

3) INDIRETTA: Quando il legame causale tra due variabili X e Y è mediato da una terza variabile Z

Esempio: etnia e quoziente intellettivo QI. L’etnia (X) agisce sul livello di istruzione (Z) il quale agisce

su Y (basso QI). La terza variabile viene chiamata variabile interveniente Il legame causale esiste ma

non è diretto ossia non è l’etnia, ossia la variabile genetica, a determinare il grado di intelligenza

4) CONDIZIONATA (interazione): E’ il caso in cui la relazione tra due variabili cambia a seconda del

valore assunto da una terza variabile. Esempio: infezione da HPV e cervicocarcinoma. Assenza di

relazione fra HPV (X) e cervicocarcinoma (Y) in alcuni gruppi di donne; con l’introduzione di una

terza variabile Z (polimorfismi genetici) emerge la relazione. L’azione della variabile Z si esercita

non su X o su Y, ma sul legame che lega X a Y (relazione condizionata).

Lo studio della relazione tra le variabili viene condotto mediante tecniche diverse che dipendono dalla

natura delle variabili analizzate.

COVARIAZIONE E DIPENDENZA

Covariazione, quando due variabili presentano variazioni concomitanti, ossia quando al variare dell’una

varia anche l’altra.

Dipendenza, quando esiste una relazione tale che una variabile X indipendente, costituisca la causa della

variabile Y dipendente che ne è l’effetto: è implicata la nozione di produzione.

Si definisce covarianza di X e Y il prodotto degli scarti dei valori di X e Y dalle rispettive medie, la quantità:

OVVERO:

Nella prima formula della covarianza il denominatore è N cioè il numero di osservazioni totali, ossia nel

caso della popolazione considerata nel suo complesso. Se studio un campione uso la seconda formula con

n-1 al denominatore e non N: la ragione di ciò è che in un campione la media di (x – Mx)2 sarà più piccola

i

del valore (x – Mx)2 della popolazione e quindi se si divide per N si avrà una sottostima della covarianza

i

della popolazione. È possibile dimostrare che dividendo per n-1 invece che per N si rimuove questo bias

delle stime campionarie. Si dimostra che la covarianza di due variabili X e Y è data dalla media dei loro

prodotti meno il prodotto delle loro medie: Cov(X,Y) = M(X × Y) - M(X) × M(Y).

COEFFICIENTE DI CORRELAZIONE LINEARE

Una misura della relazione esistente fra le componenti di una variabile statistica doppia (X,Y) viene fornita

dal coefficiente di correlazione lineare di Pearson:

Il coefficiente di correlazione è dato dalla covarianza tra x e y (cioè il valore atteso del prodotto degli scarti

dei valori di X e Y dalle rispettive medie) fratto il prodotto delle deviazioni standard di x e y. Il coefficiente di

correlazione gode di alcune proprietà. Risulta sempre -1 ≤ ρ ≤ 1.

 Se ρ = 0 si parla di indipendenza correlativa: non c’è relazione lineare tra le due variabili

 Se ρ = +1 è il caso di perfetta relazione lineare diretta

 Se ρ = -1 è il caso di perfetta relazione lineare inversa

ρ è indipendente da cambiamenti di unità di misura e di origine per le variabili statistiche X e Y.

Esempio:

In questo caso ρ = -0.79 quindi esiste una forte relazione lineare negativa tra la percentuale di bambini

vaccinati contro DTP in un determinato Paese ed il tasso di mortalità al di sotto di 5 anni.

Non dimentichiamoci che ci sono dei limiti ossia che il coefficiente di correlazione del campione è

estremamente sensibile a valori estremi e una correlazione tra due variabili non implica una relazione

causa-effetto.

ANALISI DELLA DIPENDENZA

Il problema che ci si pone è quello di fornire una misura che esprima la dipendenza fra due variabili

statistiche relative ad una stessa popolazione. Vogliamo esaminare se esiste una relazione tale che una

variabile X indipendente costituisca la causa della variabile Y dipendente che ne è l’effetto. Due casi limite

di dipendenza:

 Perfetta dipendenza: la modalità del carattere X che si presenta in un’osservazione determina

univocamente la modalità che assume la variabile statistica Y nella stessa osservazione. Esiste una

f

Dettagli
Publisher
A.A. 2023-2024
49 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher merylove01 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Catania o del prof Favara Giuliana.