Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Si osservi che
nessun effetto del veleno: devono essere vere sia H ’ che H ”’.
0 0
nessun effetto degli antidoti: devono essere vere sia H0” che H0”’.
nessuna interazione veleno antidoto: deve essere vera H”’.
Conclusioni. La sopravvivenza delle cavie dipende sia dai veleno che dall’antidoto somministrato. Non
esiste però interazione: gli antidoti hanno (sembrano avere) lo stesso effetto qualsiasi sia il veleno
somministrato. In termini di pericolosità, i veleni possono essere ordinati come
1 < 2 < 3.
In termini di efficacia, gli antidoti sembrerebbero essere ordinati nella seguente maniera
1 < 3 < 4 < 2
2
Alcuni esempi su correlazione, regressione lineare e logistica
Misure di correlazione .
Mortalità per melanoma e altre variabili. In uno studio è stata rilevata la mortalità per melanoma dal
1950-1959 nella popolazione dei maschi di razza bianca per i 49 stati del blocco continentale USA (sono
esclusi Alaska e Hawaii mentre è incluso Washington DC). Nel seguito per “mortalità” intendiamo il numero
7
di morti per 10 abitanti.
Per ogni stato sono poi state rilevate alcune altre variabili. Ad esempio la latitudine e la longitudine del
centro dello stato, la presenza di coste su uno dei due oceani, ecc. Lo scopo dello studio è capire se queste
variabili influenzano la mortalità.
Nel grafico con la latitudine c’è una relazione tra x e y. Nel grafico con la longitudine non sembra esserci
una chiara relazione.
3+
Fe e assorbanza di uno spettrofotometro. Piccolo esperimento di
3+
calibrazione: vogliamo capire come stimare Fe dall’assorbanza. Schema
con cui sono stati ottenuti i dati:
3+
1. quantità differenti di Fe sono diluite in acqua;
2. viene aggiunto ammoniaca e acido salicilsolfonico in quantità
prefissate;
3. l’assorbimento della soluzione viene misurato a 420nm.
Questioni. Come possiamo “misurare/sintetizzare” la relazione tra due variabili?
Una buona misura dovrebbe raccontarci sia la forza che la direzione della relazione esistente
E ci interessa anche sapere valutarne la significatività? Ad esempio, quel “pelo” di relazione negativa che, a
fatica, si intravede tra mortalità e longitudine è reale? O potrebbe essere dovuta semplicemente al caso?
Coefficiente di correlazione (lineare). Abbiamo n osservazioni a cui corrispondono x misurazioni per x e y
n n
misurazioni per y. Definizione:
1 − ̅ − ̅
= ∑( )( )
−1
=1
̅ ̅
Dove e sono le medie campionarie delle x e delle y.
e sono gli scarti quadratici campionari (le radici quadrate delle varianze) delle x e delle y.
⁄ ⁄
( − ̅ ) ( − ̅)
In altre parole le x e le y vengono “standardizzate”. e hanno media 0 e varianza 1.
r è semplicemente la “media” del prodotto delle x standardizzate per le y standardizzate.
Interpretazione base. Il segno di r indica la direzione della eventuale relazione esistente tra le due variabili:
⇒
se r è negativo x cresce y decresce (tendenzialmente)
⇒
se r è positivo x cresce y cresce (tendelzialmente)
Il valore assoluto di r misura la forza della eventuale relazione. Per valutare la “dimensione” di r si tenga
conto che è possibile dimostrare che ≤ ≤
-1 r 1 Correlazione negativa; relazione
Fortissima relazione positiva piuttosto forte.
Poca correlazione negativa. È significativa?
r e una stima! Utilizza solo le informazioni del campione disponibile per stimare l’ignoto coefficiente di
correlazione tra le due variabili (=quello che potremmo calcolare con infiniti dati). Sono però disponibili test
e intervalli di confidenza.
r non “funziona” se la relazione non e monotona. Può esistere una chiara relazione tra le due variabili ma r
è incapace di “catturarla” perché non è monotona (ha invece un andamento curva).
Salmoni adulti e salmoni giovani – non tutte le relazioni sono lineari.
C’è una qualche forma di feedback: i giovani sono
più degli adulti quando gli adulti sono pochi; meno
quando sono tanti.
Modello di Beverton-Holt. ( )
+
0 1
= +
+
1
Dove:
G/A: salmoni giovani/adulti
, : parametri ignoti
0 1
: termine d’errore
Può essere scritto in svariati altri modi.
La fertilità è costante (tanti salmoni adulti, tante uova fecondate e viceversa). Esiste competizione per le
risorse durante lo ‘sviluppo”: ⟹ ⟹
(uovo fecondato) (avanotto) (giovane salmone)
Se ci sono molte uova fecondate la percentuale che diventa “giovane salmone” è più piccola.
La curva mostra i valori previsti dal modello
r = 0.95
Int.Conf = [0.91, 0.98]
-15
p < 10
Nel caso dei salmoni “giovani” ed “adulti” r ci
racconta dell’esistenza di una relazione positiva (e
anche forte).
|r| e più piccolo di 1 se la relazione e perfetta, monotona ma non-lineare.
r è sensibile alla presenza di valori anomali. Mortalità
per melanoma e latitudine aggiungendo uno stato
sull’equatore! (r = -0,02).
Relazione tra variabili e causalità .
Correlazione e causalità. Se r e significativamente differente da zero abbiamo dimostrato che esiste una
relazione di causa ed effetto tra le due variabili? Assolutamente si, però dobbiamo anche credere che i
bambini siano portati dalle cicogne!
Il coefficiente di correlazione tra X = (cicogne che hanno nidificato a Berlino o nei suoi dintorni) e Y =
(“bimbi per donna fertile” a Berlino) vale 0,95 quando calcolato sui dati degli ultimi 25 anni. ciò può anche
essere dovuto al fatto che le cicogne nidificano sui camini accesi, e sono accesi dove c’è un neonato.
Relazioni di causa ed effetto e “associazione” tra le variabili. Arrivare a concludere che una variabile varia
al variare di un’altra, ovvero che esiste una qualche forma di associazione, non vuole automaticamente dire
che una variabile causa le variazioni dell’altra. il problema è generale; non dipende dal tipo di variabili
(numeriche in questo caso) o dagli strumenti (in questo caso r) che stiamo usando. Per rimarcare questo
punto seguirà un esempio che non riguarda il coefficiente di correlazione e/o la relazione tra variabili
numeriche.
Ammissione a Berkeley.
Il sesso del candidato è “associato” con la probabilità di essere ammesso. Abbiamo dimostrato che esiste
una relazione di causa ed effetto? ovvero, che le donne sono discriminate durante il processo di
ammissione?
Nell’unico dipartimento (A) in cui la differenza è significativa è a favore delle donne! Per gli altri
dipartimenti le differenze nella proporzione di ammessi sono piccole e non significative; però le donne
presentano poche domande dove è relativamente facile essere ammessi e molte altrove!
Modello di regressione lineare e metodo dei minimi quadrati .
Obbiettivo: spiegare le variazioni della variabile risposta Y
utilizzando le k variabili esplicative X , …,X .
1 k
= + +. . . + +
0 1 1
, ..., sono parametri ignoti (i coefficienti di regressione)
0 k
che raccontano come varia la “Y” al variare delle “X”.
è una componente di errore, non osservata, che esprime la
parte di Y che non è spiegabile utilizzando le “X”. Possiamo
assumere abbia media nulla.
È probabilmente il modello statistico più usato. Relazioni lineari (nell’intervallo di interesse) si incontrano
con una certa frequenza (es. spettrofotometro). È più flessibile di quanto può sembrare ad una prima
occhiata
Variabili non numeriche possono essere incluse trasformandole in variabili indicatrici (a volta
chiamate dummy (ad esempio “bagnato dall’oceano per il melanoma”).
Relazioni non lineari possono e sono modellate (a volte) trasformando le variabili (es. salmoni adulti
e giovani).
3+
Fe e assorbanza di uno spettrofotometro. I dati indicano
chiaramente una relazione lineare del tipo
3+
= + +
0 1
dove:
3+
A e FE indicano le due variabili osservate (assorbanza e
“ferro”);
e dei parametri ignoti da stimare
0 1
è una componente d’errore (piccola in questo caso)
̂ ̂
Calcolare delle stime di e (diciamo e ) è interessante, tra le altre cose, perché poi possiamo usare
0 1
0 1 ̂
−
0
̂
3+
= ̂
1
3+
Per stimare il FE dell’assorbanza dello spettrofotometro.
Mortalità, latitudine ed essere bagnati dall’oceano. Modelli di regressione con più di una variabile
esplicativa sono utili. I punti rossi indicano gli stati che “toccano” l’oceano, quelli
blu gli altri.
Un possibile modello è
= + ∙ + ∙ +
0 1 2
dove:
M: mortalità;
L: latitudine;
O: variabile che vale 0 (zero) se lo stato non si affaccia
sull’oceano, 1 viceversa se si affaccia.
, e sono parametri, coefficienti ignoti.
0 1 1
è una componente d’errore; esprime quella parte della
mortalità che non può essere spiegata dalle due variabili L e O.
Il modello può anche essere scritto come
∝ + ∙ + se lo stato non si affaccia
2
= { ∝ + ∙ + se lo stato si affaccia
2
dove: = e = +
NO 0 SI 0 1 La retta rossa descrive gli stati che “toccano” l’oceano, quella
blu gli altri.
Salmoni adulti e salmoni giovani - ovvero non tutte le relazioni sono lineari. il modello di Beverton-Holt. La
fertilità è costante (tanti salmoni adulti, tante uova fecondate e viceversa). Esiste competizione per le
risorse durante lo ‘sviluppo”: ⟹ ⟹
(uovo fertilizzato) (avanotto) (giovane salmone)
Se ci sono molte uova fecondate la percentuale che diventa “giovane salmone” è più piccola.
Modello (A/G: adulti/giovani, , , sono parametri). Numero di uova: x A. proporzione di uova che
1 2 3 1
diventa “salmone giovane”:
2
1 + (numero di u