Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
COVARIANZA
è covarianza
Per definire la correlazione prima necessario introdurre il concetto di ,
ovvero la media dei prodotti degli scarti di ogni variabile dalla propria media aritmetica.
La covarianza si focalizza quindi sulla varianza di due variabili, e non più solo una.
Come per la varianza, anche per la covarianza esiste una formula operativa:
Faccio la sommatoria di tutti i valori di x e y moltiplicati tra di loro, li divido per n
(calcolo la media), meno il prodotto di x medio e y medio.
Esempio: calcolo della covarianza -> misuriamo il peso e l'età di un bambino in 6
momenti diversi.
X=età in mesi
Y=peso in chili
Abbiamo 6 coppie di valori -> rappresentiamole graficamente ponendo ogni variabile su
un diagramma cartesiano. Sull’asse delle ascisse X mettiamo la variabile indipendente
(x=età), mentre sull’asse delle ordinate Y mettiamo la variabile dipendente (y=peso).
45
è
Dal diagramma possibile osservare che le due variabili tendono a disporsi lungo una
linea retta. A questo punto, calcoliamo la covarianza:
i. Moltiplico tutti i valori di x e y e li sommo -> 1299
ii. Li divido per n per calcolare la media = 1299/6 = 216,5
iii. Sottraggo da 216,5 le medie di x (90/6=15 ) e y (66/6=11 ) moltiplicate tra di
loro -> 216,5 - (15x11) = 51,5
Cov(x,y)=(1299/6)-[(90/6)x(66/6)]=51,5
La covarianza può essere positiva o negativa:
è
• Se la covarianza positiva (Cov>0) significa all’aumentare di una variabile
aumenta anche l’altra. Graficamente, i dati sono raggruppati nel quadrante in
altro a destra del diagramma cartesiano. In quel quadrante (in alto a destra),
è
ogni punto ha scarti dalla media positivi, quindi il prodotto positivo.
è
• Se la covarianza negativa (Cov<0), significa che all'aumentare di una variabile
l'altra diminuisce. Graficamente, i dati sono raggruppati nel quadrante in basso
a destra del diagramma. In questo quadrante, ogni punto ha scarto dalla media
è
di Y negativo e scarto dalla media di X positivo, quindi il prodotto negativo.
46
è
La covarianza quindi la varianza dell’intersezione tra due variabili (x e y), cioè la parte
è
di varianza comune alle due variabili. Essa può assumere tutti i valori reali. Se positiva
(Cov>0) indica una tendenza alla linearità positiva (se aumenta una variabile aumenta
è
anche l’altro, la retta va verso l’alto), se negativa (Cov<0) indica una tendenza alla
linearità negativa (se aumenta una variabile l’altra diminuisce, la retta va verso il
basso). è
Nell’esempio di prima (x=età in mesi, y=peso in chili), la covarianza di 51,5:
Cov(x,y)=(1299/6)-[(90/6)x(66/6)]=51,5 è
L'unica informazione che possiamo trarre da questo dato che tra le variabili x e y c'è
una tendenza alla linearità positiva (perché Cov>0), ovvero che il peso aumenta
è
all'aumentare dell’età. Per determinare se questa tendenza forte o debole (per
à)
intensit
misurarne quindi l’ occorre normalizzare la covarianza, cioè dividerla per il
direzione
suo valore massimo. La covarianza ci dà informazioni sulla della relazione
normalizzata
(positiva o negativa), mentre la covarianza ci dà informazioni sulla sua
à
intensit (forte o debole).
Il coefficiente di correlazione di Bravais-Pearson, o covarianza normalizzata, viene
ρ
indicato con r o . Si calcola dividendo la covarianza per il suo valore massimo
(=deviazione standard di x moltiplicata per la deviazione standard di y).
è
Sapendo che la covarianza sempre compresa tra -s s e +s s , si ricava che:
x y x y
è
-1 r +1 (la covarianza sempre compresa in un range che va da -1 a +1)
≤ ≤ CASI PARTICOLARI è
• r= +1 -> correlazione positiva perfetta. Il legame tra le due variabili
perfettamente lineare e diretto (nella realtà non accade quasi mai):
all’aumentare di una variabile aumenta anche l’altra. Graficamente, i punti sono
perfettamente allineati lungo la retta. La retta che congiunge i punti ha
coefficiente angolare positivo, quindi la retta va verso l’alto;
47 è
• r= -1 -> correlazione negativa perfetta. Il legame tra le due variabili
inverso
perfettamente lineare ma : all’aumentare di una variabili diminuisce
l’altra. I punti sono perfettamente allineati lungo la retta, ma il coefficiente
è
angolare negativo, quindi la retta va verso il basso;
• r=0 -> c'è incorrelazione tra le due variabili, ovvero non esiste un legame di tipo
lineare tra le due variabili. I punti non sono uniti da una retta.
Gradazioni:
r= +1 -> correlazione positiva perfetta (tutti i punti si trovano allineati lungo una
retta con coefficiente angolare positivo)
+1 < r < 0,50 -> correlazione positiva e molto elevata (i punti sono vicini alla
retta);
0,50 < r < 0,20 -> tendenza alla relazione positiva;
0,20 < r < -0,20 -> assenza di relazione;
-0,20 < r < -0,50 -> tendenza alla relazione negativa;
-0,50 < r < -1 -> relazione negativa abbastanza elevata;
r= -1 -> correlazione negativa perfetta (tutti i punti si trovano allineati lungo
una retta con coefficiente angolare negativo).
Tornando all'esempio di prima (x=età in anni, y=peso in chili): sappiamo che la
è
covarianza positiva (Cov=51,5) ma non sappiamo l’intensità della relazione. Dobbiamo
quindi calcolare il coefficiente di correlazione.
2x 2
• Calcolo varianza di x: s =(2142/6)-15 =357-225=132
2y 2
• Calcolo varianza di y: s =(850/6)-11 =141,667-121=20,667
• Moltiplico le varianze di x e y e ne faccio la radice quadrata (calcolo le deviazioni
2x 2y
standard): s =√s =√132= 11,489 ; s =√s =√20,667=4,546
x y
48
• Calcolo il coefficiente di correlazione: 51,5/(11,489x4,546)=0,986 -> la
è è
correlazione molto vicina a +1, quindi una correlazione positiva molto alta -> i
punti tendono a disporsi lungo la retta. A questo punto bisogna trovare
l’equazione della retta -> regressione. Se trovo l’equazione della retta, per ogni
valore di x posso predire il valore di y -> passaggio dalla statistica descrittiva
alla statistica predittiva.
CORRELAZIONE VS. CAUSALITA’
La correlazione ci dice solo che due variabili sono correlate tra di loro, ma non ci dà
informazioni riguardo alla causalità! Non si può affermare con certezza che x causa y o
viceversa. Ad esempio, posso osservare che al diminuire del punteggio di depressione
aumenta la quantità di attività fisica svolta durante la settimana -> c’è una correlazione
lineare negativa (più i punteggi di depressione diminuiscono, più aumenta l’attività
fisica). Ciò non significa che essere depressi fa fare meno attività fisica, in quanto
potrebbe anche essere che fare attività fisica riduca la depressione. Basandoci
unicamente su questi dati, non possiamo stabilire una relazione di causalità tra le due
variabili.
A. Relazione diretta -> relazione in cui c’è una chiara relazione di causa-effetto (x
certezza
causa y o viceversa). C’è correlazione tra le due variabili e so con che
una variabile causa l’altra (es: all’aumentare dell’età del bambino aumenta
anche il suo peso, il fumo aumenta il rischio di malattie cardiovascolari). media
B. Relazione indiretta -> c’è una terza variabile che non sto osservando e che
le altre variabili. Esempio: i punteggi di QI risultano essere più alti per gli europei
è
rispetto che per le altre etnie. Non però possibile affermare che l’etnia di
appartenenza causi un QI più o meno alto. E’ più probabile che vivere in un paese
“sviluppato” piuttosto che in via di sviluppo comporti anche l’avere un reddito più
alto, il quale influisce sulle possibilità di avere un’istruzione migliore, la quale
influenza a sua volta il punteggio di QI. spuria
C. Relazione spuria -> la relazione si dice quando c’è una terza variabile non
entrambe
osservata che ha effetto su le variabili di partenza. La correlazione tra
è
le due variabili di partenza in realtà completamente guidata da una terza
variabile. Esempio: all’aumentare del valore del corredo scolastico di un bambino
aumentano anche le sue capacità verbali. Non posso tuttavia affermare che
causi
l’aumentare del valore del corredo scolastico un aumento delle capacità
è
verbali, molto più probabile che ci sia una terza variabile, in questo caso il
reddito, che non si sta osservando: un corredo scolastico più costoso
probabilmente significa una condizione socioeconomica più alta (reddito
49
maggiore), la quale ha un impatto sulle possibilità del bambino di migliorare le
proprie capacità verbali (es: educazione migliore, logopedista, ecc.). è
Una volta calcolata la correlazione, la prima cosa che dobbiamo chiederci se la
è
relazione tra le due variabili diretta, indiretta o spuria. è
Uno degli interessi preminenti dello studio del comportamento quello di poterlo predire
è
sulla base della relazione tra quel comportamento ed un altro. La regressione un
insieme di tecniche statistiche che ci permette di usare i dati per predire l’andamento di
una variabile basandoci sulle informazioni che abbiamo sui valori dell’altra variabile.
Esempio: modello lineare semplice completo
• Variabile indipendente (X)=metri quadri della casa;
• Variabile dipendente (Y)= valore della casa.
• Y=1493,2x+66450 -> equazione della retta:
1493,2 -> coefficiente angolare, determina l‘inclinazione della retta;
o 66450 -> intercetta, indica il valore minimo con x pari a 0, ovvero punto in
o cui la retta “taglia” l’asse delle ordinate.
2
R -> coefficiente di determinazione, indica la quantità di variabilità di y
o è
spiegata dalla x (quanto la variabilità nel prezzo determinato dai metri
quadri). Può assumere dei valori che vanno da 0 a 1. Si può leggere anche
è
in percentuale. In questo caso: 0,80 -> l’80% della variabilità di y
spiegata da x, ovvero dai metri quadri.
Esempio: modello di regressione esponenziale
A. Modello lineare -> ad ogni aumento di un’unità di mq2 (x), il valore della casa (y)
aumenta di un’unità costante;
B. Modello esponenziale -> ad ogn