Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
PERCENTUALI DI COLONNA: ORIGINE
SOCIALE
Alta Media Bassa Totale
Conoscenza
inglese 61 = 70% 79 =23% 34 =8% 174 =20%
Alta 18 =21% 189 =54% 55 = 13% 262 =30%
Media 8 = 9% 81 =23% 347 =79% 436 =50%
Bassa 87 =100% 349 =100% 436 =100% 872 =100%
Totale
PERCENTUALI DI RIGA: ORIGINE
SOCIALE
Alta Media Bassa Totale
Conoscenza
inglese 61 = 35% 79 =45% 34 =20% 174 =100%
Alta 18 =7% 189 =72% 55 = 21% 262 =100%
Media 8 = 2% 81 =19% 347 =79% 436 =100%
Bassa 87 =10% 349 =40% 436 =50% 872 =100%
Totale
Si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile posta in colonna
ha su quella riga.
Si sceglie la percentuale di riga quando si vuole analizzare l’influenza che la variabile posta in riga ha su
quella di colonna.
Ovvero, si definisce qual è la variabile indipendente e si percentualizza all’interno delle sue modalità.
PERCENTUALI SU TOTALE: ORIGINE
SOCIALE
Alta Media Bassa Totale
Conoscenza
inglese 61 =7% 79 =9% 34 =4% 174 =20%
Alta 18 =2% 189 =22% 55 = 6% 262 =30%
Media 8 =1% 81 =9% 347 =40% 436 =50%
Bassa 87 =10% 349 =40% 436 =50% 872 =100%
Totale
SLIDES 9
In una variabile statistica doppia si possono avere tre tipi di relazione tra X e Y: INDIPENDENZA,
DIPENDENZA, INTERDIPENDENZA.
Quando la Y non dipende dalla X, essa rimane costante al variare dei valori assunti da X. Nel caso contrario
la Y dipende ed è funzione di X.
Y è indipendente da x e quindi: n /n =n /N
ih oh io
X è indipendente da y e quindi: n / n n /N
ih io= oh
Nelle tabelle a doppia entrata perché ci sia indipendenza si deve verificare:
n / n n /N
ih io= oh
cioè
n n n
ih= io* oh
N
Per tutte le caselle della tabella.
L’INDIPENDENZA è RECIPROCA.
Se tutte le distribuzioni condizionate sono uguali (per riga e per colonna) allora il presentarsi di una
particolare modalità di un fenomeno, non è influenzato dal presentarsi dell’altro.
INDIPENDENZA IN MEDIA:
ᶙ =∑x n
h i ih
n
oh
h=1,2,…t
se ᶙ = ᶙ =… ᶙ
1 2 z
si ha INDIPENDENZA IN MEDIA di X da Y.
X Y TOTALI MEDIE
1 2 3 4
1 1 3 3 1 8 2,5
2 2 2 2 2 8 2,5
3 3 1 1 3 8 2,5
TOTALI 6 6 6 6 24 2,5
Medie Xh 2,33 1,67 1,67 2,33 2,00
Y1= (1*1)+(2*3)+(3*3)+(4*1)/8=2,5
Y2= (1*2)+(2*2)+(3*2)+(4*2)/8=2,5
Y3= (1*3)+(2*1)+(3*1)+(4*3)/8=2,5
X1=(1*1)+(2*2)+(3*3)/6=2,33
X2=(1*3)+(2*2)+(3*1)/6=1,67
X3=(1*3)+(2*2)+(3*1)/6=1,67
X4=(1*1)+(2*2)+(3*3)/6=2,33
MEDIA TOTALE Y= (1*8)+(2*8)+(3*8)/24=2
MEDIA TOTALE X= (1*6)+(2*6)+(3*6)+(4*6)/24=2,5
La dipendenza si ha quando la relazione è unidirezionale e uno dei due caratteri può essere considerato
antecedente e l’altro come conseguente; l’interdipendenza si ha quando i caratteri si influenzano
reciprocamente e non si può stabilire quale sia antecedente e quale conseguente.
Per lo studio della dipendenza utilizziamo la regressione che misura di quanto varia il carattere dipendente
al variare del carattere indipendente.
Lo studio della regressione consiste nella determinazione di una funzione matematica che esprima il
legame tra X ed Y.
La funzione scelta è quasi sempre quella della retta per cui: y= a+bx.
Se calcoliamo i valori di a e b, questa funzione può essere usata per prevedere il valore della variabile
dipendente Y a partire da qualsiasi valore della variabile indipendente X.
La retta rende minima la distanza tra la retta stessa e i punti dello scatter. Lo scatter è l’insieme di N punti,
ciascuno rappresentato dalla coppia di valori Xi e Yi e mette alla luce la relazione y=f(x).
La più adatta è la retta di regressione → y*=a+bx
Se esiste una relazione lineare i punti si distribuiscono vicino ad una retta, se invece non c’è alcuna
relazione i punti sono molto dispersi.
∑(y *-y )²=minimo
i i
∑(a+bx -y )²=minimo
i i
Mediante il metodo dei minimi quadrati, si determinano i due parametri:
b=∑(x -x)(y -y)
i i
∑(x -x)²
i
a=y-bx
a è il valore di y quando x=0 (è il punto in cui la retta di regression attraversa l’asse delle y)
b è il coefficiente angolare che misura l’inclinazione della retta.
IL COEFFICIENTE DI REGRESSIONE:
Nel caso di y dipendente da x, b esprime di quanto varia in media il carattere y al variare di una unità del
carattere x:
b=∑(x -x)(y -y)
i i
∑(x -x)²
i
Varia tra meno infinito e più infinito.
b= è la variazione della y per una variazione unitaria della x;
- se per esempio b valesse 10, al crescere di una unità di x, la y crescerebbe di 10 unità.
Quindi il coefficiente di regressione b indica di quanto varia la y al variare di una unità di x e se y è crescente
o decrescente:
1. b>0 (positivo) y cresce all’aumentare di x
2. b<0 (negativo) y diminuisce all’aumentare di x
3. b=0 (nullo) la retta è orizzontale ed il carattere y è indipendente in media dal carattere x.
b si può anche scrivere come:
b=Codev (X,Y)
Dev (X)
La codevianza è la somma dei prodotti degli scarti di due caratteri ed esprime il tipo di relazione esistente
tra due variabili:
codev(X,Y)=∑(X -x)(y -y)
i i
la devianza è la somma del quadrato degli scarti ed è sempre positive:
∑(X -x)²
Dev(X)= i
∑(y -y) ²
Dev(Y)= i
Ora vediamo come varia il carattere di x al variare del carattere y.
In questo caso l’espressione sarà:
x*=a +b y
1 1
∑(X -x)(y -y) = Codev(X,Y)
b = i i
1 ∑(y -y) ² Dev(Y)
i
b e b divergono (cambiano) solo per il denominatore e poiché questo è sempre positivo il segno di b e b
1 1
dipende solo dal numeratore ed è lo stesso per entrambe. Quindi le rette di regressione sono entrambe
crescenti o decrescenti.
Esercizio:
Donne 1 2 3 4 5 6 7 8 9 10 11
X 36 38 42 47 49 55 56 60 63 68 72
Età
Y 118 115 140 128 145 150 147 155 149 152 160
Pressione
sanguigna
Determina la retta di regressione di y in funzione di x.
∑(X -x)(y -y)
= i i
Formula= ∑(X -x)²
i
X Y X -x y -y (X -x)² (X -x)(y -y)
i i i i i
età Pressione
sanguigna
36 118 36-53,27= - 118-141,73= (-17,27)²= (-17,27)( -23,73)
17,27 -23,73 298,25 = 409,82
38 115 38-53,27= - 115-141,73= (-15,27)²= (-15,27)(-26,73)
15,27 -26,73 233,17 =408,17
42 140 42-53,27= - 140-141,73= (-11,27)²= (-11,27)(-1,73)
11,27 -1,73 127,01 =19,50
47 128 47-53,27= - 128-141,73= (-6,27)²= (-6,27)(-13,73)
6,27 -13,73 39,31 =86,08
49 145 49-53,27= - 145-141,73= (-4,27)²= (-4,27)(3,27)
4,27 3,27 18,23 =-13,96
55 150 55-53,27= 1,73 150-141,73= (1,73)²= (1,73)(8,27)
8,27 2,99 =14,30
56 147 56-53,27= 2,73 147-141,73= (2,73)²= (2,73)(5,27)
5,27 7,45 =14,39
60 155 60-53,27= 6,73 155-141,73= (6,73)²= (6,73)(13,27)
13,27 45,29 =89,30
63 149 63-53,27= 9,73 149-141,73= (9,73)²= (9,73)(7,27)
7,27 94,67 =70,73
68 152 68-53,27= 152-141,73= (14,73)²= (14,73)(10,27)
14,73 10,27 216,97 =151,28
72 160 72-53,27= 160-141,73= (18,73)²= (18,73)(18,27)
18,73 18,27 350,81 =342,20
Media =53,27 Media =141,73 0 0 ∑= 1434,15 ∑1591,81
∑
Retta di regressione: y*=a+bx→ a=Ym-b*Xm; b= (X -x)(y -y)
i i
∑(X -x)²
i
Y*= 82,6+1,11x
La varianza di regressione consente di studiare la dispersione dei valori osservati intorno alla retta di
regressione.
Una dispersione elevata dei punti intorno alla retta comporta una limitata rappresentatività del fenomeno
mediante la retta di regressione. (previsioni non attendibili).
Una dispersione bassa= buona rappresentatività del fenomeno mediante la retta di regressione.
Per misurare la bontà di adattamento della retta di regressione, la devianza può essere scomposta in una
parte che il modello di regressione riesce a spiegare e in una parte che invece il modello non riesce a
cogliere, cioè la devianza dei residui di regressione (devianza dell’errore).
Indicando con y*=a+bx il valore della retta di regressione avremo:
∑(Yi-Ym)
Dev(X) DEVIANZA TOTALE ²
∑(Yi*-Ym)
Dev (R) DEVIANZA DI REGRESSIONE ²
∑(Yi-Yi*)
Dev (E) DEVIANZA DELL’ERRORE O RESIDUA ²
Dev(Y)=Dev (R)+Dev(E)
Rapportando la devianza di regressione Dev(R) alla devianza totale Dev(Y) individueremo quanta parte della
devianza totale è determinata o spiegata dalla retta di regressione.
Tale rapporto viene definito come INDICE DI DETERMINAZIONE
R²= Dev(R) =1- Dev(E)
Dev(Y) Dev(Y)
Questo indice di determinazione misura quanta parte della devianza totale di Y il modello di regressione
riesce a spiegare: 0≤R²≤1
Se R vale 0 significa che la devianza di regressione è nulla; la devianza dei residui coincide con la devianza
2
di y: NESSUN ADATTAMENTO.
Se R vale 1 significa che la devianza dei residui è 0. La devianza spiegata dal modello di regressione
2
coincide con la devianza di Y. Tutti i punti giacciono sulla retta: ADATTAMENTO PERFETTO.
Con l’INTERDIPENDENZA è difficile stabilire qual è il carattere antecedente e quale quello conseguente.
Le due variabili X e Y sono dipendenti una dall’altra.
Si caratterizza per due aspetti:
1. Concordanza= nel caso di concordanza a scarti positivi di X corrisponderanno scarti positivi di Y e a
scarti negativi di X corrispondono scarti negativi di Y, quindi prodotti positivi.
2. Discordanza= la situazione è contraria.
Coefficiente di correlazione lineare:
r= ∑(Xi-Xm)(Yi-Ym) = Codev(X,Y)
√∑(Xi-Xm)²*∑(Yi-Ym)² √Dev(X)*Dev(Y)
Il coefficient di correlazione lineare varia in questo modo:
r= +1 massima concordanza; correlazione positiva perfetta (tutti i punti si trovano su una retta)
r tra 0 e 1 correlazione positiva imperfetta
r= 0 non c’è alcuna associazione di tipo lineare tra le due variabili
r tra o e -1 correlazione negativa imperfetta
r= -1 massima discordanza, correlazione negativa perfetta (tutti i punti si trovano su una retta).
Il coefficiente di correlazione è anche la media geometrica dei coefficienti angolari di regressione:
r=√b*b .
1
La cograduazione serve per calcolare la correlazione tra caratteri ordinati secondo una scala a ranghi.
Nel caso di caratteri che non si possono quantificare (intelligenza, profitto scolastico) i valori delle singole
modalità vengono sostituite da una graduatoria.
Si sostituiscono ai valori x e y i numeri r e s che sono i posti o i ranghi occupati nelle graduatorie ordinate
i