Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Y
X y y y Totale
1 2 3
x 43 0 0 43
1
x 0 0 15 15
2
x 0 0 20 20
3
x 0 52 0 52
4
Totale 43 52 35 130
In questo caso conoscere quale modalità di X assume una unità statistica
“migliora” la conoscenza sulla modalità della Y
Es: se una unità assume modalità x allora sicuramente assume anche modalità
2
y , ma non è vero il viceversa (se assume modalità y non posso sapere con
3 3
esattezza che modalità assume di X )
Prof. Stefano Marchetti, Prof.ssa Caterina Giusti Statistica - Corso C Anno accademico 2015-2016
Distribuzioni doppie di frequenza
L’associazione tra due variabili Associazione tra due variabili qualitative
Interpolazione lineare Associazione tra una variabile qualitativa e una quantitativa
Associazione tra due variabili quantitative
Dipendenza statistica: interdipendenza perfetta
Si ha interdipendenza perfetta tra X e Y se ad ogni modalità di una delle due
variabili corrisponde una e una sola modalità dell’altra e viceversa
Consideriamo il seguente esempio (fittizio) di interdipendenza perfetta: 110
donne sono state classificate secondo i caratteri X “Livello di scolarità
raggiunto” (x =elementare, x =medio, x =superiore) e Y “Livello di scolarità
1 2 3
del compagno” (y = elementare, y = medio, y =superiore)
1 2 3
Y
X y y y Totale
1 2 3
x 43 0 0 43
1
x 0 0 15 15
2
x 0 52 0 52
3
Totale 43 52 15 110
In questo caso la conoscenza di quale modalità di X si è realizzata migliora la
conoscenza (predizione) sulla modalità di Y e viceversa!
Es: se una unità assume modalità x allora sicuramente assume anche modalità
2
y , se assume modalità y allora sicuramente assume anche modalità x
3 2 3
Prof. Stefano Marchetti, Prof.ssa Caterina Giusti Statistica - Corso C Anno accademico 2015-2016
Distribuzioni doppie di frequenza
L’associazione tra due variabili Associazione tra due variabili qualitative
Interpolazione lineare Associazione tra una variabile qualitativa e una quantitativa
Associazione tra due variabili quantitative
Indipendenza statistica
Consideriamo adesso la situazione di indipendenza statistica
Come già detto, si ha indipendenza statistica quando la conoscenza
della modalità di uno dei due caratteri non migliora la “previsione”
della modalità dell’altro
Le frequenze congiunte della tabella a doppia entrata assumono dei
valori particolari quando c’è indipendenza
Definizione
Indipendenza statistica: due caratteri X e Y sono indipendenti se le
distribuzioni relative (o percentuali) condizionate sono uguali tra loro e
uguali alla distribuzione relativa (o percentuale) marginale
Inoltre, dati due caratteri X e Y , si può dimostrare che, se X è
indipendente da Y , allora anche Y è indipendente da X . Quindi,
l’indipendenza statistica è sempre reciproca.
Prof. Stefano Marchetti, Prof.ssa Caterina Giusti Statistica - Corso C Anno accademico 2015-2016
Distribuzioni doppie di frequenza
L’associazione tra due variabili Associazione tra due variabili qualitative
Interpolazione lineare Associazione tra una variabile qualitativa e una quantitativa
Associazione tra due variabili quantitative
Indipendenza statistica: esempio
Consideriamo il seguente esempio (fittizio) di indipendenza
statistica: 100 soggetti sono stati classificati secondo i caratteri X
“Zona di residenza (modalità x , x , x , x ) e Y “Squadra cittadina
1 2 3 4
di calcio preferita (y =squadra A, y =squadra B, y =squadra C)
1 2 3
Y
X y y y Totale
1 2 3
x 2 2 6 10
1
x 4 4 12 20
2
x 6 6 18 30
3
x 8 8 24 40
4
Totale 20 20 60 100
A prima vista ci accorgiamo solo che non siamo in una situazione di
dipendenza statistica
Calcolando le distribuzioni condizionate (distribuzioni relative di riga
e di colonna) si verifica se siamo nella situazione di indipendenza
Prof. Stefano Marchetti, Prof.ssa Caterina Giusti Statistica - Corso C Anno accademico 2015-2016
Distribuzioni doppie di frequenza
L’associazione tra due variabili Associazione tra due variabili qualitative
Interpolazione lineare Associazione tra una variabile qualitativa e una quantitativa
Associazione tra due variabili quantitative
Indipendenza statistica: esempio
Distribuzione condizionate relative del carattere X rispetto alle
modalità del carattere Y : Y
X y y y Totale
1 2 3
x 0.1 0.1 0.1 0.1
1
x 0.2 0.2 0.2 0.2
2
x 0.3 0.3 0.3 0.3
3
x 0.4 0.4 0.4 0.4
4
Totale 1 1 1 1
Le distribuzioni relative della variabile X sono uguali per ciascuna
modalità della variabile Y e sono uguali anche alla distribuzione
marginale di X
In questo caso, la conoscenza su una unità della modalità assunta
dalla X non fornisce nessuna conoscenza sulla modalità assunta per
la variabile Y
In altre parole questo significa che la zona di residenza (X ) non
di↵erisce in base alla squadra di calcio favorita (Y )
Prof. Stefano Marchetti, Prof.ssa Caterina Giusti Statistica - Corso C Anno accademico 2015-2016
Distribuzioni doppie di frequenza
L’associazione tra due variabili Associazione tra due variabili qualitative
Interpolazione lineare Associazione tra una variabile qualitativa e una quantitativa
Associazione tra due variabili quantitative
Indipendenza statistica: esempio
Distribuzione condizionate relative della variabile Y rispetto alle modalità della
variabile X : Y
X y y y Totale
1 2 3
x 0.2 0.2 0.6 1
1
x 0.2 0.2 0.6 1
2
x 0.2 0.2 0.6 1
3
x 0.2 0.2 0.6 1
4
Totale 0.2 0.2 0.6 1
Le distribuzioni relative della variabile Y sono uguali per ciascuna modalità della
variabile X e sono uguali anche alla distribuzione marginale di Y
In questo caso, la conoscenza su una unità della modalità assunta dalla Y non
fornisce nessuna conoscenza sulla modalità assunta per la variabile X
In altre parole questo significa che la squadra di calcio favorita (Y ) non di↵erisce
in base alla zona di residenza (X )
Allora, poiché abbiamo mostrato che per i caratteri X e Y le distribuzioni
condizionate di riga, e quindi anche le distribuzioni condizionate di colonna, sono
uguali tra loro, possiamo a↵ermare che i due caratteri sono indipendenti
Prof. Stefano Marchetti, Prof.ssa Caterina Giusti Statistica - Corso C Anno accademico 2015-2016
Distribuzioni doppie di frequenza
L’associazione tra due variabili Associazione tra due variabili qualitative
Interpolazione lineare Associazione tra una variabile qualitativa e una quantitativa
Associazione tra due variabili quantitative
Frequenze congiunte teoriche in caso di indipendenza
Esiste una regola generale per capire se le frequenze congiunte di
una tabella a doppia entrata corrispondono alla situazione di
indipendenza statistica?
Ovvero, esiste una regola generale per capire se le frequenze
congiunte di una tabella a doppia entrata corrispondono a
distribuzioni (relative o percentuali) condizionate (di riga o di
colonna) uguali tra loro e uguali alle distribuzioni marginali?
La risposta è sı̀
Frequenze congiunte teoriche in caso di indipendenza tra i caratteri
X e Y : se due caratteri X e Y sono indipendenti, allora per
⇤
frequenze teoriche assolute (n ) vale
ij
⇤ ⇤
n n ·
n n n n
i. i.
ij ij
.j .j
⇤
!
= oppure = n =
ij
n N n N N
i. .j
| {z } | {z }
r c
f (cond. Y ) f (cond. X )
ij ij
Prof. Stefano Marchetti, Prof.ssa Caterina Giusti Statistica - Corso C Anno accademico 2015-2016
Distribuzioni doppie di frequenza
L’associazione tra due variabili Associazione tra due variabili qualitative
Interpolazione lineare Associazione tra una variabile qualitativa e una quantitativa
Associazione tra due variabili quantitative
Indipendenza statistica: esempio
Verificare che le frequenze congiunte di X e Y riportate di seguito corrispondano
alle frequenze teoriche in caso di indipendenza:
Y
X y y y Totale
1 2 3
x 2 2 6 10
1
x 4 4 12 20
2
x 6 6 18 30
3
x 8 8 24 40
4
Totale 20 20 60 100
·n
n 10·20
⇤ 1. .1
n = 2 n = = =2
11 11 N 100
·n
n 10·20
⇤ 1. .2
n = 2 n = = =2
12 12 N 100
... ·n
n 20·20
⇤ 2. .1
n = 4 n = = = 4
21 21 N 100
... ·n
n 40·60
⇤ 4. .3
n = 24 n = = = 24
43 43 N 100
⇤
Essendo vero che n = n i = 1, 4 e j = 1, 3 allora X e Y sono
, . . . , . . . ,
ij ij
indipendenti
Prof. Stefano Marchetti, Prof.ssa Caterina Giusti Statistica - Corso C Anno accademico 2015-2016
Distribuzioni doppie di frequenza
L’associazione tra due variabili Associazione tra due variabili qualitative
Interpolazione lineare Associazione tra una variabile qualitativa e una quantitativa
Associazione tra due variabili quantitative
Frequenze congiunte teoriche in caso di indipendenza
⇤
Le frequenza congiunte teoriche n hanno gli stessi totali di riga e di
ij
colonna delle frequenze congiunte osservate n :
ij
k k
X X
⇤
n = n = n
ij .j
ij
i=1 i=1
h h
X X
⇤
n = n = n
ij i.
ij
j=1 j=1
Dimostrazioni:
k k k k
X X X X
·
n n n n n
i. .j .j .j .j
⇤ ·
n = = n = n = N = n
i. i. .j
ij N N N N
i=1 i=1 i=1 i=1
h h h h
X X X X
·
n n n n n
i. i. i. i.
.j
⇤ ·
n = = n = n = N = n i.
.j .j
ij N N N N
j=1 j=1 j=1 j=1
Prof. Stefano Marchetti, Prof.ssa Caterina Giusti Statistica - Corso C Anno accademico 2015-2016
Distribuzioni doppie di frequenza
L’associazione tra due variabili Associazione tra due variabili qualitative
Interpolazione lineare Associazione tra una variabile qualitativa e una quantitativa
Associazione tra due variabili quantitative
Analisi dell’associazione tra due caratteri
Ricapitolando, abbiamo visto come si presentano le frequenze
congiunte della tabella a doppia entrata nel caso di:
Dipendenza statistica perfetta (o interdipendenza perfetta)
Indipendenza statistica
Spesso le frequenze congiunte corrispondono a situazioni intermedie
rispetto a queste due condizioni estreme
Con un indice che si basa sulle di↵erenze tra le frequenze congiunte
osservate (n ) e le corrispondenti frequenze teoriche sotto l’ipotesi di
ij ⇤ ) è possibile misurare il grado di dipendenza tra le
indipendenza (n ij
variabili X e Y
Ovvero, si identifica se le frequenze sono più vicine alla situazione di
dipendenza perfetta o di indipendenza
Il grado di associazione (connessione) tra le due vari