Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
H K H K
∑ ∑ ∑ ∑
= =
n= n n n
ij i . . j
i=1 j=1 i=1 j=1
32
Rappresentazione grafica della distribuzione di 2 caratteri
La rappresentazione grafica di una distribuzione doppia (unitaria o di frequenza) è uno
strumento che può essere utile per capire il comportamento congiunto di 2 variabili statistiche
e può essere presentato in aggiunta o in alternativa alla tabella di frequenza a doppia entrata;
i grafici saranno diversi a seconda del tipo di variabili statistiche considerate nell’analisi, in
particolare verranno presentati: scatter plot)
distribuzione di frequenza unitaria: grafico a dispersione (o per una
coppia di variabili statistiche entrambe continue, oppure una discreta e una continua; in
questo grafico le coppie di modalità di 2 caratteri quantitativi osservate per ogni unità
del collettivo, vengono rappresentate come punti di un piano cartesiano i cui assi
ortogonali corrispondono ai 2 caratteri.
L’esame del diagramma a dispersione ci aiuta a capire se esiste una relazione tra le
due variabili che stiamo studiando:
si dice che tra due variabili statistiche c’è una relazione positiva (o diretta)
o quando ad elevati valori di X corrispondono tendenzialmente elevati valori di Y e
a bassi valori di X corrispondono tendenzialmente bassi valori di Y; se X cresce
tendenzialmente anche Y cresce e viceversa
si dice che tra due variabili statistiche c’è una relazione negativa (o inversa)
o quando ad elevati valori di X corrispondono tendenzialmente bassi valori di Y e a
bassi valori di X corrispondono tendenzialmente elevati valori di Y; se X cresce
tendenzialmente Y decresce e viceversa
si dice che tra due variabili statistiche non c’è una relazione quando a bassi o
o elevati valori di X non corrispondono né valori bassi né valori alti di Y
distribuzione di frequenza congiunta:
mosaic plot)
grafico a mosaico (o per una coppia di variabili qualitative
o (sconnesse e/o ordinali); questo mosaico rappresenta le frequenze di una tabella
doppia tramite dei parallelepipedi di altezza proporzionale alla frequenza
congiunta in uno spazio tridimensionale
bubble plot)
grafico a bolle (o e grafico a bastoncini tridimensionale per
o una coppia di variabili quantitative discrete
33 istogramma tridimensionale (o stereogramma) per una coppia di variabili
o quantitative continue con distribuzione per classi
distribuzione di frequenza condizionata:
grafico a barre suddivise quando entrambe le variabili statistiche sono
o qualitative (sconnesse e/o ordinali)
grafici già visti nel caso unidimensionale se la variabile condizionata è
o quantitativa mentre quella che condiziona è qualitativa
Medie e Varianze Condizionate
Data la distribuzione congiunta della variabile statistica doppia (X, Y) e le l distribuzioni delle
variabili statistiche condizionate Y|X = x , se Y è quantitativa si possono definire
i
le I medie condizionate di Y|X = x
i
J J
1 ∑ ∑
= =
y y n y f ,i=1,2, … , I
∨
i j ij j j i
n j=1 j=1
i .
le I varianze condizionate di Y|X = x
i
34 J J
1 ∑ ∑
2 2 2
( ) ( )
= =
σ y − y n y − y f , i=1,2 , … , I
∨
i j i ij j i j i
n j=1 j=1
i .
Formula per il calcolo [ ]
[ ]
J J
1 ∑ ∑
2 2 2 2 2
= =
σ y n − y y f − y
∨i
i j ij i j j i
n j=1 j=1
i .
Si noti che le varianze condizionate misurano la variabilità delle distribuzioni di Y condizionate
dalle I modalità di X.
Analisi dell’associazione statistica
Si parla di dipendenza logica tra 2 o più caratteri quando tra questi sono note a priori
relazioni di causa ed effetto; in contrapposizione alla dipendenza logica, si può considerare
l’indipendenza logica: si parla di indipendenza logica tra 2 o più caratteri quando si
suppone a priori che tra questi non possa sussistere alcuna relazione di causa effetto.
Mediante l’analisi statistica non si pretende di individuare le “leggi” che definiscono i legami
tra i fenomeni, ma più semplicemente di verificare l’esistenza o meno di regolarità
nell’associazione tra le modalità dei caratteri osservati; si possono utilizzare 2 approcci:
l’analisi della dipendenza, in cui si studia come le modalità di un carattere
“dipendono” da quelle di un altro carattere secondo un legame unidirezionale
l’analisi dell’interdipendenza, in cui si assume che i caratteri abbiano tutti lo stesso
ruolo e che i legami tra essi siano bidirezionali.
Per entrambi gli approcci sono stati proposti alcuni indici che forniscono una misura dell’entità
dell’associazione.
Qualunque sia l’approccio scelto, l’indipendenza statistica, cioè l’assenza di un legame tra i 2
caratteri, può essere definita in modo semplice e univoco: tra 2 caratteri sussiste
indipendenza statistica quando la conoscenza della modalità di uno dei 2 caratteri non
migliora la “previsione” della modalità dell’altro.
Studio dell’associazione tra 2 caratteri in una tabella doppia di frequenze
La tabella doppia di frequenze è lo strumento più idoneo per indagare sulle relazioni esistenti
tra le modalità di 2 caratteri qualitativi o quantitativi suddivisi in classi. Considereremo la
tabella delle frequenze relative ai caratteri X e Y: il carattere X si dirà indipendente da Y se,
qualunque sia la modalità con cui si manifesta il carattere Y, la distribuzione relativa
condizionata di X non cambia; d’altra parte se X è indipendente da Y si può dimostrare che
anche Y è indipendente da X.
Quindi in definitiva abbiamo la definizione che segue: 2 caratteri, X e Y, si diranno
indipendenti se le distribuzioni relative condizionate di un carattere rispetto alle modalità
dell’altro sono tra loro uguali.
Ogni volta che in una tabella doppia di frequenze non si osserva indipendenza statistica, si
dirà che esiste dipendenza o interdipendenza tra i caratteri; come conseguenza si deve
avere che in corrispondenza di alcune modalità di un carattere si presentano più
frequentemente alcune modalità dell’altro carattere. La tabella di frequenze a doppia entrata
relativa a 2 caratteri indipendenti deve presentare la seguente proprietà: se 2 caratteri sono
indipendenti, la generica frequenza assoluta corrispondente all’i-esima modalità di X e alla
j-esima modalità di Y deve essere uguale a:
n n
i . . j
=
n i=1,2 , … , I j=1,2, … , J
ij n
35
Le frequenze assolute di una tabella doppia ottenute nell’ipotesi di indipendenza tramite
questa formula saranno dette frequenze teoriche di indipendenza e per distinguerle da
'
quelle osservate le indicheremo con n ij
Se 2 caratteri non sono statisticamente indipendenti ci si attende che tra di essi sussiste
qualche tipo di relazione, ma, in molti casi, tra 2 caratteri logicamente indipendenti si può
osservare un’associazione statistica, cosicché le relazione osservate sono solo apparenti; in
tali casi si parla di associazione spuria: l’associazione spuria è un legame statistico empirico
che si verifica tra 2 caratteri logicamente indipendenti. Si noti che, talvolta, l’associazione
spuria tra 2 caratteri può essere dovuta alla presenza di uno o più caratteri non osservati che
influenzano entrambi i caratteri osservati.
Introduciamo poi la nozione di associazione perfetta che si distingue in:
dipendenza perfetta: un carattere Y dipende perfettamente da X quando a ogni
modalità di X è associata una sola modalità di Y, cioè quando in una tabella doppia per
n ≠ 0
ogni i c’è un solo j per il quale ij
Si noti che tale relazione è unidirezionale, in quanto dalla conoscenza della modalità
di un carattere è possibile prevedere la modalità dell’altro ma non il contrario
interdipendenza perfetta: tra 2 caratteri sussiste tale relazione se a ogni modalità di
uno dei 2 caratteri corrisponde una e una sola modalità dell’altro carattere e viceversa;
si noti che, considerando una tabella doppia, e assumendo che le frequenze marginali
siano tutte non nulle, la condizione di interdipendenza perfetta può valere solo nel caso
in cui la tabella è quadrata, ovvero quando per ogni riga e per ogni colonna della
tabella si ha una sola cella con frequenza non nulla
Misura dell’associazione per caratteri qualitativi sconnessi
La misura dell’associazione tra 2 caratteri qualitativi sconnessi avviene analizzando la
distribuzione congiunta delle frequenze dei 2 caratteri. Per valutare l’interdipendenza si
utilizzano indici basati su un approccio simmetrico rispetto al modo di trattare i 2 caratteri
e calcolati direttamente sulla distribuzione doppia dei 2 caratteri; per la dipendenza si utilizza
invece un approccio asimmetrico e gli indici si calcolano sulla distribuzione condizionata di
un carattere dato l’altro.
Massima associazione
Una situazione opposta a quella di indipendenza statistica è quella di massima (o perfetta)
associazione: se
I = J, cioè quando la tabella è quadrata, si dice che c’è massima associazione quando
esiste una corrispondenza biunivoca fra X e Y: a una modalità di X corrisponde una e
una sola modalità di Y
I ≠ J, cioè quando la tabella non è quadrata, si dice che c’è massima associazione
quando esiste una corrispondenza univoca fra X e Y ad esempio, se I > J allora ad ogni
modalità di X deve essere associata una sola modalità di Y
Si noti che un confronto cella per cella delle frequenze osservate e teoriche di indipendenza
può rivelare la natura dell’associazione: se in una cella la contingenza è positiva, allora in
quella cella la frequenza osservata è superiore a quella teorica di indipendenza, mentre se in
una cella la contingenza è negativa, allora in quella cella la frequenza osservata è inferiore a
quella teorica di indipendenza.
Si noti che se ❑ ❑
f ≠ f ≠ n ≠ n per qualche i e j
ij ij ij ij
si dice che le variabili statistiche X e Y non sono statisticamente indipendenti oppure che le
variabili X e Y sono associate o connesse.
36
Consideriamo ora degli indici generali di associazione; questi si basano sulle differenze tra le
n n
' i . . j
=
frequenze osservate n e quelle teoriche di indipendenza che corrispondono alle
n
ij ij n
frequenze che avremmo dovuto avere se, date le distribuzion