Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
NOMINALE CARDINALE
(Regressione
Tavole di contingenza
NOMINALE logistica)
VARIABILE DIPENDENTE Regressione e
Analisi della varianza
CARDINALE correlazione
Le tecniche specifiche dipendono dalla combinazione delle variabili considerate, che possono essere di tipo
nominale o cardinale, e dal loro ruolo nell’analisi (indipendente o dipendente). In generale, ci sono tre scenari
principali:
1. Tavole di contingenza (per variabili nominali)
tavole di contingenza
Le vengono utilizzate per studiare la relazione tra due variabili nominali (o categoriali). In
una tavola di contingenza, le variabili vengono disposte in righe e colonne, e ogni cella della tabella mostra il
numero (o la percentuale) di osservazioni che rientrano in ciascuna combinazione di categorie delle variabili.
Esempio di tavola di contingenza:
Titolo di studio Basso reddito Medio reddito Alto reddito
Nessun diploma 50 30 20
Diploma 30 40 30
Laurea 10 30 60 percentuali indici di associazione,
Le tavole di contingenza possono anche essere arricchite con calcoli di e come
il chi-quadrato, che misura la significatività della relazione.
2. Regressione e correlazione (per variabili cardinali)
regressione correlazione
La e la sono utilizzate per studiare la relazione tra due variabili cardinali. La correlazione
misura il grado in cui due variabili variano insieme e può assumere valori tra -1 e 1:
Valori positivi indicano una correlazione diretta (quando una variabile aumenta, l’altra aumenta).
• Valori negativi indicano una correlazione inversa (quando una variabile aumenta, l’altra diminuisce).
• Valori pari a 0 indicano assenza di correlazione.
•
regressione
La va oltre la correlazione, poiché permette di modellare la relazione tra le variabili per prevedere i
valori di una variabile dipendente in funzione di una variabile indipendente.
3. Analisi della varianza (ANOVA) (per variabili miste)
variabile indipendente nominale variabile dipendente cardinale, della
Quando si ha una e una si utilizza l'analisi
varianza (ANOVA). L’ANOVA permette di confrontare le medie di diverse categorie della variabile nominale per
determinare se esistono differenze statisticamente significative tra di esse.
Esempio: confrontare i redditi medi tra persone con diversi livelli di istruzione (nessun diploma, diploma, laurea).
Esempio di tecniche e loro utilizzo
Tipo di variabili Tecnica principale Scopo
Nominale vs Nominale Tavole di contingenza Associazione tra variabili categoriali
Cardinale vs Cardinale Correlazione/Regressione Misurare la relazione tra due variabili
lineare numeriche
Nominale (ind.) vs Cardinale Analisi della varianza (ANOVA) Confronto tra gruppi con medie differenti
(dip.)
Tabelle di contingenza
L’analisi delle relazioni tra variabili categoriali sulle tabelle di contingenza,
(sia nominali, sia ordinali) si effettua
termine che letteralmente significa tabella condizionata: ogni riga (o colonna) presenta le frequenze di una
variabile condizionata dalla modalità dell’altra. Viene anche definita tabella a doppia entrata, incrocio,
tabulazione incrociata. Gli statistici chiamano una tavola di contingenza come quella che stiamo trattando anche
distribuzione doppia di frequenza, in quanto consiste nella distribuzione di frequenza di una variabile doppia, le
cui modalità sono la combinazione delle modalità delle due variabili. Definiamo quindi frequenze della tabella i
valori che si collocano in una cella definita dall’incrocio di una riga e di una colonna. Talvolta alla tabella così
espressa vengono anche aggiunti i totali di riga e di colonna delle frequenze, che chiamiamo frequenze marginali,
o più brevemente marginali, e che corrispondono alle frequenze delle variabili singolarmente prese, come
nell’analisi monovariata.
Ai fini dell’analisi bivariata, le tabelle con frequenze assolute o percentuali sul totale non sono molto utili. Quello
che ci interessa è infatti confrontare due gruppi, quindi si pone il problema della direzione in cui calcolare le
percentuali, ovvero se la base per la percentualizzazione deve essere posta in riga o in colonna. La scelta della
percentuale sbagliata può portare completamente fuori strada: invece di pareggiare le basi di riferimento può
infatti portarci a leggere solo le differenze esistenti nella popolazione. In questo senso, quello che dobbiamo fare
è definire qual è la variabile indipendente e percentualizzarla all’interno delle sue modalità (colonna). Dopodiché
si leggono i dati attraverso le righe (o colonne, se abbiamo fatto al contrario). Infine, si commenta il dato: nel
caso qui sotto presentato, ci sono differenze tra maschi e femmine nella frequenza del tipo di scuola? Si, infatti,
gli individui che hanno scelto l’istituto professionale sono per il 18,3% maschi e per il 13,3% femmine.
Maschi Femmine TOTALE
Istituto 18,3 13,3 15,9
professionale
Istituto tecnico 36,0 21,1 28,7
Liceo classico,
scientifico, 35,9 52,5 44,1
linguistico...
Altro 9,8 13,1 11,4
TOTALE 100,0 (1509) 100,0 (1448) 100,0 (2957)
Tabelle di contingeza (Significatività statistica: associzione).
Finora, nelle nostre tabelle, al fine di affermare o meno l’esistenza di una relazione tra le variabili rappresentate,
abbiamo seguito dei criteri di buon senso. Ma esiste un criterio oggettivo sulla base del quale poter dire che tra
due variabili esiste o non esiste una relazione? Questo criterio esiste e nel caso delle tavole di contingenza, se il
campione al quale si riferisce la tavola di contingenza è sufficientemente grande (N > 100), è dato dal test
), che valuta appunto la significatività della relazione.
statistico del chi-quadrato ( X
2
Per affrontare l’argomento, dobbiamo innanzitutto dire in che cosa consiste un test statistico di verifica delle
ipotesi. La ricerca empirica non può mai ambire a verificare un’ipotesi, ma può solo arrivare a dimostrarne la
falsità. Il test statistico delle ipotesi, applicato al caso delle relazioni tra due variabili, consiste allora nel formulare
, secondo la quale nella popolazione non esiste relazione tra le due variabili, e dimostrare, dati
l’ipotesi nulla
0 di assenza di relazione viene respinta, automaticamente resta
alla mano, che essa è falsa. Se l’ipotesi nulla
0
accettata la sua alternativa, l’ipotesi di ricerca
che sostiene l’esistenza della relazione. Si noti che questa conclusione non nasce da una dimostrazione diretta
1
ma deriva da un’accettazione indiretta, in quanto è conseguenza del fatto di aver scartato le ipotesi false. Quindi,
la nostra ipotesi di ricerca di esistenza di una relazione risulta corroborata empiricamente, ma non direttamente
dimostrata.
Nel nostro caso, procediamo in questo modo. Innanzitutto, immaginiamo sempre di operare su un campione
di indipendenza tra le due variabili,
estratto casualmente da una popolazione e formuliamo l’ipotesi nulla
0
chiedendoci: se tra le due variabili non ci fosse relazione, cioè se fossero indipendenti, quali sarebbero le
frequenze della tavola di contingenza a essa relativa? E costruiamo questa tabella teorica. Abbiamo così la tabella
con le frequenze attese in caso di assenza di relazione. Poi, calcoliamo la differenza tra queste frequenze attese e
le frequenze osservate, cioè quelle effettivamente trovate nei dati e andiamo a vedere se questa differenza è
sufficientemente grande per poter dichiarare l’incompatibilità dei nostri dati con l’ipotesi nulla. Se lo è, l’ipotesi
di assenza di relazione tra le variabili è respinta e viene accettata l’ipotesi alternativa di esistenza
nulla
0 1
della relazione.
Applichiamo questa procedura ai dati della tabella precedente, relativa agli individui tra i 13 e i 19 anni iscritti alle
scuole superiori, per sesso e tipo di scuola, costruendo la tabella teorica delle frequenze (valori assoluti) che
avremmo in caso di indipendenza tra le due variabili. Quando abbiamo indipendenza tra il sesso e la frequenza di
un determinato tipo di scuola? Quando tra i diversi tipi di scuola, i maschi e le femmine sono distribuiti nello
stesso modo: quando cioè le percentuali di maschi e femmine sono uguali in tutte le categorie riferite ai tipi di
scuola. FREQUENZE OSSERVATE
Maschi Femmine TOTALE
Istituto professionale 276 193 469
Istituto tecnico 544 305 848
SESSO/TIPO DI Liceo classico,
SCUOLA scientifico, 542 760 1303
linguistico...
Altro 148 190 338
TOTALE 1509 1448 2957
FREQUENZE ATTESE
Maschi Femmine TOTALE
Istituto 239 230 469
professionale
Istituto tecnico 433 415 848
SESSO/TIPO DI Liceo classico,
SCUOLA scientifico, 665 638 1303
linguistico...
Altro 172 165 338
TOTALE 1509 1448 2957
Nella tabella sopra riportata possiamo quindi notare quelle che sono le frequenze attese di ogni cella nell’ipotesi
di indipendenza. La frequenza attesa si calcola moltiplicando tra loro le frequenze marginali di quella cella (quindi
i marginali di riga e di colonna) e dividendo per il totale della tabella. Ad esempio, la frequenza attesa di maschi
iscritti ad un istituto professionale è pari a (469 × 1509) / 2957 = 239
Si tratta a questo punto di calcolare la differenza tra la tabella delle frequenze osservate e quella delle frequenze
attese sotto l’ipotesi di indipendenza. Questa differenza viene sintetizzata in un unico numero, che chiamiamo
), mediante il seguente calcolo: per ogni cella facciamo la differenza tra frequenza osservata e
chi-quadrato ( X
2
frequenza attesa, la eleviamo al quadrato (per togliere il segno ed evitare che i numeri negativi e positivi della
successiva somma si annullino) e la dividiamo per la frequenza attesa. Ad esempio, quello relativo ai maschi
/ 239 = 5, 728. Infine sommiamo tutte le differenze,
iscritti ad un istituto professionale è pari a (276 − 239) 2 viene effettuato sulle
sintetizzando così in un unico numero le differenze tra le celle. Si noti che il calcolo del X
2
frequenze assolute e non su quelle percentuali. VALORI DEL X
2
Maschi Femmine
Istituto professionale 6 6
Istituto tecnico 28 29
SESSO/TIPO DI SCUOLA Liceo classico,
scientifico, 23 23
linguistico...
Altro 4 4
Il valore del chi-quadrato è tanto maggiore quanto maggiore è la distanza tra tabella delle frequenze osservate e
tabella delle frequenze attese, mentre esso dovrebbe essere = 0 nel caso limite di indipendenza perfetta dei dati,
in quanto le frequenze osservate sarebbero uguali a quelle attese nell’ipotesi di indipendenza. Tuttavia, è facile
= 0 non si verificherà mai nella pratica.
capire che questa situazione di X
2
A questo punto, tuttavia, la statistica ci viene in aiut