Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
CALCOLI
frequenza attesa (di ogni cella): si calcola moltiplicando i marginali della cella (totali di riga e di colonna delle frequenze) e dividendo per il totale della tabella.
chi quadrato: si usa per calcolare la differenza tra la tabella delle frequenze osservate e quella delle frequenze attese secondo l'ipotesi di indipendenza. Tale differenza viene sintetizzata nel chi-quadrato mediante il seguente calcolo: per ogni cella si fa la differenza tra frequenza osservata e frequenza attesa. Il risultato lo eleviamo al quadrato (per togliere il segno meno) e lo dividiamo per la frequenza attesa (per relativizzare la differenza all'entità della cifra). In fine si sommano per tutte le celle questi valori, sintetizzando così in un unico numero le differenze fra le celle. Il calcolo del chi-quadrato si fa su frequenze assolute, non percentuali.
(BC - BD)^2 = Χ
BDf = frequenze osservate
f = frequenze attese (expected)
Il valore del chi-quadrato è Χ
tanto maggiore quanto maggiore è la distanza fra tabella delle frequenze osservate e tabella delle frequenze attese, mentre è uguale a 0 nel caso limite di indipendenza perfetta nei dati (ma non si verifica mai nella pratica, a causa degli errori di campionamento, di rilevazione ecc.).
La statistica è in grado di dirci per ogni valore del chi-quadrato qual è la probabilità che esso derivi da una popolazione con indipendenza fra le variabili, cioè che sia compatibile con l'ipotesi nulla H0.
Per convenzione, si respinge l'ipotesi nulla di indipendenza se p ≤ 0,05, cioè se il valore del chi-quadrato è così grande da avere solo il 5% o meno di probabilità di essere dovuto al caso (cioè ad errori casuali pur derivando da una popolazione dove c'è effettiva dipendenza) ed il 95% essere invece addebitabile ad una reale relazione tra le variabili.
L'informazione sulla
probabilità che un certo valore del chi-quadrato sia compatibile con l’ipotesi nulla H di indipendenza la troviamo nella tavola di distribuzione Χ. In essa abbiamo tante righe (cioè distribuzioni del chi-quadrato) quanti sono i gradi di libertà della tabella. Gradi di libertà = gl = (nume righe - 1)(nume colonne - 1)Χ.
Quando p ≤ 0,05 si dice che il chi-quadrato è significativo, cioè che è significativamente diverso da 0. Quindi l’ipotesi nulla di assenza di relazione fra le due variabili è respinta. Il ricercatore è tanto più soddisfatto quanto minore è il valore di p che trova: infatti p è la probabilità che l’ipotesi nulla sia vera, per cui più piccolo appare il valore di p, più improbabile appare l’ipotesi nulla. In generale, per dichiarare la significatività di un certo valore del chi-quadrato si assume come valore critico (cioè come
valore-soglia di confronto) il suo valore per la probabilità dello 0,05. Se il chi-quadrato è significativo, è consuetudine anche articolare la sua significatività in tre livelli, utilizzando come valori critici i valori tabulati in corrispondenza di p=0,05; p=0,01 e p=0,001 (se è superiore al valore critico dello 0,05 ma inferiore a quello dello 0,01 si dice che è significativo al livello dello 0,05 ecc.). Osservazione: - in generale, in un test di significatività (come quello del chi-quadrato), se il campione è costituito da pochi casi si può respingere l'ipotesi sottoposta a verifica solo se i risultati sono molto indicativi; mentre, al contrario, se il campione è molto ampio anche piccole differenze possono essere considerate significative. - il valore del chi-quadrato dipende dunque dalla numerosità del campione. Se il campione raddoppia anche il valore del chi-quadrato raddoppia ecc. (aparità di distribuzione dei casi nelle celle). Questa sensibilità è un grave handicap per il test e ne riduce fortemente l'utilità quando il numero dei casi sui quali si lavora è molto alto. Si raccomanda quindi sempre di guardare alle percentuali e di non accontentarsi mai solo del test di significatività per decidere della rilevanza o meno di una relazione fra variabili, specialmente se il campione è molto numeroso.
Il test del chi-quadrato dà una segnalazione di importanza globale e sintetica della relazione tra variabili, senza entrare in merito al comportamento delle singole modalità. Per questo motivo può accadere che una relazione fra due variabili si presenti statisticamente significativa solo perché una delle modalità si discosta in maniera anomala dall'andamento medio. Il test del chi-quadrato dunque, essendo basato sullo scarto fra f e f , può risultare significativo anche solo
Per l'anomaliae odi un'unicacella, che presenta valori fortemente devianti rispetto al valore atteso: da cui l'importanza di non accontentarsi della sua significatività per affermare la relazione tra due variabili, ma di far seguire un'attenta ispezione della tabella (nessuna frequenza attesa di cella deve scendere sotto i 5 casi).
7 Regressione e correlazione
7.1 Diagramma di dispersione
In questo paragrafo si tratta il caso della relazione fra due variabili cardinali. La rappresentazione grafica di tale relazione è diversa da quella che abbiamo visto fra due variabili nominali; dato che entrambe le variabili sono cardinali, si può utilizzare pienamente la rappresentazione cartesiana: si pone sull'asse delle X la variabile indipendente, sull'asse delle Y la variabile dipendente, e si collocando sul piano i casi studiati, ognuno rappresentato da un punto avente come coordinate i suoi valori sulle due variabili. L'insieme di punti
viene detto "nuvola di punti", e la rappresentazione grafica nel suo complesso di chiama diagramma. Possono presentarsi quattro situazioni: - Relazione positiva fra le due variabili: i punti tendono a disporsi lungo una linea, che sale dall'angolo in basso a sinistra verso l'angolo in alto a destra. - Relazione negativa fra le due variabili: i punti tendono a disporsi lungo una linea che scende dall'alto e sinistra al basso a destra. - Assenza di relazione fra le due variabili: la nuvola di punti è informe. - Relazione curvilinea fra le due variabili: i punti tendono a disporsi a "U". Il fatto di trovare che fra due variabili non c'è relazione sulla base degli strumenti che verranno presentati nei prossimi paragrafi, sta a significare l'assenza di relazione (primi due tipi), il che non esclude la presenza di relazioni curvilinee!! 7.2 Retta di regressione Data una nuvola di punti, possiamoTracciare una retta, che chiamiamo la quale meglioretta interpolante, di tutte le altre si avvicini ai punti e sintetizzi la nuvola.
Equazione generale di una retta: Y = bX + a
a = intercetta della retta sull'asse Y
b = inclinazione della retta
Data una nuvola di punti, il problema è dunque quello di determinare i parametri a e b della retta che meglio di tutte le altre è in grado di sintetizzarla. La statistica ci permette di determinare a e b a partire dai valori di X e Y sui casi, utilizzando il "metodo dei minimi quadrati", che consiste nel trovare quella retta che ha la proprietà di ridurre al minimo la somma dei quadrati degli scarti fra i valori teorici di Y (sulla retta) e i valori di Y osservati (nei dati). Chiamiamo la retta dove a e b sono calcolati in questo modo retta di regressione (a = intercetta della retta; b = coefficiente di regressione).
Naturalmente la retta di regressione non dà una rappresentazione perfetta della nuvola dei punti.
Essa cipermette di predire Y noto X nell'ipotesi di una relazione lineare perfetta, nel caso cioè che tutti i puntisiano sulla retta Y= bX + a. Ma i punti non sono mai perfettamente allineati su una retta. L'equazione che cidà il valore reale di Y è allora la seguente: Y= bX + a + e; dove "e" è l'errore o residuo, cioè lo scarto fra valore predetto dall'equazione di regressione e valore effettivamente osservato nei dati. Dato che se si inverte la collocazione delle due variabili (dipendente ed indipendente) sulle assi del pianocartesiano si ottengo valori di a e b differenti, il ricercatore deve stare attento a stabilire qual è fra le due lavariabile indipendente (che verrà posta sull'asse delle X) e quella dipendente (asse delle Y), cioè devestabilire la direzione del legame.
7.3 Coefficiente di correlazione
La retta di regressione ci dice qual è la forma della relazione fra X e Y,
non dice però nulla sulla forza (ostrettezza o intensità) della relazione. La forza di una relazione è collegabile al modo con il quale i punti si distribuiscono attorno alla retta di regressione: se essi sono addensati attorno alla retta, allora la relazione è forte; se sono piuttosto dispersi, allora la loro relazione è debole. In genere, però, nella ricerca sociale, prima si vedono quali sono le variabili indipendenti più correlate con la dipendente, e poi si procede ad esplorare meglio la forma della retta di regressione per quelle variabili che risultano più correlate. Per misurare la forza di una relazione tra due variabili cardinali si utilizza il coefficiente di correlazione (or il coefficiente di correlazione di Pearson). Il suo significato è di essere il rapporto fra la covarianza fra X e Y ed il prodotto delle deviazioni standard di X e Y; con questa divisione standardizziamo la covarianza, ottenendo così una misura
che varia fra 0 e 1. R non dipende dalla direzione della relazione fra X e Y.
Il coefficiente di correlazione lineare r assume dunque valore +1 in caso di relazione perfetta (=tutti i punti sono allineati sulla retta di regressione) positiva, -1 in caso di relazione perfetta negativa, e 0 in caso di assenza di relazione.
R è un numero puro, nel senso che non risente dell'unità di misura delle due variabili; inoltre r non risente neppure dell'ampiezza del campione studiato. Queste caratteristiche di standardizzazione (il fatto cioè di non risentire delle unità di misura delle variabili) e di normalizzazione (il fatto cioè di collocarsi fra 0 e 1) sono di grande utilità pratica e sono all'origine della grande popolarità di questa misura.
Uno dei modi abituali per iniziare a studiare le relazioni fra un insieme di variabili cardinali è quello di produrre la loro matrice dei
coefficienti di matrice di correlazione, correlazione fra tutte le coppie di var