Estratto del documento

Università degli studi di Trento

Lezioni di statistica

Di Luigi Badolati
Iscritto al corso di laurea specialistica in Metodologia e Organizzazione del Servizio Sociale per gli esami di Metodi Quantitativi della Ricerca Sociale e Statistica Sociale
A.A. 2007/08

Sommario

  • Conspectus Simbolarum .................................................................................................................... 3
  • Statistica inferenziale (07/04/2008) ........................................................................................................ 4
  • Alcuni esempi in statistica inferenziale (09/04/2008) ........................................................................... 8
  • Tipi di dati (22/04/2008) ...................................................................................................................... 12
  • Esercitazioni (23/04/2008) ................................................................................................................... 16
  • Controllo delle correlazioni (29/04/2008) ............................................................................................ 26
  • Variabili intervenienti (06/05/2008) .................................................................................................... 31
  • Regressione lineare (13/05/2008) ......................................................................................................... 37
  • Regressione multivariata (14/05/2008) ................................................................................................ 43
  • Effetti d'interazione (20/05/2008)........................................................................................................ 47
  • La ricerca empirica (21/05/2008).......................................................................................................... 52
  • Correlazioni non lineari (27/05/2008)................................................................................................. 55
  • Regressione logistica (28/05/2008) ....................................................................................................... 60
  • Formulario di Statistica Sociale .............................................................................................................. 66
  • Eserciziario di Statistica Sociale ............................................................................................................. 72
  • Capitolo 1. Il ruolo della statistica nel processo di ricerca ..................................................................... 73
  • Capitolo 2. La descrizione delle variabili............................................................................................... 75
  • Capitolo 3. L'inferenza statistica............................................................................................................ 79
  • Capitolo 4. L'analisi della varianza (ANOVA).................................................................................... 83
  • Capitolo 5. L'analisi dei dati categoriali ................................................................................................ 89
  • Capitolo 6. Regressione e correlazione bivariata ................................................................................... 99
  • Capitolo 7. Analisi multivariata .......................................................................................................... 106
  • Capitolo 8. Regressione multipla .......................................................................................................... 117
  • Appendice. Statistica Sociale: una storia vera ...................................................................................... 121

Conspectus Simbolarum

Sommatoria per l'indice Y = modalità (valore assunto N = numero indice (usato per distinguere una variabile in 'i' che va da 0 a N della successione {ai})

f = frequenze assolute, frequenze proporzionali, frequenze percentuali

f (y) = distribuzione di frequenza = frequenza attesa (expected) ∀ = per ogni

s2 = varianza del campione, σ2 = varianza della popolazione, ∞ = infinito

s = deviazione standard del campione, σ = deviazione standard della popolazione, ± = più o meno

y = valore massimo, y = valore minimo, N = universo statistico

Z = valore critico di Z, SS = sum of squares within, devianza (sum of squares), α, wt = valore critico di t, SS = sum of squares between, Ζ = test zeta

bF = valore critico di F, S = covarianza, Ρ = probabilità

L = Me = mediana, Π = prodotto, limite inferiore intervallo di confidenza

U = limite superiore intervallo di confidenza

N = valore assoluto, μ = media della popolazione, Σ = somma = media della variabile Y

R = riga (row); campo di variazione (range) = variabile dipendente; ordinata; Χ = variabile indipendente; media della variabile X

C = colonna (column) = ascissa; α = β = / = diviso area della coda di una curva normale standardizzata

ε = errore, ≠ = diverso, ≈ = circa

η = coefficiente eta quadro, σ = errore standard, λ = coefficiente lambda di Kruskal

ν = gradi di libertà, τ = tau di Kendall = categoria, κ, σ2 = varianza

d = coefficiente di Somers, ρxy = rho di Pearson, π = 3,14

n = campione, t = test t di Student

Φ = coefficiente phi, χ = chi quadro = coefficiente di Goodman

Γ, Θ, θ = ψ = contrasto, ⋅ = parametro della popolazione prodotto matematico (mid dot)

ω = odds ratio, ι = individuo, j = collettivo (joint)

H = ipotesi nulla, H = ipotesi alternativa, Q = differenza interquartile

R = coefficiente di determinazione

Statistica inferenziale (07/04/2008)

Dobbiamo trovare un modo per giungere dal campione alla popolazione (n). Quindi la domanda è quanto il risultato del campione vale anche per la popolazione. Una certezza assoluta non c'è ma si può avere una probabilità del circa 95% affinché il campione sia rappresentativo. La prima cosa è introdurre il concetto di stima. Una stima è il rapporto tra la media della popolazione e la media del campione. Più la stima è precisa, più piccola è la deviazione standard. Con stima precisa intendiamo un intervallo di confidenza, invece con stime percentuali (per es. probabilità del 95%) la media è inclusa in un intervallo tra 3,8 e 3,2 (cd intervallo di confidenza) in cui entrano i campioni e la deviazione standard e l’intervallo di confidenza sarà più ampio e maggiore sarà la deviazione standard. C’è un terzo valore da cui dipende l’ampiezza dell’intervallo di confidenza che è α cioè l’errore che intendiamo calcolare. Se si sovrappongono i due intervalli di confidenza, non abbiamo una differenza significativa e non possiamo dire che le medie sono diverse. Torniamo all’intervallo di confidenza: se stimiamo vera la media, vogliamo sapere qual è l’intervallo di confidenza nel quale troviamo una media vera della popolazione e si lavora sulla distribuzione normale perché si sa che le medie di tutti i campioni si distribuiscono in un modo normale standardizzato (lo standard di una variabile è la differenza tra il valore e la media diviso per la deviazione standard). Per sapere la probabilità con cui trovare la media, si può calcolare quanto è ampio il valore che sta alla base della distribuzione. Nella statistica descrittiva abbiamo parlato di mediana (Me) e quartili (Q). Questo è un quartile che ci specifica il valore di 1,96 e possiamo dire che sotto una distribuzione normale standardizzata il 2,5% dei casi si trova qui. Se vogliamo ragionare in termini di errore al 5% e probabilità al 95% e non conosciamo la deviazione standard della correlazione, questo 5% si distribuisce su due code e in questo caso il quartile z, cioè il valore che dice quante percentuali del caso stanno, è 1,96 L’intervallo di confidenza si calcola con μ + z con σ “i” standard error (da non confondere con deviazione standard).

σ Beispiel = X ≈ N (1,4) X = 1+2-1,96 = 4,920,975 X = 1+2-1,96 = 2,920,025 σ = S/ √n-1 σ= = √ρ(1- ρ)/n σ

Come si calcola σ con variabili categoriali?

Ragioniamo con variabili Y (per es. la probabilità di votare Berlusconi e la probabilità di non votarlo diviso per n)

Test di significatività

Ipotesi statistica: osservazione su un valore vero di un parametro incognito

Ipotesi nulla: H0

Ipotesi alternativa: Ha è vera solo se H0 è falsa

H0 è considerata vera fino a prova contraria; se la probabilità P è troppo bassa H0 è respinto e Ha accettata, per convenzione respingiamo H0 se P < 0,5.

Ci interessano il parametro della popolazione o la differenza fra parametri. La logica è indiretta cioè non possiamo verificare delle ipotesi ma possiamo solo qualificarle. L’idea è di formulare un’ipotesi nulla (H0) e un’altra di ricerca (Ha). Il gioco è di riprovare a rifiutare H0 che è considerata vera fino a prova contraria. Ha è vera solo se H0 può essere rifiutata. Vogliamo decidere quale delle due ipotesi è vera. Il ragionamento secondo cui possiamo rifiutare H0 deriva da Karl Popper secondo cui una logica è molto prudente se si assume che non esiste correlazione finché non si ha una prova sicura che lo sia vera. Possiamo formulare ipotesi generali (per es. se c’è correlazione) oppure ipotesi precise (per es. il prestigio occupazionale maschile è maggiore di quello femminile). Nel primo caso le medie sono uguali, nel secondo caso la media degli uomini è più alta di quella delle donne quindi ipotizzo che H0 sia minore o uguale a quelle delle donne; in questo caso si preferisce il test a una coda perché abbiamo già chiaro dove collocare l’errore, invece se l’ipotesi è uguale o diversa l’errore occorre distribuirlo equamente a sinistra e a destra perché non so dove va a finire. Vogliamo calcolare la probabilità con la quale una differenza trovata nel campione proviene da una popolazione dove l’ipotesi nulla è vera; se la probabilità viene da una popolazione dove H0 ha una probabilità troppo bassa, allora l’ipotesi alternativa è automaticamente accettata. Per convenzione definiamo H0 se la probabilità è maggiore di 5% che equivale al 95% che è il parametro che viene da una popolazione dove l’ipotesi si avvera. Con questo ragionamento si possono fare due errori:

  • Se nella popolazione l’ipotesi è nulla cioè non c’è correlazione, può essere vera o falsa e sulla base del campione decidiamo di rifiutare l’ipotesi se però nella popolazione l’ipotesi è vera, facciamo un errore (cd errore α)
  • Se discutiamo H0 in un campione non vero, l’ipotesi è corretta come è corretta se accettiamo H0 dove H0 è vera, invece se accettiamo H0 per una popolazione falsa, facciamo un errore β e di solito non ci interessa perché da un punto di vista conservativo assumiamo che non esistono differenze fino a prova contraria. L’errore β è correlato ad α ma non per forza β = 1 – α e ciò dipende dal tipo di test utilizzato ma in linea di massima si può dire che maggiore è α, minore è β. La potenza di un test si riferisce a questo rapporto.

Non c’è ragione per decidere un test al 5% ma potrei decidere anche 4% o 10% anche se i dati fuoriescono. Per ogni α corrisponde un valore preciso (quartile) di β. Se decidiamo di avere α al 1% l’intervallo di contingenza aumenta e aumenta il valore z, così posso attribuire per ogni area α un valore preciso di β.

Test a 1 coda

H0 rifiuto se

μ > μ0 Zn > Z1-a

μ < μ0 Zn < -Z1-a

Es.:

H0: N = 40: N ≠ 4

Ha: n = 1.015 S = 1,45 α = 0,001 X = 2,91 t = 2 σ = 1,45 /√1015 = 0,045

±4 1,96 – 0,045 = 0,148 [0,088]

3,85 ≤ n ≤ 4,15

3,912 ≤ n ≤ 4,08 P = 99,9%

Test a 2 code

H0 rifiuto se

μ = μ0 μ ≠ μ0 z > z1-a/2

z = X – μn / (σ/√n)

Domanda: Che differenza c’è fra un test a 1 coda e quello a 2 code?

Risposta: In generale un test fatto su una distribuzione a due code è più "sicuro", nel senso che permette di evidenziare una differenza in due sensi (migliorativo-peggiorativo)

Test Z (basato su distribuzione normale) con σ noto se n < 30 non necessario

Con variazione standard incognita test 1

Con n < 30 test 2

Z empirico (Zn) – Z critico

Questa è la formula per calcolare Z fra quelle empiriche cioè che si trovano sulla base del campione e il valore simbolico che dovrei avere è significativo o meno. Dovrebbe essere la deviazione standard (σ) di tutte le medie campionarie e si calcola sulla base della deviazione standard della popolazione ma, siccome non sappiamo nulla della popolazione, è sostituito con S che ci dà la deviazione standard che troviamo nel campione che è l’unica cosa che abbiamo per stimare. Quindi rifiuto H0 se il suo valore empirico è maggiore del valore critico sulla base della distribuzione teorica, quindi è più alto del 1,96 se con test a 2 code aumenta il livello di significatività del 95%. Se lavoriamo su una distribuzione normale standardizzata i valori si chiamano quartili e/o quintili β. Una distribuzione normale si può assumere quando la deviazione standard della popolazione è nota (ma non lo è quasi mai) o se n del campione è elevata. Altrimenti con n < 30 si deve ricorrere alla distribuzione t di Student. La differenza è che t è più schiacciata e ci risulta un intervallo di contingenza più lungo il che implica avere stime più imprecise: la distribuzione t dipende dai gradi di libertà, con n = 30 le distribuzioni (sia normale che t) sono abbastanza simili, invece di guardare la distribuzione t per determinare il valore teorico, possiamo guardare solo la distribuzione normale.

Domanda: Cosa vuol dire che la distribuzione t dipende dai gradi di libertà?

Risposta: Che minori sono i gradi di libertà, maggiore è l’intervallo di confidenza. I gradi di libertà (ν) indicano che la somma di tutte le deviazioni standard della media sono sempre 0, quindi si possono assegnare valori arbitrari a n – 1 ma l’ultima è determinata (per es. se sappiamo che la deviazione deve risultare in 0, l’ultima è prefissata a media = 8 e possiamo assegnare 3 gradi di libertà se la prima deviazione è 4, la seconda se è 7, la terza se è 9, la quarta deve essere per forza fissa). Con un test a 1 coda, α si colloca in un angolo della distribuzione e mi risultano valori diversi: il valore teorico in un angolo si abbassa e l’intervallo di contingenza diventa più stretto (per es. con α = 5% risulta un valore teorico z 1,6 invece con test a 2 code risulta 1,9).

Domanda: Cosa succede se prendo α = 1?

Risposta: L’intervallo di contingenza si allarga.

Alcuni esempi in statistica inferenziale (09/04/2008)

Es. Percentuale di cittadini americani che vivono in area urbana:

  • Columbia 100
  • Delaware 66,0
  • New Jersey 100
  • Missouri 65,9
  • California 95,7
  • Minnesota 65,8
  • Maryland 92,9
  • Georgia 64,7
  • Connecticut 92,6
  • Alabama 64,1
  • Rhode Island 92,5
  • South Carolina 60,2
  • Florida 90,9
  • Oklahoma 58,5
  • Massachusetts 90,8
  • New Hampshire 56,4
  • New York 90,5
  • North Carolina 55,0
  • Pennsylvania 84,6
  • Kansas 52,0
  • Nevada 82,5
  • New Mexico 47,6
  • Illinois 82,4
  • Nebraska 46,9
  • Colorado 81,6
  • Kentucky 45,5
  • Washington 81,0
  • Alaska 44,0
  • Texas 80,7
  • Iowa 42,9
  • Michigan 80,2
  • Arkansas 39,3
  • Ohio 78,8
  • North Dakota 28,2
  • Utah 77,0
  • West Virginia 26,6
  • Hawaii 76,9
  • Maine 36,1
  • Arizona 75,4
  • Mississippi 30,0
  • Virginia 71,5
  • Wyoming 28,8
  • Louisiana 69,1
  • South Dakota 28,2
  • Indiana 68,0
  • Montana 24,4
  • Oregon 67,4
  • Vermont 23,1
  • Tennessee 66,8
  • Idaho 19,4
  • Wisconsin 66,5
  • Puerto Rico –

Fonte: pag. 103 Knoke

Test a 1 coda

Ha = la percentuale si è abbassata notevolmente = media > 64,4%

H0 = media < 64,1% (dati aggregati, percentuale metrica)

N = 51 ν = 50 α = 0,05 S = 22,4 = 64,2%

Il nostro obiettivo era di costruire un intervallo di confidenza, stabilire i confini e vedere se il valore è dentro l’intervallo. Quindi se abbiamo un test a 2 code dove α è distribuita a destra e sinistra, risulta il valore con errore (ε) = 5%, se invece possiamo fare ipotesi più precise (per es. il reddito delle donne &egr

Anteprima
Vedrai una selezione di 26 pagine su 123
Metodi quantitativi della ricerca sociale - Lezioni Pag. 1 Metodi quantitativi della ricerca sociale - Lezioni Pag. 2
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 6
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 11
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 16
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 21
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 26
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 31
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 36
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 41
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 46
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 51
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 56
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 61
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 66
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 71
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 76
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 81
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 86
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 91
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 96
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 101
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 106
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 111
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 116
Anteprima di 26 pagg. su 123.
Scarica il documento per vederlo tutto.
Metodi quantitativi della ricerca sociale - Lezioni Pag. 121
1 su 123
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze politiche e sociali SPS/07 Sociologia generale

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher summerit di informazioni apprese con la frequenza delle lezioni di Metodi quantitativi della ricerca sociale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Trento o del prof Scherer Stefani.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community