Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

Lezioni di Statistica A.A. 2007/08 27

con una variabile dipendente del tasso di disoccupazione, sulla pagina web del OSB mi permette di

scaricare i dati). L’accesso è regolato da una legge nazionale sulla privacy, ma si può fare comunque una

buona statistica. Così chiudiamo la base dei dati e riprendiamo con l’analisi multivariata.

Es. di correlazioni:

- Pompieri e danno: maggiore è il numero di pompieri che intervengono durante un incendio

maggiore è il danno

- Cicogne e fertilità: la quantità di cicogne si correla positivamente con la quantità di nascite

Stima del vero effetto (effetto causale) sotto controllo (cioè neutralizzandolo) effetti

ceteris pauribus,

distorcenti da altri fattori/variabili.

La lezione di oggi introduce alla logica del controllo delle correlazioni (per es. più è elevato il numero

di interventi dei pompieri più è elevato il danno: sono i pompieri a creare il danno? Ovviamente no).

Questi esempi servono a capire che non tutte le correlazioni non causali sono abbastanza difficili, la

strumentazione che abbiamo è l’analisi multivariata. Facciamo una piccola introduzione al disegno di

ricerca perché il problema è che occorre occuparsi dei disegni non sperimentali e con la logica del

controllo dell’analisi multivariata possiamo avvicinarci a una correlazione che va verso la causalità.

Random assignment used?

Yes No

Experiment Control group available

Yes No

Quasi experiment non experiment

(http://www.socialresearchmethods.net)

Cos’è un esperimento? Se abbiamo un’assegnazione su gruppi di controllo randomizzato possiamo

dire che i nostri gruppi sono identici tranne l’effetto che ci interessa (per es. le donne prendono la

pillola o il placebo? E quale effetto fa la medicina?). Altrimenti possiamo distinguere tra gruppi di

controllo (quasi esperimenti) e senza gruppo di controllo (non esperimenti). Il è per la

gold standard

correlazione causale. La validità esterna se è alta vuol dire che possiamo generalizzare senza problemi.

La validità interna ci permette invece di fare inferenze che di solito sono correlate inversamente nel

senso che se abbiamo una validità interna molto elevata, l’altra è minore. Se vogliamo parlare di

causalità con l’esperimento randomizzato, i due gruppi sono uguali tranne che per il trattamento. Quali

sono i criteri di causalità?

esiste correlazione

1.

2. ordine temporale (causal order, temporal precedence)

3. la relazione non è spuria

Non è necessaria una determinazione perfetta né una monocausa per una causalità (per es. se

studiamo le droghe, cerchiamo di capire l’effetto sulle allucinazioni, si capisce che non è il consumo

l’unica causa che porta all’effetto allucinogeno né tutti coloro che fumano LSD fanno allucinazioni, ciò

non significa che non ci sia correlazione). Nell’analisi multivariata si controlla per effetti terzi, questo

tipo di analisi non sempre funziona.

Lezioni di Statistica A.A. 2007/08 28

Tipi di variabili di controllo Z

Antecedenti Indipendenti Intervenienti Dipendenti Susseguenti

A B I Y S

Concomitante

C

(per es. origine sociale è correlato allo status sociale dove finisce)

A Correlazioni spurie Y

Variabili antecedenti o concomitanti si indebolisce o

Z sparisce perché non c’è

Effetto parziale o completamente spurio una terza variabile

X

La correlazione è spiegata dalla variabile di controllo Z. Una variabile terza = Z può produrre

soltanto un effetto distorcente se è correlato sia con X che con Y.

(1) la correlazione scompare (effetto completamente spurio)

(2) la correlazione si indebolisce (effetto parzialmente spurio)

(3) la correlazione si inverte (effetto parzialmente spurio)

(4) la correlazione diventa visibile soltanto dopo controllo di Z (effetto parzialmente spurio)

Sinora abbiamo visto X e Y, e abbiamo cercato la correlazione tuttavia non sono le uniche variabili

ma ce ne sono anche altre. Le intervenienti (per es. l’origine sociale è correlata positivamente alla

posizione sociale, la variabile interveniente è il titolo di studio e l’effetto positivo và verso il titolo di

studio) e le antecedenti (per es. l’effetto dell’istruzione sullo status, la classe d’origine è una variabile

antecedente) e le concomitanti che hanno un effetto che disturba. Siamo interessati a conoscere l’effetto

distorcente sulla correlazione.

AD (1) effetto completamente spurio

1

(i) cicogne ed effetto fertilità X: n: cicogne

Z: grado di urbanizzazione Y: tasso di fertilità

Il tasso di fertilità e il numero di cicogne sono correlate, il tasso è influenzato da una variabile terza

che è il grado di urbanizzazione che deve essere correlato sia con X e Y: maggiore è il grado di

urbanizzazione, minore è il tasso di cicogne perché non trovano da mangiare, invece maggiore è il

grado di urbanizzazione, minore è il tasso di fertilità perché la donna lavora e non può fare altro. Cos’è

una correlazione spuria? Nel momento che controlliamo il grado di urbanizzazione, la correlazione tra

fertilità e cicogne scompare, questa è la correlazione spuria, cioè quando la correlazione o si indebolisce

(parzialmente spuria) o sparisce (completamente spuria) perché c’è una terza variabile che la influenza.

La correlazione diventa visibile solo dopo l’intervento di Z che è il grado di urbanizzazione che è

correlato negativamente con la quantità di cicogne e il tasso di fertilità e una volta controllato per il

grado di urbanizzazione, la correlazione iniziale tra X e Y diventa vera, è un effetto spiegato tramite Z.

La logica dell’analisi multivariata è questa, il trucco è controllare per tutte le possibili variabili per essere

sicuri che non si tratti di correlazioni spurie.

Partecipazione al mercato del lavoro delle donne e delinquenza dei figli adolescenti

(ii) pag. 210 Knoke

1 Vedi

Lezioni di Statistica A.A. 2007/08 29

Male Bene

Non Lavora Non Lavora Non lavora

lavora lavora lavora

Si = 1 262 232 494 126 188 314 136 44 180

(44%) (59%) (85%) (83%) (31%) (27%)

No=0 328 159 487 23 38 61 305 121 426

(56%) (41%) (15%) (17%) (69%) (73%)

590 391 981 149 226 375 441 165 606

d% = – 15 d% = 2 d% = 4

effetto bivariato ponderato con N effetto condizionato ponderato con N

Calcoliamo l’odds ratio e calcoliamo la differenza delle percentuali fra variabili dipendente

delinquenza, calcoliamo le percentuali all’interno delle colonne e facciamo il confronto fra la madre che

lavora e quella che non lavora e troviamo che fra le donne che lavorano la percentuale di figli

delinquenti è > 15% cioè ha una probabilità maggiore di avere figli delinquenti 232/391 % in questo

modo analizziamo all’interno della teoria delle indipendente e possiamo confrontare direttamente e

troviamo che c’è una differenza significativa. Supponiamo che questa non sia una correlazione causale

cioè che la causa non è il fatto che la donna lavora magari dipende da qualcos’altro quindi secondo la

logica dell’effetto spurio inseriamo una variabile terza Z che è il figlio accudito male o bene e andiamo

ad analizzare separatamente tramite 2 tabelle: i figli accuditi male e quelli accuditi bene e vediamo che la

correlazione sparisce quindi una volta controllata la variabile antecedente e concomitante sulla qualità

del non troviamo più correlazione sul fatto che la donna lavori o non lavori e le conclusioni sono

care

diverse. La logica è di calcolare effetti condizionati da Z. La correlazione bivariata non è causale e ci

sono 2 effetti condizionati.

Come si calcola l’effetto causale?

: = effetto netto d + effetto spurio d

Effetto bivariato d

XY XYZ XYZ

Effetto spurio d = effetto bivariata – effetto netto = 0,15 – 0,03 = 0,12 = d

XYZ XYZ

Effetto netto = 0,15 – 0,12 = 0,03

L’effetto bivariato è la somma dell’effetto vero più l’effetto spurio cioè quello creato da Z, si decide

che l’effetto spurio è uguale all’effetto bivariato meno l’effetto netto. Se sono controllati tutti gli effetti

spuri, in questo caso l’effetto netto può essere considerato come effetto causale. Esiste un modo di

calcolare direttamente l’effetto netto. Abbiamo visto che una differenza di percentuale di 2 e l’altro di 4

e questi li dividiamo per 2 perché abbiamo n complessivi diversi e abbiamo 75% quelli accuditi male e

25% bene e per osservare l’effetto netto dobbiamo ponderarli con n delle sottotabelle (cd tabelle di

⋅ ⋅

ordine primo). Calcoliamo 0,2 0,375 + 0,4 0,106 sommato giungiamo all’effetto di 0,03 quindi 3% di

differenza quindi non c’è effetto. L’effetto spurio è quello bivariata di 15% – 3% dell’effetto netto che è

uguale 12%. Quindi il fatto che la donna lavora non c’entra. Se avessimo invertito la Z e la X la

correlazione sarebbe rimasta, quindi vogliamo vedere l’effetto con la dipendente delinquenza del figlio e

l’indipendente della qualità del e Z la donna che lavora, allora la relazione è che la delinquenza

care

persiste.

Cos’è il Paradosso di Simpson? La forma della correlazione bivariata risulta invertita quando è

controllata per altre variabili.

Lezioni di Statistica A.A. 2007/08 30

Es. Orientamento verso la pena di morte, secondo il senso di appartenenza confessionale

Appartenenza Livello istru- Livello istru-

alla Chiesa zione basso zione alto

Bassa Alta = Basso Alto = Basso Alto

= 0 1 = 0 1 = 0 =1

No=0 48,1 30,1 10 24,3 70,6 85,7

Si=1 51,9 69,9 90 75,7 20,4 14,3

1000 100 660 760 170 70 240

d% = 0,180 d% = – 0,143 d% = – 0,151

d% 69,9 · 51,9 = 18 punti %

Effetto netto = – 0,143 · 0,760 ± 0,151 · 0,240 = – 0,145

Effetto spurio = 0,18 – (– 0,145) = 0,325

Z è il livello d’istruzione, cerchiamo una correlazione negativa tra appartenenza ed essere favorevole

nel senso che Ha è che chi è vicino la Chiesa dovrebbe essere meno favorevole alla pena di morte.

Invece qui c’è una correlazione positiva di 18% che vuol dire che chi è vicino alla chiesa è più

favorevole alla pena di morte. Calcoliamo la percentuale di colonna e facciamo il confronto e il risultato

non è quello che ci aspettiamo perché una volta controllato per Z dobbiamo fare l’analisi separatamente

tra chi ha il livello d’istruzione alto e chi ce l’ha basso. Possiamo trovare un effetto spurio solo se Z è

correlato con l’appartenenza alla Chiesa e col fatto di essere favorevole alla pena, e il risultato ci dice

che chi è più ignorante è vicino alla Chiesa e chi è più saggio è favorevole alla pena. Questo fa si che la

correlazione si inverte (paradosso di Simpson). Se facciamo l’analisi separatamente fra chi ha un livello

alto e basso, vediamo che c’è una correlazione negativa di 4% e una correlazione negativa di 15%

all’interno dei 2 gruppi. Calcoliamo l’effetto netto che è ponderato per n di 15% e troviamo una

correlazione negativa fra appartenenza alla Chiesa ed essere favorevole alla pena di morte. Calcoliamo

l’effetto spurio 18% meno l’effetto netto = 33% ovvero 0,3 cioè un effetto spurio talmente forte che

inverte il segno del vero effetto causale cioè che va nella direzione opposta. Dopo aver controllato

l’effetto spurio, siamo in grado di stabilire la correlazione netta causale. Ci sono dei livelli per capire

dov’è l’effetto spurio? Per adesso non ci occupiamo degli intervalli di confidenza, ma diciamo che una

differenza di 2 o 3% non è significativa. Nelle sotto categorie abbiamo trovato la stessa correlazione ma

non necessariamente deve essere così (cd effetto interazione), quindi la correlazione fra 2 variabili è

diversa per diverse sottocategorie (per es. il rendimento scolastico per l’inserimento nel mondo del

lavoro è minore per le donne rispetto agli uomini).

Lezioni di Statistica A.A. 2007/08 31

Variabili intervenienti (06/05/2008)

Summary:

(A) Correlazione parzialmente spuria. Variabili antecedenti (e concomitanti)

Y

Z X Controllare per tenere costante Z Paradosso di Simpson

Es. titolo di studio e disoccupazione Z: cohorte

(B) Interazione: correlazione X – Y varia a seconda di Z

Calcolare separatamente gli effetti condizionati

Sulla correlazione non possiamo parlare di causalità finché non abbiamo eliminato tutte le

correlazioni spurie quindi la cosa che dobbiamo fare è controllare o tenere costante la nostra variabile

antecedente che nell'esempio di prima era il grado di urbanizzazione. Quindi se parliamo di correlazioni

spurie parliamo di variabili antecedenti o concomitanti che vengono prima o nello stesso momento.

2

Una cosa da sapere è il paradosso di Simpson cioè una correlazione spuria che in Wikipedia è spiegata

con l'esempio dei titoli di studio e di disoccupazione attraverso la cui correlazione bivariata si trova una

correlazione positiva per esempio una disoccupazione è maggiore per chi ha un titolo di studio elevato

(caso italiano) poi controlliamo per classi di età per la cohorte e la correlazione cambia di segno e

dimostriamo ciò che chiunque si aspetterebbe. Perché nel caso bivariato troviamo una correlazione

positiva? Perché i giovani hanno di solito un livello di istruzione maggiore e allo stesso tempo hanno un

tasso di disoccupazione maggiore. Abbiamo una correlazione spuria tanto forte da invertire il segno

della correlazione. Poi abbiamo visto le interazioni, vi ricordate che nel nostro esempio sulla qualità

della cura del bambino abbiamo spiegato la tabella a doppia entrata per ottenere costante la variabile

antecedente. Abbiamo l'interazione se la correlazione varia a seconda della variabile per esempio se la

correlazione tra i titoli di studio e reddito è più alta per uomini rispetto alle donne. In questo caso non

basta spiegare le tabelle bensì occorre calcolare anche la correlazione invece oggi ci occupiamo delle

variabili intervenienti che hanno effetto sulla variabile y.

(C) variabili intervenienti

X Y

c a,b = effetti indiretti

a b

Z

Effetti causali diretti e indiretti (completamente o parzialmente indiretti)

Origine sociale destinazione sociale

Livello d’istruzione

2 http://it.wikipedia.org/wiki/Paradosso_di_Simpson

Lezioni di Statistica A.A. 2007/08 32

Mentre per la correlazione spuria Z era qui, cioè prima o allo stesso tempo, qui Z è dopo per es.

l'origine sociale che ha effetto sulla destinazione sociale ma interviene Z che è il livello di istruzione che

si tratta di effetti diretti se va direttamente verso y una sotto controllo Z è indirettamente possano avere

un effetto causale è la correlazione bivariata X e Y che può essere scomposta in 2 effetti. Quindi la

variabile dipendente è la destinazione sociale e in questo caso una parte di origine sociale è mediata

tramite il livello d'istruzione. I figli che hanno il padre della classe sociale elevata risultano un livello più

elevato che paga nel mercato del lavoro. Una volta controllato l'effetto destinazione rimane l'effetto

diretto. In una meritocrazia dove i posti sono assegnati sulla base del merito l'effetto diretto (C), non ci

dovrebbe essere (al netto delle variabili intervenienti ) invece l'effetto indiretto è moltiplicativo e si

calcola (a) per (b), quindi l'effetto causale totale è la somma tra l'effetto diretto più quello indiretto.

Altrimenti se non siamo interessati all'effetto causale totale non controlliamo per variabili intervenienti,

cioè facciamo solo la correlazione ovviamente la cosa da fare è sempre essere sicuri di non avere effetti

spuri e controllare per variabili antecedenti. Quindi una domanda dovrebbe essere quanto l'effetto

causale nell'origine sociale è dovuto a livello di istruzione cioè quanto spiega la diversa composizione in

termini livello di istruzione (effetto composizione).

Effetto diretto: c, effetto al netto della variabile interveniente, controllando per:

Effetto indiretto: a b (moltiplicatore)

Effetto causale totale: effetto indiretto (a b) + effetto diretto (c)

o semplicemente:

- non controllare per variabili intervenienti

- controllare per variabili antecedenti e concomitanti ( per evitare effetti spuri)

Cambiamenti dell’effetto (c):

1. effetto completamente indiretto: l’effetto (c) sparisce, cioè è completamente spiegato dal

livello d’istruzione = effetto composizione

2. effetto parzialmente indiretto: (c) rimane rilevante ma si riduce = solo una parte è dovuta

alla composizione

Possiamo avere un effetto complementare indiretto che vuol dire che una volta controllato per il

livello d'istruzione C sparisce, quindi il livello d'istruzione dipende dal padre. Facciamo qualche

esempio, sappiamo che esiste una correlazione forte tra la cohorte di nascita della partecipazione

femminile al mercato del lavoro cioè i giovani lavorano più delle adulte. Per l’effetto causale totale

facciamo in modo che non ci siano effetti spuri. Quale potrebbe essere una variabile interveniente? Il

titolo di studio: le corti più giovani sono istruite, le femmine sono più istruite e la loro partecipazione al

mercato del lavoro aumenta. Se siamo in grado di spiegare l'aumento della partecipazione delle femmine

al mercato del lavoro tramite un maggiore livello d'istruzione abbiamo una spiegazione sociologica

strutturalista cioè cambia la composizione della popolazione femminile e quindi aumenta la

partecipazione ( effetto di composizione ) che può essere contrapposta alla spiegazione culturalista

secondo cui la donna dopo il '68 gode di valori diversi. Rimane comunque un effetto diretto di cohorte

che non siano in grado di spiegare con il livello di istruzione. Questo è un esempio di analisi empirica

per confrontare teorie sociologiche diverse.

Lezioni di Statistica A.A. 2007/08 33

Effetto bivariato

Variabili antecedenti

Effetto spurio Effetto causale

Variabili intervenienti

Effetto indiretto Effetto diretto

Quindi abbiamo un effetto bivariato che può avere una componente spuria, una volta controllato da

questa, l'effetto spurio può essere eliminato della variabile antecedente una volta eliminato l'effetto

spurio abbiamo l'effetto causale che può essere scomposto in effetto diretto e indiretto che è mediato

tramite le variabili intervenienti (per es. il livello d'istruzione ) e quindi l'effetto bivariato causale può

essere parzialmente spiegato tramite un cambiamento nella composizione ( per es. se aumenta la

quantità di femmine istruite, aumenta anche la partecipazione femminile ) rimane comunque l'effetto

diretto mediato dalla variabile Z. Adesso riprendiamo la regressione lineare ma serve un esempio

empirico. La prossima volta vedremo come si calcola la regressione lineare manualmente, adesso

rimaniamo in tema di del programma statistico. Sinora sappiamo che se abbiamo una regressione

output

lineare tracciamo una retta, parliamo di un interpiano e la nostra formula per calcolare y ( variabile

dipendente ) contiene più variabili indipendenti, finora avevamo Y moltiplicato Σ/n = (a) ( dove la retta

taglia a) (b) moltiplicato X. (b è il coefficiente d'inclinazione della retta). Abbiamo quattro variabili y (

Y+X+X+X ) cosiddetta regressione lineare multivariata quindi la stima di Y è una combinazione

diversa di X. Rimane comunque la logica di avere due parametri: (a) (cosiddetta intercetta) dove tutti X

hanno valore zero e (b), il coefficiente angolare, sotto controllo di altre variabili e senza effetti spuri e

con tanto di effetti diretti. Se controlliamo sia antecedenti e concomitanti, si fa la somma delle variabili

e la decisione di quale variabile indipendente mi interessa e quale variabile di controllo è arbitraria. Ciò

che vogliamo spiegare è la destinazione sociale (a) (variabile dipendente Y), tuttavia possiamo essere

interessati all'origine sociale o al livello d'istruzione se scegliamo il livello d'istruzione, l'origine sociale

diventa una variabile antecedente, se non controlliamo l'origine sociale abbiamo incluso come effetto

spurio fra livello d'istruzione e destinazione sociale, se invece scegliamo l'origine sociale la correlazione

bivariata è l'effetto causale totale. Se siamo interessati all'effetto diretto teniamo sotto controllo il livello

d'istruzione. Dall'interesse del ricercatore dipende la scelta della variabile. Se scegliamo la destinazione

sociale la correlazione è qui perché c'è una parte spuria dentro, X può essere sia l'origine sociale che il

livello d'istruzione.

Regression dlsscore origin IGP

Predict e scatter

dlsscore source SS DF MS n° of OBS = 1937

modal 58032 1 58032 f (1,1935) = 165,61

residual 678065 1935 350 Prob >f = 0,0

R2 = 0,07

total 736098 1936 380 AdjR2 = 0,07

dlsscore Coef Std error t p >|t| RootMSE = 18,7

Lezioni di Statistica A.A. 2007/08 34

Reg dlsscore o12 o31 o32 o40 o70

Source SS DF MS

modal 71224 6 11870

resource 7064 2029 348

total 777645 2035 382

dlsscore Coef Std error t p >|t| 95% conf. interval

Nella parte sopra si vede l'output di un programma statistico. "Reg" vuol dire regressione lineare

come dipendente De Lillo-Schizzerotto e l'indipendente "origine IGP" che è il parametro

internazionale della classe sociale. Siccome occorre confrontare le varie nazioni non è facile perché

sono diverse tra loro, IGP è un esempio classico per misurare la classe sociale in modo comparato.

Cosa ho sbagliato? L'origine sociale è una variabile ordinale, la classe sociale non è una variabile

metrica, cioè non ha una misura metrica bensì solo una misura ordinale, una variabile nominale con

varie categorie può essere inserita in una regressione lineare tramite una gamma di variabili dummy.

Cos'è una variabile dummy? E' un concetto relativo, per esempio la femmina che ha codificato uno non

ha codificato zero è una variabile dummy. Quindi la categoria di riferimento ha codificato zero.

Possiamo fare con variabile solo con 2 categorie, oppure più di due categorie inserendo una serie di

variabili dummy con valore zero per la categoria di riferimento.

Es: Skilled manual workers

Professional

Skilled non manual 13˙6381 1˙80 7.99 0.0 10.85 17.92

Unskilled non manual 2˙491 1.64 8.30 0.0 10.41 16.8

Self employed 3˙99 1˙54 1.61 0.1.7 - 0.53 5.51

Unskilled manual - 4.988 1.290 - 3.87 0.0 - 7.519 - 2.45

Missing - 2.85 2.07 - 1.36 0.173 - 6.88 1.23

- cons 42.1 0.881 41.84 0.0 40.4 43.8

a = - cons t = coef/ t > 1,96 dlsscore = De Lillo-Schizzerotto

σ 

b = coef C.I. =

Quindi scelgo una categoria di riferimento e qui avete l'elenco delle categorie che hanno variabili

l'origine sociale: una che definiamo come categorie di riferimento decodificata come zero (unskill manual

) poi inseriamo le variabili dummy con valore 1 nel primo caso se il panel è e 0

workers professional workers

all'esterno. Se il panel è la variabile prende il valore 1, se il panel è la

professional workers non manual workers

seconda variabile dummy prende il valore 1 e così via per ogni categoria in modo da risultare dummy a

tutte le categorie tranne che quella di riferimento. L'interazione è come nel caso del genere e troviamo

B per 14 (professional la dipendente è De Lillo-Schizzerotto che varia da 0 a 100 e la dipendente

workers),

deve essere una variabile metrica. Qui stimo l'effetto di chi ha un padre di 14. Qual’è

professional worker

l'interpretazione? Chi ha un padre si trova sulla via di De Lillo-Schizzerotto con 14

professional workers

punti in più di chi ha il padre (white Sinora ho detto che se abbiamo una

skilled non manual collars).

variabile dipendente metrica e una variabile indipendente categoriale non ordinata dobbiamo fare un

2 2

ANOVA che risulta un η , adesso abbiamo un altro modo per avere una stima dei parametri e un R del

2

9% che è la stessa interpretazione per η . Quindi facciamo 9% errori in meno nella predizione del

prestigio del figlio una volta che controlliamo per l'origine sociale. Come si legge questo output? Prima

2

abbiamo un R al 9%, la composizione di e i parametri standard error, t, la probabilità per

sum of squares

l'intervallo di confidenza e il test a 2 code. Il valore che c'interessa nella distribuzione Z è 1,096. Il t è

calcolato col coefficiente diviso per standard error, se vogliamo fare un test di significatività del 5%, il

valore critico è 1,6 e troviamo t empirico di 7,99 che è statisticamente significativo perchè è più elevato

del C? 1,1, cioè (b) diverso da 0. Come si calcola l'intervallo di confidenza? Coefficiente stimato del

Lezioni di Statistica A.A. 2007/08 35

modello più o meno valore critico moltiplicato l'errore standard. La probabilità di trovare il coefficiente

di una popolazione dove H è vera è molto bassa. Quale degli effetti non è statisticamente significativo?

0

Il valore t è minore di 1,96. Il test si riferisce a zero, qui abbiamo 42 che ci dice che taglia a 42 ed è

2

diverso da zero. Ciò che c'interessa è la differenza fra gruppi e l'R complessivo. Ciò serve a capire che

una regressione lineare si può fare anche se la mia variabile indipendente è metrica o ordinale con

questa logica di inserire una gamma di variabile dummy con una categoria di riferimento.

Es. il prestigio occupazionale per l'istruzione

Origine c Reddito

sociale a b

Voto

di laurea

Fonte: pag. 203 Corbetta

Qui troviamo totale 40% della variazione del prestigio occupazionale tramite il livello d'istruzione che

è la correlazione più forte e troviamo la stima che l'interpretazione è più chiara in quanto abbiamo 2

variabili non metriche. Interpretazione del coefficiente? Aumenta di 3 punti rispetto al prestigio ed è

statisticamente significativo. Forse non è una buona idea di misurare gli anni d'istruzione come variabile

metrica, pensiamo a chi fa il liceo e chi arriva prima facendo gli istituti privati integrando gli anni, quindi

non dobbiamo guardare l'istruzione come il bensì come variabile ordinaria e facciamo

degree of education

lo stesso giro di prima: abbiamo una serie di categorie che ci permette di confrontare il livello

d'istruzione con altri paesi, tramite IPG; come facciamo a misurare il livello d'istruzione con tutte

queste categorie invece di misurare una variabile soltanto ? Assumo un effetto lineare: ogni anno di

scuola in più, porta un livello di occupazione più alto e mi permette di stimare una correlazione non

lineare infatti come si vede la distanza tra questi coefficienti non è sempre uguale. Ci sono modi di

2

cambiare la codifica tra questi valori ma alla fine non cambia nulla. Un altro modo per vederlo è il R

che comunque non è un effetto lineare. Come facciamo a vedere se l'interpretazione è corretta o no?

L'interpretazione si basa sui parametri, la scelta del modello statistico è più complessa. In questo caso

l'interpretazione indica che le medie dei sistemi scolastici fanno sei punti in più della scala di prestigio

ed è significativa. Il triangolo con le tre frecce è il modello della regressione multivariata: non dobbiamo

stimare un solo effetto bensì molti di più, cioè l'origine sociale e istruzione. Qui abbiamo un effetto

bivariato di educazione e di 3,04, la variabile antecedente è l'origine sociale quindi c'è un effetto spurio,

una volta controllato l'origine sociale, l'effetto si abbassa. Se guardiamo

degree of education professional

l'effetto B è 14,39 statisticamente significativo, una volta che inseriamo gli anni d'istruzione, si abbassa.

Se scegliamo α al 5% non è statisticamente significativo. Quindi si tratta di un effetto di composizione.

L'effetto è mediato tramite il più alto livello d'istruzione. L'intervallo di confidenza include anche zero e

non è statisticamente significativo. La freccia C scompare. Facciamo il confronto fra e

professional workers

al resto per risolvere l'origine sociale tramite un elenco di regressione poi la freccia (b) (voto di laurea su

prestigio) il secondo è freccia (a) (origine sociale su voto di laurea) poi facciamo tutto insieme l'origine

sociale (origine sociale + voto di laurea + prestigio). Possiamo calcolare questi effetti diretti e indiretti,

qui abbiamo un cambiamento all'origine sociale che è operativizzato da una dummy e sparisce. Posso

stimare l'effetto (b) che può essere al netto senza l'effetto spurio secondo l'origine sociale o la

correlazione bivariata non cambia e posso avere un'idea di come sono i flussi causali. Questa è la base

delle equazioni strutturali molto più complesse. Prima di chiudere vediamo come rappresentare gli

Lezioni di Statistica A.A. 2007/08 36

effetti della variabile dummy: questa è una regressione con due variabili di controllo. Per es. voto di

laurea che è una variabile metrica, genere che è una variabile dummy e reddito mensile che è la variabile

dipendente. Stimo una retta per uomini e donne, l'effetto di essere uomini rispetto alle donne è che la

differenza è uguale (c.d. modello senza effetto interazione). Il fatto di essere uomini al netto del voto di

laurea indica al reddito maggiore, poniamo che vi sia un effetto laurea che paga in modo diverso gli

uomini e le donne, abbiamo due possibilità: o stimo 2 modelli diversi e ottengo (b) meno l'effetto voto

di laurea sia per ogni uomo che per ogni donna che è minore (perché l'inclinazione della retta è minore

), oppure inserisco l'effetto interazione che diventa un'altra coovariante che è il prodotto del voto di

laurea per la variabile dummy genere a (questo potrebbe essere prova d'esame) c.d. effetto interazione

che ha il risultato di un test di significatività.

Lezioni di Statistica A.A. 2007/08 37

Regressione lineare (13/05/2008)

• Formula: Y = a + bX

- If you graphed X and Y for any chosen values of a and b, you’d get straight line. It’s a

family of function: for any value of a and b, you get a particular line

• “a” is referred to the intercept o abscissa, “b” is referred to the slope

• Per creare una funzione lineare: prendi il valore X e accoppialo al corrispondente valore Y,

quindi collega i punti alla linea grafica

• L’intercetta determina dove la retta taglia l’asse Y, “b” determina la forza della retta

• Y è sempre la variabile dipendente 2 2

Torniamo alla regressione lineare. Abbiamo introdotto R e insieme a η vi ho fatto vedere la formula

di come si calcola la retta ma non siamo scesi nel dettaglio che vediamo oggi mentre domani vediamo

quella multivariata. Vedremo come si calcola e come si interpreta la funzione lineare.

Slope: b = 15/5 = 3

Y = 3 + 3x

change in Y = 2

change in X = 40.000

C'è un'intercetta e c'è una costante che chiamiamo a, c'è il l'inclinazione della retta b per X che è

slope

l'indipendente. È chiaro che con questa formula possiamo disegnare una retta con l'inclinazione

costante che è sempre -1,5, invece a varia (l'intercetta è dove la retta taglia l'asse Y); l'inclinazione ci dice

se abbiamo un cambiamento in X e per quanto cambia Y; il compito della regressione è stimare Y come

funzione delle nostre variabili X , X , X , etc. Per esempio correlazione fra felicità e reddito, si vede che

1 2 3

è una correlazione positiva e con un cambiamento del reddito annuale e con aumento della felicità +2.

Se prendiamo una qualche retta per stimare la correlazione fra due variabili stimiamo una particolare

forma della relazione, nel nostro caso lineare, questi si chiamano modelli parametrici in cui la variabile

ha una determinata forma (per es. se abbiamo una correlazione fra due variabili che non è lineare,

facciamo una regressione lineare che sebbene porti al risultato, non rappresenta i nostri dati in maniera

significativa ).

Lezioni di Statistica A.A. 2007/08 38

Linear function as summary

Non parametric and parametric models

Linear function can powerfully summary data

- formula: happy = 2 + 0.0005 income

Give a sense of how the two variables are related

- normally, people get a 0.0005 increase in happiness for every extra dollar of income

Question: how much additional job prestige do you get by going to college?

- formula: prestige = 5 + 3 educy

Answer: about 12 points of job prestige

- change in X is 4 Slope is 3 2x4 = 12

- if X = 12, Y = 5 + 3 · 12 = 41 if X = 16, Y = 5 + 3 · 16 = 53

Linear function as prediction

· linear function can also be used to predict a case’s value of variable Y, based on:

Its value of another variable X 1

If you know the constant and slope

· indicates an estimate f

 = a + b X

Ŷ i yx i

· b denotes the slope of Y with respect to X

xy

C'è una distinzione tra modelli non parametrici e parametrici che assume una determinata forma

lineare che facilita molto la vita, però l'assunzione sulla forma della correlazione deve essere rilevata.

L'interpretazione della costante è al valore di 0, quindi nell'esempio del livello di educazione e prestigio

è il valore di prestigio che zero anni d'istruzione. Ci sono due problemi: nella nostra nuvola di dati non

osserviamo lo 0 bensì rileviamo l'informazione tra quattro o cinque anni di istruzione, prendiamo una

gamma di X e interpoliamo in una parte che non osserviamo; il secondo problema è difficile pensare

cosa vuol dire chi ha 0 anni d'istruzione, forse sarebbe meglio avere un'interpretazione di α su il minimo

empirico osservato di anni d'istruzione (per es. cinque anni di alimentari).

The linear regression model

· To model real data, we must take into account that points will miss the line

- similar to ANOVA we refer to deviation of points from the estimated value as error (e ) =

i

residual

· in ANOVA the estimated value is the group mean, i.e. the grand means plus the group effect

· in regression the estimated value is derived from the formula Y = a + bX

Estimated is based on the value of X and slope

) can be modelled as:

· The value of any point (Y i

Y = a + b X + e

i yx i i

· The value for case “i” is made up of

- a constant

- a sleeping function of the case’s value on variable X

- an error

· visually Y = a + b X + e

i yx i i

Lezioni di Statistica A.A. 2007/08 39

bX = 3 (0.5) = 1,5 (prezzo spiegato)

a = 2

Y = 27 · 5K

a poor estimated

·

· better estimated

· Idea: the best lines is the one that has the best error

N N

Σ (y – ) Σ e

Ŷ = i

i

i = 1 i = 1

· but to make all deviation positive, we square it

N N

Σ (y – ) Σ 2

2 e

Ŷ = i

i

i = 1 i = 1

Variance and covariance x2

σ

2 2

)]/n ) ]/n

2x

S = [Σ (X – = [Σ (X – – 1

 

x2

σ

]/n ]/n

S = [Σ (X – Y) (X – Y) = [Σ (X – Y) (X – Y) – 1

yx

Si tratta di spostare la nostra nuvola verso l'asse Y in modo di avere un'interpretazione più sensata.

Possiamo fare 2 cose: 1) avere qualche stima per la forza della correlazione che funziona anche per

avere delle predizioni (per es. se prendiamo i valori degli individui che hanno determinati valori sulla

variabile indipendente, possiamo fare la predizione del suo valore nella variabile indipendente quindi

inseriamo i nostri valori nella formula per arrivare alla retta e la predizione sono i valori riportati sulla

retta). C'è sempre un errore, cioè osserviamo un e possiamo avere un'intercetta negativa che

social range

non ha senso interpretare. Quando abbiamo parlato di ANOVA abbiamo calcolato una media

complessiva e una media tra il gruppo (l'anova si fa quando c'è una variabile metrica e un'altra X

categoriale) quindi usiamo la predizione della media del gruppo anziché quella complessiva e la logica è

di quanto possiamo migliorare la predizione. È chiaro che all'interno dei gruppi non tutti sono sulla

media ma c'è un residuo che non siamo in grado di spiegare; l'errore per ogni osservazione, cioè l'errore

per ogni valore della media dei gruppi ci dà la (SS). Qui abbiamo la stessa logica solo che

sum of squares

invece di usare la media dei gruppi usiamo la retta. Se pensiamo ai dati veri, abbiamo la nostra formula

della retta lineare più un residuo che è la deviazione del caso “iesimo” sulla retta. In un certo senso per

fissare il nostro errore è che la somma degli errori deve essere minimizzata. Questa è il nostro caso e

questo è l'errore.

Lezioni di Statistica A.A. 2007/08 40

Questa è invece la parte che siamo in grado di spiegare facendo il confronto della media complessiva

con il valore predetto tramite la retta di regressione. La domanda è come stimare la retta di regressione

che migliora la predizione guardando l'errore. La stima migliore è quella che ha l'errore minimo. Questo

esempio con errori grandi. Confronto fra errore alto ed errore basso e vedo c'è una differenza notevole

fra le 2 versioni. Formalmente calcoliamo la somma degli errori e il valore dell'osservazione meno il

valore predetto per ogni caso di c'è uno scarto che sono le somme e il tutto è elevato al quadrato,

,

questa è la logica del che deve diventare un minimo (cd minimi quadrati). Si può

sum of squares

dimostrare che per arrivare a una retta di regressione si calcola b con questa formula YX che indica una

2X

correlazione bivariata, si calcola S c'è la covarianza, invece S è la deviazione standard, cioè la

YX

varianza di X cioè la covarianza fra entrambe le variabili diviso la varianza di X. La varianza si calcola

sommando ciascun osservazione della media elevata al quadrato. Qui manca qualcosa perché i

denominatori diviso per n si annullano e nella formula non troviamo più il nostro parametro ma lo

troviamo se guardiamo le singole formule della varianza e covarianza. Se si parla della stima per la

popolazione si divide (n - 1) se invece si parla della stima del campione è diviso per n. E qui abbiamo la

formula della covariante che è lo scarto di Y per X meno /n-1. Ci dice quanto della varianza di X và

x

accompagnata con la varianza di y o meglio di quanto variano insieme se la deviazione dalla media

tende ad essere accompagnata dalla stessa deviazione in Y. Guardiamo che non è elevato al quadrato e

possiamo avere un segno, quindi abbiamo un "segno meno" che ci dà una prima stima. Quindi la

covarianza è una statistica che indica l'associazione lineare e non è sensibile a correlazioni curvilineari.

Nei manuali statistici c'è un valore che è una covarianza standardizzata che alla fine varia tra – 1 e + 1

che ha il vantaggio di facilitare l'interpretazione diviso per la deviazione standard di Y moltiplicato per

la deviazione standard di X.

Es. Study time and student achivement

X : average # hours spent studyng per day

var:

Y : score on reading test

var

Calculating the covariance:

Result: Slope b = 5.3

for every hours studied, test score increase by 5.3 points

b: a = Y – b = 18.8 · 5,3 (1.8) = 9.26

x

yx

constant a = 9.3

individuals who studied 0 hours are predicted to score 9.3 on a test

X = X – minimum value substantial interpretation of a think at age school

Nuvola di osservazione

Wage

X = X - 15

Y µ

α

X Age

Adesso facciamo il calcolo manuale per es. di 2 variabili metriche, la 1° cosa da fare è calcolare media

di X e media di Y. Poi si calcola la deviazione standard della media rispettiva per ogni variabile. Poi si

moltiplica per la covariante che dividiamo per N. Poi abbiamo bisogno delle deviazioni standard di X

Lezioni di Statistica A.A. 2007/08 41

per poi avere (b) diviso per la covariante per la deviazione standard di X = 3,25 per 1,63 che mi dà un

coefficiente di 5,3, invece di calcolare la covariante e dividere la somma per 6 devo prendere la somma

al quadrato delle deviazioni standard e invece di dividerlo per n inferisco direttamente la formula e

giungo allo stesso risultato perché n si cancella. E giungo a una retta che segue questo Poi ci

slope.

manca (a) che è la media di Y meno l’osservazione i per la media di X inserendo tutti i numeri giungo a

9,6 e sono in grado di interpretare la retta. L’interpretazione non ha sempre senso per es. se guardiamo

la distribuzione età-reddito non ha senso interpretare α per 0 anni quindi potremmo calcolare X, cioè

età -15 assumendo l’età minima per acquisire reddito. In questo caso l’interpretazione di α sarà il

reddito ad età stimata per 15 anni. Fino a 15 anni non abbiamo osservazioni e per avere una migliore

interpretazione spostiamo l’asse Y di 15 anni e quindi la retta taglia diversamente Y in modo che α

diventa positivo. Calcolo la media di X valore iniziale -15 e non cambia la stima della retta ma cambia

l’interpretazione perché cambia la media perché ciò che prima era 15 adesso è 0, non cambia invece b,

ciò per evitare α negativi.

Remember 2 2 2

=

Σ (Y – Y) Σ (Y – Y) + Σ (Y – Y)

i i

The R square indicate show well the regression line explains variables in Y. It’s based on portioning

variance into: explained variance: between sum of squares

1. - the portion of deviation from for by the regression line

unexplained variance within sum of squares

2. - the portion of deviation from that is error

4 error variance

explained variance

0 2 4

Y = 27 · 5K -4

2

Viene fuori R , viene fuori la costante intercetta a c’è (b) che mi dà il parametro della retta. Una volta

che ho lo posso fare il test di significatività e questo è il valore t empirico che si chiama

standard error

probabilità per α, quindi abbiamo un coefficiente stimato che è diverso da 0. La logica è che abbiamo

e la deviazione totale che è la deviazione per ogni caso dalla media complessiva che può

sum of squares

essere scomposta in 2 deviazioni standard che è quella spiegata dal valore predetto dalla media

complessiva quindi questo è il nostro valore che troviamo sulla retta e questa è la parte spiegata, poi

rimane l’errore che non siamo in grado di spiegare. La devianza dal “iesimo” caso di ciò che

prevediamo con la nostra retta di regressione che vuol dire valore osservato –Y/. Mentre Y è la stessa

t

cosa più l’errore che è il caso come l’osserviamo meno il valore predetto/n. Questa è la logica del

e cioè di quanto possiamo migliorare la previsione di Y conoscendo X, per es.

proposal prediction in error

2

se troviamo R = 20% vuol dire che il 20% della variabile dipendente (reddito) possiamo spiegare con la

2

variabile indipendente (età). Ci sono dei limiti a R :

2

1) dipende dalla deviazione standard di X e R è più largo tanto è ampia la deviazione standard di X

2

se invece ho una variabile indipendente con deviazione standard stretta, avrò anche R ristretto;

questo problema si presenta con modelli diversi (per es. se ho un modello con deviazione

Lezioni di Statistica A.A. 2007/08 42

2

standard larga e uno con quella stretta, non posso confrontare perché R sarà sempre minore con

deviazione standard di Y. 2

2) dipende dai numeri di variabili: nel caso multivariata più ci sono variabili più elevato e R , anche

se c’è una statistica c.d. “attraxed che è identica all’es. qui perché c’è solo una variabile.

area squares”

2

R e sono concetti diversi: è l’intensità della correlazione cioè se è forte o debole (per es.

slope slope 2

un aumento di un anno d’istruzione porta a un reddito maggiore) invece R è la quantità della

correlazione (per es. b elevato 178 nel 1° caso, mentre nel 2° caso abbiamo b = 19,2 e quindi

2 2

l’inclinazione della retta è maggiore, quindi R è minore e R è maggiore del 70% e del 30%). La

è che non c’è correlazione, invece H è che c’è correlazione (logica del

logica del test t è che H

0 a

test a 2 code), calcoliamo un valore empirico di (b).

Quello che ci aspettiamo sulla base della nostra distribuzione teorica sono intorno a un valore di 2 e

tutti i valori di t > 2 consideriamo significativi con una certezza del 95%. L’idea è se uno di questi

parametri hanno una serie di assunzioni che se sono giuste le stime di (b) segnano una distribuzione

normale in quanto la logica è se nella popolazione vera non c’è correlazione, allora (b) è vicino a 0 e

quindi abbiamo una buona probabilità che non c’è correlazione se invece il (b) stimato è lontano da 0

abbiamo una probabilità alta che non è vero che nella popolazione la correlazione non esiste. Dal

confronto con la distribuzione teorica possiamo vedere che (b) segue una distribuzione normale.

se le nostre assunzioni sono vere abbiamo delle stime buone per la popolazione e

Regression function:

possiamo fare un test d’ipotesi se invece sono false entrambe sia le stime che lo possono

standard error

essere sbagliate. Più è elevato il nostro numero di meglio è, direi almeno di 30. Qui guardiamo la

target

correlazione lineare. Poi abbiamo un’assunzione che i valori sono distribuiti normali e poi abbiamo

un’assunzione che i valori sono distribuiti normali e poi abbiamo un’analisi dell’omoschedasticità cioè

abbiamo una deviazione standard d’errori = per ogni valore di X. Con minore abbiamo

income

deviazione standard minore, con maggiore abbiamo deviazione standard maggiore. Qui abbiamo

income

un problema sullo standard error e quindi sul test di significatività che è minore, che fare? Abbiamo un

numero ma non possiamo interpretarlo.

Lezioni di Statistica A.A. 2007/08 43

Regressione multivariata (14/05/2008)

La regressione multivariata esamina parziali relativi cioè dopo gli effetti di altre variabili che sono

state controllate. Ciò permette di determinare gli effetti di variabili “over and above”

Es. job prestige b σ β t sig

Costante 9,4 1,4 6,6 0,00

Anno completato 2,4 -108 0,520 23.058 0,00

Nel libro di Knoke c’è un’altra formula per calcolare il parametro, però all’esame potete usare quelle

che volete. Un esercizio di esame (beeh) potrebbe essere con 6 casi e per ogni caso c’è un valore su X e

su Y e sulla base di queste informazioni vi sarà chiesto di stimare la retta di regressione. La prima cosa è

cercare la media, la seconda cosa è vedere la deviazione per ogni caso della media, cioè calcolare la

deviazione standard, questa deviazione viene elevata al quadrato poi sommata e divisa per n. Per

giungere alla covarianza si fa covarianza diviso deviazione standard di X. Per calcolare la covariante per

Y dobbiamo calcolare la deviazione standard dalla media per ogni osservazione, in questo caso non ci

serve la deviazione standard ma il prodotto della deviazione standard di X per la deviazione standard di

Y per ogni valore e la somma che è uguale ad a = 51. Per calcolare la covarianza viene divisa la somma

per n. Per calcolare b basta dividere 51 per 9,8 e questa è la nostra stima col metodo dei minimi

quadrati per la retta di regressione.

Coefficiente di regressione standardizzata

• inclinazione della regressione riflette le unità di variabili indipendenti

• come confrontare il miglior effetto di 2 variabili?

2

Regressione multivariata ed R

• 2

R multivariata è come la bivariata

2

R = SS /SS

regression total

• ma SS è basata sulla RM

b

• la somma di 2 variabili risulta

• 2

R adjusted è più accurata di RM

Qui abbiamo le stesse variabili che abbiamo qui perché è una cosa simmetrica, qui ha la covariante di

X con X come qui ho la covariante di X con X . Nella diagonale ho la covariante di X, con X e

4 1 4 2

questa covariante della variabile con sé stessa è la deviazione standard. Perchè per trovare (b) ho usato

la somma della deviazione standard al quadrato e cosa c’è scritto lì deviazione standard di X, XY27?

Questa formula della covariazione prende la somma e la divide per n, 51 e qualcosa/n e ciò mi dà la

covariante così come la formula della deviazione standard sono gli scarti al quadrato/n, se Xa potrei

prendere 27/5,2 = 53 perché entrambi sono/n e n si cancella. 99/6 non è nella casella b8? Si, scusate è

a8. La regressione multivariata è in grado di darci la relazione parziale quindi al netto di controllare

l’effetto di altra variabile cioè è un effetto che ha un’interazione. Ci sono 2 motivi per fare questa

operazione: 1) se vogliamo unire il nostro effetto stimato con l’effetto spurio e vogliamo investigare

2

cos’è l’effetto diretto e indiretto; 2) se vogliamo spiegare un concetto e vogliamo massimizzare R ,

Lezioni di Statistica A.A. 2007/08 44

maggiore è l’informazione migliore è la predizione. Che succede alle mie variabili una volta controllato

con altre variabili? dollari

in

occupazionale capite

pro

annuale

Prestigio Reddito

Anni scolastici Cittadini con almeno 16 anni d’istruzione

(Fonte: pag. 180 Knoke)

Qui vediamo 2 regressioni bivariate separatamente con 1 variabile indipendente e con variabile

dipendete il prestigio occupazionale, il 1° ha anni scolastici come una variabile metrica e il secondo ha il

reddito familiare quando il soggetto aveva 16 anni. La domanda è la stessa dell’altra volta. Abbiamo

origine sociale, destinazione e in mezzo il livello d’istruzione. L’ultima volta l’origine sociale l’abbiamo

misurata con la variabile categoriale, adesso la misuriamo con la variabile metrica. Nel modello qui

stimiamo in termini di effetti totali che possiamo scomporre in quello diretto e indiretto. Quindi come

logica non parliamo di effetti spuri. Cosa succede se invece di stimare 2 modelli separati, facciamo un

modello solo? Abbiamo un modello con 2 variabili e l’effetto rimane costante rimane 2,5 e

education

2,48. La cosa che cambia è l’effetto (origine sociale) misurato con (a) intercetta, il

family income slope

bivariato era 2,7 e qui invece è 0,18 quindi si è abbassato molto e non è significativo. Questi sono dati

americani, se facciamo la stessa cosa in Italia forse ci rimarrebbe di più in quanto la società americana è

meritocratica mentre in Italia l’origine sociale conta di più. Quindi 0,178 è l’effetto diretto una volta

controllato per la variabile di controllo (w) quale possiamo vedere che l’effetto totale è esercitato

tramite l’educazione, quindi i figli di chi ha un reddito elevato e origine sociale elevata studiano di più.

NB il prestigio occupazionale è diverso dalla classe sociale, anche se per motivi didattici li usiamo come

uguali. Se guardiamo la regressione multivariata con la formula vediamo che ci sono 2° variabili

indipendenti e 2 parametri e 2 k indipendenti e non c’è limite alle variabile indipendente anche se a un

certo punto aggiungo un limite perché non ho più dummy e ciascuna variabile che metto nel mio

modello mi porta via 1 grado di libertà. A volte sono stimati modelli con 20-25 variabili e c’è la

domanda se questo ha senso in quanto è meglio il modello parsimonioso. Il b parziale tiene conto della

correlazione fra altre variabili cioè X e X e la correlazione fra X con Y . Che succede se X e X sono

1 2 2 1

non correlate cioè indipendenti? Abbiamo la stessa formula col coefficiente bivariato. Se non sono

correlati cambia la mia stima (per es. se metto in un modello di regressione di anni d’istruzione e colore

e correliamo

di capelli nella mia stima di effetti di anni d’istruzione non muta niente). Se invece ho X 2

con Y, (b) si riduce. Si è ridotta l’efficacia del La stima della retta (b) per ogni variabile

family income.

controllata per quanto le altre varabili funzionano come predittori della nostra funzione. C’è un’altra

cosa che vediamo e cioè che se abbiamo 2 variabili indipendenti che sono quasi perfettamente correlate

fra loro, immaginiamo che mettiamo in un modello di regressione di anni scolastici e titolo di studio,

vediamo che il denominatore si avvicina a 0 e ciò fa si che la stima per lo aumenta (cd

slope

multicollinearità) abbiamo un problema con la nostra stima ma ciò non vuol dire che devono essere

correlate ma c’è un limite perché se sono quasi perfettamente correlate non funziona più. Quindi una

cosa da fare è vedere la correlazione fra variabili e ciò mi da un’idea se ci saranno o no problemi.

Se torniamo in una regressione multivariata con le stesse stime e non in 2 modelli separati, le 2

variabili sono correlate. Quando abbiamo cominciato a parlare di analisi multivariata, una correlazione

può essere interpretata come causale se abbiamo controllato per ogni effetto spurio (quindi non

Lezioni di Statistica A.A. 2007/08 45

interpretate per un coefficiente multivariato come causa). L’interpretazione può essere più efficace.

Non sempre siamo interessati alla correlazione in quanto ogni tanto ci interessa l’effetto totale quindi

l’effetto bivariato (per. es. la correlazione tra origine sociale ed destinazione sociale) quindi il modello

multivariato non è sempre il migliore e non sempre siamo in grado di stabilire la direzione dell’effetto

bivariato. E abbiamo detto che è un passo è di guardare il cioè ciò che viene prima può

control order

esercitare un effetto causale solo su ciò che viene dopo ma se pensiamo a un esempio da un punto si

vista il e il sono correlati (per es. nei test psicologici) e posso assumere

cross sectional, self estimate test scores

che il risulta in un più elevato però se so che ho un elevato ciò mi aumenta il

self estimate test score score self

Se metto in un modello più variabili posso essere interessato a quale di queste variabili ha

estimate.

l’effetto più forte, prima nell’esempio avevamo un effetto di 2,5 che interpretiamo per ogni anno

educy

di educazione in più aumenta il prestigio di 2,5 mentre era misurato in una misura diversa.

family

Tuttavia se vogliamo sapere l’effetto di queste 2 variabili, creo uno Vi ricordate della

standard function.

formula della deviazione della delle singole variabili? Si fa una trasformazione e mi

destandardization

risulta un variabile con una media = 0 e deviazione standard = 1 per ogni variabile; poi si può stimare

un β (standard) e in questo modo ho un’unità di misura standardizzata che è quella della deviazione

standard e quindi la posso confrontare e ciò mi porta ad effetti che variano da 1 a -1: β indica il

cambiamento di Y quando X cambia in una deviazione standard: il problema è che dipende dalla

deviazione standard per ogni variabile e ci sono variabili che hanno deviazione standard molto piccole e

altre grandi: come si interpreta β? Aumentando la misura di di 1 punto standard; quindi di

family income

2

deviazione standard, il nostro prestigio occupazionale aumenta di 0,1. R in regressione multivariata è la

stessa cosa che nella regressione bivariata, solo che il si basa sulla regressione

between sum of squares 2

multivariata. È chiaro che più variabili mettiamo dentro il modello, più è elevato R , se mettiamo dentro

2

variabili che non centrano nulla (per es. colore di capelli) R rimane costante. Per essere in grado di

confrontare modelli che contengono più o meno variabili, si potrebbe fare un confronto tramite il just

che tiene conto del numero di variabili indipendenti inserite nel modello, quindi spesso è

error square

minore la differenza se metto 1 o più variabili correlate. L’altra volta quando abbiamo misurato l’origine

sociale non con una variabile metrica ma con la posizione di classe del padre quando il figlio aveva 14

anni che è la misura standard che si usa per l’origine sociale, ha un livello misurazione ordinale e non

posso metterla dentro il modello; la possibilità è di inserirlo come una serie di variabili dummy la cui

logica è semplice se abbiamo 2 categorie (per es. genere in cui la prima è donna e l’altra è per forza

maschio), cioè indica la presenza o l’assenza di qualcosa: in un modello dove voglio creare 2 variabili

che sono correlate perfettamente (per es. female e male) cioè che misuriamo la stessa cosa, non metto

dentro al modello entrambi perché la seconda non mi serve, quindi come logica creo una dummy per

ogni categoria e quella che rimane esclusa è la categoria di riferimento (per es. se metto genere 1=

donna 0 = e lascio fuori l’uomo). Se ho una variabile classe sociale che ha 5 categorie nel modello

wise

metto 4ª e la 5ª (per es. posizione sociale più alta): tutte le altre dummy sono da leggere in confronto

alla 5ª. Per es. se ho una variabile con 2 categorie e posso creare 2 variabili dummy la

educy low educy high

1ª prende il valore 1 e 0 al la stessa cosa se ho una variabile con 3 categorie e quindi la

educy low wise,

divisione tra e posso creare 3 dummy che prende per il 2° il valore 1 se è il

educy low high educy educy

livello d’istruzione medio e 0 al e in tutti gli altri casi quando non è così sarà criticato un po’, non

wise

posso includere tutti (lasciare fuori la dummy per la come si interpreterebbe?. Quale

low educy

interpretazione? Chi ha un livello ha 34 punti in più risotto a chi ha Il punteggio del

educy high l’educy low.

prestigio occupazionale che stimo per un livello più basso è in relazione alla costante. 26,7 è il prestigio

che in media una persona con istruzione bassa avrà; siccome gli intervalli di confidenza non si

sovrappongono, quindi i coefficienti sono statisticamente significativi. Il è la possibilità di

coding

, b , etc. Per es. facciamo un confronto fra pesi diversi stimando un modello che include

calcolare b

1 2

tutti i paesi e includo una serie di variabili dummy per ogni paese, lascio fuori la Francia e interpreto

tutti i coefficienti in confronto alla Francia, la scelta è arbitraria ma potrei anche interpretare l’effetto

dei singoli paesi rispetto alla media complessiva quindi si calcola la media di tutti in paesi e si guarda la

devianza e la differenza fra l’Italia e la media europea.

Es. Livelli di reddito secondo il voto di laurea e il genere

Lezioni di Statistica A.A. 2007/08 46

lavoro

da

mensile

Reddito Voto di laurea

(Fonte: pag. 210 Corbetta)

Qui abbiamo una regressione multivariata che include una variabile metrica (income) e una variabile

dummy. Se faccio la predizione per uomini quindi la mia variabile = 0 sparisce il termine, quindi il

valore predetto per gli uomini si stima sulla 1ª parte soltanto cioè il valore degli uomini trovo

sull’intercetta e la differenza fra uomini e donne la trovo sulla variabile dummy. Un effetto positivo

della variabile dummy indica che un valore è più elevato e un altro è più basso. E questa è la

rappresentazione grafica. La predizione (b) (happiness) con maggiore è il reddito, più felici sono le

income,

persone. La riga nera è la media per entrambi se non specifico un effetto dummy per Nel nostro

gender.

esempio la correlazione fra reddito e felicità = l’indice per uomini e donne, se però assumiamo che

l’effetto reddito è più alto o più basso per le donne abbiamo bisogno di un effetto d’interazione che ci

permette di modellare un (b) diverso per ogni categoria (per es. gli uomini sono più materialisti quindi il

reddito conta di più). Stimiamo 2 modelli diversi, uno per la donna e una per l’uomo, e li metto insieme

e includiamo un e i risultati saranno uguali, solo col modello dell’effetto d’interazione

interaction term

otteniamo anche un test di significatività per la differenza nell’inclinazione della retta. La riga nera è

l’effetto stimato in un modello combinato senza dummy (gender) e senza interazione, invece il risultato

per la retta stimata. Quindi abbiamo un inclinazione meno forte per le donne e un effetto b maggiore

per gli uomini che è visto come conferma dell’ipotesi che l’uomo è più materialistico. Vediamo

comunque una differenza di livello fra uomini e donne cioè la donna sembra più fallace in media. Che

cos’è È il prodotto fra le 2 variabili d’interazione cioè fra la variabile genere e il reddito

l’interaction term?

e includo nella mia regressione questa nuova variabile, quindi la mia formula diventa questa con 3°

parametro di 3 per l’interazione. Se si tratta di uomini aumenta l’informazione sul reddito, b = 0 e b =

2 3

0 quindi si riduce a questo. Se si tratta di donne abbiamo valori su tutti: è circolare Un esercizio

l’educy.

potrebbe essere di calcolare il valore prodotto di un uomo con reddito medio. B mi dà l’effetto reddito,

1

b mi dà la differenza fra uomini e donne, b mi dà la differenza fra uomini e donne, e così via.

2 3

Lezioni di Statistica A.A. 2007/08 47

Effetti d’interazione (20/05/2008)

Y = a + b income, + b D female, + b female income + e

1 1 2 3 1

What if the case is male?

Dfemale is 0, so b (d female)

2

Torniamo all’es. dell’ultima volta del Corbetta. Regressione lineare, 2 variabili con il voto di laurea e

l’altra il genere, 2 rette lineari con lo stesso per uomini e donne e abbiamo detto che la variabile

slope

dummy si stima a differenza dell’intercetta, se invece inferiamo un effetto d’interazione il risultato sarà

con 2 variabili dummy, sia con una dummy e una metrica o con 2 variabili metriche ma diventa più

difficile. L’interazione dice che l’associazione tra 2 variabili varia a seconda del valore di una variabile

terza. Abbiamo 2 modi: o studiamo la cosa separatamente cioè un modello per uomini e uno per le

donne o inseriamo nel modello una variabile d’interazione che ci dà il vantaggio di avere un test di

significatività sulle differenze di Quindi l’interazione fra 3 variabili dummy (per es. essere donna e

slope.

avere un titolo di studio alto o per es. il voto di laurea). Come si interpreta? Se facciamo l’interazione fra

(donne) o la dipendente è cioè c’è una correlazione lineare tra essere felice e

female income happiness

reddito e questa correlazione potrebbe variare fra i 2 generi. Se otteniamo un effetto negativo per

l’interazione o ci dice che la correlazione è minore per donne rispetto a uomini cioè se il

income male

nostro effetto income b = 0,5 e l’effetto interazione – = -2 il per le donne è 0,3 e per

income male slope

l’uomo è 0,5. L’interazione mi stima la differenza fra fra 2 gruppi e facendo il calcolo con il

slope male

meno l’interazione mi dà il valore per la donna. Questa è la nostra equazione: stimiamo Y abbiamo

effect

una costante, il 1° per il reddito, il 2° per la dummy e il 3° per l’interazione, se il caso è uomo

female

e b non ci sono perché sono entrambi = 0, se invece il caso è donna, allora b e b

succede che b

2 3 2 3

rimangono cioè il parametro (b) del reddito ci dà la differenza del livelli mentre l’interazione ci dà la

differenza nello slope.

Dummy interaction Female vs male High educy IA

Female high educy 1 1 1

Female low educy 1 0 0

Male high educy 0 1 0

Male low educy 0 0 0

Discore conf

Ogfirst -10.82

Case3b 28.86

Agenda -12.6

Consb 39.59

Qui abbiamo un interazione con 2 dummy, e ciò mi dà la combinazione fra valori di 2 dummy. Visto

che sono il prodotto vedete che abbiamo un valore diverso da 0 solo per una categoria cioè le donne

con livello istruzione maggiore, se invece abbiamo e essere donna, allora la nostra variabile

income income

è metrica e assume una serie di valori X, ma se si tratta di donne la variabile dummy prende valore 0, è

la stessa logica per 2 variabili metriche (per es. anni d’istruzione e titolo di studio) e in questo caso

stimiamo tante Quindi se guardiamo ancora e l’ipotesi potrebbe essere che le

slopes. educy income happiness,

persone con elevato livello d’istruzione sono meno materialistiche cioè per loro il reddito conta meno

magari perché hanno già un reddito elevato e vorrebbe dire che parliamo di una correlazione lineare. (se

la mia ipotesi è high educy less/unless quindi reddito meno effetto happiness). Questa interpretazione è

simmetrica cioè l’effetto dipende dalla quantità di reddito ma posso dire anche allo stesso tempo

educy

Lezioni di Statistica A.A. 2007/08 48

che l’effetto reddito dipende dalla quantità di e non posso decidere sulla base del mio effetto

educy

interazione e in questo caso l’effetto interazione mi dice che il valore dipende dal valore dell’altra

variabile. Quindi su un es. con si trovano con coefficiente un parametro di 2,

educy income

l’interpretazione è che per ogni il va giù, e nell’altra direzione succede la stessa

change educy slope income

cosa. Per ogni valore ottengo un (b) diverso. C’è un problema con effetto interazione e cioè ci

educy

sono variabili che sono molto alte (multicorrelate) che ci fa esplodere lo standard error e quindi il

modello non funziona. Allo stesso tempo dobbiamo capire che l’effetto interazione ci cambia

l’interpretazione nel (cioè quando inserisco l’interazione fra e che misura il

main effect educy income)

coefficiente quando l’altra variabile =0 (per es. se avete 2 donne nel vostro sample e 99% uomini non

ha senso fare l’interazione.).

Es. prestigio e 5 anni dopo l’ingresso nel mercato del lavoro

Regr dlsscore oqfirst educy IAeducy Number of obs = 2135

F (3, 2131) = 634.47

Source SS df MS Prob > F = 0.0000

Model 4160003.277 3 138667.759 2

R = 0.4718

Residual 465744.916 2131 218.556976 2

Adj R = 0.4711

Total 881748.193 2134 413.190343 Root MSE = 14.784

dlsscore Coef. Std. err. t P > |t| [95% conf. interval]

oqfirst -4.854636 3.499065 -1.39 0.165 -11.71657 2.007302

educy 3.617945 0.09195 39.35 0.000 3.437624 3.798266

IAeducy -0.9348306 0.2652929 -3.52 0.000 -1.455091 -0.4145705

_cons 1.194456 1.143375 1.04 0.296 -1.04779 3.436703

Regr dlsscore educy if oqfirst==0 Number of obs = 1756

F (3, 2131) = 1686.1

Source SS df MS Prob > F = 0.0000

Model 338365.118 1 338365.118 2

R = 0.4901

Residual 351976.135 200.670545 2

Adj R = 0.4899

Total 690341.253 1755 393.35684 Root MSE = 14.166

dlsscore Coef. Std. err. t P > |t| [95% conf. interval]

educy 3.617945 0.0881071 41.06 0.000 3.445139 3.790751

_cons 1.194456 1.09559 1.09 0.276 -0.9543433 3.343256

Regr dlsscore educy if oqfirst==1 Number of obs = 1756

F (3, 2131) = 1686.1

Source SS df MS Prob > F = 0.0000

Model 25408.1667 1 25408.1667 2

R = 0.4901

Residual 113768.781 377 301.773954 2

Adj R = 0.4899

Total 139176.947 378 368.192983 Root MSE = 14.166

dlsscore Coef. Std. err. t P > |t| [95% conf. interval]

educy 2.683115 0.2924108 9.18 0.000 2.108154 3.258075

_cons -3.66018 3.885892 -0.94 0.347 -11.30092 3.980558

Qui abbiamo 2 variabili indipendenti: che vuol dire che una persona ha accettato un

long qualification

lavoro che non si adatta al livello d’istruzione acquisito cioè c’è una devianza rispetto alla media della

persona con un dato livello d’istruzione, che è misurato come dummy cioè sono sotto qualificati, e la 2ª

variabile (degree) è se la persona ha preso o no una laurea. Quella che dovete capire è che l’Anova entra

nel modello lineare, cioè non c’è differenza tra Anova e regressione. Quindi qui c’è il De Lillo-

Schizzerotto score, variabile unica che ha slope -12 che ci dice che se qualcuno nel 1°

over qualification

impiego ha un prestigio minore di quello che a seconda del suo livello d’istruzione dovrebbe prendere,

Lezioni di Statistica A.A. 2007/08 49

anche 5 anni dopo avrà un prestigio minore di 12 o 13 punti, quindi il gap non si recupera. Ci sono in

letteratura delle ipotesi che dovrebbe funzionare come cioè si entra subito e

l’overqualified job trust board

poi fanno un salto più grande in termini di prestigio e quindi recuperano il gap iniziale ma qui vediamo

che non recupera nulla. Quindi abbiamo una costante che è il valore per chi non è e la

overqualified

differenza fra la scostante per chi entra Se adesso vi faccio vedere una semplice media il

overqualified.

per i 2 gruppi essere e non essere ottengo che la media per chi non è

mean score overqualified overqualified

corrisponde all’intercetta del mio modello di regressione, invece chi è la media è

overqualified overqualified

ridotta al mio coefficiente. Il mio modello nonostante non sia significativo, ha il bonus di controllare

l’effetto di altre variabili stimando solo gli effetti diretti per es. se vogliamo sapere la media per chi ha

un livello d’istruzione alto calcoliamo la media per e non e otteniamo la stessa

overqualified overqualified

che avevamo ottenuto inserendo la variabile Ovviamente così semplice funziona solo

simil tender slope.

con variabili dummy o categoriali. Qui stimiamo un effetto media per essere per ogni

overqualified

categoria e non è cancellato per l’effetto che stimiamo di essere Se siamo interessati al

educy overqualified.

danno che si subisce nel lungo termine all’entrare nel Mercato del lavoro è più grave o meno grave di

avere una laurea e devo inserire un effetto interazione di -12,6 che è negativo fra esser e

overqualified

avere una laurea e come vedete il di essere cambia da -12,6 a -10,8. In termini

main effect overqualified

d’interpretazione mi dice che il penalty di essere è più forte per chi è laureato rispetto a chi

overqualified

non lo è. Adesso guardiamo la stessa cosa con 2 modelli diversi: qui ho le persone senza laurea (è il 2°

col che mi dà un effetto di essere su prestigio di 5 anni dopo di meno 10 che è la

beside effect) overqualified

stessa cosa della parte azzurra il di essere una volta nel nostro modello

main effect overqualified,

multivariata controllo nell’effetto interazione, se adesso guardo la stessa cosa per chi ha una laurea

ottengo une effetto di -22 che è esattamente 10-10 +(-12 dell’effetto interazione) ecco perché l’effetto

interazione mi dà la differenza e il risultato è lo stesso se calcolo 2 regressioni separate, ovviamente se

ho 2 variabili metriche non funziona bene perché funziona meglio con 2 variabili dummy. L’intercetta

per chi ha un livello d’istruzione maggiore è l’intercetta più della variabile “avere un laurea”,

main effect

quindi il 28,8 dell’effetto di avere una laurea più l’intercetta 39,6 mi dà questo. La stessa cosa può essere

fatta con una variabile metrica quindi invece di vedere “aver una laurea” e “non averla”, guardiamo gli

anni di anche qui otteniamo l’effetto interazione significativo che ci dice che per ogni anno di

educy,

scuola in più diventa negativo l’effetto e il penalty aumenta. e qui il modello che contiene

overqualified

l’effetto interazione riproduce la stessa informazione che abbiamo se facciamo 2 modelli separati per

chi non entra e entra facciamo i calcoli e scopriamo che l’effetto interazione ci dà la

overqulified,

differenza fra questo e questo. L’interpretazione è simmetrica: la 1° è che lo svantaggio di entrare nel

Mercato del lavoro è maggiore per chi ha un livello d’istruzione più alto, ma allo stesso tempo posso

dire che il periodo cioè la possibilità di convertire il mio investimento nell’istruzione in una

educy

posizione del Mercato del lavoro è minore per chi entra nel Mercato del lavoro come comportamento,

cioè più elevato è il livello d’istruzione, meno sono in grado di recuperare. Può essere che chi entra

come sono i meno intelligenti o sono che prende voti di laurea più bassi. Una volta che

overqualified

siamo in grado di controllare per la persona questo effetto interazione potrebbe sparire, cioè non

facciamo nessuna interpretazione causale giacché non siamo sicuri che non si tratti di correlazioni

spurie. Vediamo ora il modello con 2 variabili metriche interagenti, la dipendente è De Lillo-

Schizzeroto score e l’interazione fra età e anni scolastici, come interpretare? Per prima cosa non

troviamo un effetto età perché parliamo di anni dopo l’ingresso nel Mercato del lavoro, ma troviamo

un effetto positivo per gli anni d’istruzione che interpretiamo come anni d’istruzione in più che

modifica la nostra posizione nel Mercato del lavoro e aumenta, cioè un effetto positivo che vuol dire

che aumenta con l’età e cioè ciò che ti porta in termini di prestigio i tuoi anni scolastici. Non

degree educy

potrebbe essere che non ci sia interazione ma che variabile età e livello educazione interagiscono fra

loro? Si, età e titolo studio sono collegate se misura la dipendente 5 anni dopo l’inserimento nel

Mercato del lavoro perché entra più tardi sarà più vecchio. C’è un altro problema se guardate bene il

valore P perché qua non c’è un effetto interazione significativo per 2 ragioni: abbiamo una lettura del

prestigio standardizzato 5 anni dopo quindi non vediamo il crescere del prestigio all’interno della

carriera; la 2° ragione è che con il modello il processo di conversione dell’investimento in

overqualified

con posizione sul Mercato del lavoro (periodo in Italia non è progressivo, cioè entrare con

educy educy)

Lezioni di Statistica A.A. 2007/08 50

piccolo lavoro e poi fare carriera, ma o si riesce fin dall’inizio o non si recupera più, mentre in un

contesto anglosassone troviamo un che è più graduale (cd prospettiva longitudinale dove c’è

closet educy

interazione tra età e educazione, età intesa come esperienza lavorativa che è diversa per uomini e

donne). Chiudiamo la parte sugli effetti d’interazione con il grafico che abbiamo fatto vedere all’inizio

con 2 rette.

Regression analysis: outliers

- note: ever if regression assumption are met, slope estimate can have problems

- ex: outliers cases with extreme values that differ greatly from the rest of your sample

outliers can result from: error in coding or data entry, highly unusual cases, something they

- reflect important real version

4

-4 4

-4 Diagnostic

- Residual: the unusual value of error

error: distance that point

- Cook’s D: identifies case that are strongly influenced by the regression

- Result with outliers removed

- Question: what should you do if you find outliers?

- Circumstances where it can be good to drop outliers data:

1. Coding error

Often suggest an important subgroup in your data

2. If they are many

Maybe they reflect a real pattern in your data

When in doubt: present result both with and without outliers

- or present one set of result, but mention how result differ depending on how were handled

Voglio che sappiate che non sempre questi modelli ci portano a un interpretazione sensata, cioè la

stima viene fuori comunque ma i parametri possono anche contraddirsi, e per farle bene si dovrebbe

ogni volta verificare se l’educazione e il sono validi, anche se sono validi la stima dei parametri

sample

può essere problematica il caso più ovvio è quello degli cioè casi estremi che non attirano la retta

outliers

in nessuna direzione. Cosa fare? Dobbiamo vedere se ci sono e una possibilità è il che mi

outliers boxplot

tira la retta di regressione perché l’algoritmo della stima minimizza gli scarti quindi una volta che

, b , b = 5,7 senza

rimuovo questi abbiamo una correlazione più forte. Uso tutti i 6 casi b outlier.

outliers 3 2

Facciamo poi un analisi dei residui e vediamo se ci sono scarti dalla retta stimata e valore osservato e

possiamo standardizzare cioè con media e deviazione standard = 1, se troviamo valori che vanno fuori

troppo potrei iniziare a pensare che stanno fuori. Questi casi sono molto diffusi in economia anziché in

sociologia. Se si tratta di cioè se sono singoli casi di individui che guadagnano € 2.000.000

coding errors

Lezioni di Statistica A.A. 2007/08 51

l’anno, posso anche eliminarlo. Tuttavia potrebbe trattarsi anche di sottogruppi abbastanza importanti,

per es. se guadagniamo in siamo interessati a studiare l’investimento in istruzione cioè chi manda i

educy

suoi figli a studiare e gli outliers potrebbe essere gli spagnoli o gli italiani se confrontiamo con la

Germania, in quanto ci sono gruppi di immigrati che sono tanti per mandare i loro figli all’università

invece in Germania i turchi non mandano i propri figli a studiare e quindi questo potrebbe riguardare

questi gruppi come outliers come un problema, quindi controllo il paese d’origine dei genitori e

inserisco come covariate questa cosa nel mio modello di regressione, risolvo il problema degli outliers

perché così elevato non c’è perchè sono in grado di criptarlo. Quindi a volte il caso di outliers si risolve

controllando per altre variabili che sono rilevanti per spiegarmi il fenomeno come nel caso di paese

d’origine dei genitori sull’indicatore d’istruzione, una correlazione alta varia tra 0 e 1 che può creare

problemi, quindi non siamo più in grado di stimare i parametri o almeno 1 dei 2. Un segnale di variabili

troppo correlate potrebbe essere che abbiamo b > 1, oppure il caso che b tende a infinito. Che fare?

Abbiamo effetto non solo sulla stima ma anche in standard error. Prima guardiamo se le variabili sono

poco correlate, poi vediamo come si comportano le stime e aggiungeremo una variabile rispetto al

modello bivariato. Una soluzione è buttare fuori una delle variabili, però forse abbiamo qualche ragione

a tenerle dentro se pensiamo a concetti complessi multidimensionali per es. se proviamo a misurare

possiamo pensare che le singole dimensioni fra loro sono correlate, una strategia potrebbe

social condition

essere che identifico tutte le singole dimensioni e inserisco queste come singole variabili o creo un

indice composto da queste varie dimensioni e che è la somma delle dimensioni e questo sarebbe un

modo per evitare il problema tecnico della multicollinearità (per es. indice 1 dove ho 2 variabili che

sommo e divido per qualcosa per avere un Ultima parte è guardare la che

range). regression assumptions

riguardano la distribuzione egli errori. Se e (b) non funzionano, non siamo interessati

regression assumption

a generalizzare i risultati, quindi il sample è maggiore 30 così possiamo fare un test di significatività.

Quanto possiamo parlare di un test lineare Ci sono quando ci sono i vari e

advice test? regression assumption

sono più per la regressione multivariata che non per la regressione bivariata, nel qual casi facciamo un

mentre la prossima volta vediamo quando la correlazione non è lineare nel qual caso di fa una

box plot

trasformazione sulle variabili per es. mandiamo un articolo a una rivista italiana che contiene una

2

variabile età più una variabile età al quadrato, l’effetto del coefficiente stimato per η era negativa, la

risposta del dirigente della rivista fu che sapeva anche lui che qualsiasi numero al quadrato deve essere

positivo e ciò dimostra la sua ignoranza in quanto non sapeva che occorre mettere dentro la variabile al

quadrato per modellare un effetto non lineare quindi non si tratta del valore della stima dell’età bensì

della stima dell’età al quadrato e se è negativo vedo che è multilineare. Se parliamo di residui errore e

non intendiamo l’errore di misura cioè lo scarto tra la retta stimata e quella osservata e su questo

abbiamo una serie di osservazioni che riguardano il test di significatività ma non solo. L’errore deve

essere distribuito normale cioè deve avere una media (mean) = 0 che ci avverte della stima di α. L’errore

deve essere omoschedastico cioè ci deve essere una standard deviation costante per i vari valori di X e

ciò è un problema in quanto ci crea problemi per lo standard error. Cosa fare? Si fa l’analisi sui residui e

si fa la distribuzione di valori X oppure si può vedere che standardizzando le variabili risultano

comportamenti di errori un po’ diversi da come dovrebbero essere (per es. omoschedasticità: se ho un

margine così è buono, se non è così ho un problema su casi bivariati e la distribuzione se entrano altre

variabili di controllo può cambiare). L’errore non deve essere alto con nessuna della variabili

indipendenti. Non esiste l’autocorrelazione cioè gli errori tra i vari individui (o casi) non devono essere

alti (per es. si studia un gruppo di casi dentro una struttura familiare, si può assumere che tra loro sono

più simili a causa della scuola, in questo caso abbiamo cosa fare? Se è solo un fatto di

correlation error,

correlare la relazione, e non siamo interessati a questa struttura multilivello, calcoliamo gli errori

standard in modo più complesso oppure facciamo un modello multilivello che è la stessa cosa che gli

economisti chiamano perché il multilivello nasce per studiare individui nelle scuole mentre il

panel model

nasce in ambito economico).

model panel

Lezioni di Statistica A.A. 2007/08 52

La ricerca empirica (21/05/2008)

2 ways:

1) spiegare un concetto (per es. che cosa determina il parametro di una persona)?

2) vedere gli effetti di un concetto (per es. le conseguenze di un lavoro)

Es. l’effetto di entrare nel mercato del lavoro come overqualified worker

Ipo. (A) spring board recupero del gap iniziale

(B) trap (H nessun effetto) rimane intrappolato in posizioni con meno play-off

0

Dati: Longitudinali o informazioni su almeno 2 punti nel tempo

Sample: in questo caso: SL dal 1970 i primi 5 anni di carriera

Situazione di ingresso e 5 anni dopo chi aveva almeno un episodio di lavoro che è

ancora occupato dopo 5 anni

Variabile indipendente: = 10% in meno del medio del livello d’istruzione

over qualified payoff

Variabile dipendente: posizione occupazionale (De Lillo-Schizzerotto score) 5 anni dopo

Analisi dei dati: Descrizione: cross tabs, medie, etc.

Regressione lineare bivariata e multivariata

th nd

1 Time: Entry in labour market 2 Time: 5 years later

Over qualified 0/1 Prestige current job

Prestige Over qualification first job

Educy Over qualification current job

Contract

Torniamo all’esempio di ieri sul prestigio e 5 anni dopo l’ingresso nel mercato del lavoro. Ho pensato

di farvi un es. per capire l’interpretazione dei coefficienti. Perché la statistica? Per prima cosa vogliamo

una descrizione sull’attività tra i vari paesi per avere una descrizione su un dato fenomeno. Se non lo

vediamo più in termini di ricerca empirica possiamo distinguere 2 modi: il primo è spiegare il mio

concetto (per es. che posizione occupazionale ha Tizio in un determinato punto della sua carriera), si

2

. L’altra prospettiva è concentrare l’attenzione sull’effetto di una determinata

prova a massimizzare il R

bivariata cioè non siamo interessati a spiegare la posizione occupazionale di un soggetto bensì come

varia l’effetto istruzione. E lo facciamo nello stesso es. sugli effetti d’interazione sulle conseguenze di

entrare nel mercato del lavoro come con un lavoro per il quale sono qualificato e le

overqualified worker

conseguenze sulla posizione 5 anni dopo l’ingresso nel mercato del lavoro. Questo es. è abbastanza

adatto per vedere come funziona un test d’ipotesi che in letteratura sono conosciuti come “springle” cioè

intrappolamento che hanno un passo di mobilità per recuperare il gap. L’altra ipotesi dice che una volta

che si assume una determinata posizione specialmente in paesi dove la fluidità fra diverse occupazioni

non è così grande non si recupera. Questo confronto fra 2 ipotesi è il classico esempio di ricerca

sociale. Le ipotesi sono confrontate con la realtà empirica che sono i dati longitudinali, cioè almeno su 2

punti nel tempo: la posizione con cui l’individuo entra nel mercato del lavoro e la situazione 5 anni

dopo (NB non si considerano i lavori part time dello studente). Se consideriamo anche le donne c’è un

cioè una perdita di dati perché sappiamo che se le donne fanno figli presto abbandonano il mercato

bias

del lavoro. Quindi siamo interessati all’effetto di entrare nel mercato del lavoro con v

overqualified

rispetto a L’overqualification è misurato con almeno 10% in meno del medio del

not overqualified. pay-off

livello d’istruzione quindi calcoliamo una media per chi ha una laurea e le persone che sono almeno il

10% sotto questa media sono calcolate come cioè il prestigio occupazionale è sotto quello

overqualified,

che ci si aspetterebbe per ogni persona dato il suo livello d’istruzione. Questa è una definizione

oggettiva ma relativa. Ci sarebbe un altro modo di misurarlo e cioè chiedere alla persona “il vostro

livello d’istruzione è adeguato al lavoro che fate”? Le analisi che facciamo sono la media e la regressione

lineare sia bivariata che multivariata. Abbiamo che le informazioni sullo status cioè se la persona ha un

lavoro o ha lasciato il lavoro potrebbe essere un ulteriore analisi per ipotizzare che non ce la fa a trovare

Lezioni di Statistica A.A. 2007/08 53

un lavoro adeguato potrebbe essere non più attivo nel mercato del lavoro e ciò lo troviamo più nelle

donne che hanno l’alternativa di fare le casalinghe. Guardiamo le prime descrizioni.

Descripives

Oq2 Male Female Total

0 1,148 860 2,008

85.67 75.97 81.23

1 192 272 464

14.33 24.03 18.77

Tot 1,340 1,132 2.472

100.00 100.00 100.00

Oqlast Male Female Total

0 1,937 222 2,159

96,42 4784

1 72 242 314

3.58 52.16

Tot 2,009 464 2,473

La variabile si chiama (Oq2) e (Oqlast) è variabile dummy semplice di chi

overqualified 2 overqualified 1

entra nel mercato del lavoro. Guardiamo la composizione di questa categoria e facciamo una tabella di

contingenza con il confronto tra uomini e donne e vediamo che 2009 persone e 464

not overqualified

Calcoliamo le percentuali e vediamo che le donne hanno 10 punti percentuali in più cioè

overqualified.

l’essere si concentra sulle donne invece non vediamo nessuna differenza fra regioni e poi

overqualified

vediamo la composizione dei contratti: lavoratori autonomi e dipendenti, ci sono tipici (per

self employed

es. artigiani) e atipici (per es. co.co.co.), poi ci sono il dipendente tipico (per es. impiego pubblico) e

atipico (per es. call center), poi c’è il lavoro a nero e ci sono Cosa vediamo? Meno stabile

season workers.

è il contratto, più è facile entrare nel mercato del lavoro. Se vogliamo dare una lettura sociologica

possiamo parlare di cumulazione dei risultati. Abbiamo 19% che entrano e dopo 5 anni

overqualified

abbiamo un 15% che è (non necessariamente è ancora ma potrebbe essere chi

overqualified overqualified

entra regolare o poi fa la transizione verso il lavoro qualificato). Per vedere più in dettaglio facciamo

una tabella di mobilità dove le percentuali di celle hanno un senso e la parte che ci interessa di più è la

diagonale e la distanza di chi non si è mosso oppure considero il tipo d’ingresso come variabile

indipendente e la situazione 5 anni dopo come variabile dipendente, faccio le solite percentuali per

colonne e posso confrontare, e vediamo che chi entra nel mercato del lavoro come overqualified, 5 anni

dopo è ancora overqualified, mentre qui il rischio di trovarsi overqualified fra chi entra normale è

2

bassissimo, cioè una differenza di 48,6 punti percentuale. Posso anche calcolare X e che si

odds ratio

calcola sulla base dei numeri assoluti. Invece di calcolare l’odds ratio a mano, posso fare una regressione

logistica, visto che una variabile dipendete categoriale con 2 categorie, il cui risultato è uguale a odd ratio

242 1937/72 222 = 468754/15984 = 29,33 solo che nella retta di regressione posso inserire altre

variabili. L’interpretazione è che il rischio di essere dopo 5 anni è 30 volte maggiore per chi

overqualified

entra nel mercato del lavoro come o 30 volte minore per chi entra normale (not

overqualified overqualified).

Sulla base di ciò possiamo dire che è molto improbabile avere un fenomeno di intrappolamento. Qui

parliamo di media che nel 1° lavoro sono minori, se fosse un calcolo basso non troveremo una

differenza nelle medie del prestigio occupazionale 5 anni, però la cosa che vediamo è che entrare nel

mercato del lavoro come ci porta un prestigio minore rispetto a chi entra normale. La 1ª

overqualified

tabella è Ieri vi ho fatto vedere che questa è una retta di regressione lineare che inserisce una

first job.

dummy e una differenza delle medie nelle 2 categorie, quindi qui nel 1° modello sul prestigio dopo 5

anni con unica covariante entrare nel mercato del lavoro con riproduce la stessa cosa che vi

overqualified

o fatto vedere con le medie. Ci interessa a questo punto controllare per altre variabili: essere donne, la

zona, il tipo di contratto (tipici verso atipici, verso li inseriamo nel nostro modello

workers season workers)

Lezioni di Statistica A.A. 2007/08 54

con 2 variabili dummy, resta come categoria di riferimento i contratti tipici. Confrontiamo i 2 modelli

2

vediamo che il coefficiente non cambia. Vediamo che c’è un aumento di R e sappiamo che il contratto

ha un forte effetto sulla struttura occupazionale. Se mettiamo dentro il voto delle superiori (school mark)

ha un effetto positivo, sorge il problema che non tutti hanno fatto le superiori o c’è una buona

percentuale di chi è uscito prima di fare la terza media e ho un valore perché il modello di

missing

regressione considera solo persone con valore validi e me li butta fuori. Un modo per non perdere

questi dati può essere di assegnare il valore medio (cd mediana) per chi ha l’informazione valida. Poi

inseriamo un’altra variabile (miss = vuoto) che mi ricorda di aver stimato il voto non presente. Inserisco

dopo 5 anni come variabile il prestigio occupazionale del 1° impiego e l’istruzione, e la mia variabile

ci misura il pulito dall’effetto di chi è ha un livello di prestigio minore.

overqualified missmatch overqualified

Prima avevamo un effetto -16 invece qui cambia di segno pur rimanendo statisticamente significativo.

Da una parte vediamo che abbiamo un effetto forte negativo di entrare nel mercato del lavoro con

che interpretiamo come intrappolamento, però una volta che guardiamo il tra

overqualified missmatch

posizione occupazionale iniziale e livello di studio, l’effetto cambia e il fatto che finiscono in posizione

più bassa. Vediamo chi entra nel mercato del lavoro anni dopo ha un prestigio

overqualified

occupazionale minore di chi entra normale (not Ricordiamo che la variabile ha

overqualified). overqualified

2 elementi: il 1° si basa sul prestigio nel 1° impiego in relazione al livello d’istruzione se il prestigio è

minore al livello d’istruzione lo classifichiamo come e la discrepanza fra titolo di studio e

overqualified

posizione occupazionale, per come è stato costruito le persone hanno prestigio minore,

overqualified

quindi nella mia misura nel modello dummy e il prestigio e il titolo di studio con la logica

overqualified

dell’analisi multivariata cioè controllando per tenere costante la cosa che rimane come misura della mia

variabile è il miss match. L’interpretazione è che il (non so come si dice in italiano)

overqualified missmatch

non ha funzionato nel caso di Con questo modo di inserire per 2 elementi in una data

overqualified.

direzione (per es. possiamo pensare che chi è sotto qualificato magari fa il dirigente) abbiamo la misura

che ciò che ci rimane è l’effetto L’interpretazione è che entrare nel mercato del lavoro crea un

missmatch.

che è dovuto al fatto che questi soggetti si trovano in posizioni con prestigio minore o in termini

penalty,

altri in un segmento del mercato del lavoro meno qualificato.

Lezioni di Statistica A.A. 2007/08 55

Correlazioni non lineari (27/05/2008)

Vi ricordate l’esercitazione n° 5.7? Abbiamo Nord e Sud e vogliamo sapere se questi 2 sono (beeh)

diversi. Si suppone che la fiducia nella politica sia minore al Sud rispetto al nord e ciò implica un test a 1

coda (un test a 2 code significa che sarebbero stati diversi). Il punto critico è come calcolare lo standard

error che è un valore che può essere confrontato con quello teorico e deve essere più alto per essere

accettato. Ci sono vari modi per calcolare lo standard error, la prima cosa da sapere è che entrano le

deviazioni standard di entrambi i campioni e quindi ci sono 2 standard error. La formula di come si

calcola lo standard error è diverso rispetto a come sono ponderati, nella versione più semplice della

somma che si usa quando le 2 deviazioni standard sono diverse. Nel nostro caso le deviazioni standard

dono simili e il test F di Fischer potrebbe essere fatto per sapere se è statisticamente significativo. In

qualche modo dobbiamo inferire entrambi moltiplicato per il loro n e poi divisi per la somma.

L’eserciccio ci chiede l’altra deviazione standard e possiamo inserire i nostri numeri per giungere a un

risultato di 6,8 che è minore del valore teorico e se α=5 con test a una coda questo risultato risulta un

valore critico di 1,645 quindi 6,8 > 1,645 allora rifiutiamo H e l’interpretazione è che la fiducia nella

0

politica è minore al sud che al nord. La 2° parte dell’esercizio cioè il fatto che non si tratta di variabili

metriche si risolve nel fatto che non si può calcolare la media e si dicotomizza e si fa un test analogo

sulle percentuali. Non sarà parte d’esame fare il confronto su gruppi di percentuali. Nel compito

d’esame ci sarà la parte sui dati (aggregati e individuali, longitudinali e Vi ho parlato di

cross sectional).

(per es. la correlazione fra tasso disoccupazione e ostilità verso gli stranieri non possiamo

ecological fallacy

inferire che sono i disoccupati ad essere intolleranti) quindi su ciò che trova a livello macro non

necessariamente dobbiamo inferire a livello micro. Baby boom

figli 19-30 età 60-70 2.000

Nel testo di Knoke c’è un esercizio a pag. 281 tra età e numero di figli e si trova che abbiamo 2 effetti

diversi cioè fino a 18 anni o l’età nel senso che pochi fanno figli a 18 anni poi dopo 40 c’è l’effetto

boom cioè l’effetto cohorte che non va confuso con l’effetto età. Posso fare il confronto cohorte in una

prospettiva quando prendo solo la parte 18-40 in quanto presumiamo che dopo i 40 anni

cross sectional

per ragioni biologiche non si fanno più figli. Effetto classico con casi di nascita non sono da studiare in

ambito in quanto stiamo facendo l’interpretazione su cohorti giovani che fanno sempre

cross sectional

Lezioni di Statistica A.A. 2007/08 56

meno figli su una base di fonti sbagliate. vuol dire che nel tempo t faccio una sola

Cross sectional

osservazione (per es. chiedo che lavoro fate e basta), invece nell’indagine longitudinale abbiamo

l’informazione nel t che può essere retrospettiva o prospettiva (per es. vi chiedo adesso e poi torno a

chieder tra 1 anno). Il limite all’indagine prospettiva è che la 5ª volta vi stufate e non rispondete più.

Abbiamo visto che ci sono una serie di ragioni quali la distinzione tra e Se chiedo

age effect cohorte effect.

alla 60enne quanti figli aveva a 18 anni posso tenere costante l’età a livello di cohorte ma non è

semplice a livello statistico perché vedo che la nascita del primo figlio si sposta ma ciò non mi dice che

complessivamente il tasso di fertilità è minore in quanto magari lo fanno più tardi.

Altro es. la partecipazione al mercato del lavoro delle donne, facciamo un confronto fra donne

giovani da 15 a 20 anni e facciamo un confronto fra il tasso di partecipazione per le donne della cohorte

vecchie di nati nel 1920 con la cohorte giovane e il risultato è che o non troviamo diversi o che le

percentuali di giovani sono minori perché studiano di più. Sappiamo infatti che il tasso di

partecipazione femminile aumenta ma allo stesso tempo si sposta l’età dell’ingresso perché c’è

l’espansione del sistema scolastico. I dati longitudinali sono individuali? No, ma di solito si riferiscono

a dati individuali. L’ultima cosa è che la struttura multilivello ci permette di evitare l’ecological e

fallacy

l’altra stima, quindi avere l’informazione per ogni allievo e per ogni scuola. Le serie storiche sono

diverse dai dati longitudinali? Si, per es. le rilevazioni di forze lavoro dove un totale è intervistato ma

non sono le stesse persone.

Country = IT Country = Sweden

Hhwork_d Female Total Hhwork_d Female Total

0 1 0 1

1 173 82 255 1 317 136 453

77.58 36.28 56.79 48.18 22.11 35.59

2 31 33 64 2 233 226 459

35.41 36.75 36.06

13.90 14.60 14.25

3 13 45 58 3 72 145 217

5.83 19.91 12.92 10.94 23.58 17.05

4 4 34 38 4 24 68 92

1.79 15.04 8.46 3.65 11.06 7.23

5 1 20 21 5 10 26 36

0.45 8.85 4.68 1.52 4.23 2.83

6 1 12 13 6 2 14 16

0.45 5.31 2.90 0.30 2.28 1.26

Total 223 226 449 Total 658 615 1.273

100 100 100 100 100 100

2 2

Pearson X (5) = 100.3590 Pr = 0.000 Pearson X (5) = 132.8381 Pr = 0.000

2 2

Likelihood-ratio X (5) = 111.0739 Pr = 0.000 Likelihood-ratio X (5) = 111.0739 Pr = 0.000

Cramer’s V = 0.4728 Cramer’s V = 0.3230

Goodman’s Γ = 0.7047 ASE = 0.047 Goodman’s Γ = 0.4815 ASE = 0.036

Kendall’s τ-b = 0.4288 ASE = 0.035 Kendall’s τ -b = 0.2963 ASE = 0.024

Guardiamo un po’ di cioè un che contiene i comandi del programma. Guardiamo le ore

output, log file

mediamente lavorate per settimana (out che è una variabile metrica che è classificata da 0 a 100

of work)

ore di lavoro. 1° categoria fino a 1 ora, 2° categoria fino a 2 ore, 6° categoria fino a 6/ore al giorno, etc.

E qui vediamo la distribuzione fra 2 categorie, quindi classico (tabella a doppia entrata) dove ci

cross tab

sono ore di lavoro e genere, se la variabile si chiama la categoria rappresenta le donne e vediamo

female,

che in media le donne lavorano più in casa e il 78% di uomini sta nella prima categoria e queste sono

Lezioni di Statistica A.A. 2007/08 57

2

percentuali di colonna. Possiamo calcolare X e quindi la probabilità che troviamo questo valore in una

2

popolazione dove l’indipendente è minore, quindi non c’è correlazione. Il 1° valore della riga è X , il 2°

valore è la probabilità.

Tab country Meanhhwork, over (female)

Mean estimation Number of object = 1722

0: female = 0

1: female = 1

Country Freq Perc Cum Over mean St err 95% CI

hhwork

IT 449 26.07 26.07

Sweden 1.273 73.93 100 0 8.12 0.23 7.67 8.58

Total 1.722 100 1 14.75 0.32 14.11 15.38

Adesso vediamo la differenza di genere tra Svezia e Italia. E invece di fare la tabella calcoliamo la

media, poi si fa il confronto tra medie dei 2 paesi e si vede che le ore delle donne sono di più degli

uomini, posso fare il t test che mi riporta la media e mi dà un test significatività che è a 2 code ed ha H 0

che sono diverse, invece se si suppone che le ore delle donne sono di più degli uomini il test e a 1 coda.

Two-sample t test with equal variances

Group Obs Mean St error Std dev 95% CI

0 881 8,12 0.23 6.91 7.67 8.58

1 841 14.75 0.32 9.42 14.11 15.38

Combined 1722 11.36 0.21 8.87 10.94 11.78

Diff -6.62 0.39 -7.40 -5.84

Diff = mean (0) – mean (1) t = -16.68

H : diff = 0 ν = 1720

0

H : diff <0 H : diff ! = 0 H : diff > 0

a a a

Pr (T < t) = 0.0000 Pr (|T| > |t|) = 0.0000 Pr (T > t) = 1.0000

Mean hhwork, over (female), if country = 16 Mean hhwork, over (female), if country = 22

Mean estimation Number of object = 449 Mean estimation Number of object =1273

0: female = 0 0: female = 0

1: female = 1 1: female = 1

Over mean St err 95% CI Over mean St err 95% CI

hhwork hhwork

1 4.39 0.43 3.53 5.24 1 9.39 0.25 8.88 9.89

0 15.12 0.79 13.56 16.68 0 14.61 0.33 13.95 15.27

Guardiamo il che è 16 in Italia e il risultato per paese che è 22 per la Svezia. E vediamo una

country

differenza notevole. Posso fare il t test per ogni paese oppure per le donne del paese. Gli uomini

svedesi hanno meno lavoro da fare in casa e quelli italiani per nulla. Adesso ci interessa di modellare la

correlazione con quello della regressione standard e dobbiamo fare l’analisi dei residui ma la tralasciamo

per ora. Abbiamo la dipendente “ore lavorate” per la variabile dummy “female” e inserisco la variabile

Lezioni di Statistica A.A. 2007/08 58

dummy e il modello mi riproduce le medie di prima. 1° passo: inseriamo la variabile nel modello,

female

2° passo: inseriamo la variabile dummy e abbiamo 2 coefficienti che sono additivi presso

Italy

l’intercetta. Sulla base dei risultati vediamo che la donna lavora di più e in media in Italia c’è un effetto

d’interazione cioè la differenza di genere sono diverse per diversi paesi.

Regr hhwork female Number of obs = 1722

F (1, 1720) = 278.37

Source SS df MS Prob > F = 0.0000

Model 18874.0043 1 18874.0043 2

R = 0.1393

Residual 116620.116 1720 67.8023928 2 = 0.1388

Adj R

Total 135494.12 1721 78.7298779 Root MSE = 8.2342

hhwork Coef. Std. err. t P > |t| [95% conf. interval]

female 6.62312 0.3969658 16.68 0.000 5.844534 7.401707

_cons 1.194456 1.143375 1.04 0.296 -1.04779 3.436703

Regr hhwork female italy Number of obs = 1722

F (2, 1719) = 117.61

Source SS df MS Prob > F = 0.0000

Model 23086.1482 3 7695.38273 2

R = 0.1704

Residual 112407.972 65.4295528 2 = 0.1689

Adj R

Total 135494.12 1721 78.7298779 Root MSE = 8.0889

hhwork Coef. Std. err. t P > |t| [95% conf. interval]

female 6.658361 0.3942525 16.89 0.000 5.885095 7.431626

italy -2.25809 0.4488726 -5.03 0.000 -3.138484 -1.377696

_cons 8.698926 0.2979893 29.19 0.000 8.114467 9.283386

Regr hhwork female Italy itfem Number of obs = 1722

F (3, 1718) = 117.61

Source SS df MS Prob > F = 0.0000

Model 23086.1482 3 7695.38273 2

R = 0.1704

Residual 112407.972 1718 65.4295528 2

Adj R = 0.1689

Total 135494.12 1721 78.7298779 Root MSE = 8.0889

hhwork Coef. Std. err. t P > |t| [95% conf. interval]

female 5.220014 0.4536811 11.51 0.000 4.330189 6.10984

italy -5.003336 0.6267719 -7.98 0.000 -6.232653 -3.77402

itfem 5.51186 0.8881125 6.21 0.000 3.769964 7.253756

_cons 9.393807 0.3153363 29.79 0.000 8.775323 10.01229

Quindi per produrre il modello abbiamo bisogno di inserire una terza variabile che ci modella l’effetto

interazione tra essere donna e vivere in Italia. Facciamo l’interazione fra queste 2 variabili

moltiplicandole e inseriamo la 3ª variabile nel modello e abbiamo l’informazione completa che abbiamo

trovato sulla base della media di prima, cioè questa variabile che contiene riprende le 4 medie

italy female

che abbiamo trovato prima nel confronto con le medie. La costante si riferisce a uomini svedesi = 9,39,

mentre l’effetto donne svedesi è 5,2 più quello degli uomini = 9,39 + 5,22 ci risulta la donna svedese (la

categoria di riferimento è donna svedese, costante è l’intercetta). Invece donna in Italia comincia con la

costante e si aggiunge il effetto interazione. Facciamo l’uomo in Italia è 9 - 5. La donna in Italia 9

female

+ 5. Se lavoriamo con regressioni con 2 dummy, ci riproduce la media. Se per qualche ragione

supponiamo che la donna lavora di più è perchè la donna lavora solo a casa (cd variabile di controllo) e

sarebbe un effetto di composizione: chi non lavora nel mercato del lavoro, lavora più a casa. Per testare

questa ipotesi inseriamo questa variabile dummy (se la persona lavora o non lavora) cioè uomini e

Lezioni di Statistica A.A. 2007/08 59

donne e dovrebbe sparire la differenza di genere e questa logica ha senso se in Svezia la partecipazione

femminile è maggiore. Un altro modo per vedere se la differenza di genere sparisce può essere spiegata

con l’ipotesi se la donna lavora meno nel mercato del lavoro, per testare questa ipotesi inserisco la

variabile “lavora/non lavora” che è molto vaga, ma ci và bene e dovrebbe sparire l’effetto che

female

però aumenta quindi al netto del fatto che lavorano la donna farà ancora di più, quindi l’ipotesi di

partecipazione al mercato del lavoro non funziona.

Lezioni di Statistica A.A. 2007/08 60

Regressione logistica (28/05/2008) 2 2

Quando abbiamo parlato dell’ANOVA, abbiamo fatto cenno che il confronto tra η e R può darmi

indicazioni che la mia correlazione sia non lineare se trovo (devo categorizzare la mia variabile

2 2 2

indipendente per calcolare η e se non è metrica anche l’indipendente) un η maggiore di R e mi dice

che non si tratta di correlazione. Un modo più elegante per modellare questa correlazione non lineare è

la trasformazione della variabile che posso fare sia sulla dipendente che sull’indipendente. In sociologia

di solito si lavora sulla variabile indipendente (per es. si include nel modello non solo l’effetto età ma

anche l’età al quadrato) (per es. sappiamo che abbiamo una correlazione positiva tra reddito ed età e

sappiamo anche che non è una correlazione lineare cioè non cresce con lo stesso valore all’infinito, e

abbiamo una parte relativamente lineare cioè di chi entra nel mercato del lavoro un totale di anni dopo

2 ci permette di modellare questo). Se per

e non cresce più con la stessa velocità e inseriamo l’età e l’età

es. vogliamo calcolare l’economic il test è di inserire la disoccupazione giovanile (che è più

business cycle

sensibile ai cambiamenti economici mentre quella adulta è più stabile), quindi inseriamo una variabile

macro dalla quale non necessariamente ci aspettiamo un effetto lineare quindi si inserisce nel modello

sia il livello disoccupazione giovanile sia il quadrato (e per farlo ho bisogno di osservarlo nel tempo e

non possiamo farlo in un disegno di ricerca perché è una costante e non posso stimarla).

cross sectional

L’effetto finale della variabile è la somma di entrambi gli effetti. Questi sono esempi di come potrebbe

essere un effetto modellato semplice inserendo questi parametri nella nostra vecchia regressione per es.

2

abbiamo una costante = 10 e un effetto età = 0,45 e l’effetto età = -0,1 (il segno negativo indica che

scende). Prendiamo il modello lineare e inseriamo non solo la variabile età ma anche il suo valore al

quadrato e creiamo una variabile aggiuntiva nel modello di regressione. In questo modo siamo in grado

di modellare la correlazione non lineari. La cosa da sapere è che possiamo calcolare dov’è il massimo

della curva (per es. a che età il reddito comincia scendere) ma di solito ci si limita all’interpretazione del

segno. Niente ci impedisce di inserire valori al cubo ma rimane sempre la stessa logica.

Es. Mobilità occupazionale verticale, parametri per la stima dei tassi di transizione nel modello di

durata; intera carriera lavorativa in Italia, 1980-2005

Modello 1 Modello 2

Ascendente Discendente Ascendente Discendente

Periodo

Fino a 24 mesi –5,76 –6,42 –6,01 –7,14

24-48 mesi –6,42 –6,47 –6,03 –7,16

48 mesi e oltre –6,34 –6,84 –6,43 –7,53

(centro nord rif.)

Area territoriale

Sud (uomini rif.) –0,63 –0,58 –0,59 –0,54

Sesso

Donne (scuola dell’obbligo rif.) –0,29 –0,03 –0,28 –0,03

Istruzione

Scuola professionale

Diploma di maturità +0,06 –0,26 +0,06 –0,23

Diploma universitario +0,22 +0,18 +0,33 +0,21

Laurea +0,29 +0,06 +0,43 –0,10

(contratto –0,07 –0,13 +0,11 –0,21

Occupazione precedente

tempo indet. rif.)

Lavoro in proprio –0,73 +1,48

Contratto a tempo determinato +0,59 +0,88

Contratto di formazione a t. d. +0,74 +1,04

Nessun contratto +1,02 +1,11

Lezioni di Statistica A.A. 2007/08 61

Abbiamo una lunga serie di covarianti (per es. l’individuo vive al sud, la donna ha un livello

d’istruzione, etc.) ed è inserita la variabile misura aggregata che prende valori di tutti gli individui

nell’anno totale. La 1ª colonna è e la 2ª è stimiamo l’effetto positivo più piccolo

up mobility down mobility,

per e l’effetto positivo più forte per su cui trovo il valore al quadrato negativo.

up mobility down mobility

Questi numeri descrivono la stessa curva? Sono 2 modelli diversi. Vediamo la c’è il rischio

down mobility,

che qualcuno tra un anno si ritrovi con prestigio minore, prima di tutto trovo l’effetto positivo quindi

maggiore è il livello di disoccupazione, maggiore è il rischio di avere down che è un effetto

mobility

curvilineare perché vedo che nella mia variabile trovo l’effetto negativo. Perché non facciamo

2

rate

l’interpretazione sostanziale sui numeri di casi (per es. percentuale)? Per 2 ragioni: quando inseriamo

queste variabili macro non necessariamente li mettiamo dentro come percentuali ma le standardizziamo

cioè media di 0 e deviazione standard = 1 che ci facilità il confronto con altri paesi (per es. in Italia la

disoccupazione giovanile è maggiore che in Germania). Questo effetto modella una disoccupazione

giovanile misurata come tasso annuale e rischio di avere una mobilità verso il basso modellata con

questa 2 variabili. A un certo punto la mobilità scende e non possiamo dire che minore è il tasso di

disoccupazione, maggiore è il rischio. La trasformazione sulle variabili può essere di vari tipi e la cosa

più diffusa è il quadrato; il modello è sempre quello lineare ma le unità di misura cambiano. Ci sono 2

ragioni per cui non si fa solo la trasformazione di X ma anche quella di Y (per es. reddito) perché ci

porta a interpretazione più facile e poi perchè si avvicina la distribuzione del reddito a una distribuzione

di tipo normale. Se la domanda è la nostra variabile dipendente segue una distribuzione normale posso

fare un plot cioè plottare i quartili empirici contro quelli di un variabile normale, se segue la

distribuzione normale ho i casi sulla diagonale, in caso contrario c’è deviazione. Il 1° caso non è

normale, nel 2° caso quasi ci siamo. La differenza è che nel 1° caso lavoro con la variabile originale

reddito e nel 2° caso con il logaritmo del reddito e vedo che la distribuzione della dipendente segue

molto più la distribuzione normale e inoltre cambia l’interpretazione che non è “un anno d’istruzione in

più mi porta a 100 ore di reddito in più” bensì un cambiamento di percentuale per es. “un anno

d’istruzione in più mi porta a 2% di redito in più” che però è relativa e non lineare e nella letteratura

economica è frequente per chi studia la povertà. Nel caso del lavoro atipico si è scoperto che chi fa un

lavoro non standard guadagna in media anche di meno.

Es: Regressione lineare con variabile indipendente anni d'istruzione e variabile dipendente origine

Coef Stdev t P > |t| 95% conf int

Male 0.037 0.007 5.28 0.00 2.5 8.6

Edu 0.153 0.042 3.66 0.00 6.4 8.4

Income 0.031 0.011 -2.71 0.07 3.6 9.6

Root 0.139 0.101 1.35 0.17 4.8 9.3

Primo passo: troviamo un effetto positivo che ci dice che ogni anno d'istruzione ci porta un reddito

di 70 € in più. Poi facciamo una trasformazione logaritmica sulla variabile dipendente, quindi origine

diventa logaritmo di origine, l'effetto della mia coovariata cambia. La cosa interessante è che facendo la

2

trasformazione aumenta R perchè abbiamo portato dentro i valori nella distribuzione normale quindi

siamo in grado di far filtrare meglio la nostra retta di regressione. L'interpretazione sarebbe che non c'è

correlazione ma la cosa importante è notare il cambiamento dell'aumento in percentuali dell'istruzione

che porta all'aumento del reddito. Terzo passo: facciamo la trasformazione logaritmica su entrambi le

2

variabili, prendiamo il logaritmo education, aumenta R e l'interpretazione indica che l'aumento di un

tot percentuale di anni d'istruzione mi porta a un tot di percentuale di reddito che è una correlazione

lineare. Quindi fin qui gli esempi indicavano variabili indipendenti metriche. Nel terzo esempio

abbiamo variabili indipendenti che non sono metriche, bensì categoriali.

Lezioni di Statistica A.A. 2007/08 62

Es. Detect of weapon

Gun Coef Stdev t P > |t| 95% conf int

Male 0.163 0.031 5.20 0.00

Edu 0.015 0.005 -2.93 0.00

Income 0.037 0.007 5.28 0.00

South 0.153 0.042 3.66 0.00

Lib 0.031 0.011 -2.71 0.07

Cons 0.139 0.101 1.35 0.17

P (Y = 1) = 0.139 + 0.16 (1) – 0.015 (12) + 0.038 (6) + 0.015 (1) – 0.03 (0)

Questo e' l'esempio di una probabilità di avere una pistola che è molto diffuso negli USA. Possiamo

pensare che questa è una variabile con due categorie (ha e non ha), potremmo fare una regressione

lineare dicendo che quello che modelliamo è la probabilità (stocastic model) quindi facciamo una

predizione su una data persona di avere una pistola: calcoliamo una regressione normale, inseriamo

delle variabili (per es. avere un reddito di un certo tipo, vivere al sud del paese, preferenza politica, etc.),

possiamo calcolare il valore predetto da questa equazione di regressione inserendo i valori di X

nell'equazione in modo da dire che questo effetto nuovo non è più il reddito predetto bensì la

probabilità. Se vogliamo sapere la probabilità di un uomo che vive al sud di avere un certo tipo di

reddito, inserisco l'intercetta più il 1,16 moltiplicato per 1 che è la variabile dummy, meno il

male

parametro per istruzione più il parametro per il reddito, più il parametro per vivere al sud, meno il

parametro per la preferenza politica per i conservatory, moltiplicato per 0 che è l’altra variabile dummy,

che ci danno il valore predetto del modello. Lo stesso gioco possiamo fare inserendo altri valori nel

nostro modello fino a raggiungere una probabilità di -0 e 23, che non ha senso in quanto la probabilità

varia da 0 e -1. Questo problema si risolve con la regressione logistica. I problemi con questo modello

in una sono due: sono violate le attribuzioni della retta di regressione. Inoltre questo approccio ci

outlet

predice in probabilità predette in valori più alti di 1 o negativi. La soluzione è la regressione logistica in

cui invece di usare la probabilità, si lavora sull'odds che è all'interno delle categorie il rapporto di

probabilità (averlo o non averlo), di questo prendo i logaritmo naturale che si chiamo logit. Ci sono due

test che facciamo: l'odds che è una trasformazione conica che marca l'intervallo che va da 0 a 1 e 1 a

infinito. La probabilità è l'odds diviso 1 + odds. Se abbiamo un probabilità del 50% il nostro odds è 1.

La seconda trasformazione con il logaritmo naturale ci serve per arrivare un intervallo che vada meno

infinito a più infinito con una probabilità del 5% abbiamo un logit di zero e con questa trasformazione

possiamo modellare il logit da inserire in un modello lineare. Quindi nella donna la probabilità di 0,3%

di avere una pistola, l'odds è 0,3/0,7. Poi si prende i logaritmo naturale che con un probabilità del 50%

ci risulta un logit 0 e vediamo che rimane un modello lineare, stimiamo il logit invece della probabilità.

Il modello è lineare rispetto al logit ma sulla scala di probabilità non è più lineare.

Es. Tab hehelps

hehelps Freq Percent cumulated

0 720 81.73 81.73

1 161 18.27 100

Total 881 100

Gen ed high = 0

Replace ed high = 1 if educy ≥ 3

(540 real changes made)

Ieri abbiamo lavorato sulla variabile indipendente cioè le ore lavorate in casa. Adesso siamo interessati

in una prospettiva categoriale se l'uomo lavora in casa o meno. Dicotomizziamo la nostra variabile:

Lezioni di Statistica A.A. 2007/08 63

l’uomo lavora 1 e l’uomo non lavora 0. Ieri abbiamo visto l'Italia e la Svezia per i quali una tabella a

doppia entrata mostra che in Italia gli uomini lavorano 2 ore al giorno in casa mentre in Svezia è il

doppio. Facendo il confronto tra percentuali in colonna abbiamo un prima correlazione. Facendo

l'odds ratio risulta in un valore di 0,4. L'interpretazione è che il rischio dell'uomo di lavorare in casa più

di 2 ore al giorno è di 0,4 più alto rispetto alla Svezia oppure alternativamente 2,3 più basso.

Proviamo a fare adesso una regressione logistica in cui l'output è una stima per la differenza che è

l'odds ratio. Invece dell'odds ratio possiamo usare un modello che ha (a) una costante e un coefficiente

(b) che ci dà la differenza nel logit tra i due gruppi ed otteniamo un coefficiente di -1,8 che dice che c'è

una correlazione negativa e cioè che l'uomo lavora meno in Italia che in Svezia. Abbiamo già visto che

la trasformazione del logit ci marcava la probabilità di una scala di – ∞ e + ∞, il problema è che

facciamo a fatica a capire cos'è una differenza di -1,8 sul logit e perciò ci conviene fare la

trasformazione sull'odds ratio. Se nel nostro coefficiente prendiamo l'antilog arriviamo all'odds ratio.

Invece se prendiamo il log di odds ratio arriviamo al coefficiente sulla nostra scala nuova. È chiaro che

nel caso bivariato il modello non fa altro che riprodurre la tabella 2x2. Espresso come odds ratio che

faccia meno fatica a interpretare una volta espresso come effetto lineare sulla trasformazione logica sul

rapporto di probabilità. Possiamo comunque dire che l'effetto è negativo o positivo. Un altro problema

dell'odds ratio non lineare è che se abbiamo una probabilità di lavorare due volte inferiore dipende dal

punto di partenza, se abbiamo un valore di base di 2 arriviamo al 4, se il valore di base è 6 arriviamo al

12. Quindi è chiaro che rientriamo nella logica non lineare, era giungere all'interpretazione più chiara si

calcola la probabilità attesa per diversi gruppi seguendo la logica di prima per poi poter fare il confronto

tra la probabilità tra i due gruppi tenendo costante le covariate. L'obiettivo è di inserire le nostre

variabili indipendenti nel modello e giungere a una stima di una predetta equazione.

Si vede che gli svedesi hanno una probabilità di 20, gli italiani 30, la differenza è di 10 punti

percentuali. L’interpretazione è che la differenza tra i due paesi si spiega col fatto che essendo l’uomo

italiano in media meno istruito, aiuta di più in casa, effetto di composizione, controllando per il livello

d’istruzione quindi inserendo la variabile titolo di studio, la differenza fra i paesi dovrebbe sparire

perché abbiamo lo spiegato col fatto che il livello d’istruzione è più basso.

Logistic regression hehelps Italy work

Log likelihood = -407.63662 Number of obs = 881

2

LR X (2) = 22.62

2

Prob > X = 0.0000

2

PseudoR = 0.0270

hehelps Odds ratio Std. err. z P > |t| [95% conf. interval]

italy 0.405515 0.098507 -3.72 0.000 0.2519037 0.6527987

work 0.5010231 0.1139344 -3.04 0.002 0.3208423 0.7823912

Logit hehelps Italy work Number of obs = 881

2

LR X (2) = 22.62

Interation 0: log likelihood = -418.94479 2

Prob > X = 0.0000

Interation 1: log likelihood = -408.01474 2

PseudoR = 0.0270

Interation 2: log likelihood = -407.63774

Interation 3: log likelihood = -407.63662

hehelps Coef. Std. err. z P > |t| [95% conf. interval]

italy -0.9025974 0.2429182 -3.72 0.000 -1.378708 -0.4264865

work -0.6911031 0.2274035 -3.04 0.000 -1.136806 -0.2454004

_cons -0.73766084 0.2122041 -3.48 0.000 -1.153521 -0.321696

Lezioni di Statistica A.A. 2007/08 64

Logit hehelps italy work age edhigh Number of obs = 881

2 (2) = 36.20

LR X

Interation 0: log likelihood = -418.94479 2

Prob > X = 0.0000

Interation 1: log likelihood = -401.52829 2 = 0.0432

PseudoR

Interation 2: log likelihood = -400.84891

Interation 3: log likelihood = -400.84615

hehelps Coef. Std. err. z P > |t| [95% conf. interval]

italy -0.9296766 0.2486704 -3.74 0.000 -1.417062 -0.4422916

work -0.7734483 0.23117897 -3.34 0.000 -1.417062 -0.3191489

age 0.0275677 0.23117897 3.59 0.000 0.0125153 0.0426201

edhigh -0.1472626 0.2004563 -0.73 0.463 -0.5401497 0.2456246

_cons -1.760911 0.3786714 -4.65 0.000 -2.503094 -1.018729

Regressione logistica multivariata con due variabili indipendenti Italy con categoria di riferimento

Sweden e con variabile dummy lui lavora o non lavora. Sopra odds ratio e sotto coefficienti. Tutti i

valori di odds ratio più bassi di 1 si traducono i coefficienti negativi. Non si fa interpretazione sulla

costante bensì sul logit quando tutte le covariate sono a 0 che potremmo essere in grado di trasformarlo

con l’antilogaritmo e giungere all’Y in quanto ciò che ci interessa sono le differenze fra i gruppi.

Vediamo che diminuisce la probabilità di fare lavori di casa mentre non cambia la differenza fra i due

paesi, perché il gioco per controllare se lavora o non lavora aveva senso con la donna. La logica del

modello rimane la stessa, abbiamo una possibilità di farci calcolare dal programma il probabilità

predicted

per confrontare al netto la probabilità tra due gruppi sia tra paesi che tra generi. Ultima cosa è che non

2 2

bensì il potere predittivo (pseudoR ) che mi mostra i veri positivi più i veri

possiamo calcolare R

negativi moltiplicato per 100 e che mi dà una percentuale del 60% di predizioni giuste e 40% sbagliate.

Lezioni di Statistica A.A. 2007/08 65

This is what you need to know for the exam “Statistica Sociale” AA 2007/08

BRING A CALCULATOR!

1. Types of variables, calculating basic univariata (median, mean, stdev,…) and bivariate

2

statistical (for example: X , λ and to explain he different logic behind).

Interpret correlation: especially in cross tabulation (d%, odds ratio, etc.)

a. 2

b. Have a basic understanding about Anova, calculate and interpret η

2

OLS regression, R , calculate the parameters in the bivariate case,

2.

3. Interpret parameters (incl. categorical variables, interaction effect, standardised effect, non

linear correlation)

4. Have a basic understanding about logistic regression

Multivariate analysis: reason and logic

5.

6. And interpretation in the statistical model, regression assumption, and possible problems

Calculate a confidence interval, conduct a statistical test for difference to the population and

7. between groups, interpret result correctly

8. Have a basic idea about different types of data and what they server for (especially

th

longitudinal data in 11 lesson 22/04/08). You won’t find this in any the textbooks and who

did not attend the lesson have an alternative question in case.

Gorge W. Bohrnstedt, David Knoke – Statistica per le scienze sociali – Il Mulino, Bologna, 1998

Capp. [1]; [2]; [3 (except 3.2.4, 3.3.6)]; [4]; [5]; [6 (except 6.3.5, 6.4, 6.6)]; [7]; [8 (except 8.2.5, 8.2.6, 8.3.1,

8.4-8.7)]; [9 (except 9.5, 9.6)];

Piergiorgio Corbetta, Giancarlo Gasperoni, Maurizio Pisati – Statistica per la ricerca sociale – Il Mulino,

Bologna, 2001

Capp. [1.6]; [1.7]; [2]; [3.3]; [4]; [5]; [6]; [7]; [8]; [9]; [10];

Piergiorgio Corbetta – La ricerca sociale: metodologia e tecniche – Il Mulino, Bologna, 2003

The book of “Corbetta, La ricerca sociale” is not strictly necessary, but may be very helpful for the

basic understanding. You may want to give a look at pag. 617 thought.

The exam consist in 7-8 exercises about: tables with relative frequencies and interpretation, means and

standard deviations, confidence intervals, 1 bivariate analysis with ipothesys and statistical test, 1

multivariate analysis with control of variables, 1 linear regression with covariance test and paint of a

diagram.

Good luck!

Lezioni di Statistica A.A. 2007/08 66

Formulario di Statistica Sociale

Formule per le distribuzioni di frequenza

Problema Formula

Campione Σf

n = a

Proporzioni f

= i

f p n

Percentuali f

= ⋅

i

f 100

% n

Frequenze cumulate Σf

f =

c i

Frequenze cumulate Σf

f =

c %

%

percentuali

Moda f »i +

Mediana n 1 ( f )

c

2 ∑

Media aritmetica x

µ = i

n

Σ

Media ponderata (per dati y f

µ = i i

aggregati) n

Media di variabili dicotomiche f

µ = 1

n

∏ ∏

Media geometrica µ = = f f

x x

i

n i

i i

Media armonica f

n

µ = = i

1 1

∑ ∑ f i

x x

i i

∑ ∑

Media quadratica 2 2

x x f

µ = =

i i i

n f i

Σ + Σ + Σ

Media generale k

' ' '

x x ... x

µ = i i i

N

Lezioni di Statistica A.A. 2007/08 67

∑ µ

Varianza 2

( x )

σ = i

2 N

Varianza per variabili pq

σ =

dicotomiche p n

Deviazione standard − 2

( x x )

σ = i

n

Deviazione standard per dati − 2

x x f

( )

σ = i i

aggregati (ponderata) ∑ f i

Deviazione standard per (P ) (P )

0 1

variabili dicotomiche −

Indice di asimmetria 3

( x Me )

=

S σ

k  

Percentili −

p N f

 

= i c

P L W

 

i p i

f

 

p

+

Quartili = x x +

Q n / 4 n / 4 1

1 2

Teorema di Chebichev 1

µ σ µ σ

− ≤ ≤ − ≥ −

P k x k

( ) 1 2

k

µ σ

− − 2 2

Distribuzione normale y

( ) / 2 y

e

=

p x

( ) πσ 2

2 y

σ

Errore standard σ =

y n µ

Σ −

Dispersione massima x

= i

S

deviazione assoluta media

( ) µ n

» «

range

Campo di variazione ( ) R = x –x

i i

2

Frequenze attese (per test X ) f f

=

ˆ i . . j

f ij n

= Σ ⋅

Frequenze attese (per f x p ( x )

e i i

distribuzioni di probabilità)

Lezioni di Statistica A.A. 2007/08 68

Formulario per gli intervalli di confidenza

Problema Stimatore Formula

σ

− ⋅

Media con varianza ignota )

P( x P ( x z )

α / 2 y

σ

Media con varianza nota x ± ⋅

x z

α / 2 n

σ

Media con varianza nota per la x ± ⋅

x t

α

distribuzione t / 2 n

Formulario per i test d’ipotesi

Test Ipotesi nulla Stimatore Statistica test Decisione

Rifiuto H 0

Anova H : µ = µ F F > F

MS α

=

0 1 j b

F − −

j 1

, n 1 MS w

ˆ ˆ X > X

Chi quadro H : µ = µ 2

f ( )

f f α

0 0 R C

= Σ Σ

ij ij

2

X ˆ

= = f

1 1

i j ij

F H : µ = µ X2 F > F

2

( / )

X v α

0 1 j = 1 1

v

F 2

( / )

X v

2 2

v −

Test sul H : p = p Z > Z

f f

– f f α

=

0 1 2 1 2 1 2

z

confronto fra  

1 1

− ⋅ +

 

f (

1 f )  

proporzioni c c n n

 

1 2

µ

Test t H : µ = µ t > t

x x α

0 0 = y

t σ

n

 −

 x

Test t sulla t > t

H : =

x x y α

0 =

t

differenza tra 1 1

+

medie S c n n

1 2

µ

Test z H : µ = µ Z > Z

x x α

=

0 0 Z σ

z n −

f Z > Z

Test z per H : p = p f p α

i =

0 0 i 0

Z

variabili −

z p (

1 p )

0 0

dicotomiche n

SS

2yx

R

Test F per la F > F

H : = 0 SM α

=

0 r

F −

regressione 1

, n 2 SM ε

Lezioni di Statistica A.A. 2007/08 69

Formulario per le distribuzioni bivariate

Problema Formula

Coefficiente di correlazione = 2

r R

yx yx

di Pearson

Coefficiente di 2

s

= yx

2

R

determinazione yx 2 2

s s

x y

∑ − −

Coefficiente di regressione ( x x )( y y ) cod ( xy ) cov( xy )

= = =

i e

b

con covarianza ignota ∑ −

yx 2 dev ( x ) var( x )

( x x )

i

Coefficiente di regressione s

= yx

b

con covarianza nota yx 2

s x

 

Coefficiente di regressione s

 

β = x

b

standardizzato  

yx yx s

 

y

Σ − −

Covarianza ( y y )( x x )

= i i

S −

yx n 1

2 ν

Gradi di libertà X = (R -1) (C -1)

Indice di Gini k

= − Σ 2

I 1 f i

=

i 1

Intercetta - b

a = x

yx −

Misura di associazione d n n

=

xy c d

d + +

di Somers xy n n T

c d r

Misura di associazione Q di bc ad

=

Q +

Yule bc ad

Γ

Misura di associazione di n n

Γ = c d

+

Goodman n n

c d

Lezioni di Statistica A.A. 2007/08 70

2

η

Misura di associazione SS

η =

2 b

SS

ε ε

λ

Misura di associazione λ = 1 2

ε 1

http://en.wikipedia.org/wiki/Goodman_and_Kruskal's_lambda

τ

Misura di associazione di m n n

2 ( )

τ = c d

Kendall 2

n m

( 1

) −

Φ

Misura di associazione bc ad

Φ = + + + +

( )( )( )( )

a b c d a c b d

MS SS

=

b b

MS −

b j 1

MS SS

=

w w

MS −

w n 1

Odds Ratio bc

ω = ad

Ŷ= a+b X

Regressione lineare yx i

SM per la regressione SM = SS

r r

SS (devianza) SS = SS + SS

b w

SS errore per la regressione SS = SS – SS

ε r

2xy ·

SS per la regressione SS = R (n -1)

r

SS j

b = Σ − 2

SS n ( x x )

b j j

=

j 1

SS j nj

w = Σ Σ − 2

SS ( x x )

w ij j

= =

1 1

j i

Lezioni di Statistica A.A. 2007/08 71

Formulario per le distribuzioni multivariate

Problema Stimatore Formula

Coefficiente di correlazione r r r

yx x z y z 2

r

parziale xyz − −

2 2

1 r 1 r

x z y z

 

Coefficiente di regressione r r r

S

 

= yx yx x x

y

b 1 2 1 2

multipla b   −

1 1 2

S 1 r

  x x

x 1 2

1 −

 

Coefficiente di regressione r r r

S

 

= yx yx x x

y

b 2 1 1 1

multipla b   −

2 2 2

S 1 r

  x x

x 1 2

2

Equazione di regressione Y = a + b X + b X

i 1 1i 2 2i

multipla β β

Equazione predittiva Z = Z + Z

y 1 1 2 2

standardizzata

Errore standard del 2

S

σ ( )

= ε

coefficiente di regressione − −

ˆ 2 2

b S ( N 1

) 1 R

stimato 1 xj x x −

j k 1

( )

= − +

Intercetta a y b x b x

1 1 2 2

   

Pesi Beta S S

   

β β

= =

x x

b b

1 2

   

1 1 2 2

S S

   

y y

( )

− −

Test F 2

R N K 1

yx ( )

F k

− − −

, 1

K N K 2

K 1 R yx k

2 2

Test F per equazioni − −

R R N K 1

2 1 2

F

concatenate − − − − −

( ), ( 1

)

k k N k 2

K K R

1

2 1 2 2 1 2

Test t b

= 1

t − −

1

N K S b

1

Varianza dell’errore standard MS

= ε

2

S ε − −

stimato N K 1

Lezioni di Statistica A.A. 2007/08 72

Eserciziario di Statistica Sociale

Testo di riferimento: George W. Bohrnstedt, David Knoke, Statistica per le scienze sociali, il Mulino,

1998

Capitolo 1. Il ruolo della statistica nel processo di ricerca ..................................................................... 73

Capitolo 2. La descrizione delle variabili............................................................................................... 75

Capitolo 3. L’inferenza statistica............................................................................................................ 79

Capitolo 4. L’analisi della varianza (ANOVA).................................................................................... 83

Capitolo 5. L’analisi dei dati categoriali ................................................................................................ 89

Capitolo 6. Regressione e correlazione bivariata ................................................................................... 99

Capitolo 7. Analisi multivariata .......................................................................................................... 106

Capitolo 8. Regressione multipla .......................................................................................................... 116

Lezioni di Statistica A.A. 2007/08 73

Capitolo 1. Il ruolo della statistica nel processo di ricerca

1. Dai una definizione formale del concetto di che potrebbe essere utilizzata in una

downsizing

teoria del cambiamento organizzativo.

Soluzione. Per es. il numero di dipendenti occupati a tempo pieno e part time che sono stati licenziati

negli ultimi 12 mesi.

2. Usa i concetti che seguono per formulare due proposizioni bivariate: tasso di divorzio,

partecipazione femminile alla forza lavoro, reddito familiare e numero di figli.

: maggiore è il tasso di partecipazione delle donne al mercato del lavoro maggiore è il

Soluzione. H 1

reddito familiare; H : maggiore è il numero di figli minore è il tasso di divorzio.

2

3. Individua la portata teorica della seguente affermazione: “La gente di campagna dei paesi latino

americani ha accesso ai mezzi di comunicazione di massa, ai mercati urbani e ai beni di

consumo in misura tale da avere ridotto le proprie differenze rispetto agli abitanti delle aree

urbane.

Soluzione. Questa teoria è limitata agli abitanti delle zone rurali dei paesi latino-americani nell’era

contemporanea e non può essere estesa al universo statistico.

4. Traduci la seguente proposizione in un’ipotesi operativa: “Gli individui sono meno propensi a

percepite se stessi come persone che si comportano in modo altruistico se le aspettative

normative relative all’aiuto degli altri sono elevate.

Soluzione. Gli intervistati saranno più propensi a dichiarare di avere versato offerte ai fini caritatevoli se

un loro amico o parente avrà precedentemente affermato che nel loro gruppo questa pratica

rappresenta un uso condiviso.

5. In ciascuna delle proposizioni che seguono identifica la variabile dipendente e quella

indipendente:

a) il reddito annuale delle donne di colore laureate è significativamente più elevato di

quello delle donne bianche

b) maggiore è il livello di concorrenza internazionale che un’industria deve affrontare,

maggiore è la sua probabilità di subire diminuzioni dei tassi di profitto

c) l’aumento dei senza tetto deriva principalmente dalla deistituzionalizzione dei malati

mentali

Soluzione. a) variabile indipendente (X) continua “etnia” e variabile dipendente (Y) discreta “reddito”;

b) variabile indipendente (X) discreta “commercio internazionale” e variabile dipendente (Y) continua

“profitto”; c) variabile indipendente (X) discreta “legge Basaglia” e variabile dipendente (Y) continua

“senza fissa dimora”.

Quali delle seguenti caratteristiche sono variabili e quali, invece, sono costanti?

6. a) votazione scolastica media

b) essere mancino

c) aggressività

d) colore degli occhi

e) dimensione del posto di lavoro

f) lago maggiore

Lezioni di Statistica A.A. 2007/08 74

Soluzione. a) = v; b) = c; c) = v; d) = v; e) = v; f) = c.

7. Megalopoli ha una popolazione di 150.000 abitanti, due terzi dei quali hanno l’età per votare. La

società di ricerca Opinioni Srl intende estrarre un campione di 500 cittadini in età di voto per

vedere quanti di essi hanno intenzione di partecipare alle prossime elezioni per il rinnovo del

consiglio comunale. Assumendo che la società possa disporre della lista completa si tutti i

cittadini di megalopoli aventi diritto di voto, qual è l’intervallo di campionamento sistematico

(k) necessario per ottenere il campione desiderato?

Soluzione. utilizzando un intervallo di campionamento sistematico pari a k = 200 si selezioneranno 750

cittadini, 500 dei quali dovrebbero avere l’età per votare.

8. Indica se ciascuna delle seguenti variabili è discreta non ordinabile, discreta ordinabile,

dicotomica o continua:

a) tasso di suicidio (media annuale di una nazione);

b) posizione occupazionale (lavoro autonomo o dipendente);

Giudizio sull’operato del sindaco (ottimo, buono, discreto, scarso);

c)

d) Salario orario (arrotondato alle mille lire);

Status universitario (studente o non studente);

e)

f) Sport praticato (calcio, pallavolo, pallacanestro, tennis, altro);

g) Giudizio sulla musica rap (scala a sette punti: da “mi piace molto” a “non mi piace per

niente”).

Soluzione. a = c; b = dic; c = do; d = c; e = dic; f = d, g = c.

9. Completa le seguenti frasi:

a) …è lo sforzo per ridurre l’incertezza esaminando la relazione fra alcuni aspetti del

mondo

b) …affronta questioni di immediata rilevanza per le politiche pubbliche

c) Una variabile è …se misura il concetto corrispondente

d) Più forte è la…, più stretto è il legame fra i concetti astratti e le variabili operative

e) Un modo per assicurarsi che i risultati di un’analisi campionaria siano…consiste nel

selezionare le unità di analisi…

f) …è il processo mediante i quale si assegnano valori numerici alle osservazione secondo

un certo insieme di regole.

Soluzione. La ricerca scientifica è lo sforzo per ridurre l’incertezza esaminando la relazione fra

a) alcuni aspetti del mondo.

b) La ricerca applicata affronta questioni di immediata rilevanza per le politiche pubbliche.

c) Una variabile è valida se misura il concetto corrispondente.

d) Più forte è la relazione epistemica, più stretto è il legame fra i concetti astratti e le

variabili operative.

e) Un modo per assicurarsi che i risultati di un’analisi campionaria siano rappresentativi

consiste nel selezionare le unità di analisi casualmente.

f) La misurazione è il processo mediante i quale si assegnano valori numerici alle

osservazione secondo un certo insieme di regole.

Lezioni di Statistica A.A. 2007/08 75

Capitolo 2. La descrizione delle variabili

1. Costruisci una distribuzione di frequenze a partire dal seguente insieme di valori:

0 2 0 2 3

1 3 4 5 4

3 0 2 5 3

0 2 1 3 4

Soluzione.

Modalità f f f f

a r % c

0 4 0,2 20 4

1 2 0,1 10 6

2 4 0,2 20 10

3 5 0,3 30 15

4 3 0,1 10 18

5 2 0,1 10 20

Tot 20 1 100 20

2. Costruisci una tavola di frequenze assolute, relative e percentuali utilizzando il seguente insieme

di nazionalità europee, dove F = Francia, G = Germani, S = Spagna, I = Italia, R = Russia e A

= Altri paesi: F S F S I G I R A R I F S A S F S G I R

Soluzione.

Modalità f f f f

a r % c

F 4 0,2 20 4

G 2 0,1 10 6

S 4 0,2 20 10

I 5 0,3 30 15

R 3 0,1 10 18

A 2 0,1 10 20

Tot 20 1 100 20

3. Costruisci una distribuzione di frequenze cumulate (semplici e percentuali) per i seguenti prezzi

di abiti da uomo (espressi i dollari), preventivamente aggregati nelle categorie “Fino a 99

dollari”, “100-199 dollari”, “200-299 dollari” e “300-399 dollari”:

$ 99,42 $ 199,51 $ 299,95 $ 399,24

$ 199,87 $ 199,50 $ 99,62 $ 399,12

$ 199,33 $ 99,72 $ 199,55

Soluzione.

Lezioni di Statistica A.A. 2007/08 76

Modalità $ f f f f f

a r % c%

c

< 99 1 0,09 9 1 9

100 – 199 4 0,36 36 5 45

200 – 299 3 0,27 27 8 72

300 – 399 3 0,27 27 11 99

Tot 11 1 100 11 100

4. Arrotonda i seguenti numeri all’unità di misura indicata:

Originale Unità di riferimento

a) 7,42 Unità

b) 6,87 Unità

c) 233,12 Centinaia

d) 350,01 Centinaia

e) 14.499,62 Migliaia

f) 6.743,58 Migliaia

Soluzione. a) = 7; b) = 7; c) = 2; d) = 4; e) = 14; 7) f

Costruisci un istogramma e un poligono per i seguenti dati relativi alla frequenza con cui un

5. campione di adulti si recano al cinema:

Mai = 0

Qualche volta = 15

Spesso = 20

Regolarmente = 5

Soluzione. 25

20 20

15 15 Preferenz

10 e

Preferenze 10

5 5

0

0 Mai Regolarm ente Mai Regolarm ente

Lezioni di Statistica A.A. 2007/08 77

6. In dieci partite di calcio una data squadra ha segnato le seguenti reti: 2, 0, 4, 1, 6, 3, 1, 2, 2, 0.

Calcola: a) la media; b) la mediana; c) la moda di questa distribuzione.

Soluzione.

Modalità f f f f f

a r % c%

c

0 2 0,2 20 2 20

1 2 0,2 20 4 40

2 3 0,3 30 7 70

3 1 0,1 10 8 80

4 1 0,1 10 9 90

5 0 0,0 0 0 0

6 1 0,1 10 10 100

Tot 11 1 100 11 100

∑ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅

x x N x N ( 0 2 ) (

1 2 ) ( 2 3 ) ( 3 1 ) ( 4 1 ) ( 6 1 ) 21

µ = = = = =

i i i s s 2 ,

1

n N 10 10

Mo = = 2

f

»i +

n 1 12

= = =

Me ( f ) ( 0

,

36

) 2

, 2

c

2 2

7. Calcola: a) il campo di variazione; b) la deviazione assoluta media; c) la varianza; d) la deviazione

standard per i seguenti dati: 2, 5, 8, 11, 14.

Soluzione. = − = − =

CV ( Range ) x x 14 2 12

i i

> <

µ

Σ − Σ −

Σ − + + + + − + − + − + − + −

x | x 8 |

| x [( 2 5 8 11 14

) / 5

] ( 2 8

) (

5 8

) (

8 8

) (

11 8

) (

14 8

)

= = = = =

i i

S µ n 5 5 5

+ + + +

6 3 0 3 6 18

= = = 3

, 6

5 5

∑ − + + + +

2

( x x ) 36 9 0 9 36 90

σ = = = =

i

2 22

,

5

N 1 4 4

σ σ

= = =

2 22

,

5 4

, 7

8. La popolazione (espressa in centinaia di migliaia di abitanti) delle otto maggiori città di uno

stato è pari a 5, 11, 3, 9, 6, 9, 6, 7. Per questa distribuzione, calcola: a) la media; b) la moda; c) la

mediana; d) la varianza; e) la deviazione standard; f) l’asimmetria.

Soluzione.

Lezioni di Statistica A.A. 2007/08 78

Modalità f f f f f

a r % c%

c

0 2 0,2 20 2 20

1 2 0,2 20 4 40

2 3 0,3 30 7 70

3 1 0,1 10 8 80

4 1 0,1 10 9 90

5 0 0,0 0 0 0

6 1 0,1 10 10 100

Tot 11 1 100 11 100

⋅ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅

(

3 1

) (

5 1

) ( 6 2 ) ( 7 1

) (

9 2 ) (

11 1

)

µ =

= 7

8

Mo = = 6 e 9

f

»i +

n 1 9

= = =

Me ( f ) ( 0

,

69

) 6

,

5

c

2 2

∑ − − + − + − + − + − + −

2 + + + + + +

2 2 2 2 2 2

( x x ) f (

3 7 ) (

5 7 ) ( 6 7 ) 2 ( 7 7 ) (

9 7 ) 2 (

11 7 ) 16 4 1 0 8 4 16 46

σ = = = = =

i i

2 6

,

57

− −

N 1 8 1 7 7

η − −

3

( ) 3

( 7 6 )

Me

= = = 0

,

59

S σ

k 2

,

56

9. Durante le ultime elezioni a sindaco tenutesi a Megalopoli il candidato del partito A ha ottenuto

il 55% dei voti validi, mentre il candidato del partito B ha ottenuto il 45%. Qual è la varianza di

questa distribuzione?

Soluzione.

Standardizziamo le percentuali utilizzando le rispettive frequenze relative

A 55% 0,55

B 45% 0,45

Poiché si tratta di percentuali possiamo utilizzare la formula della varianza per variabili dicotomiche

2

σ = p · p = 0,55 · 0,45 = 0,24

0 1

10. Su una scala a 100 punti di approvazione dell’operato del sindaco di Megalopoli, un campione

di 2000 elettori risulta avere una media pari a 0 e una deviazione standard pari a15. Quali sono i

valori Z degli elettori che hanno espresso punteggi di approvazione pari a: a) 90; b) 55; c) 85?

µ − −

− − 55 60 5 85 60 25

x 90 60 30 = = − = − = = − =

= = = =

i 0

,

33 1

, 67

Z Z

2

Z σ 15 15 15 15

15 15

Lezioni di Statistica A.A. 2007/08 79

Capitolo 3. L’inferenza statistica

1. Trova i valori attesi delle seguenti distribuzioni di probabilità:

a) Y P(Y ) b) Y P(Y )

i i i i

10 0,05 10 0,05

0,20 20 0,05

20

30 0,50 30 0,15

0,20 40 0,60

40

50 0,05 50 0,15

Soluzione.

Σx p(x ) = (10 · 0,05)+(20 · 0,20)+(30 · 0,50)+(40 · 0,20)+(50 · 0,05) =

f = i i

e

= 0,05 + 4 + 15 + 8 + 2,5 = 30

In una popolazione di voti scolastici (espressi in centesimi) di cui si sa che non è normalmente

2. distribuita, la media è 50 e la deviazione standard è 15. Quale proporzione di casi risulterà

compresa nell’intervallo da 20 a 80?

Soluzione. Il teorema di Chebishev afferma che la probabilità (p) che la variabile X assuma un valore

2

compreso tra µ - kσ² e µ + kσ² (con k = numero di scarti dalla media µ) è maggiore di 1 – 1/k .

1

µ σ µ σ

− ≤ ≤ + ≥ −

dato ( ) 1

p k x k 2

k 1

µ σ

− ≥ ⋅ ≤ −

che equivale a (| | ) 1

p x k

i 2

k 1

− ≤ ≤ + ≥ −

risulta (

50 15 50 15

) 1

p k x k 2

k

≤ ≤

avendo interesse a calcolare ( 20 80 )

p x

si deduce che 50 – k15 = 20 e che 50 + k15 = 80

da cui si deduce per formula inversa che k = 2

1

≤ ≤ ≥ −

quindi dato ( 20 80

) 1

p x 2

2

risulta ≤ ≤ ≥

( 20 80 ) 0

, 75

p x

Lezioni di Statistica A.A. 2007/08 80

3. Sapendo che σ = 100, qual è l’errore standard delle distribuzioni campionarie in cui: a) N = 25;

y

b) N = 100; c) N = 625?

Soluzione.

σ 100 100 100

σ σ σ

= = = = = = =

20 10 4

y y y

25 100 625

n

4. Trova i valori Z della distribuzione normale per i seguenti valori alfa:

a) α = 0,03 una coda d) α = 0,02 due code

b) α = 0,15 una coda e) α = 0,20 due code

c) α = 0,02 una coda f) α = 0,001 una coda

Soluzione. Assumiamo che α= 0,03 nella coda destra della distribuzione normale. Utilizziamo la tavola

delle aree della distribuzione normale e possiamo vedere che i due valori tabulati prossimi al valore

critico 0,5 – 0,03 = 0,47 sono 0,4699 e 0,4706 che corrispondono rispettivamente a 2 = 1,88 e Z =

1,89. Calcolando la media di questi due valori 1,88 +1,8912 = 1,885 possiamo concludere che con la

probabilità del 2% si manifestano valori critici > 1,885 deviazioni standard dalla media.

5. Ricorrendo al teorema del limite centrale, trova la media e l’errore standard delle distribuzioni

campionarie che hanno le seguenti caratteristiche:

µ σ²y N

y

a) 12,5 40 50

b) 40 100 100

c) 0 100 500

d) 14 160 80

e) 200 200 200

Soluzione. Il teorema del limite centrale afferma che dato N la µ di tutte le µ

 possibili è la

1

dell’universo statistico. Dunque µ = 12,5

40 6

,

32

σ = = =

quindi 0

,

89

y 7 , 07

50

6. Sapendo che µ = 30, σ = 12 e N = 30, trova i valori critici corrispondenti a: a) α = 0,05 una

y y

coda; b) α = 0,01 due code

Soluzione.

0,5 – 0,05 = 0,45 Z = 1,699

α

0,5 – 0,01 = 0,49 Z = 2,756

α

7. Per un campione di numerosità N = 64, con σ = 16, trova: a) il limite inferiore e

 = 20 e y

quello superiore dell’intervallo di confidenza al 95%; b) il limite inferiore e quello superiore

dell’intervallo di confidenza al 99%.

Lezioni di Statistica A.A. 2007/08 81

Soluzione. 16 16

a) − = + =

20 1

,

96 16

, 08 20 1

,

96 23

,

92

64 64

16 16

b) − = − =

20 2

,

58 14

, 68 20 2

,

58 25

,

32

64 64

8. Utilizzando un test a una coda con α = 0,01 verifica l’ipotesi nulla secondo la quale µ = 80

y

avendo a disposizione un campione di 25 soggetti in cui Dichiara: a) il valore

 = 71 e S = 20.

y

critico; b) i gradi di libertà; c) la statistica del test; d) la tua decisione.

Soluzione. Costruiamo un intervallo di confidenza al 99% in quanto tale livello automaticamente è

determinato da α = 0,01. troviamo il valore critico t sulla tavola dei valori critici di t che per il test a 1

α/2 = 2,492

coda è il dato che coincide con α = 0,01 e ν = N -1 = 24, vale a dire il valore critico t

α/2

   

S 20

± = ± = ± = −

Dunque    

Y 71 2

,

8 71 280 351

; 209

y t    

α / 2    

25

N

Verifichiamo H calcolando la statistica test t di Student

0

µ

− −

x 71 80 9

= = = − = −

Y

t 2

, 25

σ 4

20 / 25

n

Confrontiamo il test t col valore critico t cioè – 2,25 < 2,797 e quindi decidiamo di non rifiutare H

α/2 0

9. Utilizzando un test a una coda con α = 0,05 verifica l’ipotesi nulla secondo la quale µ = 60

y

avendo a disposizione un campione di 49 soggetti in cui Dichiara: a) il valore

 = 62,5 e S = 7.

y

critico; b) i gradi di libertà; c) la statistica del test; d) la tua decisione.

Soluzione. Calcoliamo ν gradi di libertà N – 1 = 48

Calcoliamo Z valore critico confrontando sulla tavola dei valori critici di t con α = 0,05 e ν = 48 e con

α

il test a due code

Z = ± 2,021

α/2

Verifichiamo H calcolando il test t di Student

0

µ

− −

x 62

,

5 60

= = =

Y 2

,

5

t σ 7 / 49

n

Confrontiamo il test t con Z cioè 2,5 > ± 2,021 e quindi decidiamo di rifiutare H

α/2 0


ACQUISTATO

3 volte

PAGINE

123

PESO

1,013.79 KB

AUTORE

summerit

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea magistrale in metodologia e organizzazione del servizio sociale
SSD:
Università: Trento - Unitn
A.A.: 2008-2009

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher summerit di informazioni apprese con la frequenza delle lezioni di Metodi quantitativi della ricerca sociale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Trento - Unitn o del prof Scherer Stefani.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea magistrale in metodologia e organizzazione del servizio sociale

Analisi delle politiche pubbliche - il ciclo delle politiche pubbliche
Appunto