Appunti esame di Psicometria, prof. Pastore, libro consigliato Analisi dei dati in psicologia, Pastore

Riassunto per l'esame di Psicometria, basato su appunti personali presi durante le lezioni del docente Pastore e sul testo di riferimento: Analisi dei dati in psicologia, Pastore, …

Esame Psicometria

Facoltà Psicologia

Dal corso del Prof. Pastore Massimiliano

Università Università degli Studi di Padova

Publisher Saruzza.96

A.A. 2016-2017

49 pagine

4 download

Appunto

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

A B

60.325 43.850

> diff(tapply(memoria$memo, memoria$tecnica, mean)) # differenza di valori attesi sulla y

per ogni cambiamento della x, è la differenza tra le medie dei due gruppi

B

-16.475

> library(effects)

> plot(allEffects(fit2)) Il grafico mi mostra il valore atteso della tecnica A con il

suo intervallo e il valore atteso della tecnica B con il suo

intervallo.

Interpretazione dei parametri (riassunto)

Il modello riassume la differenza in termini di media tra i

soggetti che hanno seguito la tecnica A ed i soggetti che

hanno seguito la tecnica B. L’intercetta = 60.32 indica il

punteggio medio o atteso tra i soggetti del gruppo A. Il

coefficiente di regressione beta1 = -16 indica la differenza

attesa tra i punteggi dei due gruppi .

> plot(fit2) Valuta l’indipendenza dei residui, i residui sono tutti uguali essendo da 0 a 1,

bisogna quindi solo vedere se i punti stanno intorno allo 0 in maniera

omogenea.

Questo secondo grafico mi mostra la normalità dei residui, qui i residui

hanno una distribuzione normale.

Il terzo grafico mostra l’omogeneità delle varianze, si guarda quindi se le

distanze sono le stesse, la variabilità di quelli a destra e di quelli a sinistra è

quasi uguale.

Ultimo grafico mostra la presenza di outlier, non avendo un predittore

quantitativo non può calcolare la leva.

Anche questo modello quindi funziona bene.

Venerdì 19 maggio

> summary(fit2)

Call:

lm(formula = memo ~ tecnica, data = memoria)

Residuals:

Min 1Q Median 3Q Max

-36.325 -8.969 -0.087 11.675 41.150

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 60.325 2.325 25.946 < 2e-16 ***

tecnicaB -16.475 3.288 -5.011 3.31e-06 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 14.7 on 78 degrees of freedom

Multiple R-squared: 0.2435, Adjusted R-squared: 0.2338

F-statistic: 25.11 on 1 and 78 DF, p-value: 3.307e-06

La funzione summary serve per studiare i coefficienti. Mi dice che il 60.32 è il valore atteso (estimated) sulla variabile

dipendente quando il predittore è 0, e quando la tecnica è 0 si riferisce ai soggetti che hanno usato la tecnica A. Il

coefficiente di regressione indica la differenza attesa media tra i soggetti della tecnica A e quelli della tecnica B. Se infatti

calcolo le medie dei due gruppi, la media del gruppo A è 60.32, ovvero l’intercetta e la media del gruppo B è 43.85, ovvero

(60.32 – 16.47). la distribuzione dei residui è quasi simmetrica perché primo e terzo quartile sono quasi uguali e anche

1) Residuals:

perché la mediana è quasi 0, quindi la distribuzione è normale

stime dei due parametri (intercetta e coefficiente di regressione), 60.32 (valore atteso quando il

2) Coefficients:

predittore vale 0, ovvero media del gruppo con tecnica A) e - 16.48 (valore atteso della differenza dei punteggi quando il

predittore aumenta di 1, ovvero differenza delle medie del gruppo con tecnica A e gruppo con tecnica B):

> variabilità della distribuzione campionaria del parametro, variabilità dovuta dal campionamento, i dati

Std. Error :

che osserviamo sono frutto di un campionamento con un certo grado di incertezza

: è la statistica test, che deriva dalla stima del parametro diviso errore standard (chiamata t perché la sua

> t value

distribuzione campionaria è una t, che ha una distribuzione campionaria nota)

sono le probabilità calcolate, ovvero i p-value Qual è l’ipotesi nulla sull’intercetta? : = 0, (intercetta

> Pr(>|t|): .

= valore atteso nei punteggi al test di memoria nel gruppo della tecnica A), è la media vera di un’ipotetica popolazione.

Quindi : = 0 significa che ipotizzo che se somministro la tecnica A ad una popolazione infinita osserverei una media

dei punteggi uguale a 0. E’ significativo il test? Il p-value è minore di 0.05? Sì (2e-16), quindi il test è significativo e rigetto

l’ipotesi nulla, ovvero rigetto l’ipotesi che la media dei punteggi nella popolazione sia uguale a 0. Ma il test non è

particolarmente informativo.

Qual è l’ipotesi nulla relativa al coefficiente di regressione?: : = 0, (in cui è la differenza delle medie), ovvero

ipotizzi che, se campionassi dai due campioni (A e B) non troverei differenze tra la media dei due gruppi. Il p-value (3.3e-

06) è minore di .05 quindi il test è significativo e rigetto l’ipotesi nulla, e rigetto quindi l’ipotesi che la differenza delle

medie sia 0. Quindi questo ci dice che C’E’ UNA DIFFERENZA SIGNIFICATIVA TRA I DUE GRUPPI.

> range(memoria$memo) # mi da il minimo e il massimo

[1] 14 88

> # i punteggi osservati vanno da 14 a 88

N.B. → L’IPOTESI NULLA SUI PARAMETRI E’ SEMPRE UGUALE A 0.

R quadro è il 24% , quindi il 24% della variabilità è spiegata dalla differenza

> Multiple R-squared: 0.2435: l’

delle medie, l’R quadro serve per sapere se questa differenza spiega la variabilità.

> t.test(memo~tecnica,data = memoria, var.equal=TRUE) # di default non mette le varianza

omogenee, ma noi siamo sicuri che le varianze siano omogenee (var.equal=TRUE)

Two Sample t-test

data: memo by tecnica

t = 5.0105, df = 78, p-value = 3.307e-06

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

9.928939 23.021061

sample estimates:

mean in group A mean in group B

60.325 43.850

Questo test si chiama “t test per campioni indipendenti”. La statistica test vale 5.01, quindi è uguale al t value del

“summary”( che è negativo ma è sotto valore assoluto). Quindi il test è uguale a quello di prima. Il modello di regressione

lineare con variabile dicotomica è un test. ci dice l‘ipotesi

> alternative hypothesis: true difference in means is not equal to 0 →

alternativa, da cui possiamo inferire l’ipotesi nulla, ovvero che la differenza delle medie è 0, che rigetto perché il p-value

è minore di 0.05 l’ipotesi nulla mi dice che la differenza tra le

> 95 percent confidence interval:9.928939 23.021061 →

medie è 0, l’intervallo di confidenza non contiene 0, quindi il test è significativo (possibile domanda: dato questo test,

con p-value nascosto, posso dire che è significativo? Guardo l’intervallo di confidenza).

Posso calcolare anche il Bayes Factor:

> fit2

Call:

lm(formula = memo ~ tecnica, data = memoria)

Coefficients:

(Intercept) tecnicaB

60.32 -16.48

> # calcolo il BIC di questo modello

> BIC(fit2)

[1] 668.2579

Per dirmi qualcosa però devo confrontarlo con il modello nullo (fit0)

> BIC(fit0)

[1] 686.1993

Il modello migliore è fit2 perché ha il BIC minore, quindi il modello è migliore se usa anche la tecnica perché aggiunge

evidenza. Se metto la tecnica, questa mi aiuta a spiegare meglio la differenza tra le media.

I punteggi di memoria sono spiegati meglio dal QI o dalla tecnica?

> BIC(fit)

[1] 621.8764 # significa che il QI è quello che spiega meglio rispetto alla tecnica,

perché ha il BIC più basso

> BIC(fit0, fit, fit2)

df BIC

fit0 2 686.1993

fit 3 621.8764

fit2 3 668.2579

Qual è l’evidenza relativa della tecnica? La calcolo attraverso il Bayes Factor:

> library(BayesFactor)

> lmBF(memo ~ tecnica, data = memoria)

Bayes factor analysis

--------------

[1] tecnica : 4653.255 ±0%

Against denominator:

Intercept only

---

Bayes factor type: BFlinearModel, JZS

: 4653.255, se inserisco la tecnica nel modello, questo diventa 4653.255 volte più evidente rispetto ad

[1] tecnica

usare solo i punteggi senza alcun predittore.

: = 0 → ipotesi nulla del modello di regressione, e indica che non c’è differenza nella media dei due gruppi. è la

differenza attesa sulla y per un punto di differenza sulla x. Faccio in modo che la tecnica A avrà valore 0 e la tecnica B avrà

valore 1. = µA – µB. Se dico = 0 significa che la differenza delle medie è uguale a 0 e che la retta è piatta e le due

medie sono uguali. Nel t test l’ipotesi nulla sarà: : µA = µB, non c’è differenza con l’ipotesi di prima perché la differenza

è 0 (µA – µB = 0).

> fit3 <- lm(memo~QI + tecnica, data=memoria)

> fit3

Call:

lm(formula = memo ~ QI + tecnica, data = memoria)

Coefficients:

(Intercept) QI tecnicaB

28.675 0.677 -13.902

> # ha 3 parametri, ha un parametro per l'intercetta, uno per il QI e uno per la tecnica

> BIC(fit)

[1] 621.8764

> BIC(fit3) → Il modello migliora di molto inserendo entrambi i predittori (QI e tecnica)

[1] 584.7918

Ripasso generale

Distribuzioni discrete > x <- 0:10

> px <- dbinom(x,10,prob=.3)

> sx <- pbinom(x,10,prob=.3)

> plot(x,sx,type="s",lwd=5)

> # distribuzione cumulata di una variabile casuale

discreta, se portata verso infinito viene fuori una curva

La variabile discreta si esprime per valori interi. Se la variabile è continua è quantitativa, mentre se è discreta può essere

quantitativa o anche categoriale (per esempio assegno il valore 0 e 1 alle variabili categoriali maschio e femmina).

Distribuzioni continue

Quattro funzioni di densità note: normale ,F di Fisher, t di student, chi quadro. Di queste funzioni esistono quattro

comandi su R:

*norm

*chisq

*binom

d = density

p = probability, probabilità cumulata

q = quantile

r = random

> dnorm(.7) # usa la normale standard che ha media 0 e varianza 1 di default

[1] 0.3122539

Questo numero è la densità

> dnorm(.7) # usa la normale standard che ha media 0 e varianza 1 di default

[1] 0.3122539

> curve(dnorm(x),-3,3)

> points(.7,dnorm(.7,pch=19,cex=2)) Il valore 0.31 non è la probabilità ma è la densità, il valore più probabile

è 0 perché è dove ha densità più alta.

> pnorm(.7)

[1] 0.7580363

> # questo valore è l'area sotto la curva da meno

infinito a 0.7, è la probabiità di osservare un valore

inferiore a .7

Non è la probabilità di 0.7, perché quella è 0, ma è la probabilità di

osservare valori minori di 0.7. Per calcolare l’area a destra (valori

maggiori di 0.7) si fa così:

> pnorm(.7,lower.tail = FALSE)

[1] 0.2419637

Le f

Anteprima

Vedrai una selezione di 11 pagine su 49