Che materia stai cercando?

Diagnostica psicologica

Elaborazione personale degli argomenti di psicometria. Elementi di statistica, classificazione dei test, proprietà psicometriche dei test. Testi consultati Ercolani-Perugini, la misura in psicologia; Di Nuovo, misurare la mente ed. 2017; Sandrone, Capire la psicometria. Appunti di lezione e slides della docente.

Esame di Diagnostica psicologica docente Prof. P. Magnano

Anteprima

ESTRATTO DOCUMENTO

1) Livello di astrazione teorico: concetto teorico costituito da un insieme di

idee legate in modo coerente tra di loro. I legami si chiamano proposizioni non

osservabili. Es: teoria della frustrazione-aggressione.

2) Livello di astrazione derivato: concetti derivati sono concetti astratti ma più

dettagliati dei primi. La relazione tra concetti teorici e concetti derivati si

chiama definizione teorica e dà vita a un costrutto teorico cioè alla definizione

di una nozione teorica tale che se ne possa dare una definizione empirica.

3) Livello di astrazione empirico: concetto empirico la cui relazione con il

concetto teorico è la regola di corrispondenza. Il ruolo dei concetti empirici è

fondamentale per la specificazione della definizione operativa, con essa diamo

sostanza empirica al costrutto, indicando chiaramente come si può misurare.

4) L’ultimo tipo di relazione è quello tra i concetti empirici e la realtà

osservata, chiamata definizione empirica, in cui si esplicita il metodo da noi

usato per raccogliere i dati. Questo è il campo della psicometria intesa come

misurazione di caratteristiche psicologiche.

Per fare la definizione operativa di un costrutto teorico, dobbiamo definire gli indicatori

o concetti empirici, cioè quelle variabili osservate che colgono il costrutto teorico o

parte di esso e lo misurano. Per ottenere la misura degli indicatori è necessario l’uso

del test psicologico. Per costruire questo strumento abbiamo bisogno di un modello. I

modelli di costruzione dei test sono come regole di corrispondenza tra costrutti teorici

e indicatori.

Il modello della teoria dell’errore casuale o modello classico della teoria dei

test. Secondo questa teoria, il punteggio ottenuto in un test può essere scomposto in

due componenti. X =V + E. Cioè la componente vera e l’errore legato all’operazione

stessa di misurazione. Gli errori possono essere distinti in sistematici e casuali.

L’errore è sistematico quando il suo effetto influenza sistematicamente, cioè nella

stessa direzione e con la stessa intensità, tutti i punteggi raccolti a un test, cioè tutti i

soggetti sottoposti al test. L’apporto di errore sistematico può essere tendenzialmente

eliminato con un’accurata costruzione e taratura del test. L’errore casuale influenza in

modo diverso i diversi soggetti sottoposti a uno stesso test. esso può essere dovuto ad

ambiguità degli item, dalle condizioni interne ai soggetti (umore, stanchezza), dal

somministratore. L’errore casuale incide sull’attendibilità e validità del test. La

conseguenza nell’assumere questo modello sarà, che se è vero che ogni misurazione

produce errore, allora il punteggio di un soggetto a un test non sarà il punteggio vero

ma un punteggio osservato che sarà uno dei possibili punteggi del soggetto dato il suo

punteggio vero. Di conseguenza, se potessimo compiere misurazioni all’infinito,

l’errore scomparirebbe perché facendo la media di tutti i punteggi osservati

otterremmo il punteggio vero. Fare misurazioni infinite non è possibile.

Il modello della teoria della generalizzabilità costituisce un’estensione e

miglioramento della teoria dell’errore casuale. In quest’ultima si ipotizza un unico

errore indifferenziato, in questa ci sono tanti errori quante sono le sfaccettature

implicate nell’operazione di misurazione. La variabilità complessiva di un punteggio è

scomposta in tante fonti distinte quanti sono i fattori implicati noti. Non abbiamo più

un unico punteggio vero ma tanti punteggi veri quante sono le sfaccettature. Nel

campo psicologico, l’esempio di tale teoria è il Test S-R, di cui il più famoso è il test di

ansietà di Endler e Okada (1975). È composto da un campionamento di situazioni (S)

nelle quali è possibile mettere in atto diverse modalità di risposta (R) che rimandano a

un costrutto latente, cioè non osservato ma inferito sulla base di una serie di indicatori

osservati. Il punteggio ottenuto da un soggetto può essere scomposto in più fonti: una

parte di esso dipende dalla situazione, una dalla risposta e una dalla persona. Quindi il

punteggio osservato sarà composto da X = Vs+Vr+Vp+E. La novità è questa che non

abbiamo più un punteggio vero, ma tanti punteggi veri quante sfaccettature. La

porzione di errore sarà minore rispetto a quella prevista dal modello classico, perché

esclude l’errore legato alla persona. Questo modello è poco usato perché è necessaria

una notevole conoscenza in matematica e statistica per la sua applicazione.

Modello basato sulla teoria rappresentazionale della misurazione. Una

determinata caratteristica è misurabile solo se esiste una sistema di relazioni

empiriche che soddisfa una certa quantità di condizioni sufficienti per l’esistenza di un

isomorfismo tra sistema empirico e sistema numerico, laddove per isomorfismo si

intende una corrispondenza tra proprietà del sistema empirico e proprietà del sistema

numerico. Il problema della misurazione presuppone perciò l’esistenza di

caratteristiche che posseggono delle proprietà tali da consentirne la misurazione, e

definire i criteri necessari e sufficienti affinché tale misurazione sia possibile. Tali criteri

sono stati formulati tramite una serie di assiomi matematici il cui rispetto garantisce la

possibilità di misurazione. Esempio di misurazione compiuta dai rappresentazionalisti

è la misurazione congiunta che si basa su una procedura di ordinamento di livelli

differenti di due stimoli. Queste tecniche sono usate dalla psicofisica e dalla ricerche di

mercato. Questo modello pur partendo dagli studi psicologici è poco applicato nel

campo psicologico data la sua complessità.

Teoria della risposta all’item indica la probabilità di produrre una certa risposta

all’item di un test dipende da due parametri (secondo il modello di Rasch): uno legato

alla persona (abilità o caratteristica) e uno legato all’item (difficoltà o capacità

discriminativa). La risposta che ogni soggetto dà a un item dipende dal tratto latente

(costrutto non osservato ma inferito da indicatori). Attraverso questo modello

calcoliamo la probabilità che una persona, che possiede un certo livello in un tratto

latente, risponda correttamente a un item che ha una certa difficoltà. La probabilità si

ottiene dividendo l’abilità del soggetto (rapporto tra n. di risposte corrette e n. di

risposte errate a tutti gli item) e la difficoltà dell’item (rapporto tra n.risposte errate e

n. risposte corrette date allo stesso item da tutti i soggetti). Se la capacità del

soggetto è maggiore della difficoltà dell’item, la probabilità di rispondere

correttamente è maggiore di 0.5. quindi secondo questo modello, la risposta corretta è

più probabile rispetto quella sbagliata quando il parametro della capacità del soggetto

supera quello della difficoltà degli item.

Nella costruzione di un test, il ricercatore dovrebbe sempre esplicitare il tipo di

indicatore usato. Si distinguono: indicatori riflettivi, che riflettono l’effetto del

costrutto teorico, questo si ipotizza come latente e gli indicatori come variabili

misurate causate dal costrutto (es: alla prima difficoltà tendo a deprimermi –

indicatore; risposta: molto – variabile misurata; costrutto latente: depressione che

causa la risposta), gli indicatori riflettivi sono effetto di un fattore comune quindi sono

correlati tra loro; indicatori formativi formano il costrutto latente che è la somma di

una serie di indicatori e quindi funzione di essi (es: perdita di un familiare, divorzio,

perdita di lavoro, numero di ore lavorative ecc. formano il costrutto latente dello

stress) tra loro non è necessaria correlazione.

Se gli indicatori usati sono riflettivi, il modello usato sarà fattoriale. L’analisi

fattoriale è una tecnica statistica che consente di individuare dimensioni latenti a una

serie di item o variabili. La logica è semplice se una serie di item o variabili correlano

tra di loro, si ipotizza che qualcosa le accomuni.

Se gli indicatori usati sono formativi, il modello usato è regressivo che si basa sulla

tecnica della regressione multipla, attraverso essa distinguiamo variabili che predicono

(ind.) e variabili predette (dip.) con questa tecnica non otteniamo solo la correlazione

tra variabile dip e ind. ma valutiamo anche l’importanza relativa di ciascuna variabile

predittrice.

Metodi di costruzione dei test psicologici.

Il processo di costruzione di un test consta di 6 fasi.

1) Determinazione del costrutto. Come già detto la misurazione rappresenta il

tentativo di dare sostanza empirica a concetti astratti e teorici. Quindi una

misurazione senza teoria non è impossibile però è un atto vuoto. Il primo punto

di un processo di misurazione è scegliere cosa si vuole misurare. La scelta di

misurare un determinato costrutto dipende dai nostri interessi teorici (es.) e

soprattutto perché ci aspettiamo che esista una differenza nella quantità di

costrutto presente negli individui. Bisogna ricordare che la scelta del costrutto è

soggettiva ma non arbitraria nel senso che dobbiamo darne una definizione

chiara basandoci sui lavori fatti in precedenza nel panorama scientifico

internazionale, per comprendere come altri autori hanno affrontato questo

costrutto e se già esistono scale di misura. Dopo aver dato una prima

definizione chiara del costrutto, ne definiamo la sua struttura (unidimensionale

o multidimensionale). Da questo lungo processo, emerge un costrutto teorico

inserito nella letteratura rilevante, chiaramente definito e pronto a essere

operazionalizzato empiricamente. Alla comunità scientifica spetta definire la

validità del nostro contributo. Questo è ciò che è definito democratizzazione

della ricerca.

2) Preparazione della prima versione del test. dopo aver determinato il

costrutto, il passo successivo è la creazione di una versione preliminare del test.

Ciò consiste nello sviluppare item che catturino il significato del costrutto

psicologico. Il tipo di item da sviluppare dipende dal tipo di test. In generale, la

preparazione preliminare del test consiste di due fasi. La prima fase consiste in

due passaggi: 1- studio prototipico che permette di ottenere elementi di

conoscenza in grado di ampliare la nostra conoscenza teorica del costrutto.

L’esempio più immediato di studio prototipico è la discussione approfondita con

colleghi che studiano costrutti simili soprattutto per i test cognitivi o di abilità.

Altra modalità di studio prototipico consiste nel coinvolgimento di gente

qualunque per test di personalità o scale di atteggiamento. Ciò può essere

realizzato attraverso il focus group o la descrizione prototipica degli elementi

salienti. Il metodo del focus group consiste nell’organizzare piccoli gruppi di

discussione (5-10 persone) composti di persone assimilabili ai soggetti per il

quale il test finale è destinato. All’interno di ogni gruppo è discusso il costrutto

psicologico oggetto della ricerca, attraverso situazioni stimolo. Dall’analisi dei

contenuti della discussione verranno ricavati suggerimenti per i criteri

generatori. Nel caso della descrizione prototipica degli elementi salienti, si

chiede a un gruppo di soggetti di elencare comportamenti, aggettivi, verbi,

frasi, che associano al costrutto, dando un tempo limite oppure un numero

limite di associazioni. Dopo aver raccolto i dati si accorpano le descrizioni simili

in un elenco e si somministra questo elenco a un altro gruppo di soggetti,

chiedendo a questi ultimi di indicare le affermazioni maggiormente calzanti con

il costrutto. Sulla base dei dati ottenuti, possiamo individuare le caratteristiche

ritenute più descrittive del costrutto. Da esse possiamo trarre spunto per

costruire dei criteri generatori di item. 2- elencare criteri generatori che

faciliteranno la creazione di item.

La seconda fase consiste nella produzione di item per ogni criterio generatore.

Nella produzione degli item bisogna tener conto della formulazione in positivo o

negativo. Per evitare stili di risposta acquiescenti, bisogna formulare gli item in

positivo o in negativo in egual misura. Bisogna anche tener conto della scelta

del formato di risposta, infatti a seconda del formato dovremo formulare gli item

in modo diverso. È meglio usare la scala Likert modulata su verità/falsità

piuttosto che su frequenza per ridurre l’errore casuale dovuto a un diverso

concetto di frequente nelle persone.

La terza fase prevede la scelta del numero di item che dovrà contenere la

versione finale del test. questa scelta deve tenere conto di una serie di

considerazioni. In generale, l’attendibilità di un test, cioè la sua affidabilità,

aumenta con l’aumentare del numero di item. Tuttavia, quando il numero di

item e la durata di un test sono eccessive, la validità di un test diminuisce,

perché i soggetti tendono a perdere motivazione e a rispondere in maniera

approssimativa alle domande. In linea di massima, possiamo affermare che il

tempo di compilazione di un test dovrebbe essere compreso tra i 15 e i 30

minuti. Per avere un’attendibilità sufficiente, di solito conviene utilizzare almeno

10 item per ogni sottodimensione. Per la versione preliminare si devono

produrre il doppio degli item, in modo da poter selezionare i migliori. La quarta e

ultima fase consiste nella formulazione dell’item che dipende dal test che si sta

costruendo. In linea generale bisogna tenere conto di alcuni accorgimenti: 1)

evitare affermazioni ambigue o interpretabili in più modi; 2) evitare affermazioni

su cui quasi tutti o quasi nessuno sono d’accordo perché si avrebbe una

frequenza bassa; 3) evitare termini di frequenza nell’item perché già nella scala

di risposta c’è la possibilità di modulare l’adeguatezza della descrizione; 4)

evitare le doppie negazioni in quanto confondono le persone rispetto al vero

significato; 5) utilizzare un linguaggio chiaro, semplice e diretto; 6) utilizzare

frasi corte per capire il senso; 7) inserire un solo concetto per frase; 8) fare

riferimento a comportamenti specifici e non generali per evitare distorsioni

interpretative personali; 9) evitare espressioni di valutazione troppo generale;

10) le affermazioni devono riguardare un comportamento che è pertinente con

l’esperienza del soggetto.

3) Prove preliminari del test. dopo aver generato il gruppo iniziale di item, è

opportuno effettuare delle prove preliminari del test, con l’obiettivo di

riformulare o eliminare gli item che, nonostante gli accorgimenti presi, risultano

ambigui o di difficile comprensione. Si può pianificare uno studio pilota che

coinvolga i soggetti ai quali il test finale sarà somministrato, chiedendo a questi

ultimi di valutare la comprensibilità e l’ambiguità degli item. In questo è

possibile capire quali sono gli item incomprensibili e quali quelli ambigui che

possono portare a diverse interpretazioni. I risultati ottenuti permetteranno di

riformulare gli item eliminando alcune parti o di crearne di nuovi. L’importante è

ottenere un numero di item comprensibile, senza ambiguità e almeno il doppio

degli item del test finale. Per completare la preparazione del test preliminare si

scrivono le istruzioni per la sua somministrazione, solitamente nella prima

pagina. Esse possono essere accompagnate anche da una spiegazione orale che

ovviamente va a integrare e non a sostituire le istruzioni scritte. Il testo scritto

serve a chiarire eventuali dubbi in corso di somministrazione. Nelle istruzioni va

spiegata la ragione della ricerca, anche se è spesso preferibile dare spiegazioni

generiche per evitare di influenzare le risposte. Va spiegata la modalità di

risposta del test e soprattutto la scala di risposta usando un esempio. Va

garantito l’anonimato delle persone e la riservatezza delle risposte a meno che

si tratti di test per la selezione del personale. Va chiesto alle persone di

rispondere seriamente e sinceramente al questionario; generalmente si chiede

di rispondere con la prima risposta che viene in mente senza riflettere sulla

domanda perché anche se la frase è semplice e chiara, a una lettura più

approfondita potrebbe creare ambiguità di interpretazione. Se il test è di

personalità, il soggetto è invitato a valutare quanto l’item lo descrive di solito

(fare una media). Possono essere richieste ulteriori informazioni descrittive sul

soggetto (età, sesso e professione). Infine i soggetti vanno ringraziati per la

collaborazione. Dopo aver preparato le istruzioni è buona regola chiedere il

parere di un collega per verificarne la chiarezza.

4) Somministrazione del test. la prima versione del test è somministrata a un

campione adeguato di soggetti. L’obiettivo è selezionare gli item che

manterremo nella versione finale del test. è necessario preventivare almeno

due somministrazioni prima di giungere alla versione finale del test. Il campione

da quante persone deve essere composto? Se le risorse fossero infinite,

dovremmo avere campioni molto ampi, ma siccome non lo sono, è buona regola

considerare il rapporto tra numero di item e soggetti di 1 a 3, cioè tre soggetti

per ogni item, comunque è opportuno non scendere mai al di sotto dei 100

soggetti, in modo da poter applicare i metodi statistici, come l’analisi fattoriale,

e ottenere risultati affidabili. Il campione da quali persone deve essere

costituito? La scelta dei soggetti deve tenere conto delle possibili variabili

descrittive e demografiche che possono influenzare le risposte e bilanciarle. Es:

metà maschi e metà femmine, raccogliere persone di età differenti e di

professioni differenti. Campione il più possibile eterogeneo rispetto alle variabili

usate per la stratificazione.

5) Selezione degli item. Dopo aver raccolto i dati dal campione, si procede con

la selezione degli item per arrivare alla versione finale del test. è un processo

iterativo ed è necessario prevederne almeno due fasi. Le modalità di selezione

degli item variano in funzione al tipo di test. la prima distinzione riguarda se il

test prevede risposte esatte o meno. Nel caso di test con item che prevedono

risposte esatte e sbagliate, gli item possono essere dicotomici o politomici. Ai

fini della selezione, anche gli item politomici sono convertiti in dicotomici

attribuendo valore 1 alla risposta giusta e valore 0 alla risposta sbagliata. I dati

che otteniamo sono: Np (il numero di persone che rispondono correttamente),

Nq (il numero di persone che sbagliano), esprimibili in percentuale e l’indice di

difficoltà di un item (p = Np : N) che varia tra 0 e 1. La distribuzione degli item

dicotomici si chiama distribuzione normale, ha media p e varianza p*q

(proporzione di risposte corrette per la proporzione di risposte sbagliate). La

varianza avrà massima capacità discriminativa quando p = q = 0.50. (cioè metà

soggetti hanno risposto correttamente e metà erroneamente). Ci sono tre criteri

di selezione degli item. 1) eliminare gli item che discriminano poco, e scegliere

quegli item ai quali risponde correttamente tra il 20% e l’ 80% dei soggetti. 2)

rapporto tra singolo item e il punteggio del test di cui l’item è parte. Si calcola

l’indice di discriminazione. Per prima cosa si calcola il punteggio totale al test. I

soggetti si suddividono in funzione al punteggio totale in due gruppi: B soggetti

con basso punteggio (come soglia il 30° percentile), A soggetti con alto

punteggio (come soglia i l 70° percentile). L’indice di discriminazione è uguale

alla differenza tra la proporzione di risposte corrette nei soggetti con alto

punteggio e la proporzione di risposte corrette nei soggetti con basso

punteggio. I valori di D saranno compresi tra -1 e +1. Valori positivi indicano che

l’item discrimina nel verso corretto, cioè chi risponde correttamente a quell’item

ha un punteggio elevato, valori negativi indicano che l’item discrimina al

contrario, cioè chi risponde correttamente ha un punteggio basso. Nella pratica

vengono raccomandate alcune soglie. D maggiore di 0.30, l’item discrimina in

modo efficace. D compreso tra 0.20 e 0.30, l’item andrebbe modificato. D

minore di 0.20, l’item va eliminato. 3) correlazione item con il punteggio totale

del test. si definisce un indice di correlazione. Si considera 0.25 come soglia

minima da raggiungere.

Un ulteriore approccio è rappresentato dal modello Item response theory. Tale

approccio permette di esprimere la probabilità che si risponda correttamente a

un item in funzione del livello di conoscenza del soggetto.

Nel caso di test che non prevedono risposte sbagliate ed esatte. Il potere

discriminativo di un item è legato alla dispersione dei punteggi. La distribuzione

dei punteggi che rende massima la dispersione è quella rettangolare. Per ragioni

di tipo statistico si preferisce avere una distribuzione normale, la quale

garantisce una dispersione elevata dei punteggi. La regola per la selezione degli

item consiste nel creare un intervallo di fiducia di 1.5 deviazione standard dal

valore medio teorico. Possiamo calcolare anche altri parametri della

distribuzione, in particolare l’asimmetria e la curtosi. Informativi rispetto la

forma della distribuzione: l’asimmetria rispetto lo spostamento verso destra o

sinistra e la curtosi rispetto lo spostamento verso l’alto o il basso. Valori

compresi tra -1 e +1 indicano una distribuzione non molto distante dalla

normale e quindi accettabile. Quanto più i valori si allontano da questi

consigliati tanto più l’item avrà basso potere discriminativo e dovrà essere

eliminato.

IV Modulo: le proprietà psicometriche dei test.

Dimensionalità. Lo studio della dimensionalità di un test è lo studio del numero e

delle caratteristiche delle dimensioni latenti di un costrutto. Per questo studio, la

tecnica da usare è l’analisi fattoriale, che si applica nel caso di indicatori riflettivi, cioè

ipotizziamo che gli item siano il riflesso osservabile del costrutto latente. Questa

tecnica serva a identificare i fattori latenti (dimensioni, tratti, componenti) dei costrutti

che spiegano le correlazioni tra variabili osservate (indicatori/item). Esistono diverse

tecniche di analisi fattoriale, ma quella più usata è l’analisi delle componenti principali.

Bisogna scegliere quindi la tecnica, il numero di fattori/dimensioni da estrarre e il tipo

di rotazione fattoriale da effettuare. Rotazione fattoriale consiste nel ruotare un

angolo dell’item in modo da rendere gli item il più possibile correlati con un fattore e

meno possibile correlati con gli altri fattori. Con la rotazione fattoriale otteniamo

un’interpretazione migliore dei risultati. La rotazione fattoriale si effettua quando sono

estratti almeno due fattori e può essere ortogonale o obliqua. Rotazione ortogonale:

quando s ipotizza che i fattori estratti non siano correlati tra di loro. Rotazione obliqua:

quando si ipotizza che i fattori estratti siano correlati tra loro. Dopo questa prima fase

si scartano gli item che hanno una bassa correlazione con i fattori oppure si può

modificare il numero di fattori ipotizzati teoricamente. La procedura è ripetuta finché

la soluzione fattoriale non è soddisfacente. I risultati di un’analisi fattoriale. La

percentuale di varianza spiegata complessivamente rende ragione della correlazione

tra gli item e ci consente di identificare il numero delle dimensioni latenti. Le

saturazioni fattoriali di ogni item con le dimensioni ci diranno indicazioni su come gli

item tendono a raggrupparsi. Come si scelgono gli item migliori? Si estraggono due

fattori. Si stabilisce una rotazione obliqua, cioè si ipotizza che i due fattori siano

sottodimensioni di una dimensione più generale e quindi correlati tra loro. Si

controllano le saturazioni (correlazioni) degli item su ciascun fattore. La situazione

ideale è che la maggior parte degli item che riguardano un fattore saturino su quel

fattore e non sull’altro. Se ciò accade, allora i due fattori estratti ipotizzati sono

veramente dimensioni del fattore. Per la scelta degli item si seguono due criteri. Primo

criterio: l’item satura sul fattore di pertinenza raggiungendo la soglia minima di 0.40.

secondo criterio: confronto tra saturazione sul fattore pertinente e saturazione su

quello non pertinente che deve essere almeno il doppio.

Attendibilità di un test fedeltà o affidabilità è l’accordo tra tentativi indipendenti di

misurare lo stesso concetto teorico. Con questo termine si intende la precisione (il

dato ottenuto dal test riporta la misura esatta di ciò che stiamo misurando) e la

ripetibilità di un test.

Dato che i costrutti psicologici sono inferiti dagli indicatori, nel processo di misurazione

c’è sempre un errore inevitabile, tuttavia un buon test deve comunque consentire un

grado sufficiente di attendibilità nella misura. Secondo la teoria classica del test: X=

Vv+Ve, cioè la variabilità del punteggio osservato dipende dalla variabilità vera e dalla

variabilità dovuta all’errore. La variabilità vera dipende dalla maggiore o minore

capacità del soggetto di rispondere effettuando la prestazione richiesta o di riferire i

suoi stati interni. La variabilità dell’errore dipende da varie cause relative alla fase di

costruzione del test o alla fase di somministrazione. La componente di errore non può

essere eliminata, ma può essere controllata per non far perdere le informazioni

essenziali sulla componente vera della prestazione. A questi problemi di misurazione

risponde la valutazione dell’attendibilità del test. Un test è affidabile quando la sua

attendibilità è elevata , cioè l’accuratezza e la precisione con cui la variabile è

misurata riducendo gli errori di misurazione. L’attendibilità (rxx) può essere definita

come la proporzione di variazione vera rispetto a quella totale, che include anche

quella di errore. Rxx= vv/(vv+ve)= vv/vx. Se consideriamo come indicatori delle

variazioni la varianza osservata del test (sx2) e quella vera (sv2), la formula diventa:

rxx= sv2/sx2. Essendo la varianza vera ciò che resta togliendo dalla varianza totale

quella di errore, l’attendibilità può essere stimata a partire dalla varianza di errore.

Rxx= 1-(se2/sx2). es: un rxx= 0,85 dice che l’85% della varianza dei punteggi è

dovuta alle reali differenze nelle risposte dei soggetti mentre il restante 15% è dovuto

a fonti diverse e difficilmente controllabili.

L’attendibilità di un test può essere dimostrata in modi differenti e la dimostrazione

deve essere presente nel manuale di un test. I metodi per la stima dell’attendibilità

seguono due modalità.

La prima modalità prevede di valutare l’attendibilità usando una solo

somministrazione. Rientrano in questa categoria i metodi:

- Metodo split-half, divisione a metà. Il test o più precisamente gli item sono

divisi a metà per verificare se ogni metà misura la stessa cosa. Se il test è

graduato per difficoltà, ovviamente si cercherà di graduare la difficoltà

all’interno di ogni metà. Solitamente si dividono in item pari e dispari.

Successivamente si correlano i punteggi ottenuti dalle due parti, questo

coefficiente di correlazione si chiama coefficiente di equivalenza. Tuttavia

poiché il coefficiente è calcolato su metà degli item, è necessario apportare una

correzione che rapporti il valore ottenuto all’effettiva lunghezza del test. La

correzione è effettuata attraverso la formula di Spearman-Brown, che stima il

coefficiente che si otterrebbe con un test di diversa lunghezza. Questo metodo è

indicato nel caso in cui non si può fare una doppia somministrazione del test nel

tempo, perché potrebbero cambiare i risultati o a causa di costi eccessivi.

- Metodo della coerenza interna. Ogni item può essere considerato come un

test formato da un singolo item. In questo modo è possibile controllare se tutti

gli item tendono a misurare lo stesso costrutto. Ogni item verrà confrontato con

gli altri e il risultato ci dice quali domande misurano davvero il costrutto e quali

no. Questo metodo è indicato nel caso di test omogenei cioè test in cui qualsiasi

item misura lo stesso costrutto. Il coefficiente usato è l’alpha di Cronbach, che è

l’indice del grado in cui un test misura un singolo fattore. I test omogenei hanno

alpha alti mentre i test eterogenei hanno alpha bassi. Proprio per questo motivo

il coefficiente alpha di Cronbach è considerato un indice della coerenza interna

di un test. affinché l’attendibilità possa essere considerata accettabile il

coefficiente alpha di Cronbach deve essere di almeno 0.70.

L’attendibilità può essere valutata con due somministrazioni:

- Metodo test-retest. Lo stesso test è somministrato allo stesso gruppo di

soggetti per due volte con un certo intervallo di tempo. Questo metodo è

appropriato per verificare la stabilità temporale dei risultati. Scegliere il giusto

intervallo temporale è fondamentale perché un tempo troppo breve rischia di

far ricordare le prove ai soggetti, un tempo troppo lungo può portare

cambiamenti. Solitamente si stima un periodo di 6 mesi. La correlazione fra le

due somministrazioni del test costituisce il coefficiente di attendibilità, detto

anche di stabilità.

- Metodo dell’attendibilità per forme parallele. Consiste nel somministrare

due test simili, per contenuti, lunghezza e difficoltà allo stesso gruppo di

soggetti e poi si correlano i risultati.

Altro metodo di valutazione dell’attendibilità è interscorers reliability o coerenza

tra valutatori che consiste nel far valutare gli stessi protocolli da più persone e

correlare i punteggi assegnati. Più alta è la correlazione meno incide l’errore di

misurazione dovuto allo scoring.

In questi metodi l’ipotesi è che se l’errore di misurazione è basso (o gli errori si

annullano a vicenda in molteplici somministrazioni), la somiglianza tra le due

prestazioni dovrebbe essere elevata. Un indice di attendibilità elevato (superiore a

0.80) testimonia che l’errore dovuto a fattori casuali è limitato. Un valore inferiore a

0.60 segnala che l’errore è eccessivo quindi il test non è affidabile.

L’attendibilità ci dice quanto un test sia una misurazione precisa e ripetibile ma non è

sufficiente come dimostrazione di un buon test. C’è un’altra proprietà psicometrica

che ci dice se il test misura ciò che davvero vogliamo misurare. Si tratta della validità.

Validità è la capacità del test di misurare ciò che effettivamente vogliamo che misuri.

Quando si parla di validità ci si riferisce a un’ampia area che comprende vari tipi di

validità.

- Validità di facciata. È l’impressione che il test misuri ciò che effettivamente si

propone di misurare. La struttura del test e gli item devono apparire motivanti e

significativi sia nella forma che nel contenuto. È anche importante il setting e il

modo di apparire del somministratore. Va ricercata nel corso di costruzione del

test in modo che questo risulti gradevole, comprensibile e pertinente all’oggetto

di valutazione.

- Validità di costrutto. È il grado in cui uno strumento misura il costrutto che

dovrebbe misurare e non qualcos’altro. Per dimostrare che un test ha validità di

costrutto, cioè il punteggio ci dà una buona misurazione del costrutto esistono

diverse procedure. 1- valutazione dell’omogeneità del test, cioè ogni item

misura davvero lo stesso costrutto?. 2- valutazione tramite la matrice multi

tratto multimetodo, per trovare altri costrutti collegati a quello che stiamo

misurando, dobbiamo ottenere almeno due misure dello stesso tratto con

almeno due metodi diversi. 3- analisi fattoriale procedimento matematico che

parte dalle risposte date a un test per identificare dei fattori o costrutti

sottostanti che non emergono a prima vista e che possono influenzare le

risposte. Essa è divisa in due aspetti. Validità convergente: si mette a confronto

un test nuovo con altri già esistenti. Se c’è un’alta correlazione allora il

nuovo test sarà valido. Se la correlazione è troppo alta allora forse il nuovo test

è un duplicato di quello esistente. Questa procedura è adottata per validare

forme simili o ridotte di test già esistenti. Validità discriminante: si mettono a

confronto due test diversi proprio per verificare che il nuovo test non misuri altri

costrutti. La correlazione deve essere bassa.

- Validità di contenuto. Riguarda la pertinenza con l’argomento da valutare. Si

ottiene nel corso di costruzione di un test, che viene sottoposto a un gruppo di

giudici esperti ai quali è chiesto di valutare per ciascun item comprensibilità,

gradevolezza e pertinenza su scale dicotomiche oppure su scale a livelli. Gli

item che ottengono valutazioni positive al di sotto del 75% oppure medie basse

sono riformulati (se il problema riguarda la comprensibilità o la gradevolezza)

oppure sostituiti (se la valutazione riguarda la pertinenza). Nel caso di test

tradotti da altre lingue, gli item vanno prima tradotti, poi fatti ritradurre in

lingua originale partendo dalla traduzione in italiano da un madrelingua. Il

giudizio degli esperti riguarderà anche la comprensibilità della traduzione

definitiva.

- Validità di criterio/esterna è il grado di relazione tra i punteggi di un test e

un criterio esterno di riferimento. Si distingue tra validità concorrente e

predittiva in funzione di quando viene rilevata la relazione tra misura e criterio.

Validità concorrente: il test è correlato con una misura di un’altra variabile

contemporaneamente nello stesso gruppo di soggetti. Validità predittiva: il test

è correlato con un criterio valutabile in un secondo momento. Metodo

discriminante: il test è usato in gruppi di soggetti diversi, in uno solo dei quali è

presente il costrutto che intendiamo misurare: questo gruppo dovrebbe

differenziarsi significativamente dagli altri, oppure sullo stesso gruppo è usato

un altro test che misura un costrutto opposto.

Dopo che è stato ottenuto il punteggio da un test attendibile e valido, si pone il

problema del significato da attribuire al punteggio. È necessario fare riferimento a una

taratura, cioè a una norma stabilita a priori dal costruttore del test basandosi su un

campione della popolazione. Questo riferimento permette di collocare i punteggi

ottenuti dai soggetti su un metro corrispondente alle loro caratteristiche e valutare la

prestazione in termini di scala standard.

Per confrontare i punteggi con una norma di riferimento è necessario standardizzarli,

cioè trasformare il punteggio grezzo di un soggetto ottenuti a un test in punteggi

dotati di significatività, confrontando la prestazione di un soggetto con le

caratteristiche del gruppo di riferimento.

Per costruire delle norme di riferimento è necessario supporre che la caratteristica

che si vuole misurare abbia una distribuzione normale. Si presuppone che molti

individui abbiano quantità intermedie della caratteristica mentre pochi abbiano

quantità rilevanti o irrilevanti. Una conseguenza di tale assunto è quella di usare la

media come riferimento normativo.

Per una buona taratura del test si devono eseguire dei passi.

1- Identificare la popolazione cui il test è destinato.

2- Decidere come effettuare il campionamento affinché il campione sia

rappresentativo della popolazione di riferimento, cioè deve avere una buona

corrispondenza con le caratteristiche della popolazione e deve essere

sufficientemente ampio da ridurre possibili errori di stima dei parametri. Bisogna

distinguere tra campionamento probabilistico e non probabilistico. Nel

campionamento probabilistico tutte le unità della popolazione dalla quale si

vuole estrarre un campione hanno la stessa probabilità di essere estratti. Nel

campionamento non probabilistico la probabilità di essere estratti non è uguale

per tutti gli elementi. Il più semplice campionamento probabilistico è il

campionamento casuale semplice: si estrae a caso da una popolazione

predeterminata un numero prefissato di elementi che costituiranno il campione

normativo (cioè quel gruppo di soggetti le cui risposte al test vengono prese

come termine di riferimento per valutare le risposte di qualsiasi altro soggetto

che successivamente venga sottoposto a quel test. Sul campione normativo

sono calcolate la media e la DV come stima degli stessi parametri della

popolazione; se il campione è rappresentativo, la media del campione è

abbastanza simile alla media della popolazione. I due parametri differiscono in

base all’errore di campionamento: se estraessimo infiniti campioni dalla

popolazione, la distribuzione delle loro medie sarebbe una curva normale

distribuita attorno alla media della popolazione; e la deviazione standard viene

chiamato errore standard della media. Esso si utilizza per stimare un intervallo

di confidenza intorno alla media del campione entro il quale con una certa

probabilità rientrerà la media della popolazione; più l’intervallo è ridotto,

maggiore è la precisione della stima. La formula per calcolarlo: sigmam= sx

(deviazione standard del campione)/ radice quadrata di n (numerosità del

campione). L’errore standard della media diminuisce (e la precisione aumenta)

se la numerosità del campione cresce. Un altro tipo di campionamento è il

campionamento stratificato che consiste nel suddividere la popolazione oggetto

di studio in più tipologie di popolazioni omogenee rispetto a una caratteristica e

da queste estrarre campioni casuali semplici. Più le sottopopolazioni sono

omogenee minore sarà la numerosità del campione necessaria a garantirne la

rappresentatività. In questo caso l’errore standard della media è calcolato sulla

media ponderata. Altro tipo di campionamento è il campionamento a grappolo è

usato quando la popolazione oggetto di studio è già raggruppata (es. scuole,

aziende). Il campione si ottiene estraendo a caso una o più unità e considerando

elementi del campione tutti gli individui appartenenti a quella unità (es. tutti gli

alunni di una classe).

3- Calcolare gli indicatori statistici (media, varianza, attendibilità e validità)

4- Preparare le tavole di conversione dei punteggi grezzi in punteggi

standardizzati.

La trasformazione dei punteggi più semplice è in percentili e ranghi percentili. Lo

scopo è collocare il soggetto che ottiene un certo punteggio in una scala standard

(scala centilica cioè scala ordinale a 100 gradi), valutandone la posizione (rango)

rispetto agli altri soggetti dello stesso gruppo oppure confrontando la posizione dello

stesso soggetto in test diversi. Per rendere omogenea l’attribuzione del rango si

calcola il percentile con apposita formula con cui si valuta la percentuale di soggetti

che si collocano al di sotto o alla pari del soggetto in esame. A livello intuitivo la

distribuzione centilica è suddivisa in quattro quartili. La scala centilica ha dei vantaggi:

cioè la facilità di intuizione; e svantaggi: attraverso di essa otteniamo la posizione del

soggetto rispetto a altri ma non precisa quanto è ampio lo scostamento fra ciascun

grado della scala. La curva di distribuzione dei dati è deformata se riportata su scala

centilica. Tuttavia essa rappresenta l’unica alternativa quando la distribuzione dei dati

di riferimento non si può presumere approssimata alla distribuzione normale.

La più semplice modalità di standardizzazione dei punteggi grezzi è la trasformazione

in punti z. I punteggi sono trasformati in base al punteggio medio e alla variabilità del

campione di cui il soggetto fa parte. Un punto z adatta il punto grezzo su una scala

standard che ha media 0, coincidente con la media del campione normativo, e DV 1.

La formula sarà: z= (xì-X)/S. Il vantaggio di questa trasformazione è duplice: scala

omogenea dove è possibile confrontare soggetti diversi o punteggi dello stesso

soggetto in test diversi. Svantaggio: punteggi z negativi, che si ottengono quando il

punteggio grezzo si colloca al di sotto della media del gruppo. Soluzione convertire i

punti z in punti T, che hanno per convenzione media 50 e DV 10, in modo da eliminare

i segni negativi. Formula: T= 50 + (10z).

Punteggi stanine consentono di trasformare i punti z su una scala a 9 punti, con

media 5 e DV 2.

Punteggi QI trasforma i punteggi su una scala con media 100 e DV 15.

È importante chiarire che queste scale permettono la trasformazione dei punteggi su

scale a intervalli equivalenti.

V Modulo: Test cognitivi.

Prima di passare alla misurazione dell’intelligenza, bisogna cercare di definire questo

costrutto teorico.

Nel 1904 Spearman parlava di un’intelligenza generale, determinata e misurata

oggettivamente. Egli postulava l’esistenza di un fattore g, generale, di intelligenza, pur

ammettendo l’esistenza di abilità specifiche all’interno di questo fattore.

Nel 1920 Cattel si convinse che esistessero diverse forme di intelligenza, a lui risale la

distinzione tra intelligenza fluida (caratterizzata dalla capacità di risolvere problemi

nuovi, di comprendere relazioni e fare sintesi indipendentemente dagli apprendimenti

pregressi) e intelligenza cristallizzata (connessa alle conoscenze e alle competenze

acquisite con l’esperienza).

Nel 1938 Thurstone si opponeva a una concezione unitaria dell’intelligenza e parlava

di abilità mentali primarie, consistenti in abilità diversamente sviluppate nelle persone

come la comprensione verbale, la fluidità verbale, il ragionamento numerico, la

visualizzazione spaziale, la memoria associativa, la velocità percettiva e il

ragionamento. Già Thornidike ne aveva parlato come di abilità separate e poco

correlate tra loro.

Nel panorama più attuale si protende verso una struttura dell’intelligenze multiple.

Nel 1967 Guilford afferma che l’intelligenza è una complessa combinazioni di

contenuti, prodotti e operazioni diverse.

Nel 1981 Sternberg afferma la teoria triarchica secondo la quale si passa da

un’intelligenza generale a una più articolata con il passare dell’età.

Nel 1983 Gardner afferma l’esistenza di diversi componenti dell’intelligenza.

Anni ’90 Goleman afferma l’importanza della componente emotiva nell’intelligenza.

La valutazione tradizionale dell’intelligenza può includere dunque sia un elemento

valutativo generale sia un insieme di abilità specifiche da cui deriva il punteggio

globale.

Il primo tentativo di misurare l’intelligenza fu intrapreso da Binet e Simon. Il loro test

prevedeva il calcolo dell’età mentale. Gli autori avevano selezionato per ogni livello

d’età che andava dai 3 agli 11 anni, un serie di item riguardanti specifiche aree

cognitive che alle somministrazioni preliminari erano risolti dalla metà dei bambini. Il

bambino iniziava con le prove corrispondenti alla sua età cronologica, se venivano

superate gli venivano proposte quelle dell’età successiva, se non venivano superate,

gli venivano sottoposto quelle di età inferiore. Il test continuava fino a che non si

arrivava a un livello base (l’età in corrispondenza della quale tutte le prove erano

superate) e un livello tetto (l’età in corrispondenza della quale nessuna prova veniva

superata). La proporzione delle prove risolte ai livelli superiore a quello base

permetteva di pervenire all’età mentale del soggetto, espressa in mesi.

Quando il test di Binet Simon giunse in America, venne inserito da Stern, nella

versione americana del test chiamata Stanford-Binet, il Quoziente Intellettivo.

Calcolato dal rapporto tra età mentale/età cronologica per 100. L’età mentale

corrisponde alle capacità medie dei bambini di quell’età. Queste capacità medie sono

fissate a priori su base empirica al momento della costruzione e taratura del test.

L’uso di questa formula mostrò dei limiti. 1- diverso peso tra numeratore e

denominatore. Se il denominatore assume un valore più alto del numeratore. Il valore

del rapporto varia in proporzione dell’età cronologica, il rapporto non varia in modo

consequenziale. 2- arbitrarietà di stabilire per gli adulti un’età mentale di 16 anni.

Fu necessario ricorrere ad altri mezzi per il calcolo del quoziente intellettivo. Nel 1939

Wechsler mette a punto un test dove il QI è calcolato con il metodo della deviazione

dalla media (si parla di QI di deviazione). La procedura è la seguente: si fissa come

punteggio medio per ogni livello di età 100 con deviazione standard 15. Ogni soggetto

sottoposto al test è confrontato con i valori normativi della sua età, cioè con le

prestazioni dei soggetti del campione di standardizzazione del test che avevano la sua

stessa età. Quindi il test di Wechsler non prevede prove diverse per le varie età ma

prove uguali per tutte e valutate su un metro diverso in base all’età. Egli considera

l’intelligenza come capacità globale di agire in modo finalizzao, pensare razionalmente

e trattare efficacemente con il proprio ambiente. Ogni componente dell’intelligenza è

misurata separatamente da un subtest per cui ciascun soggetto otterrà un profilo

costituito dai punti standard nei singoli subtest. Ciò consente un doppio confronto.

Confronto normativo: confronto del punteggio del soggetto con la norma generale del

campione di riferimento. Quindi vedo se il soggetto si colloca sopra o sotto la media

generale sia a livello del QI totale sia a livello dei punteggi delle singole scale.

Confronto ipsativo o profilo: confronto le prestazioni dello stesso soggetto nelle diverse

scale, in modo da evidenziarne i punti di forza e debolezza. I sub test sono 11

suddivisi in due macro aree: verbale e di performance.

Sub test verbali: valutano le competenze legate alla capacità di comprendere,

elaborare e organizzare informazioni presentate in forma verbale. Essi sono:

- Informazione: valuta la conoscenza generale dell’individuo ottenuta sia in modo

formale che informale. Chi risolve bene questi test è attento all’ambiente e ha

una buona memoria a lungo termine.

- Memoria di cifre: misura la memoria a breve termine di una sequenza di numeri

e riflette la capacità di attenzione e concentrazione.

- Ragionamento aritmetico: richiede la soluzione di diversi problemi aritmetici da

svolgere mentalmente, non richiedono particolari abilità di calcalo ma la

capacità di ragionare con i numeri e la concentrazione.

- Comprensione: valuta la capacità di ragionare in base al senso comune e

l’abilità di esprimere un giudizio sociale in situazioni concrete.


PAGINE

30

PESO

68.87 KB

AUTORE

Fre15189

PUBBLICATO

9 mesi fa


DETTAGLI
Corso di laurea: Corso di laurea in scienze e tecniche psicologiche
SSD:
Università: Catania - Unict
A.A.: 2018-2019

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Fre15189 di informazioni apprese con la frequenza delle lezioni di Diagnostica psicologica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Catania - Unict o del prof Magnano Paola.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea in scienze e tecniche psicologiche

Riassunto esame psicologia dell'intervista e del questionario, Prof. Orazio Licciardello, libro consigliato Gli strumenti psicosociali nella ricerca e nell'intervento. Premesse epistemologiche e dimensioni applicative
Appunto
Psicologia dinamica - modelli della mente di Freud - Appunti
Appunto
Riassunto esame psicologia dei gruppi sociali (prima e seconda parte), Prof. Orazio Licciardello, testo consigliato L'identità della persona sorda. Basi teoriche e ricerche sul campo
Appunto
Il Cognitivismo 3
Appunto