Capitolo 1: L'ambizione di misurare la mente
Come e perché
In diversi ambiti è comune la necessità di valutare aspetti psicologici mediante l’utilizzo di diversi strumenti: osservazione esterna, intervista a traccia prefissata, questionario ecc. Il test (da molti considerato lo strumento diagnostico per eccellenza per valutare gli aspetti della psiche) include un aspetto essenziale che lo distingue da tutti gli altri: la possibilità di “misurare” questi aspetti.
Cosa si intende per misurazione?
Misurare vuol dire attribuire numeri ad oggetti ed eventi secondo determinate regole. Alle relazioni tra oggetti devono corrispondere relazioni tra numeri. Questa definizione è applicabile anche alla mente? Secondo chi ha inventato i test come strumenti di misurazione della psiche (definiti appunto psicometrici) la risposta è affermativa.
La nascita dei test in psicologia
Possiamo considerare precursori della psicometria le equazioni della psicofisica, con cui fisiologi dell'800 cercavano di applicare i metodi delle scienze esatte alle qualità psichiche. Tuttavia, mentre le prime quantificazioni miravano a trovare parametri comuni agli individui, l’idea di test come reattivo diagnostico nasce e si sviluppa con tentativi di misurare le differenze fra persone nella risposta a stimoli uguali. Galton (1883) dà un contributo notevole alla psicometria misurando numerose caratteristiche fisiche e psichiche.
La prima definizione di test mentali viene formulata nel 1890 da James McKeen Cattell. Ben presto nei confronti di questi tentativi di misurazione della psiche sorgono le prime perplessità, sia teoriche - la possibilità di quantificare “oggettivamente” aspetti della soggettività - sia applicative, dato che alle differenze individuali nelle capacità psichiche non si trovano corrispondere le attese differenze nelle consegne di queste capacità, ad esempio nel profitto scolastico. In realtà i primi test mentali misuravano solamente una parte delle abilità psichiche, essendo basati soprattutto sui tempi di reazione: solo in parte la riuscita nel successo scolastico o l’adattamento al contesto di insegnamento apprendimento sono connessi a queste specifiche abilità.
In Francia uno psicologo e un fisico, Binet e Simon, su incarico del Ministero dell’Istruzione, mettono a punto tra il 1905 e il 1908 un test in grado di discriminare gli allievi bisognosi di istruzione differenziata. L’obiettivo dichiarato è quello di separare le capacità intellettive misurate dal grado di istruzione, evitando prove simili a quelle scolastiche, come avveniva nel consueto approccio pedagogico. Le abilità misurate vanno dall’attenzione alla percezione alla memoria e al linguaggio. Queste abilità sono predittive del successo scolastico.
Gli stessi autori introducono il concetto di età mentale, definita come età rilevabile dal test e relativa alle capacità medie dei bambini di quell’età. Binet e Simon misero in guardia dall’utilizzo acritico di questa misura: i punteggi infatti possono essere resi poco attendibili da un margine di errore insito nella misurazione e dalla complessità e plasticità del concetto di intelligenza che si cerca di misurare. Binet avanza delle riserve sul fatto che ciò che misurano i suoi test siano davvero l’intelligenza e si limita a parlare di età mentale.
Nel 1916 Lewis Terman alla Stanford University appronta la versione americana del test, definita appunto Stanford Revision of the Binet-Simon Scale. Riprendendo una definizione dello psicologo tedesco Stern, introduce come esito della valutazione il quoziente intellettivo (Q.I.) definito dal rapporto fra età mentale ed età cronologica moltiplicato per 100.
Il contributo anglo-franco-tedesco trova la sua ampia diffusione nella pragmatica società statunitense, dove il test di Terman viene ripreso da Yerkes, presidente della American Psychological Association, e usato per la costruzione di 2 test che servono alla valutazione dei soldati da arruolare per la Prima Guerra Mondiale, distinguendoli per categorie in base appunto al livello di intelligenza. Nascono così i test Army Alpha (o Beta nella versione per analfabeti o non esperti della lingua inglese).
La definizione di test di prestazione massima viene introdotta da Cronbach nel 1949 ed è usata per distinguere i test di efficienza da quelli di personalità che sono definiti di prestazione tipica. Nel primo dopoguerra, negli Stati Uniti, le scuole e le aziende usano strumenti per la misurazione delle attitudini e delle capacità sia cognitive che di adattamento dei bambini e operai (si utilizzano questi strumenti per scopi selettivi o di esclusione sociale). Il rischio è di ammantare di presunta scientificità procedure di selezione o esclusione che hanno invece finalità extrascientifiche.
In seguito agli anni '60 l’American Psychological Association sente il dovere di mettere a punto specifiche norme su come costruire e usare i test. Queste norme (più volte revisionate) sono ancora in vigore e servono a regolamentare l’uso dei test.
Quantificazione nella psicologia
In che senso la quantificazione delle componenti della psiche è il presupposto essenziale per l’avanzamento della psicologia come scienza? Per rispondere occorre fare una distinzione tra:
- Misurazione che coinvolge aspetti psicofisici o neurofisiologici, facilmente isolabili e valutabili analiticamente;
- La valutazione di funzioni complesse, cognitive ed emotive, della mente umana.
Nel primo caso gli strumenti di rilevazione tradizionalmente usati sono quelli tipici del laboratorio di psicotecnica, che hanno contribuito al nascere della psicologia sperimentale come scienza autonoma.
Una seconda differenziazione riguarda lo scopo della misurazione:
- Valutare aspetti di efficienza cognitiva o di profitto, che richiedono dunque al soggetto la prestazione massima possibile;
- Valutare la situazione tipica del soggetto, che deve manifestarsi o descriversi come è, senza limiti di tempo e senza richiesta di efficienza nella prestazione.
Il primo è il caso dei test cognitivi, attitudinali o di profitto; il secondo quello dei test di personalità o adattamento.
Cos'è un test psicometrico?
Caratteristiche principali
1. Il test è un insieme di stimoli rigorosamente standardizzati. Singoli stimoli che compongono un test, denominati item, possono consistere in domande, richieste di prove grafiche o motorie o di prestazione di vario tipo.
2. Le modalità di somministrazione sono pure rigorosamente standardizzate:
- Le condizioni di presentazione delle prove (tempi per le risposte, sequenza) devono essere uguali per tutti;
- Le istruzioni da dare al soggetto, pure riportate nel manuale, non possono essere modificate;
- L’ambiente in cui il test è applicato (setting) deve essere privo di elementi di distrazione. Questa standardizzazione è fondamento dell’attendibilità del test, cioè la sua ripetibilità alle stesse condizioni in tempi luoghi diversi e della confrontabilità tra soggetti diversi che eseguono il test.
3. Gli stimoli sono rappresentativi di una certa funzione cognitiva o area della personalità. Il test è tanto più valido quanto più tale rappresentatività - stabilita su base teorica o verificata su base empirica - è adeguata, ossia si può essere certi che lo strumento rivela tutto e solo ciò che con esso si intende rilevare.
4. Le risposte del soggetto vengono codificate in modo obiettivo ricavandone dei punteggi. Per l’assegnazione dei punteggi (scores) si avvale di griglie o di schemi prefissati che accompagnano il manuale del test.
5. I punteggi sono convertibili in valori standard, in modo da uniformare i criteri di interpretazione. Il manuale di istruzioni deve riportare dettagliate istruzioni per la conversione dei punteggi grezzi (raw scores) in punti ponderati (scaled scores) e quindi confrontabili tra i diversi test.
6. I punteggi sono riferiti ad un campione normativo rappresentativo della popolazione da cui è tratto il soggetto sottoposto ad esame.
7. Il lavoro preliminare compiuto dagli autori del test per garantire la standardizzazione degli stimoli e dei criteri di assegnazione dei punteggi è definito taratura. La taratura del test deve essere riportata in modo chiaro nel manuale che accompagna il test.
8. Sulla base dei punteggi standard così ottenuti, e del confronto con la taratura, è possibile quantificare le differenze tra soggetti nelle prestazioni del test, o dello stesso soggetto in momenti diversi. La sensibilità del test consiste nel compiere in modo più accurato possibile questa differenziazione fra soggetti: un test troppo facile o al contrario troppo difficile, non sarebbe discriminante e quindi poco utile alla pratica.
Aspetti critici
1. Comprensione degli stimoli. Gli stimoli presentati devono essere comprensibili al soggetto.
2. Interazione fra somministratore del test e soggetto che lo esegue. La somministrazione del test avviene in un contesto relazionale in cui il soggetto deve essere motivato e chi somministra il test deve comportarsi in modo neutrale, ma non al pari di una macchina. Se la relazione è troppo asettica può non motivare il soggetto (specie un bambino o un anziano); se al contrario è troppo intensa può influenzare, in positivo o in negativo, la prestazione del soggetto.
3. Utilizzazione con soggetti problematici. In questi casi bisogna:
- Assicurarsi che il soggetto comprenda le richieste;
- Aumentare il numero di esempi e di eventuali esercizi di pratica;
- Programmare sedute brevi in modo da assicurare l’attenzione per tutto il tempo;
- Dare più rinforzi e incoraggiamenti;
- Non forzare il soggetto se manifesta rifiuti.
Capitolo 2: La psicometria
La costruzione e la taratura del test
Il lavoro di costruzione e taratura è essenziale per definire un buon test e questo lavoro va svolto preliminarmente da chi costruisce il test. Gli item vanno scelti con cura, magari con prove preliminari, perché rappresentino l’area psicologica da valutare e siano graduati in modo opportuno. Lo scopo della costruzione degli item è evitare che la risposta del soggetto risenta di un “errore” che inficia la valutazione in quanto non consente di stimare adeguatamente competenze o condizioni vere del soggetto stesso.
Punteggi veri e componenti di errore
Questo può essere tradotto in termini psicometrici, in una semplice formula che permette di distinguere, nella risposta del soggetto, una componente di variazione vera (pertinente cioè a quello che si intende misurare) e una di errore, spuria rispetto alla prima.
Vx = Vv + Ve
Dove:
- Vx = Variabilità del punteggio osservato
- Vv = Variabilità reale
- Ve = Variabilità dovuta all’errore
La variabilità vera dipende dalla maggiore o minore capacità del soggetto di rispondere effettuando la prestazione richiesta o di riferire dei suoi stati interni. L’errore può dipendere da diverse cause, relative sia alla fase di costruzione del test (stimoli non ben graduati o ambigui) che a quella di somministrazione:
- Non comprensione degli stimoli presentati o delle istruzioni;
- Distrazione al momento della risposta;
- Scarsa motivazione a cercare di dare la risposta migliore o più efficiente;
- Incapacità di riferire ciò che effettivamente si pensa o si prova;
- Deliberata tendenza all’inganno.
Può dipendere inoltre da ragioni del tutto casuali e imprevedibili: stanchezza o stato di salute del soggetto; temperatura e illuminazione del luogo entro cui la prova si svolge; inferenze ambientali come rumori o altri stimoli distraenti. Ciascuna di queste cause può essere ridotta nella costruzione del test (stimoli ben graduati; prove comprensibili; istruzioni chiare) e nella somministrazione (sollecitazione dell’attenzione, motivazione del soggetto, verifica del suo stato psicofisico e delle condizioni ambientali). Alcune delle fonti di errore potrebbero essere in realtà sistematiche, producendo quello che si definisce bias (es. un test costruito con un certo linguaggio, se applicato a persone che parlano solo dialetto, darà un errore sistematico di comprensione che abbasserà la prestazione del soggetto). Va ricordato che la componente di errore non può essere eliminata; essa va controllata mantenendola in dimensioni adeguate. Si può conoscere a priori quanto il test nel suo complesso è soggetto alla componente di errore, in modo da poter stimare il suo punteggio vero, che sarà compreso in un range attorno a quello reale più o meno ampio in base all’errore di misurazione. L’assunzione di base è che la media degli errori di misurazione sia zero, perché gli errori casuali (non sistematici) tendono ad annullarsi a vicenda nei grandi numeri, pure restando ovviamente presenti, e incidenti, nel singolo caso.
Quando un test è affidabile? Teorie classiche e nuovi approcci
Un test è affidabile quando elevata è la sua attendibilità, cioè l’accuratezza e la precisione con cui la variabile è misurata riducendo per quanto possibile gli errori di misurazione. Nei termini della variabilità di errore della prestazione, l’attendibilità (rxx) può definirsi come la proporzione di variazione vera rispetto a quella totale, che include anche quella di errore:
rxx = vv / (vv + ve) = vv / vx
Se consideriamo come indicatori delle variazioni la varianza osservata del test (sx2) e quella vera (sv2) la formula diventa:
rxx = sx2 / sv2
ed essendo la varianza vera ciò che resta togliendo dalla varianza totale quella di errore, abbiamo una formula in cui l’attendibilità può essere stimata a partire dalla varianza di errore se2:
rxx = 1 - (se2 / sx2)
Reciprocamente, l’errore di misura può essere dedotto conoscendo l’attendibilità del test:
se = sx√(1 - rxx)
L’errore (che corrisponde alla deviazione standard della distribuzione delle componenti di errore della misura) può essere usato per determinare entro quale ambito può trovarsi il punteggio reale, tenendo conto appunto del margine di errore di misurazione. Esempio: se il test ha attendibilità rxx = 0.80 e deviazione standard sx = 12, l’errore standard sarà:
se = 12√(1 - 0.80) = 5.37
Se in questo test il punteggio ottenuto da un soggetto è 60, quello reale si collocherà:
- Fra 60±5, cioè tra 55 e 65, se prendiamo come intervallo di fiducia quello di deviazione standard della distribuzione normale che corrisponde a un'area di probabilità di 68;
- Fra 60±(2x5), cioè tra 50 e 70, se l’intervallo di fiducia è più prudentemente calcolato in base a due deviazioni standard della distribuzione normale.
Modi diversi per stimare l'attendibilità
1. Attendibilità fra valutatori (interscorers reliability). Un modo di valutare l’attendibilità è far valutare gli stessi protocolli da più persone e correlare i punteggi assegnati. Più alta è la correlazione, meno incide l’errore di misurazione dovuto allo scoring, e quindi il test è affidabile con riferimento alle modalità di siglatura.
2. Ripetizione (test-retest). Un diverso metodo per valutare l’attendibilità è ripetere il test sugli stessi soggetti, a distanza non tanto breve che i soggetti possano ricordare le prove, ma neppure tanto distante da consentire variazioni dovute ad altri fattori. La correlazione tra le due somministrazioni costituisce il coefficiente di attendibilità test-retest, detto anche stabilità.
3. Forme parallele. Quando la ripetizione a distanza dello stesso test non è possibile, perché ad esempio si presume che possano subentrare fisiologiche variazioni nelle aree da valutare, oppure che il soggetto possa imparare dalla prima somministrazione, si procede confrontando due versioni parallele del test.
4. Divisione a metà (split-half). Un altro metodo, che non richiede due somministrazioni, è dividere a metà il test e confrontare le due metà per verificare se misurano la stessa cosa. Bisogna ricorrere alla divisione per item pari-dispari (odd-even). La somma dei punteggi della metà costituita dagli item pari viene confrontata con la somma degli item dispari. Si ottiene un coefficiente di correlazione che quantifica l’attendibilità con questo metodo, che viene detto coefficiente di equivalenza. Considerato che il coefficiente viene calcolato sulla metà degli item che compongono il test, è opportuno apportare una correzione che rapporti il valore ottenuto all’effettiva lunghezza del test. La correzione viene apportata mediante la formula di Spearman-Brown, che stima il coefficiente che si otterrebbe con un test di diversa lunghezza:
Rnxx = (n x rxx) / [1 + (n - 1)rxx]
Secondo questi 3 metodi citati, l’ipotesi è che se l’errore nella misurazione è basso, o comunque gli errori si annullano a vicenda in molteplici somministrazioni, la somiglianza fra le 2 prestazioni dovrebbe essere elevata. Dunque un indice di attendibilità elevato (superiore a 0.80) indica che l’errore dovuto ai fattori spuri o casuali è limitato; un valore insufficiente (inferiore a 0.60) indica che l’errore è eccessivo perché il test possa essere considerato affidabile.
5. Consistenza interna (internal consistency). Un altro modo di verificare l’attendibilità è calcolare quanto i diversi item che compongono il test siano omogenei tra loro e col punteggio totale. L’errore in questo caso consisterebbe nel fatto che alcuni item non corrispondono a quello che misurano gli altri item del test. Questa coerenza interna del test si può misurare mediante un indice definito da Cronbach Alpha, che confronta la somma delle varianze di tutti gli item con la varianza totale. Il presupposto è che la varianza del test corrisponderebbe alla somma delle varianze degli item che lo compongono.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Riassunto esame Psicometria, Prof. Di Nuovo Santo, libro consigliato Misurare la mente, Di nuovo
-
Riassunto esame Psicologia dei test di personalità, testing computerizzato. Prof. Santo Di Nuovo, testo consigliato…
-
Riassunto esame Diagnostica psicologica, Prof. Castellano Sabrina, libro consigliato Misurare la mente, S. Di Nuovo
-
Riassunto esame Diagnostica psicologica, Prof. Castellano Sabrina, libro consigliato Misurare la mente - Capitoli 1…