Psicometria
Attendibilità dei test: considerazioni pratiche
Attendibilità: quando è applicato ai test ha due significati:
- Stabilità di tempo
- Coerenza test-retest (rn)
Attendibilità test-retest
Misurazione. L'attendibilità test-retest viene misurata correlando i punteggi ottenuti dai soggetti che fanno il test in due occasioni distinte. Il coefficiente di correlazione misura il grado di accordo fra due insiemi di punteggi. Più sono simili, più è alto il grado di coefficiente di correlazione, che può variare da +1 (accordo perfetto) a -1 (discordanza totale). 0 indica che non c'è alcuna relazione fra i due insiemi di punteggi. Il quadrante del coefficiente è la misura dell'accordo fra i due insiemi di punteggi.
Fattori che influenzano la misurazione
Spesso l'attendibilità test-retest della maggior parte dei test psicologici è inferiore a 1 perché:
- Combinazione nei soggetti: la maggior parte dei soggetti si ricorda di come ha risposto la volta prima; per questo l'attendibilità sembrerebbe elevata. Per evitare queste difficoltà è consuetudine lasciare passare un intervallo di tre mesi fra le due sessioni di somministrazione dei test. Se i soggetti sono bambini, è probabile che siano avvenuti dei cambiamenti reali, l'attendibilità del test-retest apparirebbe bassa. Quindi per misurarlo con una buona variabile transitoria dovremmo tentare di attivare paura o rabbia in entrambe le occasioni. Se due misurazioni danno punteggi diversi, non c'è bisogno di considerare affidabile o l'una o l'altra. L'attendibilità di un test può risultare inferiore a 1 perché sono intervenuti dei cambiamenti reali. Quindi nel valutarlo dobbiamo prendere in considerazione il campione su cui è stata calcolata la natura delle variabili.
- Fattori che contribuiscono all'errore di misurazione. Esempio: certi soggetti al momento del test possono non essere nelle migliori condizioni, quindi fornire una prestazione ridotta. Questo è dovuto a indisposizioni fisiche (raffreddore, mal di testa, problemi familiari, emotivi, ecc.). Altri fattori sono: una sedia scomoda, penna o matita difettosa, il soggetto per sbaglio ha voltato due pagine per volta. Tutti questi eventi possono abbassare l'attendibilità.
In alcuni test è impossibile eliminare interamente queste fonti di errore e vanno menzionate:
- Istruzioni scadenti
- Codifica soggettiva: sono i test in cui l'assegnazione del punteggio (codifica) comporta una valutazione soggettiva. La maggior parte dei test psicologici utilizza item codificati oggettivamente.
- La possibilità di tirare a indovinare: se vengono utilizzati item a scelta multipla, c'è una gran quantità di item, gli effetti sono minimi.
Fattori che gonfiano o distorcono l'attendibilità test-retest
- Intervallo di tempo: lasciare uno spazio di tempo molto limitato fra le due prove. In questo caso la correlazione è gonfiata in quanto i soggetti si ricordano alcune delle loro risposte. Si raccomanda un intervallo di almeno tre mesi per una stima plausibile dell'attendibilità del test-retest.
- Livello di difficoltà degli item. Un'altra fonte di distorsione è importante nei test di abilità, dove gli item presentano livelli di difficoltà. Item molto difficili hanno lo stesso effetto sull'attendibilità test-retest, in quanto sarebbero sempre impossibili per i soggetti.
- Campionamento dei soggetti: è difficile sottoporre degli schizofrenici a un test. Con un tale campione è inevitabile che l'attendibilità sia bassa. Sarebbe fuorviante un coefficiente di attendibilità derivato da un campione normale per un test progettato per l'uso su un campione di soggetti anormali.
- Dimensione del campione: maggiore è il numero dei soggetti, minore è l'errore standard della statistica. È essenziale che i coefficienti di attendibilità test-retest siano derivati da un campione sufficientemente ampio da minimizzare quell'errore statico. I campioni dovrebbero consistere di almeno 100 soggetti.
Si deve distinguere fra popolazione e campione. Se stiamo interessati alle differenzazioni dell'intelligenza fra maschi e femmine di 12 anni, allora avremmo a che fare con due popolazioni: dodicenni maschi e femmine. Bisogna scegliere dei campioni che devono essere abbastanza ampi da minimizzare gli errori standard. La dimensione non basta a garantire la bontà di un campione, essa abbassa semplicemente l'errore standard. Se il campione non è rappresentativo della popolazione, ogni statistica che ne deriva sarà distorta. I campioni devono essere numerosi e rappresentativi delle loro popolazioni.
Conclusioni sull'attendibilità test-retest
Una correlazione di 0,8 è già un valore minimo. Per poter essere affidabile le due prove devono essere separate da un intervallo di almeno tre mesi e i soggetti devono costituire un campione ampio e rappresentativo della popolazione per la quale il test è stato concepito e devono comprendere almeno 100 soggetti.
Attendibilità come coerenza interna
Coerenza interna: quando questa risulta bassa, se una parte del test sta misurando una variabile è impossibile che le altre parti del test misurino la medesima variabile. Se un test deve essere valido, cioè se misura davvero ciò che con esso si intende misurare, allora la coerenza interna deve essere elevata. Un'elevata coerenza interna è un prerequisito di una validità elevata. (Kattell) È necessaria ma non sufficiente per dei buoni test. Il miglior risultato si otterrà quando ogni item correla positivamente con il punteggio totale e zero con ognuno degli altri item. Un test così dovrebbe avere una coerenza interna bassa.
Misurazione dell'attendibilità come coerenza interna
Il coefficiente alfa è il miglior indice di coerenza interna. Possiamo descrivere una semplice approssimazione all'alfa che è stata usata dai costruttori di test prima dell'era dei calcoli rapidi: attendibilità split-half (divisione a metà): il test viene diviso a metà e le due metà correlate fra loro. La divisione si può fare separando la prima o seconda parte del test o gli item pari da quelli dispari. Il secondo metodo è importante nei test di abilità dove gli item sono spesso disposti in ordine di difficoltà: la correlazione fra una parte facile e una difficile può essere bassa.
Teoria e metodo psicometrico
- Si impiega un solo metodo di divisione a metà e ogni suddivisione darà stime diverse dell'attendibilità. Le divisioni pari-dispari e prima parte e seconda parte sono scelte abbastanza arbitrarie, usate solo perché sono comode. Questo è un difetto ovvio dell'attendibilità split-half.
- L'attendibilità è legata alla lunghezza del test. Più un test è lungo più è attendibile. L'attendibilità split-half è sempre una sottostima dell'attendibilità vera. Per compensare questo difetto è stata introdotta una formula di correlazione: la formula di Speraman-Brown. È improbabile che test con meno di dieci item siano altamente attendibili. Questo è il numero minimo di item per un test attendibile.
Importanza dell'attendibilità come coerenza interna
- Le possibilità di correlazione del test sono limitate dall'attendibilità. La correlazione di un test con una qualsiasi variabile non può essere più alta della correlazione che il test ha con se stesso. L'attendibilità come coerenza interna pone un limite alla validità del test dato che questa è misurata dalla correlazione del test con qualche criterio. Idealmente l'attendibilità deve essere alta, intorno a 0.9, soprattutto per i test di abilità. I coefficienti alfa non dovrebbero mai cadere al di sotto di 0.7.
- La correlazione della bassa attendibilità: se sono basse, la correlazione fra i test ne risulti artificialmente attenuata e si possono introdurre delle correzioni per tale attenuazione.
- Errore standard di misurazione: è usato per stabilire delle zone di confidenza intorno al punteggio ottenuto in un test. La media della distribuzione sarebbe la migliore stima del suo status sulla variabile. È la stima della deviazione standard (o scarto quadratico medio) dei punteggi di una persona che ha fatto un altro numero di prove. Le deviazioni standard, DS o sigma: è una misura della varianza di un insieme di punteggi, cioè la loro discostamento dalla media. Ci permette di stabilire gli intervalli di confidenza per un certo punteggio ottenuto, con il 68% dei punteggi compresi fra il punteggio ottenuto e un errore standard. Se questo intervallo è piccolo possiamo aver fiducia che il punteggio è accurato. Quanto più è alta l'attendibilità, più basso è l'errore standard.
Attendibilità per forme parallele
Spesso è utile avere diverse versioni dello stesso test. Per rendere possibile i confronti dei punteggi, le correlazioni fra le varie forme dovrebbero essere elevate. Una correlazione del genere è chiamata attendibilità per forme parallele: quando cade al di sotto 0.9 è difficile assumere che i punteggi siano comparabili.
Relazione fra i tre tipi di attendibilità
L'attendibilità come coerenza interna coinvolge la:
- Relazione degli item in un test e quelli considerati un campione casuale di un inverso o dominio item.
- L'attendibilità per forme parallele è simile, ma gli item sono collocati in due test invece che uno solo.
- L'attendibilità test-retest è coerenza interna, una correlazione degli item all'interno di un test, ma in questo caso gli item sono somministrati in due occasioni.
Formule
Coefficiente alfa: coefficiente di coerenza interna: rkk = k / k-1 [1 – epsilon sigma i2 / sigma i2]. Rkk: il coefficiente alfa di un test con k item. K = è il numero di item. Sigma i2 del singolo item e sigma i2 = varianza del test.
Correzione dell'attenzione dovuta a inattendibilità: r(corretta): r12/√r11√r22. R12 = correlazione ottenuta fra i test 1 e 2. R11 = l'attendibilità del test 1. R22 = l'attendibilità del test 2.
Errore standard di misurazione: sigma misur = sigma x √(1 - rxx). Sigma x = deviazione standard del test x. Rxx = è la sua attendibilità.
Capitolo 2. La validità dei test psicologici
L'attendibilità è necessaria affinché il test sia valido, anche se in alcune circostanze (particolari) un'alta attendibilità intesa come coerenza interna può portare a un abbassamento della validità.
Il significato della validità: non esiste un singolo coefficiente di essa per un test. Questo perché un test è sempre valido per un qualche scopo e per questo risulterà più o meno valido a seconda delle circostanze. (Vernon 1960).
Validità esterna
È valido se sembra misurare ciò che dichiara di misurare. Il vantaggio è che offre a un test che può incrementare la motivazione dei soggetti. Svantaggio: incoraggia la distorsione deliberata soprattutto nella selezione. I soggetti possono indovinare cosa sta misurando un test esteriormente valido e questo può indurli a mentire o a distorcere deliberatamente le risposte, soprattutto nella selezione del personale. Non ha alcuna relazione con la validità vera. Nel costruire un test non valido bisogna fare attenzione a evitare che appaiano assurdi, e cercare di renderli interessanti per i soggetti.
Validità concorrente
Se si può mostrare che correla altamente con un altro test della stessa variabile somministrato contemporaneamente. Le correlazioni al di sopra di 0.9 sarebbero il limite superiore della maggior parte dei test, ma se i coefficienti venissero corretti per attenuazione dovuta all'inattendibilità, allora quelle correlazioni si approssimerebbero all'unità, cioè i test sarebbero identici e verrebbe dimostrata una validità perfetta. Se il criterio è un test di riferimento per la variabile da misurare, allora la correlazione dovrebbe essere la più alta possibile, cioè intorno a 0.9. Nella pratica le correlazioni al di sopra di 0.75 sono già considerate come un buon sostegno per la validità concorrente di un test in cui il criterio è un test di riferimento.
Problemi dove esistono test di riferimento
Due sono i test di intelligenza individuali accettati come misure di ciò che gli psicologi intendono per intelligenza: la scala di Wechsler e lo Stanford-Binet. Entrambi i test risalgono a oltre mezzo secolo fa ed essi non si adattano bene ai concetti moderni di intelligenza, sia fattoriale che cognitiva. Nell'area della misurazione della personalità, gli studiosi sono sempre più convinti che due variabili, neuroticismo (o ansia) ed estroversione, sono importanti. L'Eysenck Personality Questionnaire (EPQ): è possibile utilizzarlo come test criterio. Ogni diverso test deve avere qualità speciali che lo differenziano dal test criterio. Dove esistono dei test criterio di validità riconosciuto, la validità concorrente è una misura utile della validità del test. Le correlazioni devono essere elevate (0.75 è il minimo) e il test deve presentare qualche vantaggio rispetto al test criterio.
Problemi quando non esistono test di riferimento accettati
Nella gran maggioranza dei casi i test misurano una variabile per la quale non esiste un test criterio con validità accettabile. Nella pratica quotidiana, per stabilire la validità concorrente di un test sperimentale, dobbiamo correlarlo con una o più misure di validità dubbia. Contentarsi di avere correlazioni moderate, intorno a 0.4 o 0.5. La validità concorrente è utile solamente quando esistono buoni test criterio. Altrimenti gli studi sulla validità concorrente vanno considerati come aspetti della validità di costrutto.
Validità predittiva
Un test presenta questa se sarà in grado di predire un qualche criterio. È un buon sostegno all'efficacia di un test. Le difficoltà sorgono da un problema: trovare un criterio preciso per la predizione. La correlazione che ci si può aspettare varia da 0.3 a 0.4 e può essere considerata come prova di validità predittiva del test. Ci sono diversi punti importanti:
- Misurazione del criterio
- L'omogeneità riduce o attenua le correlazioni.
- Si sostiene che la correlazione tra test QI e successo accademico non prova la validità del test.
Una buona misura della sua (neuroticismo) validità sarebbe la sua correlazione, dopo uno o due anni, con il criterio costituito dall'ammissione a un reparto psichiatrico per trattamento a cui si potrebbe aggiungere la fruizione da parte di operatori di competenza. I pazienti psicotici dovrebbero venir esclusi, dal momento che si suppone abbiano punteggi alti nello psicoticismo piuttosto che nel neuroticismo. Questo suggerisce che un criterio per la scala psicoticismo potrebbe essere la diagnosi di una psicosi di qualunque tipo, non è corretto poiché la scala P è una misura dell'insensibilità. L'estroverso viene solitamente definito come: espansivo, socievole, rumoroso, avventuroso e allegro. Molte variabili psicologiche sono di questo tipo, tali che è impossibile stabilire una validità predittiva convincente.
Validità di contenuto
È applicabile solo a un piccolo insieme di test dove il dominio degli item è particolarmente ben definito. Test di profitto e di abilità. Test musicale: potremmo presentare il test a un certo numero di musicisti. Esiste una buona misura di accordo riguardante le abilità specifiche e la conoscenza di base, così come nel caso delle abilità linguistiche e matematiche. In un certo senso si potrebbe pensare che la validità di contenuto sia poco più di una forma elaborata di validità esterna, ma non è così. Questo tipo di item può risultare distorto per volontà deliberata di mentire, o per scarsa capacità introspettiva, desiderio di fornire una risposta socialmente desiderabile o aderire agli item al di là del loro contenuto, o per ignoranza: un soggetto facile alla paura potrebbe considerare normale un livello d'ansia che per altri è intollerabile, e fornire perciò una risposta negativa. Anche quando un test ha una validità di contenuto chiara, è consigliabile dimostrare che è valido anche con altri mezzi. La validità predittiva è richiesta solo perché può accadere che un test che ha contenuto valido sia invalidato da istruzioni insufficienti o modalità di risposta inadeguate. In realtà la validità a cui mirare è quella di contenuto; essa però va completata con prove di validità concorrente e predittiva.
Validità incrementale e differenziale
Forme abbastanza specializzate di validità. Un test che correla solo moderatamente con il criterio non sia utile. Se il test avesse una correlazione uguale a zero con tutti gli altri test della batteria, la correlazione con il criterio aggiungerebbe nuove informazioni e sarebbe di grande valore. Quando questo avviene il test ha una validità incrementale. Non esiste un solo coefficiente di validità ma che un test è sempre valido per un qualche scopo. Il metodo statistico usato per dimostrare la sua validità incrementale è la regressione multipla.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.