Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

correlazioni diverse in funzione della vicinanza all’interno del test di item che possono essere

straight o reverse)

2. DESIDERABILITA’ SOCIALE: si ha quando i soggetti tendono a dare risposte non

veritiere, dimostrandosi migliori di ciò che si è secondo ciò che è socialmente desiderabile.

Secondo Edwards è “la tendenza a rispondere ai test in modo da dimostrare il meglio di se”

Fattori che possono scaturire desiderabilità:

-relazioni faccia a faccia col somministratore

-sapere che le risposte saranno controllate

-contesto di somministrazione

-contenuti

-soggetti

-formulazione che può trarre i soggetti a rispondere in modo desiderabile

Si può evitare garantendo l’anonimato.

ITEM PER I TEST DI PRESTAZIONE MASSIMA (performance)

Richiede al soggetto di dare il meglio di se, e i cui item prendono una risposta corretta. Domande

aperte o chiuse? La prima cosa da parte nella costruzione di un test è il modo in cui deve essere la

risposta. Le domande aperte richiedono un processo di memoria di rievocazione (ricorda

verbalmente qualcosa di studiato o vissuto), la rievocazione può essere di 3 tipi: 1. Libertà (senza

che siano fornite indicazioni), 2. Guidata (recupero mediante indici o suggerimenti (cues)) 3. Seriale

(recupero in base a un ordine stabilito). Le domande CHIUSE, richiedono un processo di memoria

diverso ovvero quello del riconoscimento, consiste sulla base di più alternative indicare quella

corretta. Queste sono positive per la felicità con cui permettono di preparare domande, risposte e

velocità di correzione, però il soggetto potrebbe tirare a indovinare. Le domande APERTE,

permettono di ridurre la possibilità di risposte a caso, sono utili negli studi esplorativi, per capire

cosa i soggetti pensano riguardo un argomento e per creare poi gli item, altro poi è quello di potersi

muovere con più facilità tra le domande, e sarebbero preferibili per i test di prestazione massima, il

problema è che serve più tempo per correggerli.

I test di prestazione massima si distinguono in INTELLIGENZA, ABILITA’ e ATTITUDINI.

INTELLIGENZA: Spearman individuò un fattore generale di intelligenza (g) e Thurstone individuò

7 abilità primarie. Cattell parlò dell’esistenza di due tipi di intelligenza: I. FLUIDA che consiste

nella capacità ed efficienza di elaborare le info, è in parte modificabile e si misura mediante item di

influenza, memoria di cifre e flessibilità di chiusura. 2. CRISTALLIZZATA è una capacità

definita dalla cultura nella quale l’individuo è immerso. Si misura tramite item verbali,numerici,

ecc… I test attitudinali sono molto impiegati in ambito lavorativo per fare ad es. selezione di

candidati. Le attitudini possono essere considerate misto tra predisposizioni naturali e idoneità per

qualcosa. Al livello quotidiano si sente meno parlare di test di abilità.

ANALOGIE: item per i test d’intelligenza, abilità e attitudini. Consistono nel completare la seconda

parte di una proposizione scegliendo tra alternative. Il soggetto deve dedurre le relazioni, questo

tipo di item può permettere di ottenere più che altro una misura d’intelligenza cristallizzata poiché i

contenuti risentono dell’influenza culturale. Le analogie possono riguardare relazioni tra parole,

numeri, lettere o figure. Soprattutto gli item numerici sono quelli che tendono a ridurre l’influenza

della cultura e puntano all’analogia logica, quindi sull’intelligenza fluida.

ITEM A ESCLUSIONE :consiste nel fatto che i soggetti da un elenco di elementi, in qui tutti gli

elementi ne fanno parte tranne uno. Compito del soggetto individuare l’intruso. In un certo senso

può essere interpretato come una variante dell’analogia in quanto si deve trovare sempre una

relazione che lega gli elementi. Problema i cui incorre questo item è quello di AMBIGUITA’, in

quanto la risposta corretta può non essere una sola oggettiva.

ITEM A SEQUENZA: consiste nel completare l continuazione di una sequenza. Sono tra i più

diffusi nei vari test d’intelligenza possono essere item verbali, numerici, visivi. Versione più

complessa di item a sequenza visivi sono le MATRICI PROGRESSIVE DI RAVEN uno dei più

diffusi test dell’intelligenza fluida le versioni di item di tipo visivo dovrebbero risolvere il problema

della cultura. 9

INFORMAZIONE GENERALE: item di cultura generale che non misurano l’intelligenza e

possono riguardare diversi ambiti(letterario, politico ecc…)

ITEM DI ABILITA’ VERBALE: misura principalmente l’intelligenza cristallizzata. Possono

richiedere parole che iniziano con una data lettera in un massimo di tempo, significato, sinonimo,

completare frasi, selezionare due parole in un insieme che siano tra loro affini.

ITEM VERBALI DI RAGIONAMENTO: riguardano aspetti di ragionamento logico: sillogismi,

inferenze sintattiche(dedurre la forma sintattica di parole senza senso), discendenze(dedurre

relazioni di parentela), raggruppamento numerico, insiemistica.

ITEM NON VERBALI: stimoli non verbali, ricostruzione di figure di segni con cubi trovare

l’uscita da un labirinto(culture free).

ITEM DI COMPRENZIONE DEL TESTO: item legato prettamente all’aspetto verbale. Viene

presentato un testo e si verifica sulla base di domande se la persona è in grado di fare inferenze su

ciò che ha letto. La lunghezza del testo è variabile.

ITEM PER I TEST DI PROFITTO (achievement tests): sono quei test che si utilizzano per valutare

l’esito di un processo d’apprendimento(compii in classe, esami). In questo ambito l’item ha risposta

multipla è quello più utilizzato. PRO: possibilità di delegare la somministrazione, scaling del test al

pc, facilità di correzione, offrire una valutazione oggettiva, somministrazione prove a un elevato

numero di persone. CONTRO: avvantaggiamo chi studia poco, o a memoria. (le risposte aperte

hanno tempi lunghi e difficoltà di comprensione, ma prevengono situazioni che avvantaggiano chi

non studia). La bravura sta anche all’insegnate di scegliere al meglio item adatti che siano

fondamentali. Il TEST INVALSI è un test che ha il fine di valutare gli studenti e il loro

apprendimento al termine del 3° anno della scuola media. I contenuti valutati anche da

psicometristi. In America studenti e alunni sono così valutati.

ITEM V o F: affermazioni che possono essere vere o false in relazione a quanto appreso. Presentano

sia pro che contro. Pro permette di vedere chi studia o no a memoria valutando la capacità di

ragionamento.

ITEM A SCELTA MULTIPLA: più diffusi nei test di prestazione massima.

ITEM AD ABBINAMENTO: vengono presentate due liste di elementi, quelli della 1° lista vanno

abbinati a quelli della seconda. Per evitare risposte ad esclusione mettere più elementi non inerenti

nella lista.

LINNE GUIDA PER LA FORMULAZIONE DI ITEM DI PRESTAZIONE MASSIMA

L’item di prestazione massima a scelta multipla è diviso in due parti:

1. ITEM STEM (testo che pone la domanda/problema)

2. ALTERNATIVE DI RISPOSTA (corretta, sbagliata detta anche DISTRATTORE)

L’EDUCATIONAL TESTING SERVING (’63) ha formulato le regole per la costruzione degli item.

1.formulare i problemi in modo chiaro, semplici, evitare parole inutili

2.formulare distruttori tutti ugualmente attraenti per chi non conosca la risposta sbagliata

3.uso sensato di distruttori umoristici, devono essere solo semplici aggiunte a quelli seri

4.evitare suggerimenti impliciti con domande insolite

5.evitare che la risposta di un item sia nell’item stem di un’altra.

STRUTTURARE IL TEST. È importante non solo strutturare buoni item ma anche il soggetto a

rispondere sinceramente, e creare un clima sereno. Importante la prima cosa con cui i soggetti

dovrebbero entrare in contatto è un test che gli fornisca delucidazioni, secondo cui decidere se

sottoporsi al test, questo documento prende il nome di CONSENSO INFORMATO, prevede qual è

lo scopo della somministrazione in che modo vengono raccolti i dati e chi vi avrà accesso. Perché il

test è una comunicazione privilegiata tra soggetto e psicologo per cui bisogna garantire massima

riservatezza. Se il partecipante è volontario bisogna esordire con un ringraziamento, il soggetto

deve esssere motivato a impegnarsi e rassicurato. Specificare nel caso di test di prestazione

massima che vi è solo una risposta corretta, in un limite di tempo (se c’è) mentre nei test di

prestazione tipica dire che non esistono risposte giuste o sbagliate, ma solo personali. Rassicurare

l’anonimato e il rispetto della privacy. Prima degli item inserire CONSEGNE e ISTRUZIONI che

specificano come fornire le risposte, in che modo compilare il test, è necessario che queste info 10

siano chiare ai fini del’’attendibilità del test. Cose che possono motivare il sogg a impegnarsi alla

compilazione possono essere: -LAYOUT: come il test si presenta graficamente, deve trasparire la

serietà. –EVITARE STAMPA FRONTE E RETRO, poiché i soggetti più sbadati potrebbero non

accorgersene, se si mette scriverlo. –FORMULARE ITEM IN MODO LOGICO E FACILE DA

SEGUIRE.

Cap. 4 La valutazione preliminare degli item di un test

Consiste in unna prima valutazione degli item di un test, se non sono adeguati, bisogna ristrutturare

il test e ricominciare da capo. Una volta completata la scrittura degli item è fondamentale non

saltare la valutazione della VALIDIA’ DI CONTENUTO e di FACCIATA. (validità diversa da

quella di ricerca, consiste nella capacità di un test di misurare ciò che vuole misurare). La validità si

suddivide in più tipi:: ad es.: quella di CRITERIO e di COSTRUTTO prevedono analisi statistiche,

mentre quella di CONTENUTO e di FACCIATA danno ruolo più marginale alla statistica, per

questo la loro valutazione viene spesso ignorata, ma ciò comporta errori nella procedura di

RAFFINAMNETO DEL TEST(selezione degli item che arriveranno a far parte della versione finale

del test) in cui questi due tipi di validità hanno ruolo importante. Dopo ciò lo step successivo

prevede l’analisi preliminare del test, per verificare se lo strumento è adatto e se gli item sono

adeguati al costrutto, si somministra il test a un campione di almeno 100 soggetti (non

sottoponendolo subito ad un ampio raggio) e si verifica statistica e caratteristiche psicometriche,

questa fase è detta anche ANALISI DELL’ATTENDIBILITA’ DEGLI ITEM.

VALIDITA’ DI CONTENUTO “è il grado in cui gli elementi(item) di uno strumento di assessment

sono rilevanti e rappresentativi del costrutto target, per un particolare scopo di valutazione” (Hayes

e coll.). Occorre fare una distinzione tra RILEVANZA e RAPPRESENTATIVITA’.

Rilevanzadi uno strumento di misura, si riferisce a quanto gli item sono appropriati per la

valutazione del costrutto-oggetto del test. Rappresentatività di un test grado in cui gli item

rappresentano gli interi aspetti e sfaccettature del costrutto e riescono a capire adeguatamente il

dominio di contenuto. nell’assessment la validità di costrutto varia in base alla definizione di

costrutto, infatti è un aspetto critico per i costrutti concettualmente vaghi o con inconsistenti

definizioni.

Fattori per valutare la rilevanza e rappresentatività degli item: 1.Uso che si intende del test e

inferenze che si intende trarre dai dati ottenuti (es. se il test è di screening (strategia di indagine

diagnostica) di valutazione di un esito di trattamento). 2.Tipo di comportamento che si intende

valutare (es. se è tipico o atipico) 3.Parametro di interesse (cosa si intende misurare

frequenza/intensità) 4.Popolazione target (su quale popolazione si basa lo strumento?

Bambini/adulti) 5.Dominio concettuale (com’è definito il costrutto?, in quale cornice di riferimento

teorica?) 6. altra caratteristica importante è la sua Natura Dinamica, consiste nel verificare la

validità temporale, cioè quanto il test è adeguato a essere usato nel tempo ( vi sono alcuni item che

non sono più adeguati nel contesto storico/culturale, da qui è utile un riesame periodico della

validità di contenuto dei test è in una loro eventuale revisione, per evitare influenze circa

caratteristiche degli individui tratte da strumenti obsoleti.

Due importanti caratteristiche della validità di contenuto sono le CORRISPONDENZE:

-CORRISPONDENZA METODO-MODALITA’: cioè tra il metodo di somministrazione degli item

utilizzati e il costrutto, se è appropriato.

-CORRISPONDENZA METODO-FUNZIONE: grado in cui il metodo di assessment è appropriato

agli scopi della valutazione.

Nell’assessment bisogna far un quadro completo che consiste in un unione di strumenti

(colloquio,intervista, test ecc…) che servono a comprendere meglio il quadro completo del soggetto

(necessità di un assessment multi-metodo)

Quattro componenti della validità di contenuto fondamentali secondo Fitzpazrick sono:

1.CAMPIONAMNETO DEL DOMINIO è il grado in cui ogni item del test corrisponde a un

dominio di contenuto. E si divide in: -CAMPIONAMENTO DEL CONTENUTO, grado in cui

l’insieme di item rappresenta il dominio di contenuto di interesse. –CAMPIONAMENTO DEL 11

COMPORTAMENTO, riguarda il grado in cui le risposte di un test costituiscono un campione

adeguato dei comportamenti che il test vuole misurare.

2.RILEVANZA DEL DOMINIO quanto il dominio di contenuto che definisce una misura è

rilevante rispetto all’universo concettuale. –RILEVANZA DEL CONTENUTO (es. quali argomenti

del corso di psicometria sono più rilevanti rispetto a quello che ne è lo scopo?) –RILEVANZA DEL

COMPORTAMENTO (grado in cui i comportamenti valutati tramite il test sono rilevanti per

l’universo di comportamenti che si vuole andare a valutare).

3.CHIAREZZA DEL DOMINIO chiarezza con cui i domini di contenuto di una misurazione

vengono definiti. Uno degli scopi per perseguire la chiarezza del dominio è di massimizzare la

capacità del test di produrre risultati replicabili, (cioè che generino lo stesso esito quando la stessa

misurazione viene eseguita sullo stesso soggetto).

4.QUALITA’ TECNICA DEGLI ITEM gli item devono essere ben formulati e chiari per poter

essere catalogabili in un dominio e non in altri. Perché un item mal formulato con difetti non è

rappresentativo di nessun dominio di contenuto.

LINEE GUIDA PER OTTENERE LA VALIDITA’ DI CONTENUTO ADEGUATA

1.il dominio di contenuto deve riferirsi a comportamenti che hanno un significato universalmente

condiviso.

2.definire accuratamente dominio e sfaccettare (facets) del costrutto e sottoporle a validazione di

contenuto prima di sviluppare altri elementi dello strumento di valutazione (definire cosa è incluso

o escluso nella definizione del costrutto).

3.sotoporre tutti gli strumenti a validazione di contenuto (sia istruzioni che scale di misura che

layout)

4.per la generazione inutile di item e degli altri elementi considerare il parere di esperi e

popolazione target (giudici)

5.impegnare più giudici per la validità di contenuto e quantificare i giudizi utilizzando procedure

quantitative.

6.esaminare la rappresentazione proporzionale degli item

7.riportare i risultati della valutazione di contenuto quando si pubblica un nuovo strumento di

valutazione (possono aiutare chi utilizza il test a valutare il costrutto inadeguato).

8.utilizzare le successive analisi psicometriche per il raffinamento dello strumento di valutazione.

La validità di contenuto ci permette di stabilire il grado in cui gli item di un test sono rilevanti e

rappresentativi dei costrutto target per uno scopo di assessment. E’ applicabile a tutti i metodi di

valutazione ed è la prima cosa da fare.

VALIDITA’ DI FACCIATA non dovrebbe essere confusa con quella di contenuto. consiste nel

“grado in cui gli item di un test sembrano misurare il costrutto che intendono misurare” (Anastasi).

Questa non è una validità nel senso stretto del termine non si riferisce a ciò che il test effettivamente

misura, ma a cosa sembra misurare superficialmente. Riguardo al fatto che il test sembri valido agli

esaminati che lo compilano, al personale amministrativo che ne decide l’impegno e ad altri

osservatori non tecnicamente formati. (si basa sull’apparire valido). La principale ambiguità di

questa validità riguarda: Chi deve valutarla? Esperti o soggetti? O entrambi? Inizialmente è stata

considerata appannaggio degli esperti con il tempo il focus si è spostato su 3 gruppi principali di

potenziali giudici: -persone –utilizzatori del test –opinione pubblica.

LO STUDIO PRELIMINARE momento della somministrazione del test ad un gruppo di soggetti in

modo da raccogliere i dati che devono essere sottoposti ad analisi statistiche.

RACCOGLIERE I DATI il primo problema da risolvere nella raccolta dati è quello relativo al

campionamento dei soggetti. Il problema non è tanto l’ampiezza, ma la rappresentatività del

campione. Il campione è un insieme di elementi selezionati da una popolazione(universo) secondo

una procedura detta campionamento, il cui scopo è di ottenere una rappresentazione in scala ridotta

delle 2 popolazioni target(d’interesse), in modo di poter generalizzare i risultati osservati nel

campione tramite procedure statistiche. In statistica per popolazione s’intende sia persone che

animali, piante, qualsiasi elemento misurabile. Vi sono casi in cui la popolazione è perfettamente

indagabile e casi in cui non lo è. Per quanto riguarda il numero dei soggetti, più ii soggetti sono e 12

meglio è, ma per avere analisi preliminari è meglio basarsi su 100/120 soggetti massimo perché c’è

il rischio che il test possa subire modifiche. La popolazione target si identifica in base allo scopo del

test. Altro passo per la progettazione del campionamento è decidere i CRITERI D’INCLUSIONE e

ESCLUSIONE DEL CAMPIONE, per questo si utilizzano schede socio-demografiche. Ciò è

importante soprattutto nel campionamento di popolazioni specifiche(in quelle generali meno). Per

sapere se rispetto a caratteristiche socio-demografiche esistono caratteristiche che i soggetti devono

avere è necessario somministrare insieme al test una SCHEDA SOCIO-DEMOCRATICA, che ci

consente di raccogliere le info necessarie per decidere se includere il soggetto nel campione o no

però solitamente questa procedura viene svolta a posteriori in quanto non si può impedire al

soggetto di compilare il test a scopo di ricerca soprattutto se volontario.

ANALISI DEGLI ITEM raccolti i dati occorre inserirli a mano in un database. Dai risultati delle

analisi statistiche per valutare l’appropriatezza psicometrica dell’item e lo scopo prefissato ma non

deve essere l’unico criteri per decidere se mantenere o no l’item nell’item pool, i risultati delle

analisi statistiche infatti vanno integrati con considerazioni di ordine teorico basati sulla centralità

dell’item rispetto alla definizione del costrutto, agli scopi della misurazione e al modo in cui l’item

è stato formulato e costruito.

ANALISI DEGLI ITEM PER TEST DI PRESTAZIONE MASSIMA

DIFFICOLTA’ DELL’ITEM la prima e la più ovvia caratteristica da indagare nell’item di

prestazione massima è il LIVELLO DI DIFFICOLTA’ (p errata): proporzione di soggetti che non

risponde correttamente all’item. Il livello di difficoltà si ottiene:

p errata = n° dei soggetti che non rispondono correttamente all’item / n totale di soggetti

i possibili risultati sono compresi tra 1 e 0 (1. nessuno ha risposto correttamente; 0.tutti).

Il valore di p errata ottimale è .50(corrispondente alla situazione in cui metà dei soggetti individua

la risposta corretta dell’item), siccome è irrealistico che l’item abbia perfettamente queste

caratteristiche, quindi manuali indicano accettabile il livello di difficoltà di item compreso tra .20 e .

80, anche se il livello di difficoltà ideale poi dipende dalla relazione fra item e scopo del test. Deve

in generale essere evitati livelli che identificano gli item come troppo difficili, ovvero p errata > .80

o troppo facili p errata < .20, item con queste caratteristiche vanno riesaminati. Se il valore p errata

è estremo > .90 o < .10 andrebbero evitate, ma si potrebbe decidere lo stesso di tenere nella scala gli

item in questione. I test di prestazione massima non hanno scale di validità che permettono di

individuare risposte date a caso dai soggetti, quindi questa funzione di validità viene svolta dagli

item ai quali tantissimi soggetti risponde correttamente o in modo errato. Item considerati troppo

facili, possono essere mantenuti ugualmente nella scale per tre motivi: 1.perchè rispondere in modo

errato a questi item potrebbe indicare risposte a caso. 2.un basso punteggio potrebbe derivare da un

basso livello nel costrutto (a tal fine si può risolvere esaminando le risposte agli altri item, se sono

corrette, per le risposte difficili il soggetto a risposto a caso. 3.inoltre se disseminati adeguatamente

nel test questi item possono far da MOTIVATORI cioè piccoli incoraggiamenti. Invece per item

troppo difficili, risposte in maniera corretta potrebbero essere dovute a livelli alti nel soggetto o a

risposte a caso. Però è meglio sempre non mettere item troppo difficili perché potrebbero fare da

DEMOTIVATORI ai soggetti. Per verificare l’ipotesi che il soggetto abbia risposto a caso si deve

tenere in considerazione anche il numero delle alternative di risposta infatti il peso della risposta

fornita casualmente di solito è maggiore quanto minore è il numero di alternative nel formato di

risposta a scelta multipla. Per correggere le distorsioni delle risposte fornite casualmente è possibili

calcolare l’indice di difficoltà ponderato:

*

(k = numero alternative; n = numero soggetti)

Questo indice però è poco utilizzato perché può portare a valori negativi. Altro modo è l’INDICE

DI DIFFICOLTA’ DI EBEL che suggerisce di dividere in quantili la distribuzione totale dei

punteggi al test e calcolare:

* 13

N° corretta Q4 n° risposte corrette nel quantile superiore

N° corretta Q1 n° risposte corrette nel quantile inferiore

ANALISI DEI DISTRATTORI che hanno lo scopo di rendere difficile l’alternativa di risposta

corretta a chi già non la conosce.

DISCRIMINATIVITA’ è una misura di quanto ogni item è in grado di distinguere soggetti con

livelli elevati nel costrutto da quelli con livelli bassi perché chi ha livelli elevati nel costrutto

dovrebbe avere altre probabilità di rispondere correttamente all’item altrimenti il contrario. Il

problema del COME discriminare soggetti con alto o basso livello può essere risolto in due modi:

1.SOLUZIONE ESTERNA: confronto tra due gruppi precostituiti ( test orientati al criterio) un

gruppo con livello estremo della caratteristica in esame e uno di controllo D = P(focus) x P(contr.)

2.SOLUZIONE INTERNA: suddividere in campione e confronto fra livelli alti e livelli bassi al test

(test orientati al costrutto). Suddividere il campione a cui abbiamo somministrato il test in 2 gruppi:

uno con punteggio alto e l’altro basso. E poi confrontare le risposte. D = P(alto) x P(basso).

D = indice di discriminatività. Se è 0 non discrimina!

Difetto di D è che non possiede una distribuzione campionaria per cui non può essere sogg a

verifica delle risposte.

EFFECT SIZE (h) è la dimensione dell’effetto.

La discriminatività può essere valutata in generale o mediante il valore mediano di D o h oppure

con l’INDICE DI FREQUENZA:

*

n = n° sogg fi= frequenza punteggio k= n° item

Misura di quanto un punteggio è in grado di discriminare fra i punteggi.

Rapporto tra differenze osservate e h massimo possibile di differenza.

CORREAZIONE ITEM-TOTALE CORRETTA: indica quanto un item contribuisce al punteggio

totale de test. Quanto cioè un item è rappresentativo si una singola scala e quanto ogni singolo item

da solo è in grado di rappresentare il costrutto misurato dall’insieme di altri item contenuti nel test.

Si usa la correlazione PUNTO-BISERIALE:

*

Però bisogna rimandare successivamente la ridondanza per questo si chiama corretta.

La CORREZIONE PER GUESSING limitale risposte a caso e tale correzione è utile nei test di

velocità, ad alto livello di difficoltà, o test il cui obbiettivo è raggiungere un punteggio minimo.

RIDONDANZA due o più item con ugual livello di difficoltà sono ritenuti ridondanti,ossia uno dei

due è di troppo (perché la condizione ideale per item di P.M. è che gli item abbiano livelli di

difficoltà tra loro tutti diversi) visto che potrebbero veicolare la stessa info. Per verificare ciò

occorre analizzare la matrice dei coefficienti di correlazione tra tutti gli item della scala. Nel coso

dei test di P:M: utilizziamo i coefficienti di correlazione phi (0) (che corrisponde a calcolare l’r di

Pearson), di solito si considerano ridondanti item che correlano almeno phi > .70, in questo caso si

scegli di mantenere nell’item pool solo uno di questi.

ANALISI DEGLI ITEM PER I TEST DI PRESTAZIONE TIPICA

Questi test non hanno un’alternativa di risposta corretta come quelli di P.M. per es però i test come

l’MMPI e l’NPI esiste in un certo senso una parola corretta che consiste in quella fornita dalla

persona che possiede le caratteristiche dell’ oggetto di studio. Per questi test non si può parare di

analisi delle difficoltà degli item ma più che altro di AFETTIVITA’, che indica la probabilità che

l’alternativa di risposta corrispondente al costrutto da misurare venga scelta. 14

STATISTICHE DESCRITTIVE

N° casi validi la prima cosa da valutare nel test di P:T: e si intende un’osservazione in cui il

è

dato è presente, e il cui valore è compatibile con quelli possibili per quella variabile. Ad es. se il

soggetto deve spuntare una casella o fare una crocetta su un numero la sua risposta rientrerà nella

gamma delle risposte possibili. Per MISSING si intende un dato mancante, e viene indicato tale alla

stregua di quando un soggetto non risponde. È più facile una risposta a un dato mancante nei test di

P.M. rispetto ai test di P.T. perché quest’ultimo non presenta risposte corrette. A questo punto è

importante farsi un’idea del perché vi è il dato mancante, per poterlo gestire. I “missing” si possono

verificare: -se il soggetto si rifiuta intenzionalmente di rispondere – se il soggetto non sa cosa

rispondere e nel dubbio omette la risposta – il soggetto ha per sbaglio saltato l’item – il dato

mancante per errore non è stato inserito nel database.

Esistono 4 tipi di missing (Acock):

1.MISSING PER DEFINIZIONE DELLA SOTTOPOPOLAZIONE : nel caso in cui non tutti i

soggetti fanno parte della popolazione target alla quale il test è riferito.

2.MISSING COMPILETELY AT RANDOM (MCAR) : in cui la probabilità che un dato sia

mancante non dipende dal test e né dalla sua caratteristica misurata, né da qualunque altra variabile

in analisi, piuttosto i dati mancanti potrebbero essere dovuti a errori di distrazione dei soggetti o di

chi inserisce i dati. Il LITTLE’S MCAR verifica se i dati mancanti sono del tutto casuali.

3.MISSING AT RANDOM (MAR) : si verificano nei casi in cui la possibilità che un dato sia

mancante, non dipende dalla caratteristica misurata del test di cui l’item fa parte, una volta

controllato l’effetto di altre variabili che innescherebbero il meccanismo che determina i dati

mancanti ( fattori esterni come ad es la depressione, la lunghezza dell’item ecc..)

4.MISSING NOA AT RANDOM (MNAR) : dati mancanti non casuali, sono valori che mancano

per errori sistematici, per cui la non rilevazione dipende proprio dalle caratteristiche misurate dal

test.

FORMA DELLA DISTRIBUZIONE deve avvicinarsi a quella normale, altrimenti è simbolo che il

campionamento non è avvenuto in modo casuale. È una caratteristica fondamentale che deve avere

item di qualunque test è produrre maggiore variabilità di punteggio o risposta. E nel caso di

caratteristiche psicologiche ci aspettiamo che la distribuzione di questa variabilità assuma una

forma a campana, ovvero quella della distribuzione normale, detta anche gaussiana

(moda=media=mediana). Quindi è necessario che la distribuzione di frequenza delle risposte si

avvicini a quella normale, cioè presenti maggiore frequenza nei punteggi centrali e una frequenza

decrescente per i punteggi più estremi.

PUNTEGGIO MINIMO E MASSIMO, è importante l’utilizzo di tutti i punteggi. Nel test di P.T.

una scala di risposta di tipo Lkert funziona bene solo se tutti i punti vengono scelti almeno una

volta. È importante che il punteggio max e min vengano scelti almeno una volta, se ciò non è

possibile le cause potrebbero essere: 1.item mal formulati 2.scale Likert non adeguate all’item (o

viceversa) 3.campioni troppo omogenei.

INDICI DI TENDENZA CENTARLE pratica comune è analizzare i punteggi che nelle scale

Linkert sono misurati su scala ordinale, come se fossero su scala a intervalli e calcolare quindi non

solo la mediana, ma anche la media.

INDICI DI DISPERISIONE ci forniscono info sulla dispersione dei valori attorno al punteggio

mediano.

Entrambi sono importanti per comprendere meglio l’aspetto della distribuzione e per fare l’analisi

degli item, quelli di dispersione ci permettono di dividere le frequenze in sottogruppi

(decili,centili,quartili..)

INDICI DI FORMA DELLA DISTRUBUZIONE dicono quanto la distribuzione e simmetrica o

assi metrica rispetto al punto mediano (Skewness), e quanto la curva è appuntita o appiattita

(CURTOSI). Evitare che sia Platicurtica o Leptocurtica, attraverso un test creato da Muthèn e

Kaplan è possibile verificare questi indicatori che vengono considerati accettabili (livelli di SK e

KU) di (-1;+1) range di simmetria e curtosi accettabile.

 15

DISCRIMINATIVITA’ verificare sempre se lo strumento è in grado di distinguere sogg con livelli

elevati nel costrutto da quelli con livelli bassi, in questo caso nei test di P.T. viene però cambiata la

procedura statistica da usare in quanto cambia la scala di misura (ordinale). A tal fine anche qui vi

sono due tipi di discriminatività: -confronto fra gruppi precostituiti (test orientati al criterio)

–confronto fra livelli alti e livelli bassi (test orientati al costrutto).

I test specifici in questo caso che verifica le differenze sono:

-TEST t per campioni indipendenti, verifica le differenze fra 2 gruppi rispetto a una variabile. Lo

utilizziamo quando abbiamo punteggi su scala a intervalli o a rapporti (statistica parametrica).

-TEST di MANNWHITNEY lo utilizzano con punteggi su scala ordinale non parametrica

(equivalente del test t ma non parametrico).

EFFECT SIZE h, anche con i test di P.T. abbiamo la possibilità di valutare l’ampiezza dell’effetto,

cioè la forza delle differenze. D (dimensione dell’effetto) deve essere moderata tra .50 e .80

Anche qui l’INDICE DI PERCIUSON, per calcolare la discriminalità uguale al test di P.M., cambia

il tipo di risposta mentre lì è dicotomica, qui è di tipo Linkert.

CORRELAZIONI ITEM-TOTALE CORRETTA a livello concettuale è uguale a quella per gli item

di P.M. però qui non si usa il livello metrico, le correlazioni item-tot vengono calcolate con il

coefficiente di Correlazione PRODOTTO-MOMENTO DI PEARSON r.

La correlazione qui fatta riguarda togliere dal punteggio totale la risposta data dall’item preso in

considerazione, insomma la varianza dell’item. Valore sufficiente = .20 Valore ottimale = .30

RINDONDANZA correlazioni alte misurano costrutti simili (al livello concettuale uguale agli item

dei P.M.) non deve essere > .70 Se due item hanno correlazione > di .70 dobbiamo tenerne solo

uno.

ATTENDIBILITA’

L’attendibilità (o affidabilità o fedeltà). È una proprietà psicologica che si riferisce all’accuratezza

con cui un test o una scala, misura una certa variabile psicologica. L’attendibilità è un indice della

precisione della misura che l’insieme degli item ci permette di ottenere ( non ci dice se il test misura

ciò che vorremmo misurare questa è la validità). La misura deve essere accurata, nel senso che la

misurazione deve contenere una minore quota possibile di errore di misurazione, quindi

l’attendibilità è la proporzione del punteggio misurato che non riflette l’errore di misurazione. Per

parlare di errore di misurazione ci si deve rifare alla TEORIA CLASSICA DEI TEST X = V+E che

si basa sull’assunzione che ogni misurazione (x) è composta dal punteggio vero (V) più l’errore (E).

a questo punto è bene domandarsi: quale sia la fonte di errore di un test psicologico? I fattori che

interagendo tra loro comportano eventuali fonti di errore nell’attendibilità possono essere rilevate

pensando semplicemente a come si ottiene una misurazione con la presenza di un Somministratore

(soggetto a cui viene somministrato il test) vi è lo Strumento (il test/questionario), la Situazione

nella quale il test è somministrato. Prima di indagare questi aspetti nello specifico è giusto indicare

che esistono due tipi di ERRORI DI MISURAZIONE: ERRORE SISTEMATICO (bias) che si

verifica in modo costante per tutte le misurazioni ed ERRERE CASUALE che si verifica in modo

imprescindibile. Il primo distorce il punteggio sempre nella stessa direzione, il secondo varia da

prova a prova e da individuo a individuo ed è imprescindibile perché e legato alle differenze

individuali. Perciò che riguarda una delle fonti, la prima che potrebbe comportare errore, cioè il

Somministratore esso è spesso una persona, e quindi ha proprie caratteristiche personali (genere,

età, etnia ecc..) che tendono a interagire con i soggetti in tantissimi modi, per questo è impossibile

tracciare il profilo del somministratore ideale, che è necessario però che possegga

CCOMPETENZA, INTEGRITA’ e RESPONSABILITA’ SOCIALE,ciò include il fatto che il

somministratore sia uno psicologo capace che attui tutto con la massima società, difetti nell’attuare

questi compiti possono produrre distorsioni nelle risposte dei soggetti, per il somministratore è

importante creare un clima sereno e tranquillo in modo che il soggetto possa sentirsi libero di

rispondere e a suo agio. ES: errore casuale dovuto al somministratore potrebbe essere ad es. se il

somministratore sbaglia a dare istruzioni ai soggetti, mentre sistematico potrebbe essere se il

somministratore ha memorizzato male le istruzioni quindi sbaglierà sempre. Il soggetto può essere

anch’esso fonte di errore di misurazione è in grado di introdurre tantissime fonti di distorsione delle

16

risposte, ad es. se è ansioso, ostile, ecc.. sta al somministratore la capacità di contenere questi fattori

comportandosi come precedentemente descritto. Lo strumento è anch’esso fattore importante esso

deve sempre presentarsi valido e utile per lo scopo, le istituzioni devono essere chiare al proprio

interno, il tempo e gli item (il loro contenuto) potrebbero indurre ai soggetti atteggiamenti che

modifichino l’attendibilità delle risposte. Ultimo fattore è la Situazione Test che riguarda le

condizioni e procedure di somministrazione e l’ambiente in cui rivolge il test es. errori casuali in

questo caso potrebbe essere quelli dovuti alla stanchezza che un lungo test può comportare, o

sistematico se i soggetti collaborano sempre nei test abbiamo suddiviso gli errori in:

SISTEMATICI (bias) o CASUALI che non possono essere previsti e sono detti anche variabile

ALEATORIA o STOCASTICA, le variabili stocastiche possono essere DISCRETE se possono

assumere solo determinati valori ad es. numeri interi, CONTINE se possono assumere infiniti

valori. All’interno di una misurazione ci sarà sempre una percentuale di errore l’unica cosa che si

può fare è diminuirli, ma non eliminarli. I due tipi di errori hanno 2 distribuzioni diverse.

CASUALI hanno unna distribuzione bilanciata (normale), quelli SISTEMATICI tendono ad averla

sbilanciata. Gli errori sistematici sono errori più gravi, perché si presentano sempre (anche se

potrebbero essere più facili da individuare), gli errori casuali, modificano il punteggio

individualmente, ma a livello di gruppo tendono ad annullarsi infatti la loro somma (se facessimo

infinite misurazioni) sarebbe 0. la teoria classica dei test, si basa sul presupposto che la componente

di errore nelle misurazioni sia CASUALE (quindi se per es. potessimo somministrare un test

infinite volte a un soggetto, la distribuzione degli errori dovrebbe produrre una distribuzione

normale. Il punteggio osservato è solo uno dei possibili punteggi che il soggetto può ottenere al test,

l’insieme di tutti i punteggi costituisce una popolazione. Il punteggio vero (V) quindi può essere

concepito come la media dei punteggi osservati di infinite misurazioni, si chiama VALORE

ATTESO E(x) (media).

Vi sono tre tipi di assunzioni sull’errore di misurazione: 1.l’ ERRORE DI MISURAZIONE E’

CASUALE, è distribuito normalmente e ha valore atteso (medio) = 0 2.PUNTEGGIO VERO ed

ERRORE di unna misurazione sono tra loro indipendenti (covarianza tra V ed E = 0) 3. GLI

ERRORI DI MISURAZIONE, di due misurazioni sugli stessi soggetto sono indipendenti tra loro

(la covarianza tra 2 distribuzioni di errori in due misurazioni diverse =0 cioè non correlano).

STIMARE L’ATTENDIBILITA’ (V = parte attendibile della misurazione)

Il coefficiente di attendibilità è quel valore che esprime la precisione di uno strumento di misura. La

relazione viene espressa in base alla varianza del punteggio osservato. L’attendibilità è espressa

come il rapporto tra la varianza del punteggio vero e la varianza del punteggio osservato, o come

proporzione di punteggio vero che non riflette l’errore casuale di misurazione. (l’attendibilità varia

da 0 a 1). L’indice di attendibilità, che è diverso dal coefficiente di attendibilità, è la correlazione tra

punteggio osservato e il punteggio vero. Corrisponde alla varianza di V fratto la varianza di X cioè

la radice quadrata del coefficiente di attendibilità. Il coefficiente ha valore, mentre l’indice di

attendibilità correla tra punteggio osservato e punteggio vero.

Per la valutazione (stima) dell’attendibilità i vari metodi che vi sono possono essere suddivisi in

base al numero di somministrazioni: 1. DUE SOMMINISTRAZIONI (STABILITA’) 2. UNA

SOMMINISTRAZIONE (COERENZA INTERNA).

-DUE SOMMINISTRAZIONI (stabilità) FORME PARALLELE o/e ALTERNATIVE: questo

metodo si basa sulla possibilità di avere a disposizione due versioni dello stesso test, che siano

PARALLELE, (o psicrometricamente sostituibili), e consiste nella somministrazione e correlazione

di 2 questionari che misurano lo stesso costrutto allo stesso campione di soggetti, che dovrebbero

essere identici e ciò che varierebbe sarebbe l’errore di misurazione. Ma costruire due test paralleli è

praticamente impossibile, in quanto 2 test paralleli hanno punteggi veri (V) uguali e varianze

d’errore uguali quindi ciò implica che media e deviazione standard dei punteggi dei 2 test sono

uguali. Le assunzioni di parallelismo sono impossibili da soddisfare tutte contemporaneamente,

quindi è meglio parlare di FORME ALTERNATIVE e il coefficiente si calcola allo stesso modo del

coefficiente di attendibilità di forme parallele e prende il nome di COOEFFICIENTE DI

EQUIVALENZA. Le condizioni di parallelismo più difficili da ottenere sono quelle relative 17

all’equivalenza delle varianze d’errore, se le varianze d’errore sono diverse ma i punteggi veri sono

uguali si parla di FORME TAU EQUIVALENTI, se oltre all’errore anche punteggi veri sono diversi

si parla di forme ESSENZIALMENTE TAU EQUIVALENTI. Il valore ottimale di correlazione è .

90 nel caso di test paralleli e .70 nel caso di forme alternative.

TEST RETEST nel caso di test che misurano caratteristiche psicologiche stabili e difficilmente

modificabili spontaneamente in un breve periodo di tempo. l’attendibilità è intesa come la stabilità

dei punteggi nel tempo (indipendenza del punteggio ottenuto dai test , dai cambiamenti temporali).

La procedura consiste nel somministrare il test 2 volte agli stessi soggetti a distanza di tempo e poi

si calcola la correlazione trai i 2 punti osservati nelle 2 occasioni. Uno dei limiti è che il costrutto

potrebbe essere influenzato dal tempo (es. la capacità percettiva dei bambini). Tale correlazione

rappresenta il coefficiente di attendibilità. Se il test è attendibile cioè temporaneamente stabile i

punteggi tra le due misurazioni dovrebbero essere identici. Il valore minimo accettabile per una

correlazione test retest è .70 mentre il valore ottimale è di .90. un problema relativo alla valutazione

dell’attendibilità test retest è quello dell’intervallo di tempo che dovrebbe intercorrere tra due

somministrazioni. Se questo è troppo breve (coefficiente di replicabilità) i soggetti potrebbero

ricordare le domande, se è troppo lungo (si parla di coefficiente di stabilità) il costrutto potrebbe

aver subito cambiamenti dovuti a storia personale e maturazione del soggetto. Studiosi

suggeriscono come l’intervallo di tempo ottimale 3-4 settimane in media, cioè deve essere stabilito

in base al costrutto da misurare. L’attendibilità test retest ha senso solo per la misura di quelle

caratteristiche psicologiche “stabili” i cosiddetti tratti di personalità, modificabili solo a seguito di

interventi psicoterapeutici. Un metodo ultimo e raffinato è il COEFFICIENTE DI

CORRELAZIONE INTRA-CLASSE.

PRINCIPALI FONTI DI DISTORSIONE DELLA STIMA DI ATTENDIBILITA’ ESEGUITAA

MEDIANTE 2 SOMMINISTRAZIONI:

1.ricoradare le risposte fornite nella prima somministrazione 2.possibile cambiamento nel costrutto

3.variazioni delle condizioni di somministrazione 4.interazione tra soggetti e momento della

somministrazione (cambiamenti tra una somministrazione e un’altra variano in modo impredicibile

anche per vie di caratteristiche particolari nel costrutto.)

-STIMA DELL’ATTENDIBILITA’ MEDIANTE UNA SOMMINISTRAZIONE (coerenza interna)

consiste nel valutare l’attendibilità di un test solo basandosi sui dato di una singola

somministrazione, questa è anche detta COERENZA INTERNA, il grado in cui gli item di un test

sono contenuti nel misurare il costrutto in oggetto. Il problema di come valutare l’attendibilità con i

dati di una singola misurazione fu risolto dividendo a metà il test (SPIT-MALF) e calcolando la

correlazione tra le 2 metà, e i punti veri dovrebbero essere uguali, il problema consiste nel fatto che

così io ho K/2 item mentre l’attendibilità la voglio conoscere di k item, a tal fine Spearman e Brown

svilupparono una formula (PROFEZIA DI S-B) che consiste nello stimare l’attendibilità del test se

venisse aggiunto o tolto un certo numero di item paralleli e verifica quanti item potrebbero essere

adatti e creare un punteggio d attendibilità buono. FORMULA DEL COEFFICIENTE DI

ATTENDIBILITA’ SPIT-HALF:

*

Se però gli item (le due metà) non sono paralleli utilizzo il coefficiente DI RULON:

*

Con l’aumentare del numero di item, la varianza di errore non aumenta in progressione geometrica

(come la varianza vera), ma solo in modo lineare, per questo quando si aggiungono (o sottraggono)

item a un test l’attendibilità aumenta, e questa differenza è maggiore quanto maggiore è il numero

di item aggiunti. Il valore minimo accettabile del coefficiente di attendibilità Spit half dipende dal

tipo di test. È almeno .60 per i test di P:T. e almeno .80 per quelli di P.M. uno dei limiti del metodo

SPIT-HLF è quello riguardante il metodo di suddivisione del test nelle due metà. Nel caso di test 18

omogenei 8paralleli) è ideale la divisione Casuale. Una soluzione generale per ovviare a questo

problema fu ideata da Kuder e Richardson che proposero un indice di attendibilità che fosse la

media di tutte le attendibilità possibili spi-half, per i test di P.M. crearono 2 formule KR20, per item

che non hanno stessa difficoltà e il KR21, per i item con uguale difficoltà.

L’ a DI CRONBACH è un estensione della KR20 ad item non dicotomici( a > .90 ottimo/ a < .60

inadeguato). È la media delle intercorrelazioni fra tutte le possibili divisioni a metà del test. (misura

della consistenza interna). È stato considerato sin dalla sua comparsa, un indice quantitativo della

coerenza interna di un test, da solo però non è sufficiente per considerare l’adeguatezza del test,

devono essere sempre considerati anche le correlazioni medie inter-item e l’errore standard di a.

Un indice di a alto indice di coerenza interna, ma non necessariamente di omogeneità (quanto gli

item sono indicatori di u dominio). Se a è alto ci dice quanto gli item sono correlati internamente

non quanto riflettono il dominio. Dimensionalità = omogeneità.

Valori di a : a > .90 ottimo .80 < a < .90 buono .70< a < .80 discreto .60< a <.70 sufficiente a <.60

inadeguato.

LIMITI dell’ a di Cronbach : -è molto dipendente dal numero di item perché più item ci sono più si

alza il valore dell’ a di Cronbach – non tiene conto della diversa difficoltà dell’item.

A è l’indice di attendibilità maggiormente utilizzato perché è molto semplice e richiede un'unica

somministrazione.

È da notare il fatto che all’interno dei metodi di stima dell’attendibilità, basati su 2

somministrazioni il focus di analisi è il test, mentre nel caso della coerenza interna (a) il focus è

sugli item e le loro proprietà (varianza e covarianza), per questo quando si analizza la coerenza

interna, si tendono a considerare alcuni indici relativi, ai singoli item che sono: LA

CORRELAZIONE MULTIPLA AL QUADRATO. Non è un indice specifico di analisi

psicometriche, in generale permette di calcolare la proporzione di varianza condivisa fra una

variabile con un insieme di altri variabili) e l’ a SENZA L’ITEM (è una misura fornita da tutti i più

comuni software che indica quale sarebbe il valore di a se un determinato item venisse escluso dal

test quando l’a senza item è maggiore di almeno .01 dell’a del test l’eliminazione dell’item

comporta miglioramento nella coerenza interna. Nel caso in cui l’a senza l’item è uguale all’a del

test, l’eliminazione o meno dell’item lascia invariata la coerenza interna. Quando a senza l’item è

minore dell’a del test almeno di .01 la rimozione comporta peggioramento alla coerenza interna

quindi è sconsigliato escludere l’item.

CONSIDERAZIONI E CONCLUSIONI SULL’ATTENDIBILITA’

L’attendibilità e la sua analisi ha lo scopo di valutare l’impatto dell’errore di misurazione sul

punteggio ottenuto al test, che è dovuto da due fonti: COERENZA DEL CONTENUTO DEGLI

ITEM e STABILITA’ DEI PUNTEGGI IN SUCCESSIVE SOMMINISTRAZIONI. I coefficienti

più utilizzati e riportati dalle riviste scientifiche sono a DI CRONBACH e TEST RETEST. Col

tempo l’evoluzione ha generato un altro indice di attendibilità che è la TEORIA DELLA

GENEREZZABILITA’ e cerca di superare il limite della teoria classica che considera l’errore come

l’elemento unitario, stimando invece l’impatto di molteplici fonti di errore di misurazione in

contesti specifici (persone, stimoli,occasioni di somministrazione).

Cap. 5 Dimensionalità e validità di un test

Nel capitolo 4 abbiamo verificato che gli item possedessero adeguata caratteristica psicometrica

(buona coerenza interna ecc..). la versione raffinata del test va poi somministrato a un nuovo

campione più grande per verificare la DIMENSIONALITA’ DEL TEST, per vedere che il test e gli

item facciano riferimento a una sola caratteristica psicologica latente non basta il fatto che possieda

un’adeguata attendibilità, dobbiamo utilizzare lo strumento dell’ ANALISI FATTORIALE (è una

tecnica statistica che si basa sul principio di individuazione del numero minimo di dimensioni

latenti che spieghino le interconnessioni tra alcuni item. Una volta che abbiamo dimostrato che la

caratteristica misurata dagli item è una sola, occorre vedere se questa misura ciò che vogliamo, e

per verificare questa ipotesi dobbiamo servirci dello studio di VALIDITA’ DI COSTRUTTO e DI

CRITERIO del test. 19

DIMENSIONALITA’ DI UN INSIME DI ITEM.

-Confusione tra COERENZA INTERNA e UNIDIMENSIONALITA’ (o Omogeneità)

Spesso un errore fatto ripetutamente è la confusione tra questi due aspetti che non sono la stessa

cosa perché: 1. la COERENZA INTERNA 8che è parte dell’attendibilità di uno strumento) a di

Cronbach, misura il grado di accordo tra item del test, può avere lo stesso valore anche in presenza

di costrutti diversi tra loto. 2. l’UNIDIMENSIONALITA’ o OMOGENEITA’ misurano che una serie

di item riflettano tutti un solo costrutto latente.

a non permette di verificare la multidimensionalità o meno del costrutto. Quindi a è una condizione

necessaria ma non sufficiente, per valutare l’unidimensionalità perché deve essere accompagnata

con le analisi di dimensionalità e validità.

Il metodo statistico per eccellenza per valutare l’unidimensionalità è l’ANALISI FATTORIALE. Si

potrebbe anche utilizzare in linea di principio, una matrice di correlazione, cioè una

rappresentazione tabulare delle relazioni fra item (maggiore è il coefficiente di correlazione,

maggiore è la forza della relazione tra item), però pienamente indicativo, è meglio utilizzare

l’ANALISI FATTORIALE.

ASPETTI TEORICI DELL’ANALISI FATTORIALE

Uno dei primi propulsori fu Spearman, che volle verificare tramite l’analisi fattoriale l’esistenza di

un fattore unico d’intelligenza. Francis Galton, fondatore a livello teorico, rintraccia il concetto di

CAUSA COMUNE come spiegazione della correlazione fra variabili. Per dimostrare ciò

statisticamente si utilizza l’analisi fattoriale. Due variabili correlate, condividono una certa quota di

variabilità (attitudini di un fenomeno di osservare modalità diverse) per quantificare questa

variabilità comune, basta ELEVARE AL QUADRATO IL COEFFIECIENTE DI

CORRELAZIONE DI DETERMINAZIONE che viaria da .00 a 1.00, mentre il coefficiente di

correlazione varia da +1 a -1. L’analisi fattoriale si propone di individuare:

- Raggruppamento tra variabili (fattori) derivati in base al grado di correlazione delle variabili

stesse.

- Quanti fattori sono necessari per riassumere adeguatamente le relazioni fra le variabili

- Quali variabili appartengono ad un fattore e qual è la forza del loro legame con il fattore

- Un sistema che permette di descrivere le relazioni fra le variabili.

ANALISI FATTORIALE ESPLORATIVA (AFE) e CONFERMATIVA (AFC)

L’analisi fattoriale nasce come ESPLORATIVA, con lo scopo di fare un’indagine esplorativa e

individuare quali e quante dimensioni latenti, potessero essere utilizzate per spiegare le correlazioni

fra variabili osservate. Questo è lo stesso approccio che ha dato luce al BIG FIVE INVENTORY,

che all’inizio è nato come un insieme di item poi raggruppati in 5 tratti di personalità

(estroversione,amicalità,nevroticismo,coscienziosità,apertura all’esperienza).

Quando il raggruppamento di item può essere stabilito a priori in base a un’ipotesi poggiata su

solide basi teoriche, possiamo utilizzare un altro tipo di anali fattoriale, cioè CONFERMATIVA che

ci permette di specificare un ben preciso modello di misurazione in cui possiamo stabilire il numero

dei fattori e se i fattori sono correlati tra loro. Le AFE e le AFC sono statisticamente diverse tra loro

e dovrebbero essere visti come due estremi di un continuum non come una dicotomia.

ANALISI FATTORIALE ESPLORATIVA

Suo scopo è spiegare la varianza condivisa fra le variabili osservate, in base a un numero ristretto di

fattori (dimensioni latenti) individuali statisticamente mediante la SCOMPOSIZIONE DELLA

MATRICE DI CORRELAZIONE che permette di suddividere la varianza osservata di un item in

una o più parti, di cui alcune riflettono la proporzione di varianza in comune con altri item, altre

stimano la varianza unica (specifica per quell’item). La distinzione tra varianza comune e unica

cioè vale per tutti i modelli di analisi fattoriale, ad es. un tipo particolare di analisi detta ANALISI

DELLE COMPONENTI PRINCIPALI, non fa questa distinzione. L’AFE è basata su 3 principi

fondamentali:

1.CAUSZIONE stabilisce che il pattern di correlazione fra le variabili osservate sia dovuto

all’effetto casuale di un certo numero di variabili non osservate (dette variabili latenti) che sono

(cause) dei punteggi osservati negli item, i quali possono essere a loro volta espressi come una 20

somma pesata dei punteggi dei soggetti in un insieme di fattori che possono essere comuni o unici.

La relazione fra indicatori è stata individuata come una relazione spuria 8ossia una relazione di

covarianza fra le variabili senza che però nessuna sia causa dell’altra)la statistica non ci permette di

verificare la casualità di una relazione, però ci fornisce lo strumento della COORELAZIONE

PARZIALE per valutare se la relazione tra 2 variabili o più è spiegabile in base alla relazione che

queste hanno con un’ulteriore variabile detta variabile di controllo ( che è una variabile latente). La

matrice di correlazione è il punto di partenza per l’esecuzione dell’analisi fattoriale, il cui obbiettivo

è spiegare la maggiore quota possibile di variabilità comune (CORRELAZIONE) fra le variabili

osservate. Il numero massimo di fattori che possono essere estratti da una matrice di correlazione è

uguale al numero di variabili, ma non ha senso un numero di fattori troppo ampio per questo entra

in gioco la parsimonia.

2.PARSIMONIA spiega che fra due soluzioni che spiegano la stessa (quota di varianza comune fra

gli item) correlazione, è da preferire quella con il numero minore di fattori. Sta alla base l’idea di

correlazioni tra variabili: “ spendere poco (pochi fattori) e fare bella figura (molto varianza comune

spiegata). Il concetto parsimonia nell’analisi fattoriale, è nato con l’analisi fattoriale stessa, ed è

stato sostenuto in particolare da Thurstone che ribadisce la necessità della scienza di riuscire a

comprendere numero infinito di fenomeni con un numero finito di concetti.

3.STRUTTURA SEMPLICE questo principio introdotto da Louise Thurstone, spiega che l’esame

delle matrici di saturazione (che consiste nella matrice di correlazione tra ITEM e fattore ( =

saturazione) che essendo un coefficiente di correlazione può avere indice (-1 *1) in particolare

quando la correlazione è positiva ad alti (o bassi) punteggi dell’item corrispondono alti (o bassi)

punteggi del costrutto. Le saturazioni negative si ottengono solitamente con gli item reverse) ideale

dovrebbe presentare una sola saturazione sostanziale (ossia maggiore di un valore minimo 30 o 40 )

su ogni riga, e tutte le altre saturazioni il più basse possibile comprese fra -.10 e +.10 con una

differenza di almeno .20 rispetto alla saturazione principale (Thurstone non ha mai indicato la

necessità che le saturazioni secondarie fossero esattamente = 0 per soddisfare il criterio di struttura

semplice.) Inoltre perché la soluzione di analisi fattoriale sia adeguata occorre che oltre al criterio di

struttura semplice, sia soddisfatta anche la condizione che ogni fattore sia saturo in modo

sostanziale almeno da tre item. Fattori con meno di tre item sono poco validi.

Perché gli item saturano su stessi item? Perché condividono lo stesso costrutto teorico. Gli item

saturano sui fattori perché sono correlati tra loro, perché sono operazionalizzazioni delo stesso

costrutto.

SCOMPOSIZIONE DELLA VARIANZA:

-varianza totale = v. comune+ v. unica

FORMULE INVERSE:

-comunalità (v.comune) = v. tot + unicità (v. unica)

-unicità (v. unica) = v. tot + comunalità (v. comune)

ANALISI FATTORIALE ASPETTI STATICI

La statistica è uno strumento che è cieco alla teoria, (ci fa vedere solo cosa accade fra i dati, ma è lo

psicologo che li deve interpretare) fa solo misurazioni per calcolare le correlazioni, ma non da

l’interpretazione dei calcoli, perché quella spetta allo psicologo.

A livello statistico il primo modello di analisi fattoriale a essere specificato fu quello di Spearman,

detto MODELLO A DUE FATTORI DELL’INTELLIGENZA GENERALE*.

La teoria del fattore comune unico ha dominato per anni poi fu affermato da Thurstone, il concetto

di FATTORI COMUNI MULTIPLI. Nel’ottica dei fattori multipli, il punteggio standardizzato

dell’item può essere espresso come combinazione lineare (somma ponderata) di fattori latenti, da

cui l’EQUAZIONE DI SPECIFICAZIONE

dove F = fattori comuni, variabili che spiegano la variabilità condivisa fra item. S = fattori specifici,

variabili che spiegano che la variabilità specifica è sistematica degli item E = fattori di errore, parte

di varianza dell’item dovuta a errore di misurazione (casuale). ASSUNZIONE STAITISTICHE

DELL’ANALISI FATTORIALE: 1. unifica info nota è la varianza delle variabili osservate e le 21

correlazioni fra questi. 2. la correlazione fra i fattori comuni e i fattori unici è =0 8non c’è

correlazione) 3. la correlazione fra i fattori unici è =0, perché è un aspetto proprio di quell’item.

FASI DELL’ANALISI FATTORIALE: (sono in tutto 6)

1.PIANIFICAZIONE DELLA RICERCA e RACCOLTA DATI:

occorre avere una solida base per la definizione del costrutto. Lo scopo dell’analisi fattoriale è

estremamente ambizioso, (riuscire a ottenere una misura qualificativa di ciò che non è osservabile a

partire da ciò che lo è) il presupposto corretto dal quale partire è aver definito bene i costrutti,

individuato il loro dominio di contenuto e aver campionato e operazionalizzato in modo adeguato.

Se queste procedure vengono fatte a caso si può cadere nel PHISHING letteralmente andare a

pesca. Il pool di item creato deve invece partire da una solida base teorica in modo da includervi

variabili che presentino un adeguato grado di correlazione reciproca.

SCALA DI RISPOSTA al livello statistico un problema da considerare è quello della scala di

misura delle variabili. L’analisi fattoriale è stata sviluppata e concepita per variabili continue, però

spessi ci troviamo di fronte a risposte su scala Likert con un numero di punti limitato e il problema

è che minore è il numero di punti della scala di risposta all’item, minore sarà la quota massima

possibile di variabilità che verrà generata, minore sarà la variabilità delle risposte agli item, più

problematico sarà individuare una buona analisi fattoriale.

NUMERO DI ITEM: costrutto ampio o varie facet? Dobbiamo avere ben chiaro quale sia il

costrutto teorico. La questione della scala di risposta agli item è legata a quella del NUMERO DI

ITEM che dipende anche dal numero di costrutti che s’intende misurare e l’ampiezza concettuale di

ogni costrutto. È difficile quindi fornire una linee guida sul numero di item necessari, ma

inizialmente è bene averne 10 per costrutti specifici, e 20 per costrutti più ampi.

NUMERO. SOGG altro problema è il numero di soggetti necessari. La questione è stata a lungo

dibattuta in letteratura non vi è indicazione chiara e precisa, l’approccio più comune valuta un

rapporto di 10: 1 ossia il numero di soggetti dovrebbe corrispondere al numero di item moltiplicato

per 10.

RACCOLTA DATI NEL MODO ADEGUATO: basarsi su soggetti motivati e risposte alle domande.

È inutile costringere o supplicare conoscenti perché si avrebbero risposte non sincere che

diventerebbero fattori di distorsione.

2. ESAME DELLE CARATTERISTICHE PSICOMETRICHE DELLE VARIABILI E DEGLI

OUT LIERS

Una volta raccolti i dati rima cosa da fare è ANALISI PRELIMINARE DEGLI ITEM. Vanno

esaminate le statistiche descrittive degli item, scopo principale è individuare item che hanno dati

mancanti, o con distribuzioni estreme. Per es item con proporzioni di risposta corrette o minori di .

10 o maggiori di .90 per i test di P.M. oppure item di tipo Likert in cui uno dei punti della scala non

è mai stato scelto,o con medie estreme e deviazioni standard troppo basse o con valori fuori dal

range. Outliers= punteggio anomalo del database che i discosta dagli altri rispetto alla nostra

distribuzione.

Per quanto riguarda i sogg bisogna valutare la presenza di outliers ossia casi con punteggi anomali o

pattern di risposta incoerenti all’interno del nostro database. Di solito possono essere dovuti a errori

nella trascrizione dei dati oppure si dovrebbero guardare con sospetto quei sogg che rispondono

scegliendono sempre la stessa alternativa nella scala.

3. CALCOLO DELLA MATRICE DI CORRELAZIONE ED ESAME DELLA SUA

FATTORIZZABILITA’

Precedentemente è stato affermato che qualunque analisi fattoriale esplorativa parte da una matrice

di correlazione, occorre però precisare che non si tratta sempre di matrici di correlazione di Pearson,

queste vengono usate solo quando le variabili in gioco sono continue. Non nel caso in cui sono con

variabili discrete ( non distribuite normalmente nella popolazione) come è il caso di scale Likert o

22


ACQUISTATO

17 volte

PAGINE

32

PESO

173.26 KB

PUBBLICATO

+1 anno fa


DETTAGLI
Esame: Psicometria
Corso di laurea: Corso di laurea in Scienze e tecniche psicologiche
SSD:
Università: Messina - Unime
A.A.: 2014-2015

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher mariaantonietta.diluca di informazioni apprese con la frequenza delle lezioni di Psicometria e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Messina - Unime o del prof Costa Sebastiano.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Psicometria

Riassunto esame Psicometria, prof. Costa, libro consigliato Teoria e pratica dei test, Mucciarelli
Appunto
Riassunto esame Pedagogia interculturale, prof. Panarello, testo consigliato L'educazione all'interculturalità e alla sostenibilità
Appunto
Riassunto esame Psicologia delle Relazioni Familiari, prof. Larcan, libro consigliato La Relazione Genitore Bambino, Riva Crugnola
Appunto
Riassunto esame Metodologia, prof. Cuzzocrea, libro consigliato Metodologia della ricerca psicologica, Gnisci
Appunto