vuoi
o PayPal
tutte le volte che vuoi
CAP.5 LA MATRICE DEI DATI E LE SUE RIGHE: POPOLAZIONE E CAMPIONE
5.1. Oggetti e unità di analisi
Nella matrice dei dati i vettori orizzontali si riferiscono a oggetti e quelli verticali a proprietà di questi
oggetti. Il termine oggetto è inteso in senso gnoseologico: gli oggetti nelle righe possono essere individui,
famiglia, gruppi, eventi. In una data matrice, però, tutti gli oggetti sulle righe devono essere dello stesso tipo
perché, altrimenti i relativi vettori non potrebbero essere paralleli, cioè avere referenti dello stesso tipo e la
stessa sequenza di proprietà sulle colonne. Il tipo di oggetti che stanno sulle righe determina il tipo di
proprietà che possono stare sulle colonne. Il tipo di oggetti sui quali si raccolgono informazioni in una
ricerca si dice unità di analisi. Questa espressione ha un referente generico. In una ricerca si deve definire
non solo l’unità ma anche l’ambito spazio temporale che interessa.
5.2. Popolazione e campioni
L’insieme degli esemplari dell’unità che si incontrano nell’ambito definito si chiama popolazione. Se l’unità
è uno Stato e l’ambito un dato continente in un periodo dato, si parla di enumerazione completa.
Campionamento. Data una certa popolazione, un suo campione è qualsiasi sotto – insieme, vasto o ristretto,
dei suoi membri. Nelle scienze sociali, i campioni si studiano al fine di estendere a tutta la popolazione le
conclusioni che si traggono dall’analisi delle informazioni relative al campione. L’estensione dei risultati
dell’analisi dal campione alla popolazione è detta inferenza statistica, e ha precise regole. Tre cattive
abitudini: 1. in genere si parla di inferenza del campione all’universo (l’universo è infinito e il campione
finito). 2. si tende ad estendere l’inferenza ben oltre la popolazione dalla quale è stato estratto il campione.
3.riguarda la casualità del campione.
5.3. Campioni casuali e non
Un campione si può legittimamente dire ‘casuale’ quando tutti i membri della popolazione da cui viene
estratto hanno la stessa probabilità di essere estratti e quindi di entrare a far parte del campione. Il campione
viene individuato con tecniche di astrazione che consentono di applicare le leggi della probabilità per le
operazioni di generalizzazione. La natura casuale o meno di un campione dipende integralmente dal
procedimento di estrazione e non dal suo risultato. Strategie di campionamento sono:
1. casuale semplice: ogni soggetto della popolazione ha la medesima probabilità di essere estratto per far
parte del campione considerato
2. casuale stratificato: sottogruppi omogenei che rispecchiano la composizione della popolazione in base alle
caratteristiche possedute dai quali i soggetti vengono estratti casualmente
3. sistematico: viene predisposto un elenco dei soggetti stabilendo il numero di elementi da estrarre e
l’intervallo sistemico che intercorre tra il soggetto estratto e l’altro.
4. a grappoli: si estraggono a sorte non i singoli ma i gruppi unità che costituiscono la popolazione.
5. a stadi: si procede dall’estrazione di macro-unità fino a quelle dei soggetti singoli
6. telefonici: si estraggono i nomi casualmente dall’elenco telefonico
In realtà nessun tipo è realmente casuale perché inevitabilmente e per diverse ragioni una parte di
popolazione viene esclusa. Il campione oltre ad essere casuale può essere anche probabilistico (selezione dei
soggetti senza distorsioni sistematiche, in modo che i dati raccolti sul campione possono essere generalizzati
anche alla popolazione con un certo grado di probabilità definibile) o non probabilistico (selezione dei
soggetti sulla base di procedure non casuali sulla base di una scelta di soggetti arbitraria, legata a vincoli del
ricercatore e alla disponibilità dei soggetti)
5.4. Rappresentativo: di che?
Un campione è rappresentativo se riproduce in scala ridotta, la popolazione oggetto di studio da cui è
estratto. 1. La rappresentatività va controllata, ed eventualmente affermata per ogni proprietà separatamente.
2. Dato che la rappresentatività si valuta confrontando la distribuzione di una proprietà nel campione con la
distribuzione della stessa proprietà nella popolazione, essa si può giudicare unicamente per quelle proprietà
di cui si conosce la distribuzione nella popolazione – cioè solo per le proprietà rilevate attraverso un
censimento di quella popolazione. Per tutte le altre proprietà – atteggiamenti, valori, opinioni, etc. – la
rappresentatività non si può minimamente controllare e pertanto non può essere affermata. 3. La frase
“questo è un campione rappresentativo” non ha alcun senso se non è seguita da “rispetto alla/e proprietà
X,Y,Z”. 7
5.5. Come garantire una (limitata) rappresentatività a un campione casuale
Campionamento sistematico. I soggetti vengono estratti non in maniera casuale ma, una volta estratta
l’unità, il campione è determinato secondo un criterio ragionato, in generale scegliendo un’unità ogni
intervallo, cioè il numero di posizioni che vengono calcolate per individuare in successione le unità
campionarie che costituiranno il campione. 8
CAP.6 LE COLONNE DELLA MATRICE: DALLE PROPRIETÀ ALLE VARIABILI. LA
FEDELTÀ DEI DATI E L’ATTENDIBILITÀ DELLE VARIABILI.
6.1. Tipi di proprietà
Sulle colonne della matrice dei dati relativa ad una ricerca si trovano le variabili che rappresentano le
proprietà che interessano gli autori di quella ricerca. I tipi di proprietà che si trasformano in variabili sono
diversi a seconda del tipo di unità di analisi. Quando si tratta di unità di raccolta che non coincidono con
l’unità di analisi si parla di proprietà aggregate. Quando si tratta di unità di raccolta che coincidono con
l’unità di analisi si parla di proprietà globali. Quando si tratta di unità proprie dell’individuo si parla di
proprietà individuali, mentre quelle a livello superiore (relative al contesto) si chiamano contestuali.
6.2. La definizione operativa
Una variabile è un vettore di segni che rappresentano gli stati dei casi sulle proprietà, per le quali spesso è
necessario un piano di codifica. È il caso di sottolineare il fatto che in tutti i piani di codifica è necessario
prevedere una cifra specifica per le informazioni mancanti. La sensibilità è il rapporto fra il numero di stati
di una proprietà che consideriamo nel nostro piano di codifica e il numero di stati differenti che la stessa
proprietà può assumere. Il piano di codifica è parte del complesso di regole e convenzioni che permettono di
trasformare una proprietà in una variabile nella matrice. Questo complesso si chiama definizione operativa
e le parti che la costituiscono variano a seconda della natura della proprietà. Le differenze più importanti
sono legate al tipo di unità di analisi, e di conseguenza al tipo di tecnica con cui si raccolgono i dati.
6.3. La fedeltà dei dati
Un dato si dice fedele se rappresenta correttamente il corrispondente stato sulla proprietà secondo le
convenzioni stabilite dalla definizione operativa. Problemi di risposte per desiderabilità sociale: per gli
intervistati è più facile percepire quali sono le risposte socialmente desiderabili e farle proprie piuttosto che
rispondere sinceramente. Ma ci sono anche molte altre ragioni: non capire la domanda, attribuire un diverso
significato, ricordo del passato sbiadito, influenza del ricercatore o trascrizioni errate.
6.4 Procedure per controllare la fedeltà dei dati
Distribuzione di frequenza: ispezione di quanti dati portano ciascuno dei codici numerici previsti per
ciascuna variabile. Questa ispezione deve comunque costituire il primo passo dell’analisi perché ci fa
prendere contatto con i dati che abbiamo raccolto. Inoltre, ci permette di scoprire se qualche dato porta un
codice non previsto dal piano di codifica di quella variabile. L’analisi delle distribuzione di frequenza di
tutte le variabili di una matrice per scoprire eventuali codici non previsti si chiama wild code check. L’altra
via per controllare la fedeltà di alcuni dati esplorando la matrice si basa sul fatto che alcune combinazioni di
categorie sono socialmente o giuridicamente impossibili in una data società. Questa forma si chiama
consistency check e si può applicare solo ad un numero limitato di situazioni. Tutte le altre forme di
controllo si applicano confrontando i dati con informazioni che si trovano fuori dalla matrice. Intervista
sull’intervista: metodo dell’Università di Lodz (Polonia): controlli di fedeltà alle risposte, cioè di
corrispondenza tra il dato che si registra nella matrice e ciò che l’intervistato pensa realmente.
6.5. I coefficienti di attendibilità: una critica
Per controllare realmente la fedeltà dei dati anziché la correlazione matematica fra vettori disponiamo solo
di questi procedimenti. Alcuni (controllo di coerenza, ispezione dei documenti ufficiali) si possono applicare
solo raramente; altri (intervista sull’intervista e simili) richiedono un investimento enorme di tempo, denaro
e capacità. A parte questi, non c’è altro rimedio contro il rischio di raccogliere dati infedeli che una grande
attenzione nel formulare le definizioni operative, sostenuta da una grande esperienza di tutte le situazioni di
pericolo (per la fedeltà dei dati) che si producono lungo il processo di raccolta dei dati stessi. Per
determinare l’attendibilità di un test viene calcolato il coefficiente di correlazione tra due vettori di punteggi
ottenuti da un campione di soggetti ai quali il test è stato somministrato in due momenti differenti. Si tratta
di una tecnica di controllo di attendibilità chiamata test-retest (cioè mediante la ripetizione dello stesso test):
a) per rilevare l’attendibilità di un test (che abitualmente comprende un certo numero di domande o prove
differenti) si somministra il test in un certo giorno a un campione di soggetti (di solito gli studenti della
classe universitaria di psicologia che segue lo psicologo che propone il test. 9
b) si registrano le risposte alle domande (o le soluzioni alle prove) e si attribuisce un punteggio a ogni
risposta;
c) ad ogni soggetto si attribuisce un punteggio che equivale alla somma o alla media dei suoi punteggi nelle
singole prove. Questa cifra, con la quale si esprime il risultato globale di ciascun soggetto sul test in esame,
viene registrata su un vettore-colonna;
d) dopo un po’ di tempo (abitualmente u