vuoi
o PayPal
tutte le volte che vuoi
CAPITOLO TREDICESIMO
Questa fase che andremo ad analizzare ora è quella riguardante l’analisi dei dati che significa analisi delle
variabili e delle loro relazioni. Mentre nella raccolta di informazioni i protagonisti della ricerca sono le unità
di analisi, nella fase dell’analisi dei dati i protagonisti sono le variabili che vengono classificate secondo le loro
caratteristiche logico-matematiche. Queste caratteristiche definiscono le procedure da seguire nella fase di
analisi dei dati. Abbiamo già distinto le variabili in tre tipi: cardinali, ordinali e nominali.
La variabile nominale deriva da un’operazione di classificazione degli stati della proprietà e quindi i numeri
assegnati alle variabili non hanno valore numerico, ma sono come ‘nomi’. Le sole relazioni possibili tra le
modalità di un variabile nominale e l’altra sono le relazioni di uguaglianza.
La variabile ordinale nasce da un’operazione di ordinamento degli stati della proprietà e mantengono le
proprietà ordinali dei numeri nel senso che se attribuisco 1 a ‘’molto insoddisfatto’, 2 a ‘’poco soddisfatto’’ e
3 a ‘’soddisfatto’’ potrò affermare che essendo 3 maggiore di 1, nel numero più alto ci sarà un grado di
soddisfazione maggiore. Oltre alle relazioni di uguaglianza e disuguaglianza si stabiliscono anche le relazioni
d’ordine, quindi maggiore o minore.
Le variabili cardinali si ottengono attraverso un’operazione di misurazione o conteggio. I valori delle variabili
hanno completa funzionalità numerica. Si applicano le quattro operazioni aritmetiche.
Prima le variabili considerate erano solo cardinali solo nella ricerca successiva furono introdotte le altre;
nonostante questo le tecniche di analisi dei dati riguardano solo le variabili cardinali e quelle nominali. Per
quanto riguarda quelle ordinali bisogna ricordare che le proprietà dei tre tipi di variabili sono cumulative.
Una variabile ordinale possiede tutte le caratteristiche di una nominale, mentre una cardinale possiede tutte
le caratteristiche di una ordinale e in più ha un’unità di conto. Quindi una variabile ordinale può essere
trattata come fosse una nominale trascurando che le sue categorie siano ordinate o anche come fosse una
cardinale, a discrezione del ricercatore.
Se torniamo alle variabili nominali un caso particolare è quando abbiamo solo due modalità e si parla quindi
di variabili dicotomiche a cui spesso si associa un valore che è 0/1.
Matrice dati => quando si ha una base empirica grezza si ha una trasformazione nella matrice di numeri, la
matrice dati, detta anche matrice ‘’casi per variabili’’. Essa consiste in un insieme rettangolare di numeri,
dove in riga abbiamo i casi e in colonna le variabili; in ogni cella derivante dall’incrocio fra una riga e una
colonna abbiamo un dato. Due sono le condizioni necessarie affinché un insieme di casi possa essere
organizzato nella forma di matrice-dati: l’unità di analisi deve essere sempre la stessa e su tutti i casi studiati
devono essere rilevate le stesse informazioni. L’operazione di traduzione del materiale empirico grezzo in
matrice-dati viene chiamata codifica e avviene attraverso due strumenti, il tracciato record e il codice:
- Tracciato record=> indica la posizione di ogni variabile nella riga della matrice ad esempio nel
questionario leggendo una riga possiamo vedere come l’individuo ha risposto alle domande (profilo
di un caso); mentre leggendo ogni colonna della matrice vediamo come una domanda ha avuto
differenti risposte in base ai soggetti. Una matrice-dati è un insieme non comprensibile di numeri che
diventa intellegibile con l’ausilio del tracciato record e del codice ed ha una funzione organizzatrice
delle informazioni.
- Codice => assegna ad ogni modalità della variabile un valore numerico
Distribuzione di frequenza => è una rappresentazione nella quale a ogni valore della variabile viene associata
la frequenza con la quale esso si rappresenta nei dati analizzati. È molto utile nel caso in cui si vogliano
sintetizzare molti dati. Abbiamo la frequenza assoluta nel caso in cui riportiamo accanto a ogni valore della
variabile il numero di casi che presentano quel valore, mentre se vogliamo mettere due valori a confronto
dobbiamo ‘relativizzarli’ ottenendo le frequenze relative; quindi dividiamo ogni singola frequenza assoluta
per il totale dei casi ottenendo così la proporzione. Il modo più corretto per ottenere una relativizzazione
bisogna moltiplicare la proporzione per 100.
Nell’esposizione dei risultati il ricercatore non presenterà tutte le frequenze, ma solo un tipo di distribuzione
di frequenza. Presenterà quindi solo frequenze percentuali accompagnate però dal numero totale di casi N
su cui si è svolta la ricerca sia per comunicare al lettore la rilevanza della sua ricerca sia per permettere ad
esso di risalire alle frequenze assolute. Inoltre è importante rappresentare solo le cifre decimali significative
e arrotondare per difetto se la cifra è compresa tra 0 e 4, mentre per eccesso se è compresa tra 5 e 9. Non
bisogna trascurare il decimale zero e attuare una quadratura se si ottiene una percentuale totale tipo 99,9
oppure 100,1.
Tra le operazioni di pulizia dei dati abbiamo i controlli di plausibilità, cioè controllare che tutti i valori delle
variabili siano appartenenti al ventaglio di valori previsti dal codice; controlli di congruenza ad esempio nel
caso in cui le risposte ottenute sono maggiore del numero N di intervistati; controllo dei valori mancanti tra
cui troviamo la risposta ‘non sa’, ‘non applicabile’ oppure ‘non risponde’ che spesso vengono eliminate
comportando una perdita di informazione. Il criterio suggerisce l’eliminazione dei ‘non risponde’ nell’analisi
monovariata, mentre nell’analisi a più variabili esclude i ‘non risponde’. Nelle operazioni di post
stratificazione si rimanda anche alla ponderazione, ovvero il calcolo del peso di un individuo/risposta che è
dato dal rapporto tra frequenza della popolazione e frequenza del campione.
Analisi monovariata
L’analisi monovariata è molto importante per il ricercatore poiché rappresenta i frutti del suo lavoro.
Nonostante questo la fase dell’analisi rappresenta un’analisi puramente descrittiva dei fenomeni studiati che
si limita a dirci come ogni variabile è distribuita fra i casi rilevati senza porsi problemi sulle relazioni tra
variabili. Ma in linea generale un ricercatore non si ferma mai all’analisi monovariata poiché il suo scopo è
quello di studiare le relazioni e le reciproche influenze tra le variabili.
In alcuni casi abbiamo bisogno di indici che sintetizzino la distribuzione. Questi indici si esprimono nella forma
di numeri che si chiamano valori caratteristici della distribuzione di frequenza. Di tutte le caratteristiche le
due più importanti sono: la tendenza centrale e la variabilità. Con tendenza centrale si intende il baricentro
dei valori quindi il valore che meglio di qualsiasi altro esprime la distribuzione quando si decidesse di
sintetizzarla in un unico numero.
Se la variabile è nominale la misura di tendenza centrale è data dalla moda, definita come la modalità di una
variabile che si presenta nella distribuzione con maggiore frequenza. Se la variabile è nominale si può
determinare la moda, ma la misura di tendenza centrale è la mediana, definita come la modalità del caso che
occupa il posto di mezzo nella distribuzione ordinata dei casi secondo quella variabile. Se i casi N sono dispari
c’è solo un caso centrale che ha posizione N+1/2; se N è pari ce ne sono due che occupano le posizioni N/2 E
N/2+1. Se la variabile è cardinale allora si usa la media aritmetica che consiste nella somma dei valori assunti
dalla variabile su tutti i casi divisa per il numero di casi. La media si può calcolare solo per variabili cardinali
in quanto richiede che i valori abbiano pieno significato numerico. I valori cardinali possiedono anche moda
e mediana e se la distribuzione della variabile è perfettamente simmetrica attorno al valore centrale allora
moda, mediana e media coincidono.
Abbiamo fino ad ora calcolato le misure di tendenza centrale senza considerare i valori che si distribuiscono
attorno ad esso, quindi dobbiamo accompagnare alle misure di tendenza centrale le misure di variabilità o di
dispersione.
Una variabile nominale ha una distribuzione omogenea quando tutti i casi hanno la stessa modalità, mentre
è massimamente eterogenea quando i casi sono equidistribuiti fra le modalità ad esempio ho cinque modalità
e il 20% di manifestazione di un fenomeno in ognuna di esse. Una distribuzione quindi è tanto più omogenea
quanto più essa è concentrata tra una o poche modalità. L’indice di omogeneità è uguale alla somma dei
quadrati delle proporzioni. Questo indice dipende da due fattori: è tanto più elevato quanto più è concentrata
la distribuzione su poche modalità e quanto è minore il numero delle modalità. Assume valore massimo
quando una frequenza è = 1 e tutte le altre sono = 0; assume il valore minimo quando tutte le frequenze sono
uguali tra di loro e quindi uguali a 1/k. Esiste anche l’indice di omogeneità relativa che è uguale a k x O – 1/k-
1 (k= numero delle modalità della variabile). Il complementare dell’indice di omogeneità è l’indice di
eterogeneità il quale è uguale a 1 meno la somma dei quadrati delle proporzioni.
Quando abbiamo introdotto la mediana l’abbiamo definita come quel valore che ha la proprietà di dividere
la distribuzione ordinata di una variabile in due parti uguali: metà dei casi con valore inferiore alla mediana
e l’altra metà con valore superiore. È possibile dividere la distribuzione in quattro parti uguali e i valori che
segnano i confini di queste quattro parti sono detti quartili. Il primo quartile è il valore che ha sotto di sé il
25% della distribuzione e sopra di sé il 75%, il secondo coincide con la mediana, il terzo quartile è quello che
ha il 75% dei casi sotto di sé e il 25% sopra di sé. I quartili non sono dei valori veri e propri, ma dei valori di
posizione come la mediana. La differenza tra terzo e primo quartile dà la differenza interquartile che viene
usata come indice di variabilità della distribuzione quando la variabile è ordinale.
Per le variabili cardinali possiamo usare i metodi sia di quelle ordinali che nominali, ma ne esistono altri più
appropriati. Un primo modo è lo scostamento semplice medi