Tipi di variabile e analisi statistica
Nella ricerca quantitativa, analisi dei dati significa analisi delle variabili e delle loro relazioni. Sono le caratteristiche delle variabili che definiscono le procedure da seguire nella fase di analisi dei dati. I tre tipi di variabili sono: nominali, ordinali e cardinali.
Matrice dei dati
Una volta raccolte le informazioni in forma standardizzata, è necessario organizzarle in modo da poterle sottoporre ad analisi statistiche, trasformandole in una matrice dei dati. Una matrice dei dati è un insieme rettangolare di numeri organizzati in modo tale che a ciascuna riga corrisponda un unico caso e a ciascuna colonna corrisponda un’unica variabile. In ogni cella della matrice si trova un dato, cioè il valore assunto da una particolare variabile su un particolare caso.
Affinché le informazioni possano essere inserite in una matrice dei dati:
- Le unità di analisi devono essere sempre le stesse.
- Su tutti i casi devono essere state rilevate le stesse informazioni.
Affinché una proprietà possa diventare una variabile deve:
- Poter assumere (almeno) due stati diversi su (almeno) due casi diversi.
- Poter essere sottoposta a una definizione operativa.
L’operazione di traduzione del materiale empirico grezzo in matrice dati viene chiamata codifica, e avviene con l’ausilio di due strumenti:
- Tracciato record: indica la posizione di ogni variabile nella riga della matrice.
- Codice (codebook): assegna a ogni modalità della variabile un valore numerico.
Nella pratica della ricerca sociale, molto spesso tracciato record e codice sono incorporati nel questionario stesso. Una matrice dati è un insieme non comprensibile di numeri, che però diventano intellegibili con l’ausilio del tracciato record e del codice.
Per progettare la matrice dei dati è necessario:
- Stabilire la relazione tra le informazioni rilevate (ad esempio sul questionario) e le variabili. L’ordine delle variabili deve seguire l’ordine delle domande nel questionario. Si deve tenere presente che alcune domande producono più di una variabile.
- Definire le variabili e i loro attributi:
- Nominare le variabili (assegnargli un’etichetta).
- Determinare il tipo di codifica (numerica, alfanumerica, data).
- Determinare la scala (nominale, ordinale, cardinale).
- Impostare i valori mancanti (dovuti e non dovuti).
Distribuzione di frequenza
Una volta costruita la matrice dati, si tratta di analizzarla; analisi che, come abbiamo detto, viene condotta per variabili. Si può rappresentare sinteticamente una matrice dati con la distribuzione di frequenza. La distribuzione di frequenza di una variabile è una rappresentazione in cui ad ogni valore (modalità) della variabile viene associato il numero di casi che lo presenta (la sua frequenza).
La distribuzione di frequenza può presentare:
- Frequenze assolute: il conteggio del numero dei casi che presenta ciascuna modalità della variabile.
- Frequenze relative: quelle che relativizzano ciascun valore assoluto per permettere il confronto tra diverse distribuzioni; le più comunemente utilizzate sono le proporzioni, percentuali.
Inoltre, può essere utile, nel caso di variabili ordinali o cardinali, presentare la distribuzione cumulata di frequenza, che per ciascun valore/modalità della variabile presenta la somma delle frequenze (assolute o relative) corrispondenti a quel valore/modalità e a tutti quelli inferiori. Quando la variabile è cardinale, per poter rappresentare in tabella la distribuzione di frequenza, i valori della variabile vengono raggruppati in classi (es. età in classi di 5 anni l’una).
La presentazione delle tabelle:
- Distribuzione di frequenza in forma compatta. Il ricercatore dovrà attenersi al criterio di parsimoniosità nella presentazione dei suoi dati: troppi numeri confondono il lettore. Egli presenterà solo le frequenze percentuali, accompagnate però dall’indicazione base del calcolo (valore assoluto). Questo permette di comunicare la rilevanza numerica dei suoi dati e di risalire alle frequenze assolute.
- Cifre decimali. Vanno riportate solo le cifre decimali significative.
- Arrotondamenti. Se il decimale si colloca fra 0 e 4 si arrotonda per difetto, se si colloca fra 5 e 9 si arrotonda per eccesso.
- Il decimale zero. Bisogna riportare anche il valore zero.
- Quadratura. Può succedere che la somma delle percentuali faccia 99,9, oppure 100,1. In questo caso è opportuno alterare lievemente le cifre per avere percentuali che diano come somma 100,0. Per fare questo occorre guardare al secondo decimale e modificare le percentuali per le quali questa alterazione è meno rilevante (meglio 16,74 – 16,8 piuttosto che 18,21 in 18,3). Oppure si suggerisce di alterare cifre più elevate, sulle quali questa forzatura ha un impatto relativo minore (meglio un 42,6 in 42,7 che un 5,6 in 5,7).
La prima utilizzazione della distribuzione di frequenza è rappresentata dalla cosiddetta operazione di pulizia dei dati. Queste operazioni sono:
- Controlli di plausibilità. Si tratta di controllare che tutti i valori della variabile siano plausibili, appartengano cioè al ventaglio di valori previsti dal codice.
- Controlli di congruenza. Si possono confrontare le distribuzioni di due variabili per far emergere eventuali incongruenze.
- Controllo dei valori mancanti. I casi in cui si possono presentare dei valori mancanti sono quattro:
- Il soggetto può posizionarsi sulla risposta “non so”.
- Il soggetto non è tenuto a rispondere a una certa domanda (filtro).
- Il soggetto si rifiuta di rispondere a una domanda.
- Il soggetto presenta, nella cella corrispondente, un valore implausibile.
- Ponderazione. Con una proporzione si calcola quanto dovrebbe “pesare” un individuo per ricondurre la distribuzione del titolo di studio nel campione a quella della popolazione (29,5% nella popolazione/25% nel campione = 1,17 peso).
Analisi monovariata
L’analisi monovariata serve a studiare la distribuzione di singole variabili. Rappresenta il primo risultato empirico del processo di analisi dei dati.
-
Metodologia
-
Metodologia
-
Metodologia della ricerca sociale e analisi dei consumi - Appunti
-
Metodologia della ricerca sociale e analisi dei consumi