vuoi
o PayPal
tutte le volte che vuoi
1 .TIPI DI VARIABILE E ANALISI STATISTICA
Nella ricerca quantitativa “analisi dei dati” significa analisi delle variabili e delle loro relazioni. Sono le
caratteristiche delle variabili che definiscono le procedure da seguire nella fase di analisi dei dati. I tre tipi di
variabili sono: nominali, ordinali e cardinali.
2. MATRICE DEI DATI
Una volta raccolte le informazioni in forma standardizzata è necessario organizzarle in modo da poterle
matrice dei dati.
sottoporre ad analisi statistiche, dunque trasformarle in una Una matrice dei dati è un
riga caso
insieme rettangolare di numeri organizzati in modo tale che a ciascuna corrisponda un unico e a
colonna variabile. cella dato,
ciascuna corrisponda un’unica In ogni della matrice si trova un cioè il valore
assunto da una particolare variabile su un particolare caso.
Affinché le informazioni possano essere inserite in una matrice dei dati:
Le unita di analisi devono essere sempre le stesse
1. Su tutti i casi devono essere state rilevate le stesse informazioni
2.
Affinché una proprietà possa diventare una variabile deve:
Poter assumere (almeno) due stati diversi su (almeno) due casi diversi.
1. Poter essere sottoposta a una definizione operativa.
2.
L’operazione di traduzione del materiale empirico grezzo in matrice dati viene chiamata codifica, e avviene con
l’ausilio di due strumenti:
tracciato record
Il indica la posizione di ogni variabile nella riga della matrice
1. codice
Il (codebook) assegna a ogni modalità della variabile un valore numerico.
2.
Nella pratica della ricerca sociale molto spesso tracciato record e codice sono incorporati nel questionario
stesso. Una matrice dati è un insieme non comprensibile di numeri, che però diventano intellegibili con l’ausilio
del tracciato record e del codice.
Per progettare la matrice dei dati è necessario:
Stabilire la relazione tra le informazioni rilevate (ad esempio sul questionario) e le variabili:
1.
L’ordine delle variabili deve seguire l’ordine delle domande nel questionario.
Si deve tenere presente che alcune domande producono più di una variabile.
Definire le variabili e i loro attributi:
2.
nominare le variabili (assegnargli un etichetta)
determinare il tipo di codifica (numerica, alfanumerica, data)
determinare la scala (nominale, ordinale, cardinale)
impostare i valori mancanti (dovuti e non dovuti).
3.DISTRIBUZIONE DI FREQUENZA
Una volta costruita la matrice dati, si tratta di analizzarla; analisi che, come abbiamo detto, viene condotta per
distribuzione di frequenza.
variabili. Si può rappresentare sinteticamente una matrice dati con la
La distribuzione di frequenza di una variabile è una rappresentazione in cui ad ogni valore (modalità) della
frequenza).
variabile viene associato il numero di casi che lo presenta (la sua
La distribuzione di frequenza può presentare:
frequenze assolute:
le il conteggio del numero dei casi che presenta ciascuna modalità della variabile;
frequenze relative:
le che relativizzano ciascun valore assoluto per permettere il confronto tra diverse
proporzioni, percentuali;
distribuzioni, si tratta in genere di le più comunemente utilizzate sono le
distribuzione cumulata di
Inoltre può essere utile, nel caso di variabili ordinali o cardinali, presentare la
frequenza, che per ciascun valore/modalità della variabile presenta la somma delle frequenze (assolute o
relative) corrispondenti a quel valore/modalità e a tutti quelli inferiori.
Quando la variabile è cardinale, per poter rappresentare in tabella la distribuzione di frequenza i valori della
variabile vengono raggruppati in classi (es. età in classi di 5 anni l’una).
La presentazione delle tabelle:
Distribuzione di frequenza in forma compatta. Il ricercatore dovrà attenersi al criterio di parsimoniosità nella
presentazione dei suoi dati: troppi numeri confondo il lettore. Egli presenterà solo le frequenze percentuali,
accompagnate però dall’indicazione base del calcolo (valore assoluto). Questo permette di comunicare la
rilevanza numerica dei suoi dati e di risalire alle frequenze assolute.
Cifre decimali. Vanno riportate solo le cifre decimali significative.
Arrotondamenti. Se il decimale si colloca fra 0 e 4 si arrotonda per difetto, se si colloca fra 5 e 9 si arrotonda
per eccesso.
Il decimale zero. Bisogna riportare anche il valore zero.
Quadratura. Può succedere che la somma delle percentuali faccia 99,9, oppure 100,1. In questo caso è
opportuno alterare lievemente le cifre per avere percentuali che diano come somma 100,0. Per fare questo
occorre guardare al secondo decimale e modificare le percentuali per le quali questa alterazione è meno
rilevante (meglio 16,74 – 16,8 piuttosto che 18,21 in 18,3). Oppure si suggerisce di alterare cifre più elevate,
sulle quali questa forzatura ha un impatto relativo minore (meglio un 42,6 in 42,7 che un 5,6 in 5,7).
La prima utilizzazione della distribuzione di frequenza è rappresentata dalla cosiddetta operazione di pulizia
dei dati. Queste operazioni sono:
Controlli di plausibilità. Si tratta di controllare che tutti i valori della variabile siano plausibili, appartengano
cioè al ventaglio di valori previsti dal codice.
Controlli di congruenza. Si possono confrontare le distribuzioni di due variabili per far emergere eventuali
incongruenze.
Controllo dei valori mancanti. I casi in cui si possono presentare dei valori mancanti sono quattro:
il soggetto può posizionarsi sulla risposta “non so”
- il soggetto non è tento a rispondere a una certa domanda (filtro)
- il soggetto si rifiuta di rispondere a una domanda
- il soggetto presenta, nella cella corrispondente, un valore implausibile
-
Ponderazione. Con una proporzione si calcola quanto dovrebbe “pesare” un individuo per ricondurre la
distribuzione del titolo di studio nel campione a quella della popolazione (29,5(% nella popolazione)/25(% nel
campione),3=1,17(peso) 5. ANALISI MONOVARIATA
singole variabili.
L’analisi monovariata serve a studiare la distribuzione di
Rappresenta il primo risultato empirico del lavoro di ricerca, le sue funzioni sono:
descrivere la distribuzione della variabile: cioè descrivere come una singola caratteristica è distribuita fra i
misure di tendenza centrale variabilità;
casi, anche utilizzando o di
propedeutiche ad analisi successive(bivariata, multivariata), cioè l’analisi monovariata permette di compiere
operazioni preliminari
una serie di come:
plausibilità
controllare la dei valori;
- squilibri
individuare nella distribuzione;
- ricodifica);
valutare la possibilità di aggregare diverse modalità della variabile (tramite operazioni di
- indici sintetici
valutare le possibilità di costruzione di
-
l’analisi monovariata è dunque un analisi puramente descrittiva di come una variabile si distribuisce nella
popolazione. Le distribuzioni della variabili posso essere riportate integralmente (tabelle o grafici) o attraverso
valori caratteristici indici,
misure sintetiche: i della distribuzione. Si tratta di espressi in forma numerica, utili
rappresentazione sintetica
ad una delle caratteristiche fondamentali della distribuzione di una variabile. Le
principali caratteristiche che descrivono una distribuzione di dati sono due:
misure di tendenza centrale
le che mirano ad individuare quale valore sintetizza meglio la distribuzione.
misure di variabilità,
Le che mirano a rendere conto del modo in cui le altre modalità si collocano attorno ai
valori individuati dalle misure di tendenza centrale.
Tali misure differiscono in relazione al “tipo” di variabile che si sta analizzando.
Operazioni che è Misure di
Tipo di variabile possibile compiere fra Misure di dispersione
tendenza centrale
le modalità
= ≠ Moda Indice di omogeneità
Nominale = ≠ Moda Indice di omogeneità
Differenza
Ordinale > < Mediana interquartile
Moda
= ≠ Indice di omogeneità
Cardinale Mediana Differenza interquartile
> < Deviazione standard
+ (× ÷) Media
6.LE MISURE DI TENDENZA
VARIABILI NOMINALI
Moda: è la modalità che presenta la frequenza maggiore. VARIABILI ORDINALI
Mediana: ordinata
è la modalità del caso che occupa il posto di mezzo nella distribuzione dei casi secondo la
variabile: dispari
Se i casi sono il caso centrale è quello che occupa la posizione (N+1)/2;
- pari N/2 (N/2+1),
Se i casi sono ci sono due casi centrali )nelle posizioni e e se non presentano la
- stessa modalità la distribuzione può avere due mediane. VARIABILI CARDINALI
Media aritmetica: è data dalla somma dei valori assunti dalla variabile su tutti i casi divisa per il numero dei
casi: N
∑ X i
+ +... +
X X X
= =
X 1 2 N i=1
N N
7.LE MISURE DI VARIABILITA’
Le misure della variabilità ci informano su quanto i valori della distribuzione mutano/sono dispersi, e sono
diverse a seconda del tipo di variabile che si sta analizzando. VARIABILI NOMINALI
Una variabile nominale ha una distribuzione massimamente omogenea quando tutti i casi presentano la
stessa modalità, massimamente eterogenea quando i casi sono equidistribuiti tra le modalità.
p l’indice di omogeneità
Indicando con le proporzioni di una distribuzione di frequenza, è dato da:
i k
∑
= + +... + =
2 2 2 2
O p p p p
1 2 k i
i=1
cioè dalla somma dei quadrati delle proporzioni. Varia tra un minimo pari a 1/k (dove k è il numero delle
modalità) e un massimo di 1. indice di eterogeneità:
Il complemento a 1 dell’indice di omogeneità è detto k
∑
= 2
E 1− p
i
i=1
In alcuni casi può essere utile normalizzare l’indice di omogeneità o di eterogeneità, per
neutralizzare l’influenza del numero delle modalità:
O =(k*O1)/(k1)
rel
E =1[(k*O1)/(k1)]
rel
La normalizzazione permette di confrontare la dispersione di variabili che hanno un diverso numero di
modalità. VARIABILI ORDINALI
Dividendo la distribuzione ordinata di una variabile in quattro parti, possiamo individuare i valori sui casi che
quartili.
segnano i confini tra i quarti, detti la differenza
La differenza tra i valori del primo e del terzo quartile definiscono un indice di dispersione:
interquartile. Se infatti questa differenza è piccola la distribuzione sarà molto concentrata attorno alla
mediana, se è molto grande la distribuzione sar