STATISTICA
Disciplina che si occupa della conoscenza qualitativa dei fenomeni collettivi e lo
fa attraverso disegno di studi (raccolta di informazioni) e l’analisi dei dati.
Ha l’obiettivo principale di conoscere e comprendere il mondo che ci circonda.
Per fenomeni collettivi si intende natalità, mortalità, nuzialità rispetto a un
gruppo di un numero specifico di individui.
Le informazioni possono essere:
rilevazioni numeriche (numeri)
risultato di un’elaborazione (calcoli precisi)
Negli ultimi anni c’è stato un crescente utilizzo delle metodologie statistiche
nelle scienze sociali a causa di:
- Una connotazione quantitativa: gli argomenti vengono affrontati
partendo da dati empirici
- La crescita di internet: per l’utilizzo immediato di dati
- Potenti computer e software: che hanno facilitato l’interpretazione
dei dati
Studiare la statistica è fondamentale per studiare diversi fenomeni attraverso i
dati che vengono pubblicati in maniera sempre più frequente negli articoli.
Il termine statistica viene utilizzato per fare riferimento all’insieme di
metodologie per la raccolta e l’analisi dei dati.
Per rispondere ad una domanda statistica servono:
- Disegno: per pianificare come ottenere i dati per rispondere alla
domanda
- Analisi descrittiva (statistica descrittiva): descrive il campione con
l’obiettivo di ridurre i dati a semplici sintesi attraverso tabelle o grafici
- Inferenza (statistica inferenziale): serie di metodi per previsioni su una
popolazione basandosi sui dati e informazioni prese da un campione
selezionato da essa
Si fa perciò differenza tra statistica descrittiva (riassume dati attraverso
medie, grafici, percentuali) e statistica inferenziale (prevede dalla parte al
tutto attraverso intervalli di confidenza e test).
Popolazione: insieme complessivo dei soggetti a cui siamo interessati
Parametro: sintesi numerica di dati di popolazione
Campione: un sottoinsieme della popolazione studiata, scelto in maniera
casuale
Statistica: sintesi numerica di dati campionari
Soggetti di studio: le entità che vengono osservate in uno studio,
solitamente persone a volte famiglie, scuole, paesi
L’obiettivo principale di una ricerca è quello di studiare i dati di una
popolazione, talvolta, a causa di motivi economici, è più facile studiare dei
campioni.
Le tecniche statistiche inferenziali prevedono valori di grandi popolazioni
prendendo in considerazioni campioni di dimensioni più ridotte.
Nella statistica inferenziale è importante quanto sia verosimile una predizione,
per questo il campione ricade all’interno di un margine d’errore (solitamente
del 2%) in percentuale della popolazione.
L’incognito è il valore in percentuale dei dati del campione.
Un campione tende a rispecchiare meglio una popolazione quando ciascun
soggetto nella popolazione ha la stessa possibilità di essere estratto come
campione. L’obiettivo è quello di conoscere il valore assunto dai parametri.
I metodi statistici inferenziali ci servono in quanto disponiamo di parametri
incogniti, nel caso in cui ci trovassimo un censimento saremmo davanti a dati
precisi.
Il ricercatore deve fare le domande giuste e scegliere le tecniche più adatte a
rispondere. Per rispondere alle domande utilizza tecniche come:
- Insieme codificato di norme, riconosciuto dalla collettività scientifica,
trasmissibile per apprendimento ed elaborato per risolvere problemi
correnti.
Esistono tecniche di rilevazione (procedure con cui si producono dati da
analizzare) e tecniche di analisi (elaborazioni dei dati raccolti per rispondere
alle domande di ricerca).
Per scegliere tecniche di rilevazione ed analisi esistono diversi fattori (tempo e
risorse disponibili, la natura del fenomeno da studiare…). Ma entrambi
implicano una semplificazione della realtà.
La rilevazione precede l’analisi ma queste sono connesse fra di loro. Le analisi
dipendono dai dati (dati individuali o aggregazione), mentre la rilevazione dei
dati dipende dalle tecniche di analisi che utilizzo. Possono esserci dati
trasversali, longitudinali o panel.
L’analisi statistica prevede
- Raccolta di dati attraverso un questionario strutturato (non prevede
libertà all’intervistatore che porrà una serie di domande predefinite senza
possibilità di cambiare ordine o argomento)
- Codificazione
- Registrazione attraverso la matrice dei dati
Matrice dei dati: forma rettangolare con righe e colonne di numeri.
- Riga= i profili dei casi
- Colonna= variabili, in una colonna si possono vedere tutte le possibili
variabili
- Cella= derivata dall’incrocio di una riga ed una colonna ci sono i dati,
ossia il valore registrato per una singola variabile su un caso particolare
Per essere raccolti in una matrice i dati devono avere due caratteristiche
principali:
1. L’unità d’analisi deve essere sempre la stessa
2. Devono essere rilevate le stesse informazioni da tutti gli individui
La codificazione è l’immissione del materiale empirico grezzo nella matrice con
l’aiuto di un code book.
Code book= documento che indica la posizione di ogni variabile all’interno
della matrice e assegna ad ogni variabile un numero (codice), che solitamente
è incorporato nel questionario.
Percorso tipo di un’indagine:
- Teoria
- Ipotesi
- Raccolta di dati
- Analisi
- Risultati
La rilevazione strutturata si basa su tre elementi:
- L’unità d’analisi= i referenti dell’osservazione sui quali si vogliono
rilevare le informazioni
- La proprietà= le caratteristiche che si possono attribuire all’oggetto di
studio
- Stati= i modi con cui le proprietà possono manifestarsi
Se la proprietà è la nazionalità, gli stati saranno italiano, inglese… Se la
proprietà è l’età gli stati saranno i numeri stessi.
L’unità d’analisi solitamente sono gli individui ma a volte possono essere
gruppi strutturati di persone (famiglia), aggregati territoriali (regioni), prodotti
culturali, eventi, situazioni, luoghi, periodo di tempo.
Non ci sono limiti su questo, ma la scelta dell’unità d’analisi dipende dagli
obiettivi di ricerca e si basa sull’individuazione dell’ambito spazio-temporale
che definisce i limiti.
Unità d’analisi + ambito spazio-temporale = popolazione di riferimento
(potenziali casi di ricerca).
L’ambito spazio-temporale è importante anche perché serve per porre i confini
della generalizzazione dei risultati.
Non sempre unità di rilevazione ed analisi coincidono, perché l’unità di
rilevazione è l’individuo su cui raccolgo le informazioni, mentre quella d’analisi
quella su cui conduco la ricerca.
Una volta definita la popolazione di riferimento il ricercatore ha due opzioni per
raccogliere i dati:
1- Rilevare le informazioni su tutti gli individui della popolazione
(censimento)
2- Rilevare l’informazione su un campione
Questo permette di definire quali casi potenziali possono poi diventare effettivi,
perché l’unità d’analisi è un concetto astratto e singolare, mentre i casi gli
oggetti specifici della ricerca perciò concreti e multipli.
La ricerca scientifica si basa sulle conoscenze su riscontri empirici (dati
osservabili e verificabili), per farlo utilizza l’operativizzazione, un processo
che fa da ponte tra idee astratte e dati concreti.
Per tradurre una proprietà in un dato empirico ci sono due passaggi:
1- Formulare una definizione operativa= decidere come misurare una
proprietà
2- Applichiamo l’operativizzazione:
trasformiamo la proprietà in analisi
e gli stati in valori numerici (modalità)
Perciò il processo dell’operativizzazione è:
- Concetto
- Proprietà
- Variabile
- Dato
Lo scopo generale è quello di trasformare i concetti astratti in qualcosa che
possiamo misurare e studiare.
Una proprietà può essere operativizzata in diversi modi e dar luogo a diverse
variabili, non sono predeterminate ma è il ricercatore che decide come farlo.
A volte i concetti sono complessi o generali, perciò è difficile definirli
operativamente. In questi casi si ricorre a concetti più semplici comunque
legati a quelli generali (indicatori) grazie al quale si può attuare
l’operativizzazione (religione).
La variabile è la proprietà operativizzata e vengono classificate in base alle loro
caratteristiche logico-matematiche. La distinzione tra i diversi tipi di variabile è
importante perché stabilisce le procedure di elaborazione statistica che si
possono effettuare.
Ci sono tre tipi di variabili:
1- Nominale
2- Ordinale
3- Cardinale
Le definizioni operative che servono per passare dalla proprietà alla variabile
sono 3:
1- Classificazione
2- Ordinamento
3- Conteggio o misurazione
Variabile nominale: operativizzazione di proprietà che assume stati discreti
non ordinabili, sono proprietà che si possono classificare ma non ordinare e si
analizzano attraverso la classificazione.
La proprietà assume un numero di stati finiti, non esistono stati intermedi e non
si possono ordinare in un ordine gerarchico, non c’è uno stato più o meno
importante (fede, nazionalità).
Operazioni: =,
Classificazione= si individuano una serie di categorie o classi e ogni categoria
corrisponde ad un possibile stato della proprietà, ma ci sono due regole
fondamentali
1. Esaustività: ogni caso deve rientrare almeno in una categoria prevista
2. Mutua esclusività: ogni caso deve rientrare in una singola categoria
I valori associati ad ogni modalità della variabile prendono il nome di etichetta
(numeri o lettere), non hanno proprietà aritmetiche semplicemente sono dei
“nomi”, motivo del nome della variabile.
Un caso particolare della variabile nominale sono le variabili dicotomiche
(quando ci sono due modalità), di solito indicate con le etichette 0,1. Sono
molto importanti nella ricerca sociale, perché possono essere analizzate con
tecniche di analisi tipiche delle variabili cardinali.
Variabile ordinabile: operativizzazione di proprietà che assume stati discreti
ordinabili, hanno modalità ordinate, esiste un ordine tra gli stati.
Non esistono stadi intermedi tra le modalità e si possono ordinare in maniera
gerarchica.
Operazioni:
Ordinamento= per passare da una proprietà ad una variabile. A differenza
delle variabili nominali, il valore attribuito ad ogni singola modalità ha un
ordine e non è casuale, però questi numeri non si esprimono anche per la loro
distanza, nel senso non hanno un valore cardinale.
Variabile cardinale: operativizzazione di proprietà che assume stati discreti
enumerabili o stati continui.
I numeri assegnati alle modalità hanno un significato numerico e non sono
etichette, si possono applicare tutte le operazioni alle modalità cardinali.
Misurazione= quando la proprietà è continua e quindi può assumere infiniti
stati intermedi in un intervallo tra due stati qualsiasi. In questo caso esiste
un’unità di misura convenzionale con la quale è possibile misurare (età, tempo
impiegato per un tragitto, superficie, distanza fra un posto e l’altro).
Conteggio= quando la proprietà è discreta, assume stati finiti. In questo caso
esiste un’unità di conto che è contenuta un certo numero finito di volte nella
proprietà dell’oggetto e non è convenzionale ma naturale (numero di figli).
Variabili quasi-cardinali= proprietà legate ad atteggiamenti, convinzioni,
pensieri degli individui che possono essere pensate come continue (variano in
maniera graduale).
Non esiste un’unità di misura per calcolare gli atteggiamenti umani, ma si può
attribuire un punteggio attraverso la tecnica delle scale che permette di
misurare questi creando delle variabili nelle quali le distanze tra i valori sono
note (scala Likert).
Queste variabili possono essere poste alle operazioni alle quali sono poste
quelle cardinali.
Le variabili sono cumulative.
Possono essere
- Quantitative (misurabili, esprimibili attraverso un’unita di misura):
1. Discrete: assumono un numero limitato, hanno corrispondenza con
numeri interi (numero di figli)
2. Continue: assumono un numero illimitato, hanno corrispondenza con
numeri reali (peso)
- Qualitative (non sono misurabili, esprimibili tramite attributi, insieme di
categorie):
1. Ordinali (titolo di studio)
2. Sconnesse (colore capelli, sesso)
Nell’analisi dati, la variabile che ne influenza un’altra viene detta
indipendente, mentre quella influenzata dipendente (livello d’istruzione
della madre e successo scolastico dei figli). Poi in base alla variabile con cui
viene messa in relazione, lo status della variabile può cambiare da dipendente
ad indipendente (successo scolastico e posizione occupazionale).
Esistono diverse fonti statistiche:
- Fonti istituzionali o ufficiali= che per legge raccolgono, elaborano e
gestiscono l’informazione di statistica (Istat, Eurostat…). In questo caso si
parla di rilevazione diretta.
- Fonti amministrative= gli enti che producono informazioni a seconda
della loro attività amministrativa o istituzionale (anagrafe). In questo
caso c’è una rilevazione indiretta.
- Altre fonti= enti che fano indagini ad hoc (università)
La statistica descrittiva si basa su tre elementi:
1. La descrizione e la forma della distribuzione
2. La posizione o tendenza centrale
3. La variabilità o dispersione
Per sintetizzare i dati della matrice si utilizzano due strumenti:
- Tabelle o grafici
- Indici di sintesi che rappresentano una specifica caratteristica della
distribuzione dati (quelli di posizione o tendenza centrale, quelli di
variabilità o dispersione)
Tutto ciò che ci circonda è caratterizzato da variabilità e i metodi statistici ci
forniscono il modo per misurarla e interpretarla (ci sono caratteristiche che
variano tra gli individui e nel tempo come le ore dedicate allo studio). Questi
valori della variabile creano una scala di misura in quanto soggetti a variazione.
Le tecniche di analisi si dividono in base al numero di variabili su cui operano e
il tipo di variabile:
1. Analisi monovariata (una sola variabile con obiettivo descrittivo)
2. Analisi bivariata (due variabili contemporaneamente con obiettivo di
ricercare la relazione tra queste variabili)
3. Analisi multivariata (più di 2 variabili contemporaneamente con
l’obiettivo di sintetizzare le relazioni tra variabili)
Analisi monovariata
Obiettivo: pulizia dei dati, descrivere il fenomeno rappresentato dalla variabile,
preparare le variabili per le successive analisi.
Si parte dalla distribuzione di frequenza della variabile= modo per
rappresentare in maniera sintetica i dati. Ad ogni modalità viene associata la
frequenza con cui si presenta nella matrice (=frequenze assolute).
Per comprendere meglio l’incidenza delle singole modalità rispetto alla
distribuzione complessiva si ricorre alle frequenze relative= proporzione o
percentuale dei casi che ricadono in una determinata categoria. Annullano
l’effetto della numerosità dei casi:
- Proporzione: dividendo numero di casi in una categoria per il numero
totale di casi. È un numero compreso tra 0 ed 1 e la loro somma è
sempre 1.
- Frequenza percentuale: la proporzione moltiplicata per 100. La
percentuale di volte che una modalità si presenta all’interno del
collettivo. La somma è sempre 100.
È utile per confrontare i dati di due collettivi diversi numericamente
(normalizzazione).
Confrontare le frequenze assolute è possibile solamente se i collettivi hanno la
stessa numerosità, in caso contrario trasformo i casi in percentuali.
Per interpretare differenze tra percentuali utilizziamo il termine di punto
percentuale (14,7%-13,3%= 1,4 punti percentuali= variazione assoluta, 10%
variazione relativa).
Se la variabile è ordinale o cardinale si possono calcolare altri due tipi di
frequenze:
- Frequenza cumulata: corrisponde al numero di casi che appartengono a
quella categoria o ad una precedente (al massimo)
- Frequenza retro-cumulata: corrisponde al numero di casi che
appartengono a quella categoria o ad una categoria successiva (almeno),
in questo caso la frequenza della prima categoria è pari al 100%
Prima di analizzare i dati dobbiamo fare una pulizia dei dati, individuando gli
errori ed eliminandoli dalla matrice:
controllo di plausibilità= i dati riportati nella matrice devono essere quelli
previsti dal codice del questionario. Si risale al questionario cartaceo tramite un
codice presente nella matrice.
Tutti i dati devono essere assegnati ad una categoria, non devono esserci dati
mancanti o buchi nella matrice.
Controllo di coerenza= a volte un caso può rientrare in due categorie. A volte
possono esserci incongruenze anche dal confronto di variabili concatenate tra
di loro.
In generale è preferibile avere un dato mancante piuttosto che errato.
È possibile individuare una categoria residuale a cui assegnare tutti i casi per i
quali non è possibile rilevare lo stato (altro).
Altre volte è possibile tenere quattro categorie mancanti distinte:
- Il soggetto non sa
- Il soggetto non risponde
- Non applicabile
- Dato non previsto dal codice
Le ultime due vengono escluse dall’analisi, le prime si lasciano nell’analisi
monovariata ma si escludono in quelle a più variabili.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
- Risolvere un problema di matematica
- Riassumere un testo
- Tradurre una frase
- E molto altro ancora...
Per termini, condizioni e privacy, visita la relativa pagina.