La statistica sociale come metodo per la ricerca sociale empirica
Concetti generali e definizioni di base
Solo a partire dalla fine del XVII secolo (Inghilterra) e nel XVIII (Francia), si può iniziare a parlare di statistica. La statistica nasce quindi in concomitanza alla nascita dello stato moderno, ovvero quando la strutturazione delle funzioni della PA, intese come servizio al cittadino, cominciano a prendere corpo. Statistica = studio delle cose dello Stato. Da allora i campi di applicazione della statistica si sono ampliati e il metodo statistico è diventato pervasivo nei processi di conoscenze sia delle scienze naturali (fisica, chimica, biologia, ecc.) sia, successivamente, delle scienze sociali.
Il concetto di scienza sociale empirica non definisce tanto un settore quanto piuttosto un metodo che si ispira a un’esigenza di esattezza e obiettività sul modello delle scienze naturali. Si deve però sottolineare come tale metodo non possa essere considerato come un arsenale di strumenti di ricerca, una cassetta di attrezzi, priva di alcuna teoria, ovvero che si riduca ad una tabula rasa depurata di ogni pregiudizio, oggettivamente determinata. Basta pensare al problema della selezione degli oggetti da studiare per capire l’intrinseca soggettività del lavoro di ricerca sociale.
La statistica sociale può essere considerata come il complemento naturale della ricerca sociale empirica in quanto fornisce metodi d’indagine e strumenti di analisi affidabili per verificare/falsificare le ipotesi di ricerca che necessariamente un accorto ricercatore deve porsi. Non è certo la panacea, in quanto anche i metodi più rigorosi possono condurre a risultati erronei o assurdi se si applicano a problemi per i quali essi sono inadeguati. Ad esempio, determinate dinamiche politiche, la situazione italiana attuale docet, non operano in modo uniforme su tutto il campione statistico che rappresenta la popolazione, ma è spesso influenzato in modo differenziato dagli interessi più forti e dall’azione di coloro che fanno l’opinione pubblica. Le rilevazioni, quindi, dovranno seguire le differenziazioni concrete non attenersi esclusivamente alla media statistica.
Venendo al contenuto specifico della statistica sociale, possiamo dire che questa, oggi, rappresenta un mezzo per rispondere a interrogativi concreti riguardanti i fenomeni e le relazioni sociali. Far progredire la conoscenza, spiegare le differenze, individuare i nessi causali, in sintesi ridurre il grado di incertezza sui comportamenti, gli atteggiamenti, le scelte che gli esseri umani fanno in una varietà di situazioni sociali. La statistica è quindi centrale nell’insieme di attività che costituiscono il processo della ricerca sociale.
Le fasi del processo della ricerca sociale
Il processo della ricerca sociale può essere sintetizzato nelle seguenti fasi:
- Definizione degli obiettivi di ricerca: il ricercatore trasforma alcune idee iniziali in interrogativi di ricerca concreti.
- Definizione delle ipotesi: concetti astratti vengono tradotti in ipotesi rigorose basate su caratteristiche osservabili e/o misurabili.
- Elaborazione di strumenti atti a misurare le caratteristiche specificate dalle ipotesi di ricerca.
- Rilevazione dei dati: le caratteristiche di interesse vengono osservate e/o misurate e registrate.
- I dati rilevati vengono codificati ed archiviati.
- Elaborazione dei dati: applicazione di appropriati metodi di analisi statistica delle variabili precedentemente misurate per determinare se e in che misura le ipotesi formulate sono sostenute dall’evidenza empirica.
- Formulazione di conclusioni sull'importanza relativa delle fonti di variazione inizialmente ritenute responsabili del fenomeno oggetto di studio. Il risultato che si ottiene, in genere, è un miglioramento del nostro livello di comprensione del mondo sociale in cui operiamo.
La ricerca scientifica sociale concentra i propri sforzi di spiegazione al mondo reale delle entità osservabili e può essere distinta in due settori:
- Ricerca applicata: si propone di spiegare fenomeni sociali che hanno immediate implicazioni per le politiche pubbliche, ad esempio stabilire se un dato programma d’intervento sulla scuola materna può realmente migliorare i livelli di apprendimento dei bambini.
- Ricerca di base: esamina la validità di affermazioni generali sulle relazioni che riguardano processi sociali generali, ad esempio le scelte di voto degli elettori sono influenzate soprattutto dai messaggi diffusi dai mezzi di comunicazione o dalle reti sociali locali nelle quali gli elettori sono inseriti?
In ogni caso l’obiettivo fondamentale è quello di spiegare nel modo più accurato le variazioni osservate nei fenomeni sociali oggetto di studio. Per fare ciò è necessario formulare delle proposizioni ipotetiche, cioè affermazioni sulle relazioni che intercorrono fra concetti astratti; molto spesso le proposizioni assumono la forma “se…, allora…” (esempio: maggiore è il grado di centralizzazione del processo decisionale, maggiore è il tasso di ricambio della forza lavoro impiegata). Definire una proposizione implica la definizione dei concetti costitutivi delle proposizioni.
Arriviamo quindi alle variabili ovvero qualsiasi caratteristica, attributo di persone, oggetti o eventi che possono assumere diversi valori. Quindi le proposizioni ipotetiche (basate su variabili latenti) possono essere tradotte in ipotesi operative (variabili manifeste) sostituendo i concetti con le variabili scelte per rappresentarli.
Possiamo inoltre distinguere le variabili in relazione al loro ruolo all’interno dell’ipotesi, ovvero individuare variabili indipendenti e variabili dipendenti: le prime svolgono un ruolo antecedente o casuale e generalmente compaiono nella parte iniziale dell’ipotesi, le seconde svolgono un ruolo conseguente rispetto alla/e variabile/i indipendenti. (N.B la distinzione tra variabile dipendente e indipendente non sempre è immediata).
Alcune definizioni di base
- Rilevazione statistica: complesso delle operazioni rivolte ad acquisire una o più informazioni su un insieme di elementi oggetto di studio. Si distinguono in totali (censimenti) e parziali (rilevazioni campionarie).
- Popolazione (o universo): è un qualsiasi insieme di elementi, reale o ipotetico, oggetto di uno studio statistico. Si distingue tra popolazione reale (esistente e visibile) e popolazione virtuale (rigorosamente definibile ma non osservata né osservabile).
- Unità statistica: è l’elemento di base della popolazione sul quale viene rilevata la caratteristica oggetto di studio. N.B. l’unità statistica è definita in termini di contesto, tempo e spazio.
- Rilevazione totale (censimento): una rilevazione effettuata sulla totalità delle unità statistiche che compongono la popolazione di riferimento.
- Rilevazione parziale (campionaria): è una rilevazione condotta su una parte della popolazione e non su tutte le unità statistiche.
- Variabile: ciascuna unità statistica presenta delle caratteristiche, tali caratteristiche sono brevemente definite variabili.
- Modalità: è l’espressione concreta che la variabile assume sulle unità statistiche.
- Frequenza: è il numero di volte che una determinata modalità si presenta nella popolazione di riferimento (frequenza assoluta); quando la frequenza assoluta è rapportata al totale della collettività si parla di frequenza relativa.
Uno schema molto semplice di rilevazione può essere rappresentato dalla seguente tabella in cui sui partecipanti ad un corso di formazione vengono rilevate le variabili: genere, titolo di studio e condizione occupazionale.
| Unità | Genere | Titolo di studio | Stato occupazionale |
|---|---|---|---|
| Piero | M | Diploma | Occupato |
| Dario | M | Laurea | Disoccupato |
| Anna | F | Lic.media | Disoccupato |
| Maria | F | Diploma | Occupato |
| Gianni | M | Diploma | Occupato |
Esempio: Sulla unità statistica Piero la variabile genere si manifesta nella modalità maschio, la variabile titolo di studio si manifesta con la modalità diploma ed la variabile stato occupazionale si presenta con modalità occupato.
La matrice dei dati
La matrice dei dati consiste in un insieme rettangolare di numeri o più in generale di caratteri, dove in riga abbiamo le unità statistiche ed in colonna le variabili; in ogni cella derivante dall’incrocio tra riga e colonna abbiamo un dato, ossia il valore registrato per una particolare variabile ed un particolare caso.
Dalla rilevazione dei dati alla matrice di dati
L’operazione di inserimento del materiale empirico grezzo (questionari, documenti amministrativi, ecc.) in una matrice di dati, passa attraverso la definizione del tracciato record ed il processo di codifica. La definizione del tracciato record serve per stabilire la posizione di ogni variabile nella matrice dati (ad esempio la variabile “genere” si trova nella terza colonna della matrice dei dati); il processo di codifica assegna ad ogni modalità di ogni variabile un valore numerico (ad esempio per la variabile “genere”, il valore “1” sta per “uomo” ed il valore “2” sta per “donna”). Particolare attenzione deve essere prestata all’attribuzione di codici per i dati mancanti e per le situazioni di “non applicabilità”. Il processo di codifica deve rispondere a due requisiti fondamentali: mutua esclusività ed esaustività. Il risultato del processo di codifica è un documento denominato codebook.
Una volta completato il processo di codifica si passa all’immissione dati (data entry). In questa fase, la matrice di dati numerica viene trasferita su supporto informatico ⇒ file dei dati. Il processo di immissione dei dati avviene automaticamente, nel caso in cui le interviste siano effettuate con tecniche CATI (interviste telefoniche assistite al computer) o CAPI (interviste faccia a faccia assistite al computer).
Dalla matrice dei dati a una prima aggregazione dei dati
La tabella di frequenza più semplice è costituita da due colonne: sulla prima sono riportate le modalità del carattere preso in esame e sulla seconda, accanto a ciascuna modalità, la frequenza con cui la stessa modalità si presenta nella matrice dei dati.
Esempio:
| Titolo di studio | Numero di individui |
|---|---|
| Laurea | 1.477.305 |
| Diploma | 6.018.160 |
| Licenza media inferiore | 12.480.629 |
| Licenza elementare | 21.277.899 |
| Alfabeti privi di titolo | 9.547.648 |
| Analfabeti | 1.608.212 |
| Totale | 52.410.853 |
Le informazioni contenute in queste tabelle costituiscono la cosiddetta distribuzione di frequenza della variabile esaminata. N.B.: L’aggregazione dei dati è un’operazione delicata perché ogni sintesi porta con sé una perdita di informazioni e la sua interpretazione deve essere coerente con il tipo di sintesi che si è effettuata.
Alcune minime notazioni statistico matematiche e i principali operatori matematici
In generale i caratteri statistici (variabili o mutabili), vengono indicati con le ultime lettere dell’alfabeto latino (V, W, X, Y, Z) a caratteri maiuscoli. Le singole misurazioni effettuate su più unità statistiche (persone, imprese, famiglie, manufatti, ecc.) vengono indicate invece dalla corrispondente lettera minuscola (x) accompagnata da un deponente (i) dando luogo alla seguente formulazione xi che rappresenta la scrittura simbolica del valore che assume la variabile X per la generica unità i (i-esima unità). In alcuni casi x denota semplicemente la i-esima modalità con cui può manifestarsi la variabile X.
Esempio riportiamo il quoziente di intelligenza misurato su 8 laureati:
- Ordine di misurazione quoziente d’intelligenza simbolo(i)
- 1 104 x1
- 2 100 x2
- 3 95 x3
- 4 117 x4
- 5 87 x5
- 6 99 x6
- 7 113 x7
- 8 123 x8
Si stabilisce quindi una corrispondenza tra un simbolo (ad esempio x) ed un valore (100). Si potrà quindi scrivere x = (104, 100, 95, 117, 87, 99, 113, 123) o più genericamente avendo un numero n di osservazioni x = (x1, x2, ..., xi, ..., xn); questo modo di scrivere rappresenta quello che in matematica è chiamato vettore, ovvero un successione di valori riferiti ad una data caratteristica X.
Talvolta è necessario denotare un simbolo con più di un deponente quando ad esempio abbiamo ripetute prove di esame su uno stesso argomento.
Esempio: 5 allievi hanno svolto 3 test in inglese:
| Alunno | Test A | Test B | Test C |
|---|---|---|---|
| 1 | 7 | 4 | 9 |
| 2 | 8 | 3 | 10 |
| 3 | 6 | 5 | 8 |
Generalizzando:
| Alunno | Test 1 | Test 2 | ...j... | ...m... |
|---|---|---|---|---|
| 1 | x11 | x12 | ...x1j... | ...x1m... |
| 2 | x21 | x22 | ...x2j... | ...x2m... |
| ...i... | xi1 | xi2 | ...xij... | ...xim... |
In questo modo xij rappresenta la generica misurazione dell’alunno i nella prova j. In genere il numero massimo per le righe i è indicato dalla lettera n e il massimo per le colonne j da m. Questo tipo di rappresentazione fa riferimento al concetto di matrice a due dimensioni. Continuando possiamo immaginare una classificazione tripla simboleggiata da: xijk.
Esempio: Voto riportato da un singolo studente (i), ad un dato test (j), nell’anno scolastico (k). Ovviamente tale notazione si può estendere a dimensioni superiori a tre.
Operatore somma (o sommatoria)
Il simbolo Σ (sigma maiuscolo) si usa per indicare la somma di un certo numero di addendi.
∑ xi indica la somma delle quantità xi denotate dai deponenti da 1 fino a n, ovvero vale l’uguaglianza:
∑ = x1 + x2 + ... + xi + ... + xn
Il cui primo membro si legge “somma delle x per i che va da 1 a n”, ovvero la somma estesa dal primo all’ultimo dei valori osservati. Esempio: dati i seguenti valori di x: x = (5, 7, 4, 2), calcolare ∑ xi e definendo il valore di n: n = 4.
∑ xi = 5 + 7 + 4 + 2
∑ xi2 = 52 + 72 + 42 + 22
Esistono tre importanti proprietà aritmetiche dell’operatore somma:
- La sommatoria da 1 a n di una costante k è uguale a n volte il valore della costante: ∑ k = k + k + ... + k = nk.
- Se moltiplichiamo le osservazioni di una variabile X per una costante, la somma di questi valori è data da k volte la sommatoria semplice della variabile: ∑ kxi = k ∑ xi.
- La sommatoria di più variabili è uguale alla somma delle sommatorie fatte sulle singole variabili: ∑ (xi + yi + zi) = ∑ xi + ∑ yi + ∑ zi.
Alcune esemplificazioni ed esercizi:
Dato il vettore x = (2, 3, 5, 4, 6), calcolare le seguenti sommatorie, definendo il valore di n:
- a) ∑ xi
- b) ∑ xi2
- c) ∑ xi
E inoltre verificare che:
- d) 5 ∑ xi = 5 ∑ xi
Se oltre a x consideriamo la variabile y = (2, 6, 4, 3, 1) calcolare la somma dei prodotti:
- f) ∑ xi yi
Verificando come questa è diversa dal prodotto delle somme:
- g) ∑ xi ∑ yi
L’operatore somma doppia (o sommatoria doppia)
Con il simbolo ΣΣ si indica l’operazione di somma doppia, estesa cioè a tutti gli elementi contrassegnati con le coppie di deponenti che si ottengono dalla combinazione di tutti i valori assunti dal primo e in sequenza dal secondo di essi; ad esempio: (due famiglie composte da quattro individui)
∑ ∑ xij = x11 + x12 + x13 + x14 + x21 + x22 + x23 + x24
Abbiamo alcune proprietà:
- Cambiando l’ordine delle sommatorie il risultato non cambia: ∑ ∑ xij = ∑ ∑ xij.
- Una sommatoria doppia può essere scomposta se alcuni operandi fanno riferimento solo ad uno degli indici: ∑ yj ∑ xij = ∑ yj ∑ xij.
- Valgono poi le medesime proprietà dell’operatore somma, ovvero: ∑ (∑ xij + ∑ yij + ∑ zij) = ∑ xij + ∑ yij + ∑ zij.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.