Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

Prima di entrare più compiutamente nell’argomento della costruzione delle scale, ci soffermiamo sul

problema del formato delle domande che vengono utilizzate. Affrontiamo dunque il problema del formato

delle domande quando queste si propongono di rilevare una proprietà continua, dando luogo a variabili

cardinali o quasi-cardinali.

In una domanda chiusa, quando le alternative di risposta offerte all’intervistato sono ordinate (in senso

crescente/decrescente), si possono adottare tre modi di proporre tali alternative:

1.possibilità ciascuna ha un suo intrinseco significato compiuto che

di risposta semanticamente autonome:

non necessita, per essere compreso, di essere messo in relazione con il significato delle altre alternative

presenti

2.categorie risposte ordinate in, per es., molto-abbastanza-

di risposta a parziale autonomia semantica:

poco… il significato di ogni categoria è solo parzialmente autonomo dalle altre

solo le due categorie estreme sono dotate di significato, mentre fra di esse si

3.scale auto-ancoranti:

colloca un continuum (rappresentato da cifre, segmento ecc.) entro il quale l’intervistato colloca la sua

posizione (per es. termometro dei sentimenti).

Per quanto riguarda il tipo di variabile prodotta da queste tre procedure, con riferimento alla distinzione fra

variabili nominali, ordinali e cardinali, possiamo dire che nella prima delle tre situazioni qui presentate ci

troviamo di fronte a variabili ordinali (non si può sapere la distanza fra le modalità, ma solo l’ordine);

l’autonomia semantica delle categorie fa sì che l’intervistato le scelga per il loro contenuto,

indipendentemente dalla posizione nei confronti delle altre. Neppure nella seconda situazione siamo in

grado di affermare che le diverse modalità di risposta siano fra loro equidistanti (anche se l’intervistato, per

interpretare e scegliere le risposte, probabilmente compara “quantitativamente” le risposte). Questo

processo di atuo-valutazione della distanza fra le varie modalità di risposta ha maggiori probabilità di

realizzarsi con le risposte auto-ancoranti. E’ presumibile che la suddivisione che il soggetto mentalmente

opera sul continuum consista in una suddivisione di questo in spazi uguali, per cui questa tecnica dovrebbe

garantire una sostanziale equidistanza fra le categorie. Limite della soggettività:perché è l’intervistato a

stabilire l’unità di misura della scala. Non si dispone di una unità di misura esterna, valida per tutti i soggetti

studiati nonché per il soggetto studiante. Per tale motivo ci troviamo di fronte a variabili quasi-cardinali.

Questioni di carattere tecnico relative alla formulazione delle domande:

Quando la variabile è del tipo “a parziale autonomia semantica” si pone il problema dell’opportunità di

offrire esplicitamente all’intervistato una posizione centrale neutra (né d’accordo né in disaccordo) oppure

non lasciarla, costringendo l’intervistato a schierarsi. In generale sembra opportuno offrire la possibilità di

un punto neutro, a meno che si voglia esplicitamente forzare l’individuo ad una scelta. In ogni caso mettere

sempre un opzione “non saprei”, per evitare il rischio di pseudo-opinioni.

Un’altra questione è quella del numero di categorie di risposta da offrire. In generale se la scala è fatta di

poche domande conviene offrire all’intervisto una vasta gamma di risposte (e vice versa: se molte domande

= risposta binaria ( si-no;d’accordo-contrario…)). Più numerose sono le alternative più la risposta risulta

impegnativa (è più facile rispondere con d’accordo/contrario che graduare il proprio livello di accordo). Lo

sviluppo dell’intervista telefonica, che comporta l’impossibilità di usare supporti visivi, ha portato a

domande formulate attraverso una successione di scelte binarie (d’accordo/contrario, se d’accordo: molto

d’accordo o abbastanza d’accordo ecc.).

In questo paragrafo ci siamo soffermati sulla struttura delle singole domande. Una scala tuttavia è

normalmente costituita da più domande o, per essere precisi, da più elementi. Le domande ad un solo

elemento sono meno valide (la complessità dei concetti che si vogliono rilevare rende improbabile la loro

copertura con un solo indicatore), meno precise (una singola rilevazione non riesce a discriminare in

maniera fine fra le diverse posizioni dei soggetti sulla proprietà considerata), meno attendibili

(maggiormente esposte ad errori accidentali).

3 Scala di Likert

Il nome di questa tecnica deriva dallo psicometrico Rensis Likert, che la propose per la prima volta all’inizio

degli anni ’30. Sotto la denominazione di “scala di Likert” collochiamo un’ampia varietà di scale, chiamate

anche scala additive; è la procedura più usata nella rilevazione degli atteggiamenti.

41

E’ costituita da una batteria di domande le cui riposte sono a parziale autonomia semantica, ad ogni

risposta viene assegnato un valore numerico, a seconda di quanto l’intervistato è d’accordo con la serie di

affermazioni, e la somma finale dei valori corrispondenti alle risposte costituisce la “misura” di

quell’atteggiamento in quel soggetto.

La costruzione della scala avviene in quattro fasi:

a) formulazione delle domande

sulla base di letteratura e teoria si individuano le dimensioni dell’atteggiamento studiato e si

formulano delle affermazioni che coprono i vari aspetti del concetto generale che si vuole rilevare.

La scala sarà più valida se le affermazioni che essa contiene vengono formulate dopo che sono stati

individuati, sul piano della riflessione teorica, i differenti aspetti dei concetti da rilevare. Tali

concetti sono di solito complessi, contengono molteplici dimensioni che la scala deve essere in

grado di coprire. E’ assai raccomandabile seguire un approccio di tipo deduttivo piuttosto che uno

di tipo induttivo.

b) somministrazione delle domande

la scala viene sottoposta ad campione di intervistati. In generale questa tecnica richiede un elevato

livello di istruzione degli intervistati. Inoltre occorre ricordare che le batterie di domande sono

particolarmente esposte ad errori dovuti alle pseudo-opinioni o ai response set => è importante

che siano esplicitamente previste risposte “non so” e che le affermazioni siano a polarità invertita.

c) analisi degli elementi: selezione delle domande e determinazione del grado di coerenza interna della

scala

necessario definire un criterio empirico per accertarci che ci sia una dimensione comune a tutti gli

elementi che sia riconoscibile anche dagli intervistati. E’ infatti possibile che alcuni degli elementi

della scala non risultino in linea con gli altri, siano cioè semanticamente collegati ad altri concetti, e

che quindi vadano eliminati (accertamento dell’unidimensionalità della scala). Questo

accertamento viene fatto in questa fase, utilizzando questi due strumenti: la correlazione

elemento-scala (o correlazione parte-tutto), che serve per individuare gli elementi della scala che

non sono coerenti con gli altri; il coefficiente alfa, che serve per giudicare il grado complessivo di

coerenza interna della scala. Per la correlazione elemento-scala si calcola per ogni soggetto il

punteggio su tutta la scala e si calcola il coefficiente di correlazione fra questo punteggio ed il

punteggio su ogni singolo elemento. Il coefficiente di correlazione è una misura che quantifica il

grado di relazione esistente fra due variabili cardinali. Se le due variabili covariano (al variare

dell’una varia anche l’altra) esso assume un valore elevato, se non sono correlate il coefficiente

assume un valore basso, che in caso di totale assenza di correlazione è pari a zero. Nel nostro caso il

coefficiente di correlazione ci dice se il punteggio di ogni singolo elemento si muove nella stessa

direzione del punteggio globale che tiene conto di tutti gli atri elementi. Se c’è una domanda che

per un numero assai elevato di individui presenta valori in contraddizione col punteggio globale

degli individui stessi, vuol dire che c’è qualcosa che non funziona in quella domanda.

L’alfa di Cronbach si basa sulla matrice di correlazione fra tutti gli elementi e sul loro numero. La

sua formula è: α= (vedi pag. 251)

( )

dove n=numero degli elementi della scala; r=correlazione media; 0<α<1 . Più alti sono i valori,

maggiore è la coerenza interna della scala. Alfa aumenta con l’aumentare del numero degli

elementi della scala e con l’aumentare della loro correlazione media. Soglia di alfa=0,70 per poter

accettare la scala.

Nell’eliminare gli elementi della scala più insoddisfacenti, il ricercatore terrà conto sia delle

correlazioni elemento-scala, sia del coefficiente alfa.

d) controllo della validità e dell’unidimensionalità della scala

dopo aver eliminato gli elementi incoerenti la scala viene applicata in diverse ricerche, approvando

la sua validità (utilizzo in ambito psicologico). Il modo di procedere semplificato (applicato in

sociologia) prevede invece che nello stesso strumento di rilevazione coesistano più scale, ciascuna

costituita da una decina di elementi.

Benché la procedura di analisi degli elementi sia finalizzata proprio a stabilire che tutti gli elementi

sono indicatori della stessa proprietà, essa non è sufficiente a garantire l’unidimensionalità della

42

scala (potrebbe essere che gli elementi sottendano a due diverse proprietà, anche fra loro

fortemente diverse, ma fra loro correlati: il che produrrebbe soddisfacenti valori delle correlazioni

elemento-scala e del coefficiente alfa, pur in assenza di unidimensionalità). Per il controllo

dell’unidimensionalità si utilizza invece l’analisi fattoriale. Scopo dell’analisi fattoriale è ridurre una

serie di variabili fra loro correlate ad un numero inferiore di variabili ipotetiche (fattori o variabili

latenti) fra loro indipendenti. Il punto di partenza per l’analisi è costituito da una matrice di

correlazione fra le variabili osservate, e l’obiettivo è quello di spiegare queste correlazioni

attraverso l’esistenza di fattori sottostanti. Le “saturazioni” possono essere interpretate come dei

coefficienti di correlazione fra l’elemento della scala ed il fattore sottostante.

Aspetti critici:

il punteggio assegnato ai singoli elementi: ogni elemento è una variabile ordinale, nel caso più

frequente del tipo a parziale autonomi semantica con cinque modalità, alle quali vengono

assegnati, in maniera del tutto arbitraria, dei punteggi in scala semplice 1, 2…5, che vengono poi

trattati come scale cardinali.

mancata riproducibilità della scala: non è possibile risalire alle risposte delle singole domande

attraverso il punteggio finale della scala. Per cui è possibile che due punteggi identici abbiano alle

spalle risposte molto diverse.

Il punteggio finale della scala non rappresenta una variabile cardinale (distanza fra punteggio 14 e

18 non è detto che sia la stessa che intercorre fra punteggio 8 e 12)

4 Scalogramma di Guttman

La proposta di Guttman nasce con l’obiettivo di fornire una soluzione al problema dell’unidimensionalità

della scala, punto debole della tecnica di Likert. La scala si presenta come una successione di elementi che

hanno una difficoltà crescente, in modo che chi ha risposto affermativamente ad una determinata

domanda deve aver risposto in modo affermativo anche a tutte quelle che la precedono nella scala di

difficoltà. Il fatto che gli elementi di una scala presentino tale carattere di cumulatività (o scalabilità) viene

considerato come una prova dell’esistenza di un continuum sottostante del quale gli elementi della scala

sono indicatori. Se gli elementi della scala sono perfettamente scalati, solo alcune sequenze di risposte

sono possibili. Le risposte possibili danno luogo ad una matrice divisa in 2 triangoli, uno costituito dalle

risposte positive (punteggio 1) e l’altro da risposte negative (punteggio 0). (vedi tabella pag. 256).

Attribuendo il punteggio 1 alla risposta affermativa e 0 alla risposta negativa, e sommando i punteggi di

ogni individuo su tutti gli elementi, otteniamo per ogni soggetto il punteggio complessivo sulla scala. Da

questo punteggio individuale si può risalire alle risposte date da quell’individuo ai singoli elementi (=

riproducibilità; dal punteggio si possono “riprodurre” le risposte alle singole domande).

Questa tecnica prevede solo elementi dicotomici ( domande con risp si-no, d’accordo-contrario…).

Fasi di costruzione: = vedi quanto detto per scala di Likert; ma in più le risposte devono essere

1.formulazione delle domande:

in forma binaria e le domande devono essere progettate avendo in mente quella che sarà la forma finale

della scala (un assieme di elementi di forza crescente). Diversamente dalla scala di Likert, quando le

domande potevano essere approssimativamente tutte della stessa forza, nel caso delle scale di Guttman

esse devono coprire tutta l’estensione del continuum dell’atteggiamento sottostante, onde ottenere una

batteria di elementi a difficoltà crescente.

la diversità più rilevante, rispetto alla scala di Likert, è data dal

2.somministrazione delle domande:

carattere binario delle scelte, che agevola le risposte e rende più veloce la compilazione (anche se proprio

la rapidità di esecuzione la espone ai rischi delle risposte date a caso o comunque poco meditate). La forte

semplificazione indotta dal carattere binario delle scelte può creare problemi all’intervistato. La struttura

binaria non permette infatti di graduare l’intensità delle proprie posizioni

3 analisi dei risultati con eliminazione degli elementi troppo carichi di errori e definizione di un indice globale

la vera specificità delle scale di Guttman si manifesta al momento

di accettazione (o meno) della scala:

dell’analisi dei risultati. Lo scopo di questa fase, come già per le scale di Likert, è quello di valutare la

43

scalabilità di tutti gli elementi, scartare quelli meno coerenti con il modello, stabilire un indice di scalabilità

della scala e stabilirne l’accettazione o meno.

Si tratta in primo luogo di individuare gli errori della scala, ovvero le risposte che non si inseriscono nelle

sequenze previste dal modello. (vedi tabella pag. 258) Gli errori vengono individuati confrontando la

sequenza osservata con quella corretta teorica che si dovrebbe avere fermo restando il punteggio globale

del caso (=il punteggio totale del singolo individuo preso in considerazione). Individuati in questo modo gli

“errori”, si tratta di decidere se questi sono in un numero sufficientemente piccolo per poter asserire la

“scalabilità” degli elementi. Guttman propose un indice ( coefficiente di riproducibilità) che misura il grado

di scostamento della scala osservata dalla scala perfetta.

. . .

C = 1- = 1- =

. . × . .

r

Per l’accettazione della scala C ≥ 0,90. Se la scala presenta un coefficiente di riproducibilità inferiore a 0,90 ,

r .

si eliminano progressivamente gli elementi con maggior numero di errori, ricalcolando ogni volta il C r

coefficiente di riproducibilità della scala =media dei coefficienti di riproducibilità dei singoli elementi. Il

coefficiente di riproducibilità di ogni elemento non può scendere sotto la sua proporzione di risposte nella

categoria modale. Conseguentemente una scala di Guttman fatta tutta di affermazioni molto forti che

provocano risposte del tipo 90% di Sì contro il 10% di No ottiene automaticamente un C attorno al 90%.

r

Edwards propose di calcolare un indice di minima riproducibilità marginale = segnala il valore minimo al di

sotto del quale il coefficiente di riproducibilità della scala non può scendere.

MMR =

Si suggerisce quindi di confrontare C con il MMR: solo se il primo, oltre che essere superiore a 0,90 , è

r

anche nettamente superiore al secondo, si può affermare che la buona riproducibilità della scala è dovuta

ad un’effettiva scalabilità dei suoi elementi e non alla distribuzione marginale delle risposte.

Una volta eliminati gli elementi non scalabili e stabilita l’accettazione della scala si attribuiscono i punteggi

ai soggetti. Per i soggetti che presentano una sequenza di risposte in linea con il modello si fa la somma dei

punteggi di ogni risposta; anche se il soggetto presenta una sequenza con degli errori, si segue lo stesso

criterio.

Diversi suggerimenti sono stati avanzati per migliorare la resa della tecnica. Il primo è quello di evitare

elementi con tassi troppo elevati (superiori all’80%) di accettazione o di rifiuto, in quanto poco

discriminanti e destinanti ad innalzare artificiosamente il coefficiente di riproducibilità della scala. In

secondo luogo, è meglio impiegare un numero sufficientemente elevato di elementi. Inoltre, vanno

ispezionate attentamente le sequenze erronee, in quanto la presenza ripetuta di una sequenza non prevista

dal modello può essere sintomo di un’altra dimensione sottostante gli indicatori.

Fatti problematici:

1.punteggio finale che si ottiene sulla variabile latente resta sostanzialmente una variabile ordinale (cfr

stesso problema delle scale di Likert)

2. la tecnica di Guttman è applicabile se si è in presenza di atteggiamenti ben definiti e scalabili poiché se

l’atteggiamento è complesso le categorie si sovrappongono e crescono gli errori

3. il modello è rigidamente deterministico, mentre la realtà sociale può essere correttamente interpretata

solo attraverso modelli probabilistici che contemplino la possibilità di errore ed il passaggio graduale fra le

posizioni.

7 Differenziale semantico

La tecnica del differenziale semantico fu elaborata negli anni ’50 dallo psicologo Osgood. L’obiettivo era

mettere a punto uno strumento per rilevare, col massimo di standardizzazione, il che i concetti

significato

assumono per gli individui. Il problema del “significato” che un termine, una situazione sociale ecc. assume

per l’individuo è un problema quanto mai rilevante nello studio dei comportamenti.

Osgood propone, col differenziale semantico, una tecnica di rilevazione dei significati che determinati

concetti assumono per gli intervistati, la quale, invece di basarsi sulla descrizione soggettiva e diretta del

44

significato da parte dell’intervistato, si basa sulle associazioni che l’intervistato instaura tra questo concetto

ed altri concetti proposti in maniera standardizzata a tutti gli intervistati. Per aumentare inoltre la

sensibilità dello strumento si può chiedere di classificare l’intensità di ogni giudizio su una scala di sette

punti. Questa tecnica utilizza una serie di scale auto-ancoranti, nelle quali solo le categorie estreme hanno

significato autonomo, mentre il significato (graduato) delle categorie intermedie viene stabilito a giudizio

dell’intervistato.

Osgood creò quindi una lista composta da 50 coppie di attributi bipolari (buono-cattivo; aggressivo-

pacifico…), lista che non deve avere per forza essere in relazione con l’oggetto valutato: le coppie di

aggettivi apparentemente estranei al caso sono infatti utili per rivelare significati profondi ed inconsci.

Questa lista viene applicata a persone (straniero, madre…), oggetti concreti (coltello, motore…), oggetti

astratti, eventi (dibattito, nascita…), istituzioni.

Questo test è di facile somministrazione ed in genere viene accettato di buon grado dagli intervistati, ai

quali si raccomanda di rispondere d’istinto, senza riflettere troppo.

Le risposte ottenute si prestano a diverse elaborazioni; per una descrizione sintetica dell’immagine

dell’oggetto sottoposto a valutazione si può usare il “profilo”, e cioè una rappresentazione grafica

consistente nel congiungere con una linea il punteggio medio ottenuto da quell’oggetto su ogni coppia di

attributi.

Come già accennato, il modo più importante per utilizzare la tecnica del differenziale semantico è

rappresentato dall’esplorazione delle dimensioni dei significati (altri modi sono, per esempio, quello di

rilevare il grado di autostima del soggetto e come la distanza fra quello che uno è e quello che uno

vorrebbe essere vari nel tempo). Attraverso l’analisi fattoriale si può determinare quali sono le dimensioni

fondamentali che stanno dietro ai giudizi di un certo campione di persone intervistate.

Sono state individuate tre dimensioni fondamentali che sottostanno ai vari giudizi:

a) la (correlata alle coppie buono/cattivo, positivo/negativo, giusto/ingiusto)

valutazione

b) la (duro/soffice, forte/debole,..)

potenza

c) l’attività (attivo/passivo, veloce/lento,..)

Questi tre fattori sono qui elencati in ordine di importanza: il primo è il più rilevante e sembra

rappresentare quello che nelle tradizionali tecniche di scale tecniche veniva chiamato in generale

“l’atteggiamento” (favorevole o sfavorevole) verso un certo oggetto cognitivo. A partire da questa

acquisizione sulle dimensioni dello spazio semantico, i valori sui singoli attributi bipolari possono essere

sommati (a seconda della dimensione alla quale appartiene l’attributo), ottenendo così per ogni individuo

dei punteggi globali sulle tre dimensioni menzionate, non diversamente da quanto accadrebbe con una

scala di tipo Likert.

Il contributo più originale del differenziale semantico alla rilevazione degli atteggiamenti sta nel fatto che

ha dato evidenza alla multidimensionalità dei significati introducendo la ricchezza dell’approccio

multidimensionale.

CAP 8 IL CAMPIONAMENTO

1 Popolazione e campione

Campionare, e cioè osservare una parte per trarne informazioni sul tutto, è un atto quasi istintivo per

l’uomo. Pur abituale, il processo di campionamento ha trovato una sua sistematizzazione scientifica solo in

tempi recenti, quando nel processo del campionamento è entrata la nozione di caso (=a casaccio) e di

casualità.

Chiamiamo un procedimento attraverso il quale si estrae, da un insieme di unità

campionamento

(popolazione) costituenti l’oggetto dello studio, un numero ridotto di casi (campione) scelti con criteri tali

da consentire la generalizzazione all’intera popolazione dei risultati ottenuti studiando il campione. Proprio

perché l’atto di campionare è abituale, esso risulta particolarmente esposto alla tentazione di affidarsi alla

propria personale intuizione, al posto che seguire una procedura rigorosa.

Distinzione fra rilevazione esaustiva (o totale) e rilevazione campionaria (o parziale). Quest’ultima presenta:

a) vantaggi nei costi di rilevazione; b) vantaggi nei tempi di raccolta dati e di elaborazione; c) vantaggi

organizzativi, nel senso che non è necessario reclutare, addestrare e gestire tutti quei rilevatori che sono

45

necessari per una rilevazione totale; d) vantaggi di approfondimento e di accuratezza, in quanto la minore

complessità organizzativa permette di concentrare risorse sul controllo della qualità della rilevazione.

La storia del campionamento nelle scienze sociali è semplice e breve. Le prime proposte di sostituire la

rilevazione totale con una rilevazione parziale furono avanzate dallo statistico norvegese Kiaer, con scarso

successo (il suo metodo non implicava il ricorso all’estrazione casuale, ma ricorreva ad informazioni sulla

popolazione derivanti da fonti censuarie, secondo la procedura del campionamento a scelta ragionata).

Bowley, diversi anni dopo, introdusse il concetto di campionamento casuale semplice, riformulando in

termini più rigorosi l’intuizione di Kiaer. Solo con Neyman si giunge però ad una distinzione fra

campionamento ragionato e campionamento probabilistico e viene affidata al caso la scelta delle unità da

inserire nel campione. Dal punto applicativo, un contributo fondamentale alla diffusione della procedura di

campionamento probabilistico venne dagli istituti di sondaggi d’opinione, che immediatamente la

adottarono.

L’errore di campionamento si colloca nel più ampio quadro degli errori di selezione, che includono: l’errore

di copertura, l’errore di campionamento vero e proprio, l’errore di non-risposta.

2 Errore di campionamento

Per si intende un insieme N (ampiezza della popolazione) di unità (dette anche unità

popolazione

statistiche o unità d’analisi) che costituiscono l’oggetto del nostro studio. Di tali unità noi vogliamo studiare

le variabili (proprietà) X, Y, Z… Studiarle significa conoscere alcuni valori caratteristici da queste assunti

sull’intera popolazione, atti a descrivere la distribuzione complessiva delle variabili o le relazioni fra le

variabili stesse, che chiamiamo parametri (per es.: unità: individuo; variabile X: reddito…se si vuole

conoscere il reddito medio, il parametro della popolazione che vogliamo conoscere è una media). Viene

chiamato l’insieme delle n (ampiezza del campione) unità campionarie (“casi”) selezionate fra le

campione

N unità che compongono la popolazione, allo scopo di rappresentarla (da cui l’uso dell’espressione

“campione rappresentativo”) ai fini di uno studio. Viene definito la procedura che si segue

campionamento

per scegliere le n unità campionarie dal complesso delle N unità della popolazione.

Riepilogo:

disegno (o piano) di campionamento = procedura teorica, preventivata

campionamento = esecuzione del disegno

campione = esito del campionamento

Mentre l’indagine totale fornisce il valore esatto del parametro che si vuole conoscere, l’indagine

campionaria ne dà solo una stima, cioè un valore approssimativo. Quando si effettua questo vi sono:

9. un elemento di probabilità: l’affermazione non è un’affermazione certa ma probabile (per es. “c’è il

95% di probabilità che il reddito medio cada nell’intervallo fra…”)

10. un elemento di approssimazione: non si può stabilire un valore preciso, ma solo determinare un

intervallo (cada nell’intervallo fra 1.410.00 e 1.510.00 lire -> 1.460.000 ± 50.000 lire)

La stima comporta un certo (cfr punto 1 sopra) e consiste nella determinazione di un

livello di fiducia

(cfr punto 2) nel quale si colloca il valore della statistica della popolazione. In altre

intervallo di fiducia

parole, la stima del campione sarà affetta da un errore, che chiameremo errore di campionamento.

V = v ± e

Parametro della popolazione stima del campione errore di campionamento

(valore incognito)

Problema: come si può calcolare l’errore di campionamento?

Se il campione è stato scelto secondo una procedura rigorosamente casuale, cioè a dire si tratta di un

campione probabilistico, allora la statistica permette di calcolare l’entità di tale errore. (per questo bisogna

distinguere tra campioni probabilistici e campioni non probabilistici)

46

3 Campioni probabilistici: il campione casuale semplice

Un campione si dice probabilistico quando ogni unità è estratta con una probabilità nota (e diversa da 0).

All’interno dei campioni probabilistici vi è il che si ha quando tutte le

campionamento casuale semplice,

unità della popolazione hanno la stessa probabilità di essere incluse nel campione.

3.1 Errore di campionamento

Se il campionamento è casuale semplice, si può determinare l’errore di campionamento tramite procedure

statistiche. Nel caso che il parametro da stimare sia una media, l’errore di campionamento è dato da:

1−

e = z √

z = coefficiente dipendente dal livello di fiducia della stima (1,6 se vogliamo una fiducia del 95% (più

utilizzato); 2,58 per fiducia del 99%). Questo coefficiente dipende dal grado di certezza, cioè

dall’affidabilità, che il ricercatore vuole dare alla stima. Se si vuole aumentare la probabilità di essere nel

giusto, aumenterà di conseguenza l’ampiezza dell’intervallo di fiducia.

s = deviazione standard. La deviazione standard è una misura di dispersione della distribuzione di una

variabile; essa consiste nella media degli scarti dei valori dei singoli casi dalla media e ci dice quanto i valori

assunti dalla variabile sui singoli casi sono prossimi al valore medio oppure variabili attorno ad esso.

La deviazione standard risulta tanto maggiore quanto più la variabile è dispersa (cioè quanto più varia fra i

casi); maggiore è la variabilità del fenomeno studiato, maggiore è – a parità di altre condizioni – l’errore di

campionamento.

n = ampiezza del campione. Tanto più numeroso è il campione, tanto minore è l’errore di campionamento.

1-f = fattore di correzione per popolazioni finite, dove f = frazione di campionamento = . Se la popolazione

è infinita o comunque molto maggiore di n, il fattore di correzione diventa talmente vicino a 1 che si può

trascurare. In questo caso la dimensione N della popolazione neppure interviene nella formula dell’errore.

E’ infatti l’ampiezza del campione, più che la frazione di campionamento, a determinare l’entità dell’errore.

L’errore di campionamento è direttamente proporzionale al livello di fiducia che vogliamo avere nella stima

e alla variabilità del fenomeno studiato, mentre è inversamente proporzionale all’ampiezza del campione.

3.2 Ampiezza del campione

Quando grande deve essere il campione?

La determinazione preventiva,sia pur approssimata, dell’ampiezza del campione rappresenta uno dei criteri

base per la definizione dell’entità della ricerca e la previsione dei suoi costi.

Dall’espressione precedente si può ricavare la seguente formula riguardante la dimensione del campione:

! ! (1 − )

n = (N>>n, quindi il fattore di n = (tenendo conto del fattore di

correzione, che si introduce nel caso

correzione è stato trascurato) in cui il campione costituisca più del

5% della popolazione)

z = coefficiente dipendente dal livello di fiducia che vogliamo avere nella stima

s = variabilità del fenomeno studiato

e = errore della stima (che siamo disposti ad accettare)

L’ampiezza del campione è direttamente proporzionale al livello di fiducia desiderato per la stima ed alla

variabilità del fenomeno studiato, ed inversamente proporzionale all’errore che il ricercatore è disposto ad

accettare (direttamente proporzionale alla precisione desiderata, cioè).

Mentre z ed e sono stabilite dal ricercatore, s non è nota prima dell’inizio della rilevazione, quindi il

ricercatore dovrà ricorrere a valutazioni approssimate di s ricavate da studi precedenti, dal parere di

esperti, da uno studio pilota ecc.

È opinione abbastanza diffusa che l’ampiezza del campione debba essere proporzionale a quella della

popolazione, ma questo è falso!! Come si nota nelle formule sopra scritte, l’ampiezza della popolazione

neppure interviene nella prima formula; vi interviene solo nel caso in cui per il campione sia richiesta

47

un’ampiezza superiore al 5% di N (infatti va ricordato che f= ). A determinare l’ampiezza del campione, a

parità di affidabilità e di errore della stima, interviene quindi in prima istanza solo la dispersione s della

variabile studiata.

In generale il ricercatore intende stimare i parametri di una pluralità di variabili, e non di una sola: in questo

caso egli procede col metodo sopra presentato separatamente per le variabili più importanti della

rilevazione, e poi assume come ampiezza del campione l’n più elevato tra quelli trovati.

4 Altri campioni probabilistici

Il campionamento casuale semplice è raramente applicato nelle indagini statistiche, sia perché la selezione

è completamente affidata al caso e non incorpora le informazioni note a priori sulla popolazione, sia perché

nelle indagini su vasta scala comporta un piano di rilevazione costoso e di difficile realizzazione dal punto di

vista organizzativo; inoltre necessita di una lista completa della popolazione, che spesso non è disponibile.

Questi problemi sono affrontati attraverso altri disegni di campionamento probabilistico, tra i quali:

produce un campione casuale semplice. Questa procedura differisce dal

Campionamento sistematico:

campionamento casuale semplice solo dal punto di vista della tecnica di estrazione dei soggetti. Le unità

campionarie non vengono estratte con sorteggio ma si scorre la lista dei soggetti, selezionandone

sistematicamente uno ogni dato intervallo. Se è nota N ed è stabilita n, si sceglie un’unità ogni k = N/n unità

della popolazione, cominciando con un numero estratto a caso fra 1 e k (k è chiamato “intervallo di

campionamento”). Il campionamento sistematico è equivalente a quello casuale a meno di situazioni,

peraltro piuttosto rare, in cui la lista presenti delle periodicità che coincidono con l’intervallo di

campionamento. L’interesse del campionamento sistematico sta nel fatto che permette di ottenere

campioni casuali anche se manca la lista della popolazione ed N è sconosciuto ( cfr controlli di qualità o exit

polls).

Tale procedura, per poter generare un campione effettivamente probabilistico, deve rispettare 2

condizioni:

a)deve essere rispettato il requisito che tutte le unità abbiano la stessa probabilità di essere incluse nel

campione, per cui l’estrazione deve coinvolgere tutta la popolazione e non solo una sua parte (per es.,

nel caso degli exit polls, la popolazione è costituita da tutti quelli che si sono recati al seggio, quindi

l’estrazione deve terminare alla chiusura di questo, e non prima, anche se si è già raggiunta

un’ampiezza del campione soddisfacente).

b)si deve evitare ogni forma di scelta diversa da quella predeterminata dall’intervallo di

campionamento (se l’intervallo è una persona ogni 10, per esempio, si deve intervistare proprio la

decima, e se è riluttante a lasciarsi intervistare la si deve convincere).

come già detto, a parità di errore e di livello di fiducia, l’ampiezza del

Campionamento stratificato:

campione deve essere tanto maggiore quanto lo è la variabilità della variabile studiata. Il ricercatore non

può modificare la dispersione della variabile studiata; ma se questa presenta delle aree di maggiore

omogeneità, il ricercatore le può sfruttare impostando un piano di campionamento che ha una maggiore

efficienza rispetto al campionamento casuale semplice ( minor errore di campionamento a parità di

ampiezza del campione).

La procedura consiste nel suddividere la popolazione in sottopopolazioni (strati) il più possibile omogenee

rispetto alla variabile da stimare (per es. il reddito), usando una variabile ad essa correlata (per es. la

professione); estrarre con procedimento casuale semplice un campione da ogni strato; ed infine unire i

campioni dei singoli strati per ottener il campione globale. Tale procedura richiede che per tutte le unità

della popolazione sia nota la variabile posta alla base della stratificazione. Vi possono essere anche più

variabili che guidano la stratificazione.

Il campione si dice:

Campione stratificato proporzionale: se riproduce la stessa composizione degli strati della popolazione

(campione autoponderato). (tornando all’esempio di prima, vengono “rispettate” le percentuali di

operai, impiegati ecc. presenti nella popolazione)

Campione stratificato non proporzionale: se decidiamo di sovra-rappresentare o di sotto-rappresentare

altri strati. In questo caso il campione non riproduce la composizione della popolazione, e nelle analisi

48

dei dati andrà effettuata un’operazione di ponderazione. Fra i diversi tipi di campionamento non

proporzionale, quello teoricamente più efficiente è il campione stratificato ottimale, nel quale

l’ampiezza degli strati nel campione è proporzionale alla variabilità s nello strato della variabile oggetto

di stima. questa tecnica, rispetto al campionamento casuale semplice, permette una

Campionamento a stadi:

semplificazione della procedura di estrazione ed una diminuzione dei costi di rilevazione. Viene utilizzata

quando: a) manca una lista completa delle unità della popolazione; oppure b) quando, con gli altri due

metodi, si otterrebbe un campione di unità distribuito su un territorio troppo vasto.

Nel campionamento a stadi la popolazione viene suddivisa su più livelli gerarchicamente ordinati, i quali

vengono estratti in successione con un procedimento “ad imbuto”. Il campionamento si effettua in due

stadi, cioè attraverso due estrazioni successive: al primo stadio si estrae un campione di al

unità primarie,

secondo si estrae casualmente un campione di in ognuna delle unità primarie selezionate

unità secondarie

dalla prima estrazione. Il numero di stadi può essere anche maggiore di 2.

Vantaggi:

- è necessario avere solo le liste delle sub-popolazioni delle unità d’ordine superiori estratte

- la rilevazione viene concentrata nelle unità estratte, con una notevole riduzione dei costi.

Svantaggi:

- perdita di efficienza dovuta al fatto che i casi appartenenti ad una stessa unità di ordine superiore

tendono, in parte, ad assomigliarsi.

è una procedura molto simile a quella del campionamento a stadi e viene

Campionamento a grappoli:

utilizzata quando la popolazione risulta naturalmente suddivisa in gruppi (“grappoli”) di unità spazialmente

contigue. In questo caso non vengono estratte le unità elementari (gli individui), ma i grappoli, e poi tutte le

unità elementari appartenenti ai grappoli estratti sono incluse nel campione: in questo modo si trae

vantaggio dalla prossimità spaziale che c’è fra gli individui appartenenti allo stesso grappolo.

Si tratta di una procedura di grande utilità quando manca del tutto la lista delle unità elementari (mentre

esiste la possibilità di estrarre con procedura probabilistica i grappoli).

Una procedura molto utilizzata è costituita dalla combinazione di campionamento a stadi ed a grappoli.

è una variante del campionamento a stadi, che viene applicato quando la lista

Campionamento per aree:

della popolazione manca del tutto o è incompleta. Tutte le scelte, ai vari livelli, vengono fatte generalmente

con campionamento casuale semplice, salvo che per le iniziali aree primarie, per le quali si segue una

procedura di campionamento stratificato, allo scopo di avere una rappresentanza proporzionale alla

popolazione. le grandi ricerche condotte su scala nazionale spesso utilizzano congiuntamente le

Campioni complessi:

tecniche ora presentate: nascono così i cosiddetti campioni complessi. Essi permettono al ricercatore di

poter calcolare l’errore di campionamento delle stime.

5 Il campionamento nella ricerca sociale

Nelle scienze sociali, l’applicazione più comune della tecnica del campionamento è rappresentata

dall’inchiesta campionaria (da una popolazione di individui si estrae un campione per intervistarli).

Malgrado questo, uno dei campi in cui la teoria del campione è di più difficile applicazione è proprio

rappresentato dall’inchiesta campionaria, dal caso cioè in cui la popolazione è fatta di individui umani e lo

strumento di rilevazione è un questionario o un’intervista.

5.1 Errore di copertura. Lista della popolazione

Si pone qui il problema della lista della popolazione. Per poter ottenere un campione probabilistico è

necessario poter assegnare a tutte le unità della popolazione una probabilità nota di essere estratte. Ma se

le unità stesse non sono note, come si può fare? 49

In linea generale, in Italia, non ci sono gravi problemi quando l’oggetto dello studio è rappresentato

dall’intera popolazione (in quanto esistono anagrafi, liste elettorali…). Il problema si pone per sottoinsiemi

della popolazione; per la maggioranza degli studi su segmenti particolari della popolazione, infatti, non si è

in possesso delle lista della popolazione. In tutti i casi in cui non esiste una lista della popolazione occorre

rinunciare a tecniche di campionamento probabilistico. In questi casi, infatti, non si può assegnare a tutte le

unità della popolazione una certa probabilità di estrazione.

Naturalmente non è sufficiente che le liste esistano. Occorre infatti tenere presenti i problemi:

11. dell’aggiornamento: il ricercatore devi accertarsi dello stato di aggiornamento della lista (la gente

nasce, muore, si trasferisce ecc.)

12. delle duplicazioni: attenzione al fatto che ciascuna unità sia presente una volta sola (per es., se si

utilizza la lista degli abbonati del telefono, occorre tener conto del fatto che i titolari di due utenze

compaiono due volte…)

13. delle omissioni/ incompletezze: il problema delle liste incomplete è il più grave. Il problema non è

di per sé quello delle omissioni: se coloro che sono presenti in lista fossero un campione casuale

della popolazione totale, non sorgerebbe alcun problema. La questione invece è che coloro che

sono in lista sono tendenzialmente diversi da quelli che sono rimasti fuori. (questo problema di

estende, per analogia, ai campionamenti probabilistici che non si servono di una lista in senso

stretto, quindi, ad esempio, al campionamento sistematico).

In questi casi il ricercatore sociale ha di fronte a sé tre possibilità:

ridefinire la popolazione: dire esplicitamente che la ricerca non è condotta, per es., sui

commercianti, ma sugli iscritti alle associazioni dei commercianti, motivando la scelta e traendone

le conseguenze anche in fase di interpretazione dei risultati.

trascurare gli esclusi: se le omissioni non incidono molto sul totale (10-15%) e si hanno motivate

ragioni per ritenere che gli esclusi dalla lista non siano molto diversi, sui temi studiati, da quelli

inclusi, l’errore può ricadere nell’ambito dell’errore tollerato.

procedere ad un’integrazione del campione: per es. in una nazione dove si sappia che il 20% della

popolazione non ha telefono, si potrebbe integrare il campione intervistando anche un 20% di

persone senza telefono.

5.2 Errore di campionamento. Ampiezza del campione

La logica statistica per la determinazione dell’ampiezza del campione è una logica monovariata, cioè che

considera le variabili una alla volta, prese in maniera isolata, invece che nelle loro relazioni.

Il ricercatore, invece, può esser attratto dalla possibilità di analizzare la relazione fra due variabili. Per fare

ciò egli deve costruire una tabella di contingenza (o a doppia entrata).

Se dopo aver accertato l’esistenza di una relazione tra le variabili volesse accertarsi che non via sia una

relazione spuria, egli può suddividere il campione in sub campioni a seconda della terza variabile e

verificare all’interno dei gruppi così costituiti se permane la relazione tra le prime due variabili.

MA le basi di calcolo delle percentuali (N) diminuiscono a causa del frazionamento del campione, e di

conseguenza gli errori delle stime aumentano, al punto di arrivare ad affermazioni troppo vaghe. Un

campione che ci assicura un errore massimo delle stime di 5 punti percentuali quando ci limitiamo a

stimare le variabili una ad una (analisi monovariata), porta invece a stime con errori dell’ordine di

grandezza di 10 punti percentuali se analizziamo le relazioni fra le stesse variabili (analisi bivariata o

multivariata).

La dimensione del campione non può essere determinata a priori dal ricercatore sulla base delle

distribuzioni delle singole variabili studiate, ma dovrà far riferimento al tipo di analisi che egli intende

utilizzare, a partire dalla considerazione dei frazionamenti ai quali egli sottoporrà il campione per

analizzarlo. In conclusione, la dimensione del campione dipende:

1. Dalla distribuzione delle variabili studiate

2. Dal tipo di analisi che si intende fare

In generale, l’ampiezza del campione dovrà essere tanto maggiore quanto più il fenomeno che si vuole

studiare è un fenomeno minoritario. Se le variabili studiate sono nominali, proprio a causa delle tecniche di

analisi, il campione deve essere di ampiezza maggiore rispetto al caso in cui le variabili siano cardinali.

50

5.3 Errore di non-risposta. Mancati contatti e rifiuti

Quando la popolazione è fatta di esseri umani, una volta estratto- sulla carta – il campione, si pone il

problema di realizzare la rilevazione; ed è facile che un campione, probabilistico in partenza, non lo sia più

al termine della fase di rilevazione. L’errore di non-risposta può avere due cause:

è soprattutto un problema di costi. Esso può presentarsi in due

1) Mancato contatto con i soggetti estratti:

forme: a)difficoltà a raggiungere i soggetti: non si può pretendere di estrarre a caso soggetti presenti su

una nazione e di andare a intervistare i soggetti dispersi su tutto il territorio

b) irreperibilità dei soggetti campionati: vincoli economici impongono che dopo due-tre ritorni a

vuoto dall’abitazione del soggetto campionato, la persona che risulta irreperibile venga sostituita

da un nominativo di riserva.

Le difficoltà a raggiungere i soggetti campionati e l’irreperibilità degli stessi, pur rappresentando dei gravi

ostacoli nei confronti della correttezza della procedura probabilistica, sono tuttavia contrastabili.

2) Rifiuti questo problema è più grave di quello precedente in quanto si hanno fondati motivi

a rispondere:

per ritenere che coloro che si rifiutano di rispondere siano diversi da quelli che rispondono. Si tratta di un

rifiuto dato:

a)dalla diffidenza nei confronti dell’estraneo

b)insicurezza nei confronti di una prova che non si conosce.

c)rifiuto di carattere ideologico

d)preoccupazione legata allo specifico contesto dell’intervista.

A quanto ammonta il tasso di non-risposte che normalmente si verifica nelle inchieste campionarie? Si

tratta di un dato di difficile reperimento: infatti nei rapporti di ricerca in genere non viene riportato, oppure

viene presentato nella forma “tasso di caduta” (o tasso di sostituzione) che accomuna tutti i casi di non

effettuazione dell’intervista. Essi sono riconducibili a tre voci:

Nominativo errato o indirizzo sbagliato

⇒ Irreperibilità della persona

⇒ Rifiuto

⇒ (Impossibilità a rispondere, in caso di infermità. Questo caso è poco frequente)

Nel caso di intervista telefonica, fra le cadute bisogna annoverare anche:

Telefono occupato

⇒ Tel libero ma non risponde

⇒ Segreteria telefonica

⇒ Numero telefonico che non corrisponde ad abitazione privata

Il tasso di caduta varia a seconda della forma di contatto utilizzata, l’ufficialità o meno della rilevazione, chi

è l’intervistatore (dipendenti pubblici come vigili urbani o no…) ecc. Le interviste telefoniche hanno un

tasso maggiore di non risposta rispetto a quelle faccia a faccia..

I dati riportati dalle ricerche condotte in Italia mostrano che, degli estratti, uno su cinque nella situazione

migliore e la metà nella situazione peggiore, non viene intervistato. Il problema si risolve nella pratica

rimpiazzando quelli che non si è riusciti ad intervistare con nominativi di riserva, pur essi estratti a sorte

dalla popolazione. Ma questo fatto non annulla la possibile distorsione del campione. Se coloro che non

sono stati intervista, per es., sono i cittadini più marginali (anziani, persone non istruite ecc.) e li

sostituiamo con altri nominativi estratti a caso dalla popolazione, veniamo a sostituire un segmento di

popolazione dalle caratteristiche particolari (i marginali) con un gruppo “medio” (trattandosi di estratti

casualmente), ottenendo così un campione nel quale i cittadini marginali sono sottorappresentati. Tra

l’altro nei sostituti si verificherà la stessa dinamica di non-risposta (maggiori rifiuti fra i cittadini più

marginali) -> la sostituzione delle non-risposte è spesso un errore, poiché i sostituti assomigliano ai

rispondenti più che ai non-rispondenti.

Per contrastare il problema delle mancate risposte: 51

Cercare di abbassare il numero dei mancati contatti con ripetuti ritorni sulle persone non raggiunte

dall’intervista

A rilevazione ottenuta, si può ricorrere a tecniche di ponderazione: il procedimento consiste

nell’attribuire alle persone non raggiunte dall’intervista le risposte medie date dal gruppo sociale al

quale esse appartengono.

La rilevanza dell’errore di non-risposta mette in discussione tutto quanto è stato detto sull’errore di

campionamento e sull’ampiezza del campione, ed in generale quanto detto sui campioni probabilistici.

L’errore di non-risposta è probabilmente il più imperscrutabile fra gli errori di rilevazione, è il risultato del

comportamento di persone che sono al di fuori del controllo del ricercatore, e mette in crisi quella che è la

proprietà unica dell’indagine campionaria rispetto agli altri metodi di ricerca sociale, l’inferenza statistica

del campione alla popolazione.

La ricerca sociale, nelle sua pratica applicazione, pone dei limiti veramente severi alla traduzione in pratica

della teoria del campione.

6 Campioni non probabilistici

Quando il disegno probabilistico non può essere impostato (cfr, per es., mancanza della lista della

popolazione) oppure si sa a priori che non potrà essere attuato nella fase di rilevazione, si ricorre fin

dall’inizio ai cosiddetti Eccone alcuni tipi:

campioni non probabilisti.

È il disegno campionario più diffuso, specie nelle ricerche di mercato e nei

Campionamento per quote.

sondaggi d’opinione. Il punto di partenza è quello del campionamento stratificato: si divide la popolazione

in sottogruppi sulla base di alcune variabili delle quali si conosce la distribuzione. Trasportando queste

ripartizioni proporzionalmente nel campione, veniamo a determinare le quote, cioè il numero di interviste

da effettuare in ogni strato.

QUOTA: va vista come uno strato del campione stratificato: occorre puntare al fatto che all’interno dei

gruppi definiti dall’incrocio delle variabili base, i soggetti siano il più possibile omogenei.

VARIABILI POSTE ALLA BASE DELLE QUOTE:

• Devono essere note nella loro distribuzione sull’intera popolazione

• Devono essere correlate con le variabili dipendenti oggetto dello studio

L’elemento nuovo rispetto ad un campione stratificato è dato dal fatto che, fermo restando il vincolo

sull’ammontare complessivo di ogni quota, l’intervistatore è libero di scegliere a sua discrezione i soggetti

da intervistare e fa in modo che il campione complessivo riproduca la distribuzione della popolazione.

Come si vede, salta completamente ogni riferimento alla casualità dell’estrazione (che d’altra parte non

sarebbe possibile per la mancanza della lista della popolazione).

LIMITI: la libertà concessa all’intervistatore fa in modo che egli,soddisfatti i vincoli,segua criteri utilitaristici

di selezione, privilegiando i casi di più facile reperimento, evitando le situazioni che comportano una

qualsiasi difficoltà e non insistendo troppo con gli individui poco disposti all’intervista. Quindi, la selezione è

distorta a favore degli individui di più facile reperimento => errore di non risposta risulta enfatizzato.

C’è stata una lunga controversia sul campionamento per quote: mentre gli statistici lo considerano poco

raccomandato per la sua scarsa scientificità; il campionamento per quote ha invece avuto un grande

successo fra gli operatori della ricerca di mercato e dei sondaggi d’opinione, che ritengono produca risultati

soddisfacenti a fronte di notevoli risparmi di costo.

Questo disegno di campionamento può risultare sia probabilistico che non-probabilistico

Disegno fattoriale.

a seconda di come sono stati selezionati i soggetti da collocare negli strati.

Il disegno fattoriale agevola l’analisi delle relazioni fra la variabile dipendente e quelle specifiche variabili

indipendenti che sono state poste alla base della definizione degli strati. Gli strati non sono proporzionali

alla loro presenza nella popolazione, ma presentano fra loro un numero uguale di soggetti.

La logica del disegno fattoriale discende da quella dell’esperimento, non del campione; esso produce un

disegno sperimentale. Il disegno fattoriale come disegno di campionamento non nasce con l’obiettivo di

migliorare l’efficienza del campione ed il suo isomorfismo con la popolazione, ma piuttosto con quello di

52

rendere più efficiente l’analisi delle relazioni fra le variabili: non segue la logica della rappresentatività

(analisi descrittiva) ma quella della relazione (analisi esplicativa).

Le variabili indipendenti poste alla base del disegno sono scelte per la loro rilevanza esplicativa agli effetti

del fenomeno studiato. Lo scopo degli strati non è quello di poter ricondurre la composizione del campione

a quella della popolazione, ma quella di produrre analisi nelle quali le variabili poste alla base del disegno

fattoriale sono reciprocamente tenute sotto controllo (cioè non si influenzano nello studio delle loro

relazioni con le variabili dipendenti, coprendo eventuali relazioni spurie).

Il disegno fattoriale non è adatto per ricerche estensive e condotte su grandi campioni, mentre è assai utile

per ricerche su piccoli campioni, studi finalizzati al controllo empirico di ipotesi specifiche.

Il disegno fattoriale viene, di solito, usato in combinazione con una selezione degli individui per quote.

In questo caso le unità campionarie vengono scelte non in maniera

Campionamento a scelta ragionata.

probabilistica ma sulla base di alcune loro caratteristiche. Viene usato quando l’ampiezza del campione è

limitata e si vogliono evitare oscillazioni casuali che allontanino eccessivamente il campione dalle

caratteristiche della popolazione, quindi vi è una scelta non casuale ma razionale del campione.

È una forma di campionamento ragionato nel quale si selezionano le unità di

Campionamento bilanciato.

modo che la media del campione, per determinate variabili, sia prossima alla media della popolazione.

Non offre le garanzie del campionamento probabilistico, né i vantaggi della semplicità di esecuzione del

campionamento per quote. È tuttavia conveniente nel caso di campioni molto piccoli o in situazione

particolari nelle quali l’importanza di alcune unità esige la loro inclusione ai fini della completezza delle

informazioni raccolte.

valanga. Si tratta di un disegno campionario particolarmente utile nel caso di popolazioni

Campionamento a

clandestine. Con questo termine intendiamo quei gruppi sociali i cui membri ( x motivi morali,

ideologici..)tendono ad occultare la propria identità (cfr immigrati illegali, membri di sette religiose,

omosessuali, evasori fiscali…). La procedura viene utilizzata anche nel caso la popolazione oggetto di studio

sia costituita da “elementi rari”, gruppi poco numerosi e dispersi sul territorio, ma che sono in qualche

modo in contatto fra loro.

PROCEDURA:individuare i soggetti da inserire nel campione a partire dagli stessi soggetti intervistati (si

parte da un piccolo numero di individui dai requisiti richiesti, i quali sono utilizzati come informatori per

identificare altri individui aventi le medesime caratteristiche).

SVANTAGGIO: seleziona le persone più attive socialmente, più visibili (sia pur nel ristretto ambito degli

adepti); c’è inoltre il rischio che la catena di individuazione prenda strade troppo specifiche. Occorre porre

dei vincoli, come nel caso del campionamento per quote, basati su quanto già si conosce del fenomeno

(stabilire per es. quote per maschi/femmine, per classe sociale ecc.) onde evitare i rischi menzionati.

Non costituisce un disegno di campionamento a sé stante, ma presenta alcune

Campionamento telefonico.

particolarità che non permettono di assimilarla ai tipi fin qui presentati.

Avviene quando l’intervista telefonica e il campionamento sono gestiti dal computer. La selezione dei casi

può essere fatta: a patire da elenchi telefonici o a partire da numeri generati direttamente dal computer

(specialmente in quegli stati in cui i numeri di telefono riservati, cioè non presenti sull’elenco telefonico,

sono molti).

L’aspetto più originale di questa procedura sta nella gestione delle chiamate effettuata dal computer. Nel

caso di non risposta il computer registra le ragioni del mancato contatto e gestisce l’esclusione del numero

o la ripetizione della chiamata.

Presenta il problema, comune a tutti i disegni di campionamento che selezionano prima un’unità familiare

e successivamente un individuo al suo interno, che chi vive da solo ha più possibilità di essere estratto di chi

vive in famiglie numerose. Questo problema può però essere superato con le tecniche di ponderazione.

Questo termine viene utilizzato quando manca un qualsivoglia disegno nel

Campionamento di convenienza.

campionamento. Il campione di convenienza è un gruppo di persone scelte con il solo criterio di essere le

53

più facilmente accessibili (per es. persone che si sono offerte volontariamente…). In generale, questo tipo di

campione va evitato, in quanto i “volontari” rappresentano una specie umana assolutamente particolare.

7 Ponderazione

Intendiamo per quella procedura con la quale modifichiamo in maniera artificiale ( in sede di

ponderazione

elaborazione dati, tramite operazioni matematiche) la composizione del campione per renderla più

prossima alla distribuzione della popolazione. Essa si realizza attribuendo dei “pesi” variabili (in base alle

loro caratteristiche) alle singole unità campionarie, dando istruzioni iniziali al programma di elaborazione

dati.

Forme e situazioni elementari di ponderazione sono riconducibili a tre, a seconda che si basino su:

1. Probabilità di inclusione delle unità nel campione

2. Conoscenze che si hanno sulla popolazione

3. Conoscenze che si hanno sulle non-risposte

Nel primo caso l’intervento di ponderazione è parte integrante dello stesso disegno campionario, e si

colloca all’interno di un’ottica probabilistica; negli altri due la ponderazione è un semplice aggiustamento

dei dati per contenere gli errori generati da un campionamento non perfettamente/ per nulla

probabilistico.

Caso in cui la ponderazione si effettua a partire dalle probabilità di inclusione dei soggetti nel campione:

Spesso i campioni utilizzati nella ricerca sociale non corrispondono alla situazione ideale per cui tutte le

unità hanno la stessa probabilità di essere selezionate (cfr caso in cui ci sono alcuni strati sovra-

rappresentati e altri sotto-rappresentati); in tal caso la ponderazione è richiesta dalla conformazione dello

stesso disegno campionario e fin dall’inizio si conoscono i termini di questo intervento (che consiste nel

ricondurre lo strato sovra-rappresentato, per es., al suo reale peso nella popolazione).

Anche nelle situazioni in cui la stessa procedura di estrazione produce differenti probabilità di inclusione

nel campione, si ponderano i dati (cfr costruire un campione di famiglie a partire dagli individui estratti-> le

famiglie più numerose hanno maggior possibilità d essere prese).

In tutti questi casi la probabilità di inclusione non è uguale per tutti i soggetti, ma tuttavia essa è nota (si

resta quindi nel campione probabilistico); ed a partire da questa conoscenza si calcolano i pesi per la

ponderazione .

Se il campione non è probabilistico (la probabilità di inclusione non è nota) o è affetto da gravi errori di

copertura o non-risposta, gli interventi di ponderazione consistono in interventi di aggiustamento finalizzati

a contenere gli errori e le distorsioni. Tali interventi sono effettuati a partire da informazioni sulla

popolazione o da informazioni sui non rispondenti

Il caso più comune di ponderazione effettuata sulla base di conoscenze che si hanno sulla popolazione è

quello della cosiddetta (stratificazione del campione fatta a posteriori). Se si conosce

post-stratificazione

da fonte esterna alla rilevazione campionaria la distribuzione nella popolazione di alcune variabili, si

confronta questa distribuzione con quella risultante dal campione e si correggono i dati campionari in modo

da farli corrispondere, per queste variabili, ai dati della popolazione.

COME: moltiplicando ogni caso del campione per un coefficiente di ponderazione (peso) pari al rapporto

quota teorica/quota rilevata della categoria di appartenenza.

In questo modo il numero totale dei soggetti resta lo stesso, con un riproporzionamento al suo interno.

L’operazione di ponderazione a partire da informazioni sulla popolazione può essere fatta sulla base di una

qualsiasi variabile la cui distribuzione nella popolazione sia nota.

La terza situazione si verifica quando la ponderazione viene effettuata sulla base della conoscenza di

caratteristiche dei non-rispondenti: procedura usata per contrastare l’errore di non-risposta (mentre non

può fare nulla, a differenza di quella precedente, per l’errore di copertura).

Le interviste raccolte vengono ponderate attribuendo loro un peso che tiene conto dei rifiuti a rispondere:

il coefficiente di ponderazione (peso) corrisponde al reciproco del tasso di risposta per ciascuna classe. ( es.

intervista a donne-anziane nere-tot 9% ma di queste il 5% ha accettato l’intervista. A queste viene

54

attribuito un peso di 9/5=1,8).Se non si ponderasse e si accettassero senza modificazioni i risultati emersi

dal campione è come se si attribuisse ai non rispondenti il comportamento medio dei rispondenti. Si

preferisce dunque attribuire ai non rispondenti il comportamento medio delle persone appartenenti al loro

stesso gruppo sociale piuttosto che quello medio di tutta la popolazione.

Un altro intervento di “aggiustamento” dei dati che non ricade strettamente nella ponderazione (questo

termine viene limitato alla attribuzioni di pesi diversi alle unità campionate) ma che risponde all’esigenza di

attenuare la distorsione prodotta dalla mancata risposta non su tutto il questionario, ma solo su qualche

specifica domanda. In questo caso si procede ad una stima delle mancate risposte a partire dalle altre

informazioni che si hanno sugli intervistati parzialmente reticenti (come hanno risposto alle altre domande

ecc.).

La mancata ponderazione porta un sicuro errore, che si commette quando si estendono all’intera

popolazione risultati che derivano da campioni palesemente distorti su variabili di base correlate con i

fenomeni studiati. In questi casi la ponderazione contribuisce a ridurre la distorsione presente nei dati.

PROBLEMA: la ponderazione maschera, con un artificio contabile, le distorsioni del campione e quindi va

esplicitamente dichiarata.

8 Bontà di un campione

Alla bontà di un campione (=validità) concorrono due fattori:

• rappresentatività: capacità del campione di riprodurre su scala ridotta le caratteristiche della

popolazione

• ampiezza: è data dal numero di casi che compongono il campione

Un campione è quando fornisce un’immagine in piccolo ma senza distorsioni della

rappresentativo

popolazione. La rappresentatività di un campione dipende dalla “casualità” con la quale esso è stato

costruito. Differenza:

Casualità: è caratteristica della procedura (cfr disegno di campionamento)

Rappresentatività: è caratteristica del prodotto (cfr campione)

Se la procedura di estrazione è stata rigorosamente casuale, il campione è anche statisticamente

rappresentativo, ovvero riproduce le caratteristiche della popolazione a meno di un errore di

campionamento e un meno di un margine di incertezza che rimane sempre. Questa rappresentatività vale

per tutte le caratteristiche ( variabili) della popolazione (se il campione è casuale non presenta distorsioni

su nessuna delle variabili). Possiamo quindi dire che il concetto di rappresentatività si identifica con quello

di errore: se le stime del campione sono affette da un errore sufficientemente piccolo, allora il campione è

rappresentativo.

PROBLEMA = è praticamente impossibile realizzare nelle scienze sociali la piena casualità del procedimento

di selezione delle unità campionarie: per cui la rappresentatività statistica del campione resta un obiettivo

limite, al quale ci si può solo approssimare con diversi gradi di avvicinamento.

Gli ostacoli che inficiano la casualità del procedimento di estrazione sono riconducibili agli errori di

copertura e a quelli di non risposta.

Assenza di errori di copertura e di non-risposta------- campione casuale-------- rappresentatività

Tali errori, non essendo eliminabili, possono essere solo minimizzati, cercando di avvicinare il più possibile

la procedura di campionamento al modello del campionamento probabilistico.

Chiamiamo della procedura di campionamento questo grado di minimizzazione degli errori di

accuratezza

copertura e non-risposta.

Un campione perfettamente accurato, quindi senza errori di copertura e di non-risposta, estratto con

procedura probabilistica, è perfettamente casuale e statisticamente rappresentativo.

In parte, del campione è condizione della rappresentatività: se il campione è troppo piccolo,

l’ampiezza

allora l’errore di campionamento è troppo elevato ed il campione non può essere definito rappresentativo.

In parte l’ampiezza del campione è un requisito autonomo dalla rappresentatività, ed è imposto dal tipo di

analisi che vogliamo fare sui dati. Un campione può essere di ampiezza sufficiente per l’analisi monovariata

55

( ad una variabile), ma insufficiente per l’analisi multivariata (a più variabili; cfr frazionamento del campione

in sottocampioni ecc.).

In generale si può affermare che dei due requisiti, l’accuratezza viene per prima e dovrebbe essere

nettamente privilegiata. Gli obiettivi dell’accuratezza e dell’ampiezza possono talvolta entrare in conflitto.

Se si investono risorse per migliorare l’accuratezza della rilevazione, si dovranno fare delle rinunce in

termini di numerosità del campione. È necessario raggiungere un equilibrio tra i due obiettivi!

Va aperta a questo punto una riflessione sulle finalità della ricerca. La struttura di un campione dipende

infatti in maniera decisiva dall’obiettivo dello studio. Distinzione fra:

- studi descrittivi: l’obiettivo è ottenere una descrizione il più precisa possibile sulla distribuzione di

singole variabili -> campione deve essere il più possibile rappresentativo.

- studi esplicativi: obiettivo è di tipo relazionale (fra variabili) -> il campione può anche non essere

perfettamente rappresentativo (ma cmq deve essere rappresentativo)

In nessun caso, comunque, il ricercatore può trascurare l’accuratezza della rilevazione, disinteressandosi

quindi della rappresentatività del campione.

Accenniamo ora qualcosa per quanto riguarda gli elementi informativi che ogni comunicazione scientifica

dovrebbe associare alla presentazione di dati tratti da campione. L’ineliminabile margine di errore che

accompagna ogni rilevazione campionaria obbliga infatti il ricercatore a fornire a tutti gli elementi necessari

per una valutazione della sua entità. Mentre non costituisce grande problema l’ampiezza del campione (che

viene generalmente specificata dal ricercatore), assai più complicato è il problema dei controlli di

rappresentatività. Se il campione è perfettamente probabilistico, il grado di rappresentatività di un

campione è definibile in quanto si può calcolare, per ogni parametro stimato, l’errore di campionamento.

Se il campione invece si allontana dal modello probabilistico, nulla si può dire della sua rappresentatività

Può tuttavia essere controllata la sua rappresentatività in merito ad alcune variabili

generale.

(confrontando a fine rilevazione le caratteristiche del campione con alcune caratteristiche note della

popolazione -> questo comunque non garantisce la sua rappresentatività in generale).

L’ANALISI DEI DATI

Parte quarta:

CAP 12 L’ANALISI MONOVARIATA

1 Tipi di variabili e analisi statistica

Nella ricerca quantitativa “analisi dei dati” significa analisi delle variabili e delle loro relazioni. Sono le

caratteristiche logico-matematiche delle variabili (cfr variabili nominali, ordinali e cardinali) che definiscono

le procedure da seguire nella fase di analisi dei dati; questi tre tipi di variabili infatti differiscono fra loro

nettamente per quel che riguarda le operazioni alle quali possono essere sottoposti i loro valori.

Breve recap.: (vedi tabella pag. 476)

Variabile nominale: deriva da un’operazione di degli stati di una proprietà. I numeri

classificazione

(o lettere) assegnati alle modalità non hanno alcun significato numerico, ma sono dei puri “nomi”.

Le sole relazioni possibili tra le modalità di una variabile nominale sono le e

relazioni di eguaglianza

di diseguaglianza.

Variabile ordinale: nasce da un’operazione di degli stati della proprietà. I valori

ordinamento

numerici attribuiti alle modalità mantengono le proprietà “ordinali” dei numeri (se attribuiamo 1 a

“molto soddisfatto” e 2 a “poco soddisfatto”, si può dire che chi ha punteggio 1 è più soddisfatto di

chi ha punteggio 2). Fra le modalità di una variabile ordinale è possibile instaurare, oltre alle

e di anche le (cioè di “maggiore” e

relazioni di eguaglianza diseguaglianza, relazioni d’ordine

“minore”).

Variabili cardinali: si ottengono dalle proprietà mediante un’operazione di o di

misurazione

I valori delle variabili fruiscono di un pieno significato numerico. Nel caso della

conteggio.

misurazione l’esistenza di un’unità di misura fa sì che si conoscano le distanze fra i valori. Questo

fatto permette di effettuare operazioni di addizione e di sottrazione fra i valori, di calcolare le

distanze fra loro intercorrenti, e di applicare a queste differenze le quattro operazioni aritmetiche.

56

Queste differenze formali tra le variabili fanno sì che i tre tipi di variabili debbano essere analizzati con

procedure diverse fin dai livelli più elementari. In generale, le tecniche di analisi dei dati che la statistica ha

sviluppato sono destinate o a variabili cardinali o a variabili nominali. Va ricordato però che le proprietà dei

tre tipi di variabili sono cumulative, e i tipi possono essere visti come tre livelli ordinabili. Da questo deriva il

fatto che le tecniche d’analisi delle variabili a livello inferiore sono applicabili anche alle variabili poste su di

un livello superiore; una variabile ordinale quindi può essere trattata come se fosse una variabile nominale,

trascurando il fatto che le sue categorie siano ordinate (se procediamo in questo modo, però, perdiamo

un’informazione).

Tornando alle variabili nominali, un caso particolare è quello in cui le modalità sono due: tali variabili sono

dette dicotomiche e presentano l’importante proprietà di poter essere trattate statisticamente con

strumenti propri delle variabili cardinali; e questo perché, avendo tali variabili solo due valori, non si pone il

problema delle distanze che separano i valori. A causa di questa preziosa proprietà, talvolta il ricercatore

“dicotomizza” variabili a più categorie (=politomiche), aggregando modalità dal significato prossimo o

assegnando i valori 0/1 a seconda che lo stato corrispondente alla modalità sia assente (0) oppure presente

(1).

Un po’ di terminologia:

Unità d’analisi: è l’oggetto socialmente studiato

Localizzando nel tempo e nello spazio l’unità di analisi si viene a definire la popolazione di

riferimento della ricerca

I casi sono gli esemplari dell’unità di analisi inclusi nella ricerca

L’insieme dei casi costituisce il campione studiato (il campione può essere estratto con procedura

casuale o meno)

In genere si utilizza il simbolo N per la numerosità della popolazione, ed n per la numerosità (o

ampiezza) del campione (tuttavia nelle pagine che seguono verrà usato il simbolo N per riferirsi al

numero totale di casi studiati)

Le caratteristiche delle unità studiate sono dette ogni proprietà può assumere degli

proprietà; stati

diversi

La è la proprietà operativizzata, cioè rilevata sui casi attraverso una certa procedura detta

variabile

“definizione operativa”

Le sono gli stati delle variabile e i simboli assegnati alle modalità. Se la variabile è

modalità valori

nominale gli stati della proprietà vengono anche chiamati “categorie”

sono le variabili con due modalità; quelle a più di due

Variabili dicotomiche variabili politomiche

modalità

L’analisi consiste nell’analizzare le variabili singolarmente prese (senza metterle in

monovariata

relazione tra loro); l’analisi è lo studio delle relazioni fra due variabili; l’analisi

bivariata

è lo studio delle relazioni intercorrenti fra più di due variabili

multivariata

2 Matrice dei dati

La matrice dei dati (o matrice “casi per variabili”) è il risultato (?) del processo di organizzazione, nella

ricerca quantitativa, del materiale empirico grezzo in una forma tale da poter essere analizzato con gli

strumenti dell’analisi statistica. La matrice-dati consiste in un insieme rettangolare di numeri, dove si

trovano:

- In colonna: variabili

- In riga: casi. Ogni singola riga della matrice si chiama record.

57

- In ogni cella derivante dall’incrocio fra una riga e una colonna: dato (=valore assunto da una

particolare variabile su un particolare caso)

Per organizzare le informazioni afferenti ad un certo insieme di casi nella forma di matrice-dati ci sono 2

condizioni necessarie:

1) Unità di analisi deve essere sempre la stessa (per es. deve trattarsi di informazioni raccolte tutte su

individui)

2) Su tutti i casi studiati devono essere state rilevate le stesse informazioni (nella matrice-dati le righe

hanno la stessa lunghezza e contengono le stesse variabili)

L’operazione di traduzione del materiale empirico grezzo (il pacco di questionari ecc.) in matrice-dati viene

chiamata ed avviene con l’ausilio di due strumenti:

codifica

• Il tracciato record:indica la posizione di ogni variabile nella riga della matrice (per es. dice che la

variabile “genere” si trova nella colonna 4 della matrice)

• Il codice: assegna ad ogni modalità della variabile un valore numerico (per es. dice che nella

variabile genere, si assegna il valore 1 a “maschio” e 2 a “femmina”)

Spesso record e codice sono incorporati nel questionario:

• accanto ad o ogni domanda vi è la posizione della variabile generata dalla domanda sulla riga

( funzione tracciato record)

• Ogni alternativa di risposta è numerata, il numero corrisponde al valore riportato nella matrice (

funzione del codice)

Ogni riga (record) della matrice corrisponde ad un caso: leggendo una riga sappiano come quell’individuo

ha risposto alle domande (ogni riga fornisce il “profilo” di un caso). Ogni colonna della matrice corrisponde

ad una variabile: leggendo la colonna conosciamo la sequenza di risposte date a quella domanda da tutti gli

intervistati.

Tutte le informazioni codificate del questionario si ritrovano nella matrice-dati.

Come già accennato, ogni singola riga della matrice (=ogni caso trasformato in dati) si chiama record.

L’insieme dei record (cioè la matrice memorizzata su supporto informatico ) si chiama file. Il system file è un

file che incorpora in sé, oltre alla matrice, anche il tracciato record, il codice, le etichette delle variabili e

delle singole modalità di ognuna di esse.

Se vi è una domanda aperta, in un questionario, la codifica (=trasformazione delle modalità delle variabili in

valori) viene fatta a posteriori. In sede d’intervista l’intervistatore trascrive sul questionario la risposta

liberamente data dall’intervistato; alla fine della rilevazione si leggono tutte le risposte date dagli

intervistati a quella domanda, si individuano delle categorie in cui classificarle e quindi, sulla base di queste

categorie, si codificano le risposte.

Una matrice può anche contenere dati alfabetici (per es. prime otto lettere del comune di residenza

dell’individuo).

L’unità di analisi può non essere costituita da un individuo ma, per esempio, può essere la famiglia, la

scuola ecc.; una situazione di ricerca che si presenta assai di frequente è quella in cui le unità di analisi sono

degli aggregati territoriali di individui (comuni, regioni..).

3 Distribuzione di frequenza

3.1 Distribuzioni assolute e relative

Una volta costruita la matrice-dati, si tratta di analizzarla; analisi che viene condotta per variabili.

Il ricercatore per effettuare una rappresentazione sintetica di una colonna conta la frequenza delle singole

risposte e presenta in una tabella il risultato del conteggio. Tale tabella viene chiamata distribuzione di

frequenza. La di una variabile è una rappresentazione (tramite forma tabellare,

distribuzione di frequenza

grafica o algebrica) nella quale ad ogni valore della variabile viene associata la frequenza con la quale esso

si presenta nei dati analizzati.

Nella distribuzione di frequenze si riporta accanto ad ogni valore della variabile il numero dei casi

assolute

che presentano quel valore, senza alcun altro intervento.

Quando si ha la distribuzione di frequenza della variabile in gruppi diversi di grandezza diversa, in tal caso si

relativizzano le due distribuzioni ad un totale comune; queste nuove frequenze si chiamano frequenze

relative. 58

Per annullare l’effetto della numerosità dei casi di una distribuzione di frequenza possiamo dividere ogni

singola frequenza assoluta per il numero totale di casi della distribuzione. Il valore ottenuto si chiama

(la proporzione di casi esistente in una data classe è data dal numero di casi della classe diviso

proporzione

per il numero di casi totale). In tal modo si relativizzano le frequenze ad un totale pari all’unità.

Il modo più consueto di relativizzare una distribuzione di frequenza è tuttavia quello di relativizzarle ad un

totale pari a 100. Sono queste le percentuali. Le percentuali possono essere ottenute dalle proporzioni

moltiplicandole per 100; oppure si possono ottenere dai valori assoluti con una proporzione.

Come già accennato, il fatto di relativizzare le frequenze permette di effettuare dei confronti fra

distribuzioni di frequenza della stessa variabile ma ottenute da popolazioni di diversa numerosità.

Una forma particolare di distribuzione di frequenza è costituita dalla distribuzione cumulata di frequenza,

nella quale in corrispondenza di ogni valore della variabile viene riportata non la sua frequenza, ma la

somma delle frequenze che corrispondono sia a quel valore che a tutti quelli inferiori (anche per le

distribuzioni di frequenza cumulate le frequenze possono essere assolute o relative).

Finora abbiamo presentato distribuzioni di frequenza relative a variabili ordinali o nominali.

Quando la variabile è cardinale, per poter rappresentare in tabella la distribuzione di frequenza, i valori

della variabile vengono raggruppati in classi (aggregando i valori adiacenti) (per es. per la distribuzione di

frequenza della variabile “età”, i valori della variabile possono essere raggruppati in classi di 5 anni l’una).

Un caso particolare di distribuzione di frequenza è costituito dalle domande a risposta multipla. Se

l’intervistato può scegliere fino a due (o altro numero) risposte tra quelle proposte, esse verranno poi

codificate separatamente nella matrice-dati, dando luogo a due variabili e due distribuzioni di frequenza.

Poiché il ricercatore è interessato a quali sono le risposte indicate dagli intervistati, indifferentemente

dall’ordine in cui sono state menzionate (quale risposta è stata data come prima e quale come seconda),

conviene sommare le due frequenze (I e II risposta) corrispondenti ad ogni modalità. Il numero così

ottenuto verrà poi diviso per il numero di persone ( dei rispondenti quindi! E non per il numero delle

risposte) che hanno dato almeno una risposta. Si noti che in questo modo la somma delle percentuali delle

singole modalità non fa più 100 (ma lo supera), in quanto ci sono stati degli intervistati che hanno dato più

di una sola risposta (le risposte sono più dei rispondenti).

Quando si ha una batteria di domande, ogni singola risposta corrisponde ad una variabile. Si possono

rappresentare in tabella le sole percentuali di una sola modalità della variabile (per es. “sì” se le modalità

erano sì/no), ottenendo così la percentuale di quanti hanno risposto in modo affermativo ad ogni singola

alternativa proposta.

3.2 La presentazione delle tabelle il ricercatore si limita a presentare un solo tipo di

- Distribuzione di frequenza in forma compatta:

distribuzione di frequenza ( o relativa o assoluta). Il ricercatore non deve presentare troppi dati per non

confondere il lettore (criterio di massima parsimoniosità), quindi presenta solo i numeri essenziali, ovvero

le frequenze percentuali accompagnate dal totale in valore assoluto. Il fatto di riportare il numero N di casi

sui quali le percentuali sono state calcolate, ha due finalità:

1. comunicare al lettore qual è la rilevanza numerica dei dati

2. poter risalire alle frequenze assolute

in una distribuzione percentuale vanno riportate solo le cifre decimali significative; ed il

- Cifre decimali:

significato di un decimale deriva dalla numerosità dei casi e dalle precisione del valore. Nelle ricerche

sociali, le distribuzioni di frequenza percentuali vengono in genere riportate con un decimale (caso più

frequente) oppure senza decimali (consigliabile se la base N delle percentuali è piccola, inferiore a 100

casi).

- se il decimale da eliminare si colloca tra 0 e 4 si arrotonda per difetto, se si colloca tra 5 e

Arrotondamenti:

9 si arrotonda per eccesso.

- lo zero va riportato anche nei decimali; se decidiamo di riportare un decimale, dobbiamo

Il decimale zero:

farlo per tutti i valori della tabella, anche quando uno di questi finisce con lo zero.

59

- a causa degli arrotondamenti può accadere che la somma delle percentuali faccia 99,9 o

Quadratura:

100,1. In tal caso è opportuno alterare lievemente le cifre per avere delle percentuali che effettivamente

diano come somma 100. Guardando il secondo decimale, quindi, si modificano quelle percentuali per le

quali questa alterazione è meno rilevante, oppure si alterano le cifre più alte sulle quali la forzatura ha un

impatto minore.

4 “Pulizia” dei dati e preparazione del “file” di lavoro

La prima utilizzazione della distribuzione di frequenza è rappresentata dalla cosiddetta operazione di

“pulizia” dei dati. Essa consiste in una ricognizione sui valori per identificare gli eventuali errori a partire da

incongruenze logiche. controllo sui valori delle variabili per verificare che essi siano plausibili, che

Controlli di plausibilità:

appartengano cioè al ventaglio di valori previsti dal codice. La distribuzione di frequenza permette di

rilevare l’errore e porvi rimedio.

si possono confrontare le distribuzioni di due variabili per far emergere

Controlli di congruenza:

incongruenze ( es. si domanda quanti sono occupati = 500 RISP + alla domanda quale occupazione

svolgono rispondono in 512 => incongruenza ). L’ispezione delle distribuzioni di frequenza consente di

rilevare l’errore e correggerlo.

Altri controlli di congruenza si effettuano attraverso l’ “incrocio” fra due variabili ( per es. chi va a messa

ogni domenica si deve essere dichiarato anche cattolico)

La correzione dell’errore può essere fatta sia risalendo alle informazioni originarie per individuare il valore

esatto da riportare nella matrice-dati; sia modificando i dati di modo che siano logicamente plausibili; sia

sostituendo il valore implausiblile con il valore corrispondente a “dato mancante”.

la dicitura “valore mancante” viene data ad un caso privo di informazioni su quella

Valori mancanti:

variabile( es. soggetti che non hanno risposto ad una domanda in questionario).

In genere nei questionari è meglio distinguere fra 4 situazioni di possibile mancata risposta:

1. “non sa”: il soggetto non sa rispondere

2. “non applicabile” : il soggetto non deve rispondere, la domanda non deve essergli posta ( es.

domanda sui figli se il soggetto non ha figli)

3. “non risponde” : il soggetto si rifiuta di rispondere

4. “valore implausibile”: non previsto dal codice

Solo gli ultimi casi sono vere situazioni di valore mancante.

I valori mancanti comportano sempre una complicazione nell’analisi dei dati. Se essi derivano da errori di

codifica vengono esclusi dalle analisi. Spesso anche i casi di “non risposta” vengono esclusi dalle tabelle

delle successive analisi. Ciò tuttavia comporta una perdita di informazione.

Il criterio che si suggerisce è il seguente:

• esporre sempre i “non risponde” nell’analisi monovariata ( cioè nella presentazione della variabile

attraverso la distribuzione di frequenza). Ciò permette al lettore di rendersi conto della rilevanza

delle mancate risposte. Successivamente, nell’analisi a più variabili, escludere i “non risponde”

dall’analisi.

Questo orientamento vale spesso anche per i “non so”.

nelle operazioni preliminari di preparazione del file va inclusa anche la ponderazione. Nel

Ponderazione:

caso più comune, quello della post-stratificazione, come già scritto, se la distribuzione di una certa variabile

nella popolazione è diversa da quella nel campione, con una proporzione si calcola quanto dovrebbe

“pesare” un individuo per ricondurre la distribuzione della variabile nel campione a quella della

popolazione.

PESI = dati dal rapporto fra frequenza nella popolazione e frequenza nel campione

60

Questo intervento di ponderazione si compie dando istruzioni al programma nella fase che precede l’analisi

dei dati ed avrà poi effetto su tutte le successive elaborazioni. Si tratta di un’operazione di manipolazione

dei dati che è consigliabile solo se non comporta un’alterazione eccessiva dei dati originari (cosa che

avviene se la differenza tra popolazione e campione è molto forte).

Ponderazione urgente se la ricerca è di tipo descrittivo, cioè se si è più interessati alla distribuzione delle

variabili piuttosto che alle loro relazioni.

5 Analisi monovariata

Il ricercatore in genere attende con una certa impazienza il momento nel quale può finalmente mettere le

mani sulle distribuzioni di frequenza, in quanto esse rappresentano il primo risultato empirico del suo

lavoro. Il ricercatore può finalmente vedere come i principali fenomeni si presentano nel campione studiato

e può rispondere ai primi interrogativi. È questa propriamente la fase dell’analisi un’analisi

monovariata:

puramente dei fenomeni studiati, che si limita a dirci come ogni variabile è distribuita fra i casi

descrittiva

rilevati, senza porsi il problema della relazione tra le variabili. Anche se ci sono delle situazioni nelle quali

già la semplice lettura delle distribuzioni di frequenza costituisce l’obiettivo dell’indagine (cfr sondaggi

d’opinione), va detto che in linea generale il ricercatore non si ferma mai all’analisi monovariata, in quanto

il suo scopo è quello di studiare le relazioni e reciproche influenze fra le variabili. L’analisi monovariata

rappresenta però il passaggio inevitabile e necessario per attuare un’analisi bivariata/multivariata, in

quanto permette al ricercatore di acquisire una conoscenza diretta dei dati che gli permetterà poi di

analizzarli con maggiore consapevolezza.

Come l’analisi monovariata delle variabili oggetto dello studio (le variabili “dipendenti”) rappresenta una

prima descrizione dei fenomeni analizzati, così l’analisi monovariata delle variabili socio grafiche di base

fornisce elementi fondamentali per la comprensione della struttura del campione e la sua rappresentatività

(se i sono segmenti della popolazione (per es. i giovani) sovra-rappresentati ecc.).

6 Misure di tendenza centrale

La distribuzione di frequenza è una descrizione minuziosa e completa della variabile, cioè di come la

variabile è distribuita nella popolazione. In molte situazioni però si ha bisogno anche di indici di sintesi della

distribuzione. Questi indici si esprimono nella forma di numeri, che si chiamano della

valori caratteristici

distribuzione di frequenza.

Di tutte le caratteristiche di una distribuzione di frequenza, le più importanti sono due: la sua tendenza

e la sua Le misure di tendenza centrale ci dicono qual è, in una distribuzione di

centrale variabilità.

frequenza, quello che può essere considerato il baricentro dei suoi valori, cioè il valore che meglio di

qualsiasi altro esprimerebbe la distribuzione se la si volesse sintetizzare in un solo numero.

6.1 Variabili nominali: la moda

Se la variabile è nominale, la è l’unica misura di tendenza centrale che si possa calcolare. La moda è

moda

la modalità di una variabile che si presenta nella distribuzione con maggior frequenza. E’ il valore che

indichiamo quando parliamo di una risposta data dalla maggioranza.

Quando la distribuzione tende a presentare due picchi, due baricentri della distribuzione, si chiama

“bimodale”.

La moda non dice molto sulla configurazione della distribuzione di frequenza, poiché non tiene contro della

distribuzione degli altri valori.

6.2 Variabili ordinali: la mediana

Poiché i casi sono ordinabili, nella variabile ordinale si può determinare la moda ma anche calcolare un’altra

misura di tendenza centrale: la Essa è la modalità del caso (e non del valore della variabile!) che

mediana.

occupa la posizione di mezzo (si trova al centro) nella distribuzione dei casi secondo quella

ordinata

variabile. .

Se i casi sono N ed N è dispari, c’è un solo caso centrale, che occuperà la posizione (e non il valore!!) !

61

Se N è pari ci sono due casi centrali, che occupano le posizioni e +1. Se questi due casi presentano la

! !

stessa modalità, quella modalità è la mediana; se presentano due modalità diverse, la distribuzione ha due

mediane (questo se la variabile è ordinale). Se la variabile è cardinale, invece, per convenzione la mediana è

la media fra i due valori.

6.3 Variabili cardinali: la media aritmetica

La media aritmetica (o semplicemente “media”) è data dalla somma dei valori assunti dalla variabile su tutti

i casi divisa il numero dei casi.

&

∑ $%

"# '()

=

"# = media di X

N = numero totale dei casi

∑ Xi = sommatoria di X con i, per i che va da 1 a N = X +X +…+X

, 1 2 N

Se nella distribuzione di frequenza i dati sono raggruppati in classi, per il calcolo della media si assume il

valore centrale della classe.

La media si può calcolare solo su variabili di tipo cardinale (i cui valori hanno pieno significato numerico, a

differenza degli altri tipi di variabile).

Naturalmente, se la variabile è cardinale, la sua distribuzione possiede anche una moda e una mediana. Se

la distribuzione della variabile è perfettamente simmetrica attorno al valore centrale, allora moda, mediana

e media coincidono.

La media è la misura più informativa, e perciò conviene utilizzarla al posto di moda e mediana.

Tuttavia ci sono delle situazioni nelle quali è consigliabile usare la mediana invece della media anche se la

variabile è cardinale. Ciò per il motivo che la mediana è meno sensibile della media ai valori estremi (cfr

misura del reddito medio di una popolazione).

7 Misure di variabilità

Le misure di tendenza centrale ci segnalano quella che è la modalità centrale di una distribuzione di

frequenza, ma non ci dicono nulla del modo di collocarsi delle altre modalità attorno a questo centro. In

particolare non ci dicono nulla sulla variabilità di questi valori. Le misure di variabilità ci informano invece

sulla presenza di distribuzioni equilibrate o di grandi disuguaglianze. Per questo motivo, per sintetizzare più

compiutamente una distribuzione, alle vanno accompagnate le

misure di tendenza centrale misure di

variabilità o di dispersione.

7.1 Variabili nominali: indici di omogeneità/ eterogeneità

Diciamo che una variabile nominale ha una distribuzione massimamente quando tutti i casi si

omogenea

presentano con la stessa modalità (per es. 100% delle persone è cattolica); ha una distribuzione

massimamente se i casi sono equidistribuiti fra le modalità.

eterogenea

Uno fra gli indici di omogeneità/ eterogeneità della distribuzione di una variabile nominale proposti dalla

statistica descrittiva è il seguente:

se si indica con p le proporzioni (cioè le frequenze relativizzate al totale 1) di una distribuzione di frequenza

i

e k il numero delle modalità, l’indice di omogeneità è dati dalla somma dei quadrati delle proporzioni, cioè

0 pi^2

12 22 k2

indice di omogeneità O = p +p +…+p = ,

Questo indice dipende da due fattori: è tanto più elevato a) quanto più concentrata è la distribuzione su

poche modalità e b) quanto minore è il numero delle modalità (valore max: una frequenza è=1 e tutte le

altre sono =0; valore minimo quando tutte le frequenze sono uguali tra loro e quindi uguali a 1/k ).

In alcuni casi può essere utile avere un indice di omogeneità che “neutralizzi” l’influenza del numero di

modalità. Chiamiamo questa misura indice di omogeneità relativa:

0×1

=

indice di omogeneità relativa O 0

rel 62

O= indice di omogeneità (assoluta)

Valore= 1 in caso di massima omogeneità; valore= 0 nel caso di massima eterogeneità.

Si possono anche calcolare i complementi ad 1 degli indici di omogeneità che sono gli indici di eterogeneità.

Indice di eterogeneità E= 1- O

Indice di eterogeneità relativa E = 1- O

rel rel

7.2 Variabili ordinali: la differenza interquartile

Quando è stata presentata la mediana, si è detto che questo valore ha la proprietà di dividere la

distribuzione (casi disposti in ordine crescente/ decrescente) di una variabile in due parti uguali:

ordinata

metà dei casi con valore inferiore (o eguale) alla mediana e metà dei casi con valore superiore (o eguale).

Se dividiamo i casi della distribuzione invece che in due, in quattro parti di eguale numerosità, i valori che

segnano i confini fra i quattro quarti sono detti Il primo quartile è quel valore che ha sotto di sé il

quartili.

25% della distribuzione e sopra di sé il 75%; il secondo quartile coincide con la mediana, il terzo quartile è

quello che ha il 75% di casi sotto di sé ed il 25% sopra di sé.

Come la mediana, i quartili sono detti valori di posizione, nel senso che non derivano da operazioni sui

valori (come invece la media aritmetica) ma derivano dalla posizione dei casi.

I valori del primo e del terzo quartile possono aiutare a definire un indice di dispersione. Se la distribuzione

è concentrata attorno al valore medio, il 50% centrale della distribuzione si troverà su un arco ristretto di

valori, e la distanza fra primo e terzo quartile sarà modesta. Se la distribuzione è molto dispersa, anche il

50% centrale della distribuzione si distribuirà su un arco piuttosto ampio di valori, e la differenza tra primo

e terzo quartile sarà elevata. La differenza fra i valori di questi due quartili può dunque essere utilizzata

come indice della dispersione della variabile. La differenza tra terzo e primo quartile dà la cosiddetta

Q che viene utilizzata come indice di variabilità della distribuzione quando

differenza interquartile

trattiamo con una variabile ordinale.

-Q

Q = Q 3 1

Questo indice di dispersione tuttavia si applica raramente alle variabili ordinali, ma piuttosto viene

utilizzato con le variabili cardinali e nel caso della tecnica delle scale,quando le variabili sono di tipo quasi-

cardinale. Quando la variabile è di questi ultimi due tipi, la differenza interquartile può essere agevolmente

determinata con una procedura di interpolazione grafica dei valori di Q e di Q .

1 3

7.3 Variabili cardinali: deviazione standard e varianza

Se la variabile è cardinale, si dispone di diversi modi per calcolare la variabilità della distribuzione (oltre

quelli già accennati dell’indice di omogeneità e della differenza interquartile).

Una prima idea della dispersione di una variabile cardinale può essere data dallo scarto fra il suo valore

maggiore e il suo valore minore. Questa differenza è chiamata (è una

campo di variazione della variabile

misura un po’ grezza però). un modo semplice di misurare la variabilità di una variabile cardinale è

Scostamento semplice medio:

costituito dalla media aritmetica degli scarti di ogni singolo valore dalla media. Può capitare però che, se ci

sono sia numeri positivi che numeri negativi, la media finale sia zero -> sommando i valori assoluti degli

scarti dalla media e dividendoli per il numero dei casi, si ottiene un valore chiamato scostamento semplice

che può essere utilizzato come indice di variabilità della distribuzione.

medio 3#|

∑ |$%

ssm = consideriamo ancora gli scarti dei singoli valori della media,

Deviazione standard (scarto quadratico medio):

eleviamoli al quadrato (per annullare il loro segno e dare maggior peso agli scarti maggiori). Possiamo

quindi sommare tutti questi scarti al quadrato, dividerli per il numero dei casi e poi estrarre la radice

quadrata di questo numero. Otteniamo così la deviazione standard.

3#)^!

∑($%

4

S = 63

Questo è l’indice che viene normalmente utilizzato per misurare la variabilità di una variabile cardinale. È

dello stesso ordine di grandezza dei valori della variabile e della media, per questo la si preferisce alla

varianza. il quadrato della deviazione standard è la della distribuzione.

Varianza: varianza

3#)^!

∑($%

2

S =

La varianza è una misura di grandissima importanza nella statistica. Tutta l’analisi dei dati ruota attorno al

concetto di “varianza spiegata”: data la variazione di una variabile tra i casi, l’analista si chiede con quali

altre variazioni di variabili tale variazione è associata. Spesso “spiegare la varianza” delle variabili significa

anche risalire (in maniera corroborativa, non dimostrativa) al meccanismo di causa-effetto che ha prodotto

la sua variazione. La varianza quindi, proprio in quanto esprime la variabilità di una variabile, costituisce

l’oggetto primario di tutta l’analisi dei dati.

la deviazione standard risente della grandezza della media della variabile.

Coefficiente di variazione:

Pertanto, se si vogliono confrontare fra di loro le variabilità di distribuzioni aventi medie fortemente

diverse, conviene utilizzare un indice di variabilità che tenga conto del valore della media. Si ottiene ciò

dividendo la deviazione standard per la media. Questa misura di variabilità relativa si chiama coefficiente di

variazione.

5

C = #

3

v

7.4 La concentrazione

Quando la variabile è cardinale e consiste in dalle unità d’analisi, allora si può calcolare

quantità possedute

la concentrazione di questa variabile nelle unità studiate (per es. reddito degli individui, popolazione dei

comuni ecc.). In questi casi si può parlare di o, all’opposto, di

equidistribuzione concentrazione.

La variabile è equidistribuita se il suo ammontare complessivo A è distribuito in parti eguali fra le N unità.

Quando si verifica la situazione opposta si dice che la variabile è concentrata: si ha il massimo di

concentrazione quando l’ammontare complessivo A è tutto attribuito ad una sola unità.

La concentrazione è un modo particolare di guardare alla variabilità: tanto più una variabile è concentrata

tanto più elevata è la variabilità (o dispersione) di quella variabile.

Si possono calcolare diversi indici di concentrazione, che assumono valore minimo nel caso di

equidistribuzione e massimo nel caso di concentrazione; uno dei più noti è il rapporto di concentrazione di

Il principio su cui si basa il calcolo di quest’indice consiste in un confronto tra la distribuzione della

Gini.

popolazione e la distribuzione della variabile cardinale, della quantità posseduta (per es. il reddito). Il

rapporto di concentrazione si calcola nel seguente modo: si ordinano le unità secondo l’ordine crescente

della variabile in esame; si calcolano le proporzioni cumulate dei soggetti e di tale variabile, per es. il

reddito. Le proporzioni p corrispondono alla situazione di equidistribuzione, le proporzioni q alla situazione

i i

è prossima alla corrispondente p , più la distribuzione è equidistribuita; più le due

di fatto. Più ogni q i i

proporzioni sono distanti, più la distribuzione è concentrata. Se riportiamo in un piano cartesiano sull’asse

delle ascisse le proporzioni p e sull’asse delle ordinate le proporzioni q , in caso di equidistribuzione i punti

i i

definiti dalle coppie (p ; q ) verrebbero ad allinearsi sulla bisettrice, cioè su quello che viene chiamato

i i Se non c’è equidistribuzione, tutti i valori q sono inferiori ai valori p , dando

segmento di equidistribuzione. i i

luogo ad una spezzate che si trova al di sotto del segmento di equidistribuzione (spezzata di concentrazione

che, se il fenomeno è continuo prende il nome di L’area compresa fra la spezzata di

curva di Lorenz).

concentrazione e il segmento di equidistribuzione viene chiamata Il rapporto di

area di concentrazione.

concentrazione di Gini è pari al rapporto fra l’area di concentrazione ed il suo massimo.

R=

≤ ≤

0 R 1 ; con R=0 in caso di equidistribuzione e R=1 in caso di massima concentrazione.

Nel caso in cui la variabile sia divisa in classi, si può calcolare nello stesso modo l’indice introducendo

l’ipotesi di equidistribuzione all’interno di ogni classe.

64

Gli indici di concentrazione sono ampiamente utilizzati per studiare le diseguaglianze nella distribuzione

della ricchezza; ma possono essere applicati anche ad altre situazioni di concentrazione/diseguaglianza.

8 Rappresentazioni grafiche della distribuzione di frequenza

Della distribuzione di frequenza si può anche dare una rappresentazione grafica. In genere i grafici non

forniscono informazioni aggiuntive rispetto alla forma tabellare, ma sono di grande efficacia comunicativa

(da qui il loro successo nella comunicazione di massa). Esiste una grande varietà di modi per rappresentare

figurativamente le distribuzioni di frequenza:

8.1 Rappresentazioni grafiche di distribuzioni di frequenza di variabili nominali

poiché una distribuzione di frequenza è un’associazione fra i valori di una

Diagrammi a barre:

variabile e le corrispondenti frequenze, il modo più semplice per rappresentarla graficamente

consiste nel riportarla su un piano cartesiano, disponendo su l’asse delle ascisse le modalità della

variabile e su quello delle ordinate le frequenze: quindi, per visualizzare le frequenze, si innalzano

in corrispondenza delle modalità della variabile dei rettangoli aventi altezza proporzionale alla

frequenza della modalità corrispondente. -> diagramma a barre o (ortogramma).

I diagrammi possono essere dei seguenti tipi:

- diagramma a colonne

- diagramma a nastri (in questo caso le modalità sono sull’asse verticale, le frequenze su quello

orizzontale)

- diagramma a barre appaiate

- diagramma a barre contrapposte

Gli ultimi due sono utilizzati per confrontare le distribuzioni della stessa variabile in due popolazioni

diverse. si tratta di rappresentare la distribuzione di frequenza suddividendo

Diagrammi di composizione:

l’area di una figura geometrica in parti proporzionali alle varie frequenze. Queste rappresentazioni

vengono chiamate anche areogrammi in quanto le frequenze vengono rappresentate da aree ad

esse proporzionali.

Esempi di queste rappresentazioni sono:

- diagramma a barre suddivise: la figura è costituita da una colonna rettangolare divisa in fasce di

altezza proporzionale alle frequenze delle varie categorie. Esso è utilizzato soprattutto quando di

vogliono confrontare fra di loro le composizioni di due o più gruppi.

- diagramma a torta (o a settori circolari): è adatto se le modalità della variabile sono in numero

limitato. Questa rappresentazione, quando viene utilizzata per distribuzioni di frequenza di variabili

nominali, presenta il vantaggio di essere meno fuorviante del diagramma a barre, in quanto la

forma circolare evoca in misura minore l’idea di un ordine e di una gerarchia.

8.2 Rappresentazioni grafiche di distribuzioni di frequenza di variabili cardinali

se la variabile è una variabile cardinale raggruppata in classi possiamo ancora

Istogramma:

o rappresentare la sua distribuzione di frequenza su un cartesiano, collocando su un asse la variabile

e sull’altro le frequenze e innalzando dei rettangoli di area (non altezza!) proporzionale alle

frequenze, ottenendo quello che viene chiamato istogramma.

La differenza fondamentale fra questa rappresentazione e il diagramma a barre verticali sta nel

fatto che nell’istogramma sull’asse della variabile (orizzontale) vi è una variabile continua, anche se

suddivisa in classi. I rettangoli verticali (colonne) che rappresentano la frequenza hanno base

coincidente con l’ampiezza della classe, che quindi non è più arbitraria (come invece accadeva nel

diagramma a barre!). Inoltre i rettangoli non sono più separati l’un dall’altro (come nel diagramma

a barre), ma sono adiacenti in quanto dove finisce una classe inizia l’altra.

Se la variabile è stata raggruppata in classi di diversa ampiezza, occorre tenerne conto nella

costruzione del diagramma: poiché l’area dei rettangoli deve essere proporzionale alla frequenza e

poiché le basi dei rettangoli sono diverse occorrerà costruire dei rettangoli aventi altezza

65

proporzionale al rapporto fra frequenza ed ampiezza della classe (rapporto che si chiama densità di

frequenza).

Un istogramma molto utilizzato in demografia è la cosiddetta “piramide delle età”, che consiste

nella presentazione contrapposta degli istogrammi delle distribuzioni per età dei maschi e delle

femmine. se in un istogramma congiungiamo con dei segmenti i punti medi dei lati

Poligono di frequenza:

o superiori dei rettangoli, otteniamo una linea spezzata che chiamiamo poligono di frequenza. Man

mano che le classi di una variabile cardinale diventano più numerose (e diminuiscono di ampiezza),

la spezzata si approssima sempre di più ad una curva continua, diventando una “curva di

frequenza” quando la variabile non è più raggruppata in classi ma è riportata in ascissa nella sua

forma continua. Data una curva di frequenza, l’area sottesa dal tratto di curva compreso fra due

qualsiasi valori della variabile, dà la frequenza del gruppo di ampiezza compresa fra i due valori.

Talvolta è utile rappresentare graficamente con una linea spezzata la distribuzione delle frequenze

cumulate; tale curva viene chiamata ogiva.

Problemi tecnici:

- Ogni variazione della scala di riferimento degli assi comporta una variazione nella percezione visiva

del fenomeno: cambiando scala si può enfatizzare una differenza minima così come attenuare una

variazione rilevante. Questa soggettività è un limite grave ed insolubile della rappresentazione

grafica. Nel caso della distribuzione di frequenza, può essere in parte attenuato raccomandando

che la scala delle frequenze parta dallo zero.

- Una seconda questione riguarda la completezza informativa del grafico. La rappresentazione grafica

ha il grande vantaggio di selezionare ed evidenziare i principali elementi informativi della tabella;

tuttavia non si possono mettere nel grafico tutti i numeri della tabella.

- I grafici non devono essere complessi ed è bene diffidare dei grafici tridimensionali in quanto

spesso comportano una distorsione nella percezione visiva del fenomeno.

10 Classificazioni, tipologie e tassonomie

Per classificazione si intende quel processo secondo il quale i casi studiati vengono raggruppati in

sottoinsiemi (classi) sulla base della loro similarità. Le classi così ottenute devono essere:

- Esaustive (tutti i casi devono trovare collocazione in una classe)

- Mutualmente esclusive (un caso può appartenere ad una classe)

Questo processo può essere condotto sulla base della somiglianza dei casi su una sola variabile

(classificazione unidimensionale) o su più variabili (c. multidimensionale).

10.1 Classificazione unidimensionale: aggregazione delle modalità in classi

Il più semplice dei processi classificatori si ha quando i casi sono classificati in base alla loro somiglianza

relativamente ad una sola variabile. In questi termini il problema della classificazione e delle classi si riduce

a quello delle modalità delle variabili.

Nella fase di analisi dei dati il ricercatore si trova, quindi, di fronte ad una matrice dati con delle variabili

dalle modalità già definite (sono state definite nella fase che ha preceduto la rilevazione o in quella di

codifica). Tuttavia l’operazione di classificazione delle unità d’analisi non si esaurisce completamente nella

fase di rilevazione e di codifica. Nell’analisi dei dati ( per molte variabili) deve essere perfezionata con

l’operazione di aggregazione di alcune modalità.

: aggregazione tra modalità è necessaria perché le successive operazioni

Quando una variabile è nominale

di analisi bivariata possono richiedere che ogni modalità presenti un numero sufficiente di casi, cioè che le

frequenze delle varie modalità siano fra loro abbastanza equilibrate.

Se non è possibile aggregare modalità dal significato affine poiché le modalità hanno un significato che non

è riconducibile a nessun’altro, allora si devono eliminare i casi delle modalità esigui dalle successive analisi.

L’aggregazione delle modalità costituisce spesso un punto dolente dell’analisi di variabili nominali e può

costringere il ricercatore a scelte insoddisfacenti e palesemente forzate. Per cui si procede in questo modo:

66

In analisi monovariata (illustrazione iniziale delle distribuzioni di frequenza) si presenta la variabile con tutte

le sue modalità.

Dopo, in analisi bivariata, si procede sulla variabile aggregata.

aggregazione delle modalità consiste in un raggruppamento in classi di

:

Quando una variabile è cardinale

maggiore ampiezza (non si pone il problema della prossimità di significato delle modalità da aggregare,

poiché le classi contigue hanno per definizione significati affini, trattandosi di modalità collocate su un

continuum sottostante). In generale si raccomanda che la variabile cardinale venga memorizzata nella

matrice-dati nella forma più disaggregata possibile, al fine di non perdere informazioni, e solo dopo

raggrupparla in classi, se serve, a seconda dell’analisi.

Tre criteri di aggregazione:

• Raggruppare i valori della variabile in intervalli di uguale ampiezza

• Aggregare i valori assumendo come riferimento il loro significato (per es. età dei figli aggregata

sulla base della scansione scolastica: 3-5 anni (scuola materna), 6-10 (scuola elementare) ecc.)

• Assumere come riferimento non solo il valore della variabile, ma anche la configurazione della sua

distribuzione di frequenza, prendendo come soglie di divisione i quantili (=valori di posizione di una

distribuzione di frequenza che dividono i casi in gruppi di eguale numerosità)

Nella pratica della ricerca empirica, il criterio di aggregazione più utilizzato è una combinazione del secondo

e del terzo qui presentati.

10.2 Classificazione multidimensionale: tipologie e tassonomie

Le unità di analisi possono essere classificate sulla base di più variabili.

Esistono due tipi di classificazioni multidimensionali: le e le

tassonomie tipologie

è una classificazione nella quale le variabili che definiscono la classificazione sono considerate

Tassonomia: in una struttura gerarchica che procede per variabili di generalità decrescente

in successione,

Es: classificazione dei mammiferi (schema ad albero) tra cui: carnivori = felini,canidi, ienidi….,

consiste in una classificazione nella quale le variabili che la definiscono sono considerate

Tipologia: (per es. classificazione in base alla considerazione congiunta di professione, reddito e

simultaneamente

genere).

Le classi di una tipologia sono dette “tipi”….quindi la tipologia (singolare) è l’insieme dei tipi (plurale).

tipo: concetto il sui significato si colloca all’intersezione dei significati delle modalità delle variabili che

costituiscono la tipologia. Il numero dei tipi è pari al numero di combinazioni fra le modalità delle variabili,

cioè pari al prodotto del loro numero di modalità.

La tipologia ha finalità di interpretazione e spiegazione; è spesso il punto di arrivo di un’analisi, uno dei

passaggi cruciali di collegamento fra dato empirico e teoria.

Es : ricerca sull’atteggiamento dei genitori nei confronti dei figli -> genitori classificati sulla base di due

variabili:

• orientamento pedagogico : permissivo o restrittivo

• rapporto emotivo: caldo e freddo

dalla combinazione delle due variabile deriva la tipologia che presenta 4 tipi di genitori:

1)ansioso-nevrotico: freddo e permissivo

2)indulgente : caldo e permissivo

3)iperprotettivo : caldo e restrittivo

4) autoritario: freddo e restrittivo

Siccome il numero dei tipi è pari al prodotto del numero di modalità delle variabili che la formano, è facile

avere tipologie con molti tipi, che risultano di difficile interpretazione => si rende quindi spesso necessario

procedere ad una riduzione dei tipi tramite unificazione di alcuni tipi in uno solo (riduzione dello spazio

Questa riduzione può avvenire:

degli attributi).

1. prima della formazione della tipologia stessa, riducendo le modalità delle variabili che la

definiscono

2. dopo una prima versione della tipologia si possono aggregare i tipi sulla base di:

a)fusione in un solo tipo dei tipi con significato affine

b)aggregazione ( a tipi confinanti) di tipi con numero di casi basso

67

I concetti di tipologia e di tipo rimandano al “tipo ideale” di Weber.Va tuttavia segnalata un’importante

distinzione: il tipo ideale weberiano è un’astrazione che prende l’avvio dall’esperienza, per poi “purificarla”,

è un puro concetto limite ideale; la tipologia, invece, sono classificazioni di dati empirici, ed è legata alla

realtà empirica rilevata, quindi.

Le tassonomie sono più comuni nelle scienze naturali, mentre le tipologie sono più utilizzate nelle scienze

sociali.

11 Trasformazioni delle variabili

11.1 La standardizzazione delle variabili

Si pone spesso l’esigenza di dover confrontare fra loro i valori di variabili cardinali appartenenti a

distribuzioni differenti oppure che utilizzano differenti unità di misura. Come si può fare?

Per fare ciò dobbiamo trasformare il valore (o punteggio) originario in un valore standardizzato che non

risenta dell’unità di misura della variabile e della dispersione della distribuzione. Per standardizzare le

variabili ed ottenere dei punteggi pienamente confrontabili dobbiamo operare una doppia operazione. In

primo luogo trasformiamo i punteggi in scarti dalla media. Essi però non sono ancora confrontabili fra loro.

Dividiamo allora la nuova variabile, che come abbiamo detto è uno scarto dalla media, per lo scarto-tipo di

quella variabile dalla media, cioè per la sua deviazione standard.

3#

$%

Z = 5

i

X = punteggio qualsiasi della variabile X

i

Z = punteggio standardizzato

i

Con la standardizzazione abbiamo eliminato le differenze di scala e di dispersione, e le variabili

standardizzate sono fra loro perfettamente confrontabili.

La standardizzazione consente di confrontare variabili provenienti da diverse distribuzioni.

Aggiungiamo ancora due osservazioni strettamente associate al problema della standardizzazione. La prima

fa riferimento alla procedura di Quando si sottopone ai soggetti intervistati una batteria di

deflazione.

domande a risposta graduata (“molto”…”per niente” d’accordo, oppure termometri dei sentimenti ecc.)

può accadere che dei soggetti abbiano la tendenza a dare sempre punteggi piuttosto elevati/ bassi, oppure

ad utilizzare tutto il campo di variazione loro offerto, mentre altri potrebbero restringere l’uso a pochi

punteggi intermedi. In questo caso si possono eliminare queste differenze di criterio interne ad ogni

individuo, sottraendo dal punteggio assegnato dall’individuo ad ogni variabile la media dei punteggi

assegnati da quello stesso soggetto a tutte le variabili della batteria, e dividendo per la deviazione standard

di questi valori.

La seconda osservazione fa capo al problema della di una grandezza. Si intende per

normalizzazione

“normalizzazione” una procedura attraverso la quale si trasformano delle grandezze fra loro non

direttamente confrontabili (per differenti numerosità delle popolazioni ecc.) al fine di poterle confrontare.

Una procedura di normalizzazione assai utilizzata consiste nel sottrarre alla grandezza il valore minimo che

questa può assumere, e nel dividere questa differenza per la differenza fra i valori minimo e massimo che

essa può assumere:

$% – $8%9

* =

X $8:; – $8%9

i

La grandezza standardizzata così ottenuta (X*) varia tra 0 e 1 ed è numero puro, cioè non risente dell’unità

di misura delle X di partenza. Questa procedura non si applica alle variabili (per le quali è preferibile la

i

procedura di standardizzazione), ma più in generale è utilizzabile per qualsiasi grandezza.

11.2 La costruzione di indici

In generale, per intendiamo una variabile funzione di altre variabili, che sintetizza le informazioni

indice

contenute nelle singole variabili operativizzando un concetto complesso del quale le singole variabili sono

espressioni parziali (cfr operativizzazione dei concetti complessi, dimensioni, indicatori ed indici). L’indice è

una variabile di “sintesi”. Esempi di indici sono l’indice di religiosità, l’indice di partecipazione politica ecc.

68

Legata al concetto di indice vi è anche la tecnica delle scale; essa infatti non è altro che la sistematizzazione

del problema della operativizzazione dei concetti complessi attraverso indicatori più semplici e quindi

affronta proprio la questione della ricomposizione in un indice delle componenti rilevate da singole

variabili. La tecnica delle scale è però piuttosto complessa; nella pratica della ricerca sociale si costruiscono

indici anche in maniera più semplice.

Gli indici possono essere di tipo:

• Additivo: in questo tipo il punteggio dell’indice deriva dalla somma dei punteggi delle singole

variabili (i valori fanno parte di un punteggio, sono variabili ordinali o quasi-cardinali).

• Tipologico: lo schema logico della tipologia può essere utilizzato per costruire nuove variabili che

sintetizzino l’informazione congiunta delle variabili che definiscono la tipologia. La variabile di

sintesi che ne deriva è un indice (i valori corrispondono a dei tipi, cioè a delle categorie; si tratta

quindi di variabile nominale)

Le operazioni attraverso le quali si combinano fra loro le variabili per costruire degli indici possono essere

quindi di diversa natura, nello specifico:

- Operazioni algebriche

- Operazioni logiche (utilizzate sulle variabili nominali)

Concludiamo osservando che sulla base della nostra definizione dovremmo riservare il termine indice alla

variabile funzione di altre variabili attraverso la quale la nuova variabile aggiunge informazioni e sintesi a

quanto espresso dalle singole variabili di partenza. Non è quindi un indice la sola normalizzazione o

relativizzazione di una variabile originaria (per es. rapporto fra numero di matrimoni civili e numero totale

di matrimoni).

13 Serie temporali e serie territoriali: numeri indice

13.1 Serie temporali e territoriali

Definiamo (o serie storica) la sequenza dei valori assunti da una variabile nello stesso

serie temporale

aggregato territoriale in tempi diversi; definiamo la sequenza dei valori assunti da una

serie territoriale

variabile nello stesso momento in diversi aggregati territoriali. In queste serie i valori di una variabile sono

associati ai valori della variabile tempo o zona geografica; esse non ci dicono come si distribuisce un totale

fra i valori di una variabile (cfr distribuzione di frequenza), ma quali valori assume quella variabile nel tempo

o nello spazio. Tuttavia su serie storiche e serie territoriali si possono applicare molte delle operazioni che si

applicano alle distribuzioni di frequenza (cfr misure di tendenza centrale e di variabilità) e darne delle

rappresentazioni grafiche (cartogrammi, diagrammi a barre…).

13.2 Lo studio della variazione; i numeri indice

Problemi particolari sono posti dallo studio della variazione di un determinato fenomeno. Come si possono

valutare le variazioni di un fenomeno rilevato in situazioni – temporalmente o territorialmente- diverse?

La differenza assoluta fra due grandezze omogenee ha un

Differenza assoluta e differenza relativa.

significato diverso a seconda dell’entità delle grandezze stesse (per es. un incremento in punti percentuali

fra due elezioni di un partito dal 38 al 39% può essere considerato poco rilevante, mentre l’incremento di

un piccolo partito dal 1 al 2% corrisponde ad un raddoppio del suo peso politico).

Se indichiamo con a e b le due grandezze, possiamo calcolare fra di esse la variazione assoluta e la

variazione relativa; dove la seconda viene relativizzata dividendola per quello dei due termini che si assume

a riferimento.

Variazione assoluta: b−a

<

Variazione relativa: × 100

La variazione relativa risente fortemente della base (numero, valore) di partenza. Nell’analizzare delle

variazioni relative è quindi bene guardare sempre con attenzione anche alla base di partenza, e diffidare di

quelle situazioni in cui vengono presentate solo le variazioni relative senza possibilità di controllare il dato

iniziale.

Quando le misure considerate sono valori percentuali è importante distinguere fra:

69

Variazione percentuale: si riferisce alla variazione relativa (rapporto fra percentuali)

o Variazione di punti percentuali: si riferisce alla variazione assoluta (differenza fra percentuali)

o C’è un altro modo per esprimere queste variazioni, ed è costituito dai numeri indice.

Numeri indice. = >?

Numero indice= ×100

= >? ? <

Es. se ponessimo uguale a 100 i morti per droga nel 1985, a quanto essi ammonterebbero nel 1986?

Numero morti per droga nel 1985= 242

Numero morti per droga nel 1986= 292

X= numero indice !@!

242:100 = 292: X -> X= × 100

!A!

Vi è una sostanziale equivalenza fra il calcolo della variazione relativa e quello che porta al numero indice.

Ma i numeri indice non servono tanto per calcolare la variazione relativa di una rilevazione rispetto ad

un’altra, quanto per mettere in luce le variazioni di una serie temporale o territoriale rispetto ad un tempo

o ad un luogo assunti come base di riferimento. Così, nella serie sull’andamento dei morti per droga dal

1985 al 1996, possiamo assumere come punto di riferimento per tutti gli anni il 1985.

I numeri indice non sono mai negativi: quando l’ammontare è inferiore a quello assunto a riferimento

(valore base) il numero indice assume valori inferiori a 100.

L’aspetto più interessante dei numeri indice è costituito dal fatto che non dipendono dall’unità di misura o

di conto in cui sono espressi; essi cioè sono numeri puri e permettono il confronto fra le variabili più

disparate.

Quelli che abbiamo presentato sono i cosiddetti numeri indice a base fissa, nei quali il valore base di

riferimento posto al denominatore è sempre lo stesso per tutta la serie (per es. numero di morti per droga

nel 1985). Esistono però anche i numeri indice a base mobile, in cui si confrontano i valori di ogni anno con

quelli dell’anno precedente, ponendo quest’ultimo di volta in volta parti a 100.

CAP 13 L’ ANALISI BIVARIATA

1 Relazioni fra variabili

Quando si dice che c’è una relazione fra due o più variabili si intende che c’è una variazione concomitante

fra i loro valori, una covariazione.

Due osservazioni sono necessarie a questo riguardo. Innanzitutto va ricordato che si tratta di relazione

statistiche, cioè di relazioni di tipo (in generale, è più probabile che ecc.). la seconda

probabilistico

osservazione ha a che fare con l’interpretazione causale (nel senso cioè di nesso causa-effetto) di tale

relazioni. Ribadiamo quindi che la statistica ci può dire solo che esiste una relazioni fra due variabili. Sarà

compito e responsabilità del ricercatore di conferire a tale relazione il significato di nesso causale e di

attribuire ad essa una direzione. Ma tale interpretazione si muove su un piano del tutto e solo teorico;

come si è già detto “covariazione non significa causazione”.

Con la locuzione “analisi bivariata” si intende l’analisi della relazione esistente fra due variabili.

Normalmente l’obiettivo finale dell’analisi dei dati è rappresentato dall’analisi multivariata, e cioè

dall’analisi delle relazioni esistenti fra il fenomeno da spiegare (la variabile dipendente) e molteplici altre (le

variabili indipendenti); questo perché la variabile sociale è correlata con un’infinità di altre che

interagiscono, si intrecciano, si influenzano reciprocamente, e quindi solo attraverso l’analisi multivariata si

può costruire un “modello” plausibile della realtà sociale. Prima però di imbattersi nell’analisi multivariata,

è necessario aver condotto un’attenta ed esauriente analisi bivariata.

Quando si compie un’analisi delle relazioni fra variabili, è importante distinguere fra variabili indipendenti

(sono le variabili “influenzanti”) e variabili dipendenti (sono le variabili “influenzate”). Anche se talvolta il

problema non è così semplice, in genere è possibile distinguere fra variabile dipendente e variabile

indipendente; questa distinzione rappresenta un’operazione di grande importanza sia per la chiarificazione

70

concettuale dell’analisi, sia per la definizione degli strumenti statistici da utilizzare che spesso trattano

diversamente le variabili dipendenti e quelle indipendenti.

Le tecniche di analisi bivariata dipendono anche in maniera determinante dal tipo di variabili considerate

(nominali o cardinali). Combinando queste due opzioni con quelle scritte sopra si ottengono 4 possibili

combinazioni, ognuna con una specifica tecnica di analisi della relazione:

- entrambe le variabili nominali -> tavole di contingenza

- entrambe le variabili cardinali -> regressione-correlazione

- la variabile indipendente nominale e quella dipendente cardinale -> analisi della varianza

- la variabile indipendente cardinale e quella dipendente nominale (molto raro)

Quando si parla in linea generale si usa il termine (o quando la relazione è fra

relazione covariazione);

variabili si parla di quando è fra variabili di mentre quando è

nominali ordinali

associazione, cograduazione,

fra variabili si parla di

cardinali correlazione.

2 Tavole di contingenza

2.1 Direzione delle percentuali (percentuali di riga e percentuali di colonna)

Quando, per es., si vuole studiare la relazione fra due variabili a partire da dati ottenuti da un’inchiesta

campionaria, si organizzano i dati in una tabella che si chiama (o anche tabella a

tavola di contingenza

doppia entrata, incrocio, tabulazione incrociata). In questa tavola si colloca in riga una variabile (variabile di

in colonna l’altra (variabile (non ha importanza quale variabile fra le due si decida di

riga), di colonna)

mettere in riga e quale in colonna, è uguale!), e nelle definite dall’incrocio fra le righe e le colonne il

celle

numero di casi che presentano le corrispondenti modalità delle due variabili. Questi valori si chiamano

della tabella. Talvolta alla tabella così espressa vengono anche aggiunti i totali di riga e di colonna

frequenze

delle frequenze, che chiamiamo frequenze marginali, o più brevemente e che corrispondono alle

marginali,

frequenze delle variabili singolarmente prese.

Intendiamo per di una tavola di contingenza l’indicazione r × c, dove r è il numero di righe e c il

ordine

numero di colonne (per es. una tavola può essere di ordine 3 × 3 ). Intendiamo inoltre per di

dimensione

una tavola di contingenza il numero di variabili in essa implicate (nell’analisi bivariata, per il fatto di trattare

della relazione fra due variabili, vi sono tabelle bidimensionali).

La tabella finora presentata è quella dei valori assoluti; essa riporta cioè il numero di casi aventi un certo

valore sulla variabile di colonna ed un certo valore sulla variabile di riga, prima di qualsiasi

percentualizzazione. Su queste tavole base dei valori assoluti si possono effettuare tre diversi tipi di

percentualizzazione, ottenendo tre diverse tabelle:

• tabella delle percentuali di riga: si portano a 100 i totali dei casi per riga così da poter dire la

percentuale rispetto ad ogni modalità della variabile di riga. Esemplificando, se per esempio

prendiamo in considerazione la cella (1,1), si percentualizza la sua frequenza sul suo totale di riga:

(frequenza/ totale di riga) × 100

• tabella delle percentuali di colonna: si portano a 100 i totali dei casi per colonna. Esemplificando, si

percentualizza il valore assoluto della prima cella, per es., sul suo totale di colonna, cioè (val

assoluto/ totale di colonna) × 100

• tabella delle percentuali sul totale: si percentualizzano tutte le frequenze di cella sul totale

generale: (freq. cella/ totale generale) × 100

La prima tabella, quella dei valori assoluti, non effettuando alcuna percentuale, non permette di fare dei

confronti fra i valori. L’ultima, facendo tutte le percentuali sullo stesso valore (il totale), non relativizza dei

gruppi al fine di operare dei confronti. Queste due tabelle quindi non sono adatte se si vogliono analizzare

le relazioni fra due variabili. La scelta di quale tabella usare fra le due intermedie (tabella delle percentuali

di colonna e tabella delle percentuali di riga) dipende dallo scopo dell’analisi, da quale relazione interessa

trovare. (cfr. esempio della relazione fra età e pratica religiosa, pag. 558-559).

Lo scopo della percentualizzazione è assegnare una base comune ai diversi gruppi per poterli confrontare.

La scelta della tabella sbagliata può portare il ricercatore completamente fuori strada, da qui l’importanza a

compiere una scelta corretta.

Qual è il criterio per scegliere fra le percentuali di riga e quelle di colonna?

71

Si sceglie la percentuale di colonna se si vuole analizzare l’influenza che la variabile posta in colonna ha su

quella posta in riga;

Si sceglie percentuale di riga quando si vuole analizzare l’influenza che la variabile posta in riga ha su quella

posta in colonna;

Si definisce qual è la variabile indipendente e si percentualizza all’interno delle sue modalità. Questo

principio rimane il criterio guida quando l’obiettivo è quello di studiare la relazione causale esistente fra

variabile indipendente e variabile dipendente; ma in altre situazioni, quando non è questo l’obiettivo della

tabulazione, può essere utile agire diversamente.

Operare un confronto fra i profili delle modalità della variabile dipendente ed il profilo dell’intera

popolazione per stabilire la relazione fra le variabili della tabella è un modo più laborioso e meno diretto,

ma a volte l’unico attuabile (per es. quando l’indagine non è condotta su tutti casi ma solo su un

sottoinsieme della popolazione).

Altre volte può aver senso calcolare percentuali sia per riga sia per colonna: quando non è possibile

individuare con chiarezza una variabile dipendente ed una indipendente, in quanto la relazione causale può

essere in una direzione come nell’altra.

2.2 Presentazione delle tavole

1) parsimoniosità dei dati: la tabella deve riportare solo le percentuali che servono all’analisi.

2) totali: ogni riga (o colonna) percentuale deve finire col totale 100: non è un’informazione inutile, in

quanto serve al lettore per capire immediatamente in che direzione sono state calcolate le percentuali e

questo fatto lo agevola nella lettura della tabella.

3) basi delle percentuali: sotto al totale va riporta la base percentuale (N). Si tratta di un’informazione

importantissima in quanto permette immediatamente di valutare la rilevanza scientifica della percentuale.

In generale, è assai imprudente calcolare e commentare percentuali su basi inferiori a 50 casi.

4) cifre decimali, decimale zero, arrotondamenti, quadratura: vedi cap.12, par. 3.2 (presentazioni delle

distribuzioni di frequenza).

5) intestazione: le tabelle devono essere sempre intestate. È infatti importante che la tabella sia

autoesplicativa, che essa cioè contenga tutte le informazioni necessarie per la sua comprensione, senza

dover ricorrere al testo del rapporto nel quale essa si trova inserita. Nel caso di questionari, inoltre, è

indispensabile che per tutte le variabili utilizzate il lettore sia messo al corrente dell’esatta formulazione

della domanda.

6) altre forme di presentazione della tabella:

- tabella con i valori assoluti: l’aggiunta dei valori assoluti alle percentuali rappresenta un’aggiunta

normalmente inutile (nell’analisi della relazione fra variabili, mentre può essere utile in altri casi): i valori

assoluti, infatti, non servono per interpretare i dati.

- tabella col marginale della variabile dipendente: è utile se – più che all’analisi della relazione fra le due

variabili prese in complesso – siamo interessati all’analisi di una particolare modalità della variabile

indipendente; e questo soprattutto nel caso in cui le modalità della variabile indipendente siano numerose.

7) somme di percentuali: la somma di percentuali è legittima se i valori sommati appartengono alla stessa

distribuzione percentuale, ma è errata se le percentuali sommate appartengono a due diverse distribuzioni.

2.3 Interpretazione delle tavole

Nell’interpretazione e commento delle tabelle, si suggerisce di selezionare le modalità più significative della

variabile dipendente e centrare su di queste l’analisi. Si consiglia anche di non dare troppo rilievo a

differenze percentuali esigue ( < 5 punti percentuali).

Errori comuni nell’interpretazione della tabella:

il commento ad una tabella non deve essere puramente “descrittivo”; il commento che va fatto per

illustrare la relazione fra due variabili deve invece prendere una modalità significativa della variabile

dipendente e vedere come la sua percentuale varia tra le modalità della variabile indipendente.

Quale sia la modalità da scegliere lo decide il ricercatore, e la scelta dipenderà dalla sua linea

argomentativa. Se la variabile è ordinale, la modalità scelta sarà sempre in una categoria estrema della

variabile dipendente. Se la variabile dipendente è ordinale, è spesso di grande utilità aggregare le modalità

72

estreme e contigue della variabile dipendente (questo modo di procedere comporta di solito una notevole

“pulizia” del dato).

Un altro sistema molto utilizzato per interpretare le tabelle consiste nel calcolare la differenza tra due

modalità di risposta o fra le risposte positive e quelle negative. Questa differenza viene chiamata Indice di

differenza percentuale, e permette di leggere i dati tenendo conto simultaneamente dell’andamento di più

modalità della variabile dipendente.

Concludiamo questa parte con un’osservazione sulla forma della relazione fra variabili. Se al crescere di una

variabile cresce anche l’altra si dice che la relazione presenta una forma (o se oltre al

monotònica lineare,

fatto che al crescere di una variabile cresce anche l’altra, la relazione può essere rappresentata da una retta

in quanto le due variabili covariano in maniera regolare). La forma monotonica può essere positiva (al

crescere di una variabile cresce anche l’altra) o negativa (al crescere di una variabile decresce l’altra).

Tuttavia, non è necessario che per esistere una relazione debba essere monotònica (può essere una

relazione dalla forma a U ecc.).

Naturalmente possiamo fare queste considerazioni se la variabile indipendente è ordinale, cioè possiamo

vedere come variano le percentuali della modalità della variabile nominale assunti a riferimento al crescere

della variabile indipendente. Se questa fosse una variabile nominale (a categorie non ordinate), non

potremmo mai osservare come varia la variabile dipendente al crescere della variabile indipendente, in

quanto le modalità dell’indipendente non sono ordinabili, per cui non si può parlare di forma della

relazione fra le due variabili.

2.4 Presentazione compatta di tavole

Molto spesso, sia per economizzare lo spazio sia per facilitare il confronto fra domande aventi la stessa

struttura, si compattano in un’unica tavola più tavole semplici a doppia entrata. (per es. di tabelle vedi

pag.571-572).

2.5 Tavole di contingenza a più di due variabili

Abbiamo finora trattato solo tavole a due variabili: anche quando nella tabella le variabili che comparivano

erano più di due, si trattava di fatto dell’accostamento di più tabelle a due variabili, che venivano

presentate in maniera compatta per esigenze grafiche o di confronto (cfr paragrafo precedente). Esistono

però anche tavole di contingenza a più variabili (tabella a tre variabili= 1variabile dipendente+2 v.

indipendenti; tabella a 4 variabili= 1 variabile dipendente+3 v. indipendenti ecc.) (cfr analisi multivariata).

Per es. vedi tabella 13.12 e 13.13 pagg. 573-574.

2.6 Tavole di mobilità sociale

All’interno delle tavole di contingenza, una caso di particolare interesse è dato dalle tavole di mobilità

sociale, nelle quali su una dimensione si colloca la classe sociale dei soggetti studiati e sull’altra quella dei

loro padri. La sua struttura è quella di una normale tabella a doppia entrata: essa tuttavia presenta delle

particolarità che derivano dalle molteplici linee di lettura che offre, come ad es.:

significato delle celle: poiché le due variabili (classe sociale padre e classe sociale figlio) hanno la stessa

mobilità, abbiamo che nelle celle sulla diagonale si trovano i “soggetti immobili” (classe sociale padre =

classe sociale figlio), mentre nelle celle fuori dalla diagonale si collocano i “soggetti mobili”. Se la variabile

classe sociale è una variabile ordinale -> nel triangolo sopra la diagonale si hanno i soggetti che hanno

sperimentato un processo di mobilità ascendente; -> nel triangolo sotto quelli che hanno sperimentato un

processo di mobilità sociale discendente.

Significato delle percentualizzazioni: diversamente da quanto accade con le normali tavole di contingenza

(dove una sola percentuale ha significato ed è utile per l’interpretazione della tabella), in questo caso tutte

e tre le forme di percentualizzazione assumono un preciso significato.

1. Percentuali entro le modalità della variabile indipendente: ci dicono qual è l’influenza della classe sociale

di partenza su quella di arrivo

2. Percentuali entro le modalità della variabile dipendente: danno info sull’origine sociale dei ceti attuali

3. Percentuali sul totale: danno informazioni sul processo generale di mobilità sociale. Sommando le

73

delle celle sulla diagonale, del triangolo superiore della matrice e del triangolo inferiore,

percentuali

otteniamo rispettivamente i tassi di immobilità sociale, di mobilità ascendente e di mobilità discendente.

Lo stesso approccio viene impiegato nelle tavole di movimento elettorale.

2.7 Rappresentazione grafica della relazione fra due variabili nominali

Talvolta è utile rappresentare graficamente la relazione fra due variabili nominali. Per fare ciò si utilizzano

gli strumenti già visti per le distribuzioni di frequenza, e cioè diagrammi a barre oppure quelli a linee

spezzate che congiungono i punti di interesse.

Si riportano, in un piano cartesiano, sull’asse orizzontale le modalità della variabile indipendente e sull’asse

verticale le frequenze percentuali relative alla modalità della variabile dipendente che abbiamo scelto come

più rilevante.

Se la variabile indipendente è nominale si può utilizzare solo il diagramma a barre. Se la variabile è ordinale

oppure cardinale raggruppata per classi si può anche rappresentare la relazione della tabella tramite una

spezzata che congiunge i punti corrispondenti ai valori delle percentuali.

3 Significatività della relazione fra due variabili nominali: il test del chi-quadrato

Esiste un criterio oggettivo sulla base del quale poter dire che fra due variabili esiste o non esiste una

relazione? Questo criterio esiste e nel caso delle tavole di contingenza, se il campione al quale si riferisce la

2

tavola è sufficientemente grande (N > 100), è dato dal test statistico del chi-quadrato (Χ ).

Breve digressione sul test statistico di verifica delle ipotesi: la ricerca empirica non può mai ambire a

verificare (= dimostrare vera) un’ipotesi, ma può solo arrivare a falsificarla (=dimostrare falso). Il test

statistico delle ipotesi, applicato al caso della relazione tra 2 variabili, consiste allora nel formulare l’ipotesi

nulla H secondo la quale nella popolazione NON esiste relazione fra le 2 variabili e dimostrare, dati alla

0

mano, che essa falsa: cioè che tale ipotesi non è compatibile (= è assai improbabile) con i dati che abbiamo.

Da ciò, automaticamente, consegue che resta accettata la sua alternativa, l’ipotesi di ricerca H che

1

sostiene l’esistenza della relazione. L’ipotesi di ricerca di esistenza di una relazione risulta corroborata

empiricamente, ma non direttamente dimostrata.

Procedura:

Immaginiamo di operare su un campione estratto casualmente da una popolazione. Formuliamo l’ipotesi

nulla H di indipendenza fra le due variabili chiedendoci: se fra le due variabili non ci fosse relazione, quali

0

sarebbero le frequenze della tavola di contingenza ad esse relativa? Si costruisce quindi questa tabella

teorica. In tal modo abbiamo la tabella delle frequenze attese in caso di assenza di relazione. Poi si calcola

la differenza tra queste frequenze attese e le frequenze osservate (cioè realmente trovate nei dati).

Vediamo se questa differenza è sufficientemente grande per poter dichiarare l’incompatibilità dei nostri

dati con l’ipotesi nulla: se sì l’ipotesi nulla è respinta -> si accetta l’ipoetesi di esistenza della relazione.

CALCOLI:

frequenza attesa (di ogni cella): si calcola moltiplicando i marginali della cella (totali di riga e di colonna

delle frequenze) e dividendo per il totale della tabella.

chi quadrato: si usa per calcolare la differenza tra la tabella delle frequenze osservate e quella delle

frequenze attese secondo l’ipotesi di indipendenza. Tale differenza viene sintetizzata nel chi-quadrato

mediante il seguente calcolo:

per ogni cella si fa la differenza tra frequenza osservata e frequenza attesa.. il risultato lo eleviamo al

quadrato (per togliere il segno meno) e lo dividiamo per la frequenza attesa (per relativizzare la differenza

all’entità della cifra). In fine si sommano per tutte le celle questi valori, sintetizzando così in un unico

numero le differenze fra le celle. Il calcolo del chi-quadrato si fa su frequenze assolute, non percentuali.

(BC – BD)^!

2 =

Χ BD

f = frequenze osservate

o 74

f = frequenze attese (expected)

e

il valore del chi-quadrato è tanto maggiore quanto maggiore è la distanza fra tabella delle frequenze

osservate e tabella delle frequenze attese, mentre è uguale a 0 nel caso limite di indipendenza perfetta nei

dati (ma non si verifica mai nella pratica, a causa degli errori di campionamento, di rilevazione ecc.).

La statistica è in grado di dirci per ogni valore del chi-quadrato qual è la probabilità che esso derivi da una

di indipendenza.

popolazione con indipendenza fra le variabili, cioè che sia compatibile con l’ipotesi nulla H 0

Per convenzione, si respinge l’ipotesi nulla di indipendenza se p ≤ 0,05 , cioè se il valore del chi-quadrato è

così grande da avere solo il 5% o meno di probabilità di essere dovuto al caso (cioè ad errori casuali pur

derivando da una popolazione dove c’è effettiva dipendenza) ed il 95% essere invece addebitabile ad una

reale relazione tra le variabili.

L’informazione sulla probabilità che un certo valore del chi-quadrato sia compatibile con l’ipotesi nulla H di

0

2

indipendenza la troviamo nella tavola di distribuzione Χ . In essa abbiamo tante righe (cioè distribuzioni del

2

) quanti sono i gradi di libertà della tabella. Gradi di libertà = gl = ( nume righe- 1)( nume colonne -1)

Χ

Quando p ≤ 0,05 si dice che il chi-quadrato è il che sta a dire che è significativamente diverso

significativo,

da 0. Quindi l’ipotesi nulla di assenza di relazione fra le due variabili è respinta.

Il ricercatore è tanto più soddisfatto quanto minore è il valore di p che trova: infatti p è la probabilità che

l’ipotesi nulla sia vera, per cui più piccolo appare il valore di p, più improbabile appare l’ipotesi nulla. In

genere per dichiarare la significatività di un certo valore del chi-quadrato si assume come valore critico

(cioè come valore-soglia di confronto) il suo valore per la probabilità dello 0,05.

Se il chi-quadrato è significativo, è consuetudine anche articolare la sua significatività in tre livelli,

utilizzando come valori critici i valori tabulati in corrispondenza di p=0,05; p=0,01 e p=0,001 (se è superiore

al valore critico dello 0,05 ma inferiore a quello dello 0,01 si dice che è significativo al livello dello 0,05 ecc.).

Osservazione:

• in generale, in un test di significatività ( come quello del chi-quadrato), se il campione è costituito

da pochi casi si può respingere l’ipotesi sottoposta a verifica solo se i risultati sono molto indicativi;

mentre, al contrario, se il campione è molto ampio anche piccole differenze possono essere

considerate significative

• il valore del chi-quadrato dipende dunque dalla numerosità del campione. Se il campione

raddoppia anche il valore del chi-quadrato raddoppia ecc. (a parità di distribuzione dei casi nelle

celle). Questa sensibilità è un grave handicap per il test e ne riduce fortemente l’utilità quando il

numero dei casi sui quali si lavora è molto alto. Si raccomanda quindi sempre di guardare alle

percentuali e di non accontentarsi mai solo del test di significatività per decidere della rilevanza o

meno di una relazione fra variabili, specialmente se il campione è molto numeroso.

• test del chi-quadrato dà una segnalazione di importanza globale e sintetica della relazione tra

variabili, senza entrare in merito al comportamento delle singole modalità. Per questo motivo può

accadere che una relazione fra due variabili si presenti statisticamente significativa solo perché una

delle modalità si discosta in maniera anomala dall’andamento medio. Il test del chi-quadrato

dunque, essendo basato sullo scarto fra f e f , può risultare significativo anche solo per l’anomalia

e o

di un’unica cella, che presenta valori fortemente devianti rispetto al valore atteso: da cui

l’importanza di non accontentarsi della sua significatività per affermare la relazione tra due

variabili, ma di far seguire un’attenta ispezione della tabella (nessuna frequenza attesa di cella deve

scendere sotto i 5 casi).

7 Regressione e correlazione

7.1 Diagramma di dispersione

In questo paragrafo si tratta il caso della relazione fra due variabili cardinali. La rappresentazione grafica di

tale relazione è diversa da quella che abbiamo visto fra due variabili nominali; dato che entrambe le

variabili sono cardinali, si può utilizzare pienamente la rappresentazione cartesiana: si pone sull’asse delle X

la variabile indipendente, sull’asse delle Y la variabile dipendente, e si collocando sul piano i casi studiati,

ognuno rappresentato da un punto avente come coordinate i suoi valori sulle due variabili. L’insieme di

75

punti viene detto “nuvola di punti”, e la rappresentazione grafica nel suo complesso di chiama diagramma

Possono presentarsi quattro situazioni:

di dispersione.

• Relazione positiva fra le due variabili: i punti tendono a disporsi lungo una linea, che sale

dall’angolo in basso a sinistra verso l’angolo in alto a destra.

• Relazione negativa fra le due variabili: i punti tendono a disporsi lungo una linea che scende

dall’alto e sinistra al basso a destra

• Assenza di relazione fra le due variabili: la nuvola di punti è informe

• Relazione curvilinea fra le due variabili: i punti tendono a disporsi a “U”

Il fatto di trovare che fra due variabili non c’è relazione sulla base degli strumenti che verranno presentati

nei prossimi paragrafi, sta a significare l’assenza di relazione (primi due tipi), il che non esclude la

lineare

presenza di relazioni curvilinee!!

7.2 Retta di regressione

Data una nuvola di punti, possiamo tracciare una retta, che chiamiamo la quale meglio

retta interpolante,

di tutte le altre si avvicini ai punti e sintetizzi la nuvola.

Equazione generale di una retta:

Y= bX + a

a= intercetta della retta sull’asse Y

b= inclinazione della retta

Data una nuvola di punti, il problema è dunque quello di determinare i parametri a e b della retta che

meglio di tutte le altre è in grado di sintetizzarla. La statistica ci permette di determinare a e b a partire dai

valori di X e Y sui casi, utilizzando il “metodo dei minimi quadrati”, che consiste nel trovare quella retta che

ha la proprietà di ridurre al minimo la somma dei quadrati degli scarti fra i valori teorici di Y (sulla retta) ed i

valori di Y osservati (nei dati). Chiamiamo la retta dove a e b sono calcolati in questo modo retta di

(a= intercetta della retta; b= coefficiente di regressione).

regressione

Naturalmente la retta di regressione non dà una rappresentazione perfetta della nuvola dei punti. Essa ci

permette di predire Y noto X nell’ipotesi di una relazione lineare perfetta, nel caso cioè che tutti i punti

siano sulla retta Y= bX + a . Ma i punti non sono mai perfettamente allineati su una retta. L’equazione che ci

dà il valore reale di Y è allora la seguente:

Y= bX + a + e ; dove “e” è l’errore o residuo, cioè lo scarto fra valore predetto dall’equazione di regressione

e valore effettivamente osservato nei dati.

Dato che se si inverte la collocazione delle due variabili (dipendente ed indipendente) sulle assi del piano

cartesiano si ottengo valori di a e b differenti, il ricercatore deve stare attento a stabilire qual è fra le due la

variabile indipendente (che verrà posta sull’asse delle X) e quella dipendente (asse delle Y), cioè deve

stabilire la direzione del legame.

7.3 Coefficiente di correlazione

La retta di regressione ci dice qual è la forma della relazione fra X e Y, non dice però nulla sulla forza (o

strettezza o intensità) della relazione. La forza di una relazione è collegabile al modo con il quale i punti si

distribuiscono attorno alla retta di regressione: se essi sono addensati attorno alla retta, allora la relazione

è forte; se sono piuttosto dispersi, allora la loro relazione è debole.

In genere, però, nella ricerca sociale, prima si vedono quali sono le variabili indipendenti più correlate con

la dipendente, e poi si procede ad esplorare meglio la forma della retta di regressione per quelle variabili

che risultano più correlate.

Per misurare la forza di una relazione tra due variabili cardinali si utilizza il coefficiente di correlazione (o

r

Il suo significato è di essere il rapporto fra la covarianza fra X e Y ed

coefficiente di correlazione di Pearson).

il prodotto delle deviazioni standard di X e Y; con questa divisione standardizziamo la covarianza, ottenendo

così una misura che varia fra 0 e 1. R non dipende dalla direzione della relazione fra X e Y.

Il coefficiente di correlazione lineare r assume dunque valore +1 in caso di relazione perfetta (=tutti i punti

sono allineati sulla retta di regressione) positiva, -1 in caso di relazione perfetta negativa, e 0 in caso di

assenza di relazione. 76

R è un numero puro, nel senso che non risente dell’unità di misura delle due variabili; inoltre r non risente

neppure dell’ampiezza del campione studiato. Queste caratteristiche di (il fatto cioè di

standardizzazione

non risentire delle unità di misura delle variabili) e di (il fatto cioè di collocarsi fra 0 e 1)

normalizzazione

sono di grande utilità pratica e sono all’origine della grande popolarità di questa misura.

Uno dei modi abituali per iniziare a studiare le relazioni fra un insieme di variabili cardinali è quello di

produrre la loro cioè la presentazione sotto forma di matrice dei coefficienti di

matrice di correlazione,

correlazione fra tutte le coppie di variabili. Conoscendo la forza delle relazioni fra le variabili, il ricercatore

può decidere meglio come impostare la successiva analisi.

Problemi:

- r è un coefficiente di correlazione lineare => se fra le variabili c’è una relazione che però non è

lineare, r dirà che non c’è relazione. In questi casi sarà l’ispezione del diagramma di dispersione ad

avvertire il ricercatore dell’esistenza di una relazione, anche se non lineare.

- Sensibilità di r ai valori estremi => può capitare, se ci sono valori estremi, che la r mostri una

correlazione dove non vi sia e vice versa. In questo caso è quindi opportuno condurre l’analisi

escludendo i casi devianti (casi con valori estremi) e in ogni caso ispezionare attentamente anche i

diagrammi di dispersione.

Il coefficiente di correlazione è una misura di quanto i punti siano prossimi alla retta di regressione. Come

abbiamo già detto, se tutti i punti giacessero esattamente sulla retta di regressione, allora i valori predetti

dalla retta di regressione coinciderebbero con i valori osservati. Questo non succede di solito -> per ogni

valore esiste uno scarto fra valore osservato e quello predetto dalla retta di regressione; questo scarto è

= Ŷ – Y , con Ŷ = valori predetti dalla retta di regressione e Y = valori osservati.

chiamato o residuo: e

errore i i i i i

Scarto di un singolo valore dalla media generale:

E# E#

(Y - ) = (Y - Ŷ ) + (Ŷ - )

i i i i

Abbiamo così scomposto lo scarto di ogni singolo valore osservato dalla sua media in due componenti: a) lo

scarto del valore osservato dal valore predetto dall’equazione di regressione, scarto che corrisponde

all’errore e ; b) lo scarto del valore predetto dalla retta di regressione dalla media.

i

Elevando al quadrato entrambi i membri di questa eguaglianza e sommando su tutti i casi si ottiene:

E#) E#)

∑(Yi ∑(Yi ∑(Ŷi

− – Ŷi) −

2 2 2

= +

SQ = SQ + SQ

totale non spiegata spiegata

SQ= somma dei quadrati (o devianza)

In questo modo abbiamo scomposto la variazione della variabile indipendente Y in una parte predetta (o

“spiegata”) dalla retta di regressione ed una parte attribuibile agli errori di predizione.

Il quadrato del coefficiente di correlazione, detto anche è pari alla

coefficiente di determinazione,

proporzione di variazione totale della variabile dipendente che è spiegata dalla retta di regressione:

HIJK%DL:M:

2

coefficiente di determinazione r = HIMCM:ND

Quindi il quadrato del coefficiente di correlazione può essere interpretato come quella parte di variazione

della variabile dipendente che è spiegata (o “determinata”) dalla variazione della variabile indipendente.

In generale il ricercatore considera degne di interesse solo le correlazioni con r almeno attorno a 0,30, cioè

quando almeno il 10% della variabilità della variabile dipendente è spiegata dalla indipendente.

I fenomeni umani sono molto complessi ed è difficile trovare che una variabile è “spiegata” in proporzione

elevata da un’altra sola variabile. Infatti ciò che non è spiegato (l’errore o residuo), va interpretato come

variazione di Y dovuta a variabili diverse da X.

7.4 La correlazione ecologica

I dati aggregati, i dati cioè per i quali l’unità d’analisi è un aggregato di individui, rappresentano una base

informativa di fondamentale importanza per la ricerca sociale. Le variabili di questi dati sono per la maggior

parte variabili cardinali. Viene chiamata la correlazione fra due variabili aggregate

correlazione ecologica

(per es. il tasso di industrializzazione ed il reddito pro capite) (“ecologica” in quanto questo attributo fa

riferimento alla dimensione territoriale del fenomeno studiato). In questo modo contrapponiamo

dove l’unità di analisi è un aggregato di individui (non necessariamente un

correlazione ecologica,

aggregato territoriale), a dove l’unità di analisi è l’individuo.

correlazione individuale 77


ACQUISTATO

4 volte

PAGINE

83

PESO

714.92 KB

AUTORE

Exxodus

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea in scienze politiche, relazioni internazionali e studi Europei
SSD:
Docente: Greco Lidia
Università: Bari - Uniba
A.A.: 2009-2010

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Exxodus di informazioni apprese con la frequenza delle lezioni di Sociologia generale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Bari - Uniba o del prof Greco Lidia.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!