La statistica
La statistica è la scienza che ha come scopo lo studio dei fenomeni collettivi. La statistica si occupa di fenomeni collettivi, non interessa il singolo individuo (inteso sia come soggetto umano che come qualsiasi unità di tipo inanimato), ma di una popolazione, di un insieme. Vede i fenomeni sempre dal punto di vista collettivo. Correntemente ci si trova a che fare con grandi moli di dati che in qualche modo vanno classificati e sintetizzati. La statistica si occupa dello studio del collettivo, di come raccogliere informazioni su questo collettivo e come presentarle in una forma facilmente comprensibile a un pubblico non esperto.
Fasi principali di uno studio statistico
- Definizione del collettivo
- Raccolta e classificazione dei dati
- Misurazione e analisi
- Sintesi
Definizione del collettivo
Passo preliminare: bisogna definire con chiarezza il collettivo, a chi si riferisce lo studio statistico.
Raccolta dei dati
Sulla popolazione individuata viene fatta la raccolta dei dati che interessano e classificati nel modo che interessa.
- Diretta (parziale o totale): Indagini sul campo (questionari, interviste)
- Indagini su fonti primarie di dati (archivi aziendali, parrocchiali, comunali, ecc..)
- Indiretta (fonti statistiche): i dati primari sono già elaborati e siamo in presenza di “dati statistici”.
Misurazione e analisi
Si effettuano delle misurazioni per analizzare i dati così raccolti e classificati.
Sintesi
Ne viene ricavata una sintesi. La raccolta dei dati può essere diretta (materialmente i dati vengono reperiti sul collettivo), oppure indiretta (ci si rivolge a una risorsa che ha già questi dati raccolti e classificati). I dati prelevati in modo diretto sul campo sono sempre più attendibili ma su una popolazione molto vasta tale modo di reperire dati diventa troppo dispendioso in termini di tempo e soldi. La soluzione è prendere le informazioni che interessano solo su una parte della popolazione: concetto di campione. Indagine campionaria: non viene investita dalla ricerca tutta la popolazione di riferimento, ma solo una parte scelta perché rappresentativa della popolazione.
Fonti ufficiali dei dati statistici
Sono presenti numerosissime entità deputate a raccogliere dati a fini statistici che hanno valore legale. Le più importanti fonti ufficiali dei dati statistici sono:
- ISTAT
- OCSE (OECD)
- FAO
ISTAT ha il compito di raccogliere ed elaborare dati statistici riguardanti i più diversi aspetti della vita italiana. Tra l’altro:
- Predispone e coordina i censimenti (della popolazione ogni 10 anni, è una conta materiale dei soggetti, una delle poche indagini totali che viene condotta in Italia)
- Definisce la nomenclatura e le metodologie per la rilevazione e la classificazione dei fenomeni di interesse (demografico, sociale, economico, ecc.)
- Coordina l’attività degli uffici del SISTAN (dlg 322/89)
Fasi di un’indagine statistica
- Piano della rilevazione (definire con chiarezza che cosa si deve studiare e dove): definizione del campo di indagine (collettivo, caratteristiche da indagare, ecc.); metodo di rilevazione (diretta o indiretta); data di rilevazione; materiale e personale
- Raccolta dei dati
- Spoglio e classificazione dei dati
- Elaborazione dei dati
- Interpretazione delle elaborazioni (si evincono informazioni e conclusioni dai dati classificati)
- Rapporto di sintesi (si analizzano i dati raccolti, si dà un’interpretazione che generalmente va a suffragare un’ipotesi fatta inizialmente e si pubblica)
Nomenclatura statistica
Popolazione (collettivo) l’insieme completo degli individui che si vogliono studiare, mediante la rilevazione di uno o più caratteri. Una popolazione può essere FINITA o INFINITA (A fini statistici è sempre meglio che la popolazione sia finita).
Campione una parte della popolazione oggetto di indagine che in qualche modo può essere rappresentativo della popolazione da cui viene selezionato.
Unità statistica un elemento dell’insieme che si vuole studiare e che corrisponde a caratteristiche ben precise.
Famiglia (per il censimento) un insieme di persone legate da vincolo di matrimonio, parentela, affinità, adozione, coabitanti ed aventi dimora abituale nello stesso luogo.
Convivenza (per il censimento) l’insieme delle persone che senza essere legati da vincolo di matrimonio, parentela, ecc., vivono in comune per altri motivi (motivi religiosi, di cura, di assistenza, militari).
Caratteri statistici
Un collettivo può essere studiato secondo le modalità che assume il carattere statistico sotto osservazione. I caratteri possono essere classificati secondo il diverso livello (scala) di misurazione e possono assumere diverse modalità. Per comodità si distinguono i caratteri statistici in due tipi fondamentali:
- Caratteri quantitativi o variabili
- Caratteri qualitativi o mutabili.
Caratteri quantitativi o variabili
All’interno dei caratteri quantitativi distinguiamo due sottotipi, secondo il diverso livello o scala di misurazione:
- Misurabili su scala di intervalli
- Misurabili su scala di rapporti.
La scala di intervalli indica tutte quelle variabili, caratteri quantitativi, che non hanno uno zero assoluto, sono costruite facendo riferimento ad altro. Un carattere quantitativo sprovvisto di zero assoluto è quel carattere in cui nella scala di misurazione zero significa assenza di quel carattere. Le scale ad intervalli permettono di stabilire non solo quali unità statistiche sono maggiori o minori di altre, ma stabilisce anche "di quanto" è la distanza tra esse (sono normalmente circoscritte a poche cose: scale di misurazione della temperatura, psicometriche, gradimento numerico).
Nelle scale di rapporti invece esiste lo zero assoluto ed è possibile calcolare i rapporti tra unità statistiche rispetto ai valori del carattere considerato.
| Carattere | Scala di misurazione |
|---|---|
| Altezza | Rapporti |
| Peso | Rapporti |
| Età | Rapporti |
| Numero dei componenti | Rapporti |
| Reddito | Rapporti |
| Temperature | Intervalli |
Caratteri qualitativi o mutabili
I caratteri qualitativi si distinguono in ordinali e nominali o sconnessi: nel primo caso è possibile stabilire un ordine, nell’altro no.
| Carattere | Scala di misurazione |
|---|---|
| Titolo di studio | Ordinale |
| Gradi militari | Ordinale |
| Sesso | Nominale |
| Colore degli occhi | Nominale |
| Disciplina sportiva | Nominale |
| Pratica religiosa | Nominale |
Classificazione dei caratteri statistici e livello di misurazione
| Carattere | Scala | Operazioni consentite |
|---|---|---|
| Mutabile | Nominale | = Diverso |
| Mutabile | Ordinale | < > = Diverso |
| Variabile | Intervalli | + - = Diverso < > |
| Variabile | Rapporti | * / + - < > = Diverso |
I primi due caratteri sono qualitativi, gli altri due sono quantitativi. Più si scende nella scala e più sale il livello di qualità del dato. Se la variabile (carattere quantitativo) può assumere tutti i valori dell’intervallo di definizione si dice CONTINUA (può assumere un numero infinito di modalità). Se può assumere solo alcuni valori dell’intervallo si dice DISCRETA o DISCONTINUA.
- Altezza continua
- Peso continua
- Componenti nucleo familiare discreta
- Numero palazzi di un quartiere discreta
- Posti a sedere di un cinema discreta
Distribuzioni statistiche
Ordinare e classificare i soggetti secondo un certo criterio. Le distribuzioni statistiche derivano dall’operazione di classificazione delle unità considerate secondo le modalità di uno o più caratteri. Se si riferisce a un solo carattere la distribuzione statistica si definisce SEMPLICE. Se si riferisce a 2, 3,...N caratteri allora la distribuzione statistica si definisce DOPPIA, TRIPLA,...MULTIPLA. Se il carattere considerato è qualitativo la distribuzione statistica si chiama anche SERIE STATISTICA. Se il carattere è quantitativo allora si parla di SERIAZIONE STATISTICA.
Frequenza assoluta è il numero di unità statistiche che presentano la stessa modalità di un carattere.
Frequenza relativa è il rapporto tra le frequenze assolute e il numero totale di unità statistiche considerate.
Esempi di distribuzione di frequenza
Distribuzione di frequenza secondo il sesso di 50 soggetti
| Sesso | Frequenze assolute | Frequenze relative |
|---|---|---|
| Maschi (M) | 23 | 0.46 |
| Femmine (F) | 27 | 0.54 |
| Totale | 50 | 1.00 |
Sesso = carattere statistico, M –F = modalità del carattere statistico, 23 = numero delle unità che presentano la modalità M del carattere statistico sesso (frequenza assoluta), 0.46 = numero delle unità che presentano la modalità M del carattere statistico sesso diviso il totale dei soggetti.
Uno degli obiettivi di questa disciplina è quello di estrarre e sintetizzare le informazioni da una massa di dati che altrimenti sarebbe scarsamente interpretabile. Questo è un altro esempio di come mettendo sottoforma tabellare un insieme di dati che sono stati raccolti in precedenza si possono trarre delle prime informazioni sul fenomeno che si sta studiando.
Distribuzione di frequenza secondo lo stato civile
| Stato civile | Numero di famiglie | Frequenza % |
|---|---|---|
| Celibi/nubili | 551.121 | 15.1 |
| Coniugati/e | 2.258.375 | 61.8 |
| Separati/e | 114.870 | 3.1 |
| Divorziati/e | 103.555 | 2.8 |
| Vedovi/e | 625.033 | 17.1 |
| Totale | 3.652.954 | 100.0 |
Questo è tratto dal censimento della popolazione 2001 ed è il numero di famiglie distribuite secondo lo stato civile. Come vedete risultano coniugati la maggioranza delle famiglie che sono stati sottoposti a censimento. Il numero di famiglie si chiama frequenza assoluta. Come abbiamo visto ieri risulta più utile ricorrere alle frequenze relative.
La frequenza relativa si intende la frequenza assoluta divisa per il totale. Si fa questa operazione perché prendendo ogni frequenza assoluta relativa a ciascuna modalità e rapportandola al totale si indica immediatamente il peso che ha quella modalità sull’insieme del fenomeno. In questa tabella vediamo che coniugati/e è lo stato civile più diffuso. Poi seguono i vedovi, i celibi ecc. però non abbiamo immediatamente il senso di quanto i coniugati siano più pesanti rispetto ai separati per esempio. Facendo le frequenze percentuali (551.121 : 3.652.954 = 0.15 x 100 = 15,1) lo dividiamo per 100 per evitare questo fastidioso 0 che si ripete. Quindi vediamo immediatamente che i coniugati sono non solo superiori ma rappresentano più del 50% quasi i 2/3 della famiglie censite. I celibi rappresentano il 15% di tutte le famiglie censite.
Esempio di rilevazioni su 10 soggetti
| Num | Sesso | Altezza | Peso | Colore occhi | Titolo di studio | Num.comp. familiare | Possesso computer | Classe di reddito |
|---|---|---|---|---|---|---|---|---|
| 1 | M | L | 3 | SI | Fino a 30 | |||
| 2 | M | D | 2 | SI | Da 30 a 50 | |||
| 3 | F | D | 4 | SI | Fino a 30 | |||
| 4 | M | D | 5 | NO | Da 50 a 70 | |||
| 5 | M | 2 | NO | Oltre 70 | ||||
| 6 | L | 4 | SI | |||||
| 7 | M | 1 | NO | |||||
| 8 | 1 | NO | ||||||
| 9 | 3 | SI | ||||||
| 10 | 2 |
Abbiamo rilevato su 10 soggetti sesso, altezza, peso, colore occhi, titolo di studio conseguito, numero componenti nucleo familiare, se hanno il computer a casa, classe di reddito conseguita nell’ultimo anno.
- Carattere sesso è un carattere di tipo qualitativo sconnesso, non ordinabile o nominale.
- Carattere altezza espresso in centimetri è un carattere quantitativo su scala di rapporti ed è continuo nel senso che può assumere qualunque valore nell’ambito di un intervallo.
- Carattere peso espresso in chilogrammi è lo stesso tipo del precedente.
- Colore degli occhi è anche questo un carattere qualitativo, nominale (non è possibile dare un ordine logico) sconnesso.
- Titolo di studio conseguito è un carattere qualitativo di tipo ordinabile (è possibile mettere in sequenza l’insieme delle modalità che contraddistinguono questo carattere).
- Il numero di componenti la famiglia è un carattere quantitativo, discreto (può assumere soltanto alcuni valori nell’ambito di un intervallo, in questo caso può assumere soltanto valori interi).
- Possesso di un computer è un carattere qualitativo di tipo sconnesso, nominale esattamente come il sesso. Quando un carattere prevede solo 2 modalità “si o no” o “maschio o femmina” si chiama carattere DICOTOMICO.
- Classe di reddito. Questa particolare tipologia di caratteri nascono raggruppati in classi. Quei caratteri quantitativi (quando ci sono parecchie modalità che si sono verificate nella rilevazione) è possibile raggruppare queste modalità in classi. In questo caso già di per se la variabile nasce già suddivisa in classi perché quando andiamo a fare delle interviste su argomenti delicati cerchiamo di fornire un minimo di anonimato. Non c’è la domanda diretta “quanto guadagni l’anno?” ma una domanda meno diretta.
Se la distribuzione fosse composta da più soggetti (es. 1000) bisognerebbe trovare il modo di rendere le informazioni più visibili, più immediate. Ad esempio rispetto al carattere sesso se noi siamo interessati a vedere questo carattere di quei 10 soggetti nel dettaglio ci costruiamo una distribuzione di frequenza rispetto al carattere “sesso”. Prendiamo le 2 modalità, contiamo (6 maschi e 4 femmine) vediamo la frequenza relativa e quella percentuale e si ha l’indicazione su come è composto quell’insieme.
Distribuzione di frequenza secondo il carattere sesso di 10 soggetti
| Sesso | Frequenze assolute | Frequenze relative | Frequenze relative percentuali |
|---|---|---|---|
| Maschi | 6 | 0.6 | 60 |
| Femmine | 4 | 0.4 | 40 |
| Totale | 10 | 1.00 | 100 |
Stesso discorso vale per quanto riguarda il numero di componenti del nucleo familiare. Se sono interessato a vedere come sono composte le famiglie dei soggetti che ho intervistato posso costruire una distribuzione di frequenza sotto il profilo del carattere “numero di componenti del nucleo familiare”.
Distribuzione di frequenza secondo il carattere numero di componenti del nucleo familiare di 10 soggetti
| Num. componenti | Frequenze assolute | Frequenze relative | Frequenze relative percentuali | Frequenze relative cumulate |
|---|---|---|---|---|
| 1 | 2 | 0.2 | 20 | 20 |
| 2 | 3 | 0.3 | 30 | 50 |
| 3 | 2 | 0.2 | 20 | 70 |
| 4 | 2 | 0.2 | 20 | 90 |
| 5 | 1 | 0.1 | 10 | 100 |
| Totale | 10 | 1.00 | 100 | 100 |
Passando alle frequenze relative vediamo che il caso più frequente è quello di una coppia (dato che non avremmo visto guardando solo la tabella dei numeri).
Distribuzione di frequenza secondo il carattere classe di reddito di 10 soggetti
| Classe di reddito | Frequenze assolute | Frequenze relative | Frequenze relative percentuali | Frequenze relative cumulate |
|---|---|---|---|---|
| Fino a 30 | 3 | 0.3 | 30 | 30 |
| Da 31 a 50 | 2 | 0.2 | 20 | 50 |
| Da 51 a 70 | 4 | 0.4 | 40 | 90 |
| Oltre 70 | 1 | 0.1 | 10 | 100 |
| Totale | 10 | 1.00 | 100 | 100 |
Vediamo nella prima colonna che la classe più folta di redditi è quella che va da 51 a 70 milioni in cui la frequenza relativa costituisce il 40% del totale. È la classe che pesa di più in confronto alle altre. Quasi la metà dei soggetti intervistati ha dichiarato di prendere tra 51 e 70 milioni l’anno. In aggiunta alle frequenze relative ci sono le FREQUENZE RELATIVE CUMULATE. La frequenza cumulata è semplicemente cumulare alla frequenza attuale la frequenza successiva. Esempio la prima frequenza cumulata è 30 pari alla prima frequenza relativa percentuale; per la classe successiva si somma 30 a 20 che è la seconda frequenza relativa percentuale e si scrive 50 sulla seconda riga della colonna delle frequenze cumulate. Poi si somma la modalità 50 alla modalità 40 che è la terza della colonna frequenze relative percentuali e così via. L’ultima modalità sommata alla precedente mi deve dare un valore che deve coincidere al totale delle frequenze relative percentuali.
Tutto questo serve per dare un’ulteriore indicazione sulla base delle frequenze con cui si presentano le modalità dei caratteri che stiamo studiando per dare un’ulteriore indicazione sulla ripartizione di quel carattere. Ad esempio alla modalità 90 della colonna frequenze relative cumulate io posso dire che il 90% delle persone intervistate ha un reddito che va da 0 a 70 milioni. Oppure la seconda riga della colonna frequenze relative cumulate indica che il 50% delle persone intervistate ha dichiarato un reddito che va da 0 a 50 milioni.
Altezza, peso, età sono altre variabili che vengono suddivise in classi per l’elevato numero di modalità che frequentano e per il rischio di perdere di vista la sintesi dell’informazione. Ad esempio rilevando 100 altezze e volendo fare una sintesi, ci accorgiamo che le modalità con cui si presenta il carattere altezza sono 50, inferiori al N totale delle rilevazioni che abbiamo fatto ma sono talmente tante da non poterci garantire la comprensione immediata di quello che sta accadendo. Avendo raccolto 100 altezze vengono ordinate e si costruiscono delle classi. In questo modo si perdono delle informazioni ma nello stesso tempo riduco drasticamente il numero di modalità e ottengo una tabella con al massimo 7, 8 modalità che mi permettono di poter dire qualcosa sul tipo di fenomeno.
Esempio di distribuzione di altezze
| Altezza | Frequenza |
|---|---|
| 170 | 1 |
| 173 | 3 |
| 176 | 3 |
| 182 | 3 |
| 178 | 1 |
In questa tabella la modalità 170 ha 1 soggetto; la modalità 173 ha 3 soggetti ecc., quindi ci sono molteplici modalità.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.