STATISTICA
La statistica è quella scienza che si preoccupa e studia i metodi per l’elaborazione dei dati con diverse modalità. La statistica
si preoccupa di raccogliere e sintetizzare le informazioni per estrarre una conoscenza. Esempio di come la statistica è
presente nella vita quotidiana: uno dei temi che coinvolge l’Italia e in particolare la Liguria è il fenomeno
dell’invecchiamento della popolazione. L’ISTAT (ente preposto alla costruzione e al rilascio delle informazioni statistiche) ci
ha detto a gennaio che la popolazione italiana è diminuita e che sono diminuite le nascite. Il diagramma sottostante si
chiama piramide dell’età (o della popolazione) ed è il tipico diagramma utilizzato per descrivere una popolazione: ha più di
100 anni di storia ed è diviso in due parti, la parte a sinistra si riferisce ai maschi e la parte a destra si riferisce alle femmine.
Piramide dell’età nei seguenti anni:
1861: primo censimento del Regno d’Italia (stage 1).
1911: la popolazione cresce (stage 2)
1961: la piramide ha dei cambiamenti poiché c’è una transazione demografica ossia c’è un passaggio da
un’economia rurale ad un’economia industriale che provocano una riduzione delle nascite (stage 3).
2010: dagli anni 50 la piramide si restringe, quindi si riducono le nascite ma si vive di più (stage 4).
I fenomeni che si studiano in statistica sono per lo più fenomeni variabili (es., l’andamento della popolazione, l’aumento
della temperatura, la diffusione del coronavirus) cioè fenomeni che si possono manifestare in tanti modi diversi. i fenomeni
che non presentano variabilità sono molto rari: anche quando abbiamo leggi deterministiche (es., leggi della fisica), ossia
leggi per le quali uno stesso fenomeno produce sempre uno stesso risultato, se esaminiamo l’esperimento possiamo
osservare che i risultati sono variabili perché mentre facciamo l’esperimento entrano in gioco molti elementi che
influenzano il risultato. In ambito socio-economico ci occupiamo degli esseri umani che sono estremamente variabili dal
punto di vista morfologico, caratteriale, etc. Questo si può spiegare bene con un’indagine che Banca Italia fa con scadenza
triennale e che prende il nome di “indagine sui bilanci delle famiglie”: ogni due anni Banca Italia seleziona un campione di
famiglie. Fino al 2011 con cadenza decennale in Italia si faceva il censimento (operazione con la quale viene rilevata la
popolazione di un territorio) della popolazione comprendeva circa 60 milioni di soggetti su tutto il territorio nazionale sui
quali a una data specifica venivano rilevate determinate caratteristiche. Considerando che anche con il nuovo censimento
per elaborare e rendere pubblici i dati ci vogliono 3 anni, il vecchio metodo di censimento era una procedura troppo
complessa. Inoltre non essendo possibile per vari motivi intervistare tutta la popolazione si utilizza un campione
(sottoinsieme di unità ridotto). Il campione viene usato, per es., nei sondaggi elettorali che vengono fatti intervistando circa
un migliaio di persone e c’è un sito apposito sulla pagina della presidenza del consiglio dei ministri dove gli istituti di
sondaggio sono obbligati a pubblicare la metodologia utilizzata per il sondaggio. Fig.1: le colonne (sex: sesso, staciv: stato
civile) rappresentano le diverse
caratteristiche, che sono dette variabili.
Le righe si riferiscono ciascuna ad
un’unità statistica diversa (unità statistica:
unità elementare su cui vengono
osservati i caratteri oggetto di studio. Un
insieme di unità statistiche omogenee
rispetto a una o più caratteristiche
costituisce un collettivo statistico o una
popolazione). Ogni variabile come
genere, stato civile etc., sono riferite a
quelle del capo famiglia.
Le famiglie totali prese in considerazione
in questa tabella sono 8151. 1
Leggenda della tabella presente sopra:
Nperc: numero percettori di reddito all’interno della famiglia;
Ncomp: numero componenti del nucleo famigliare;
Y: reddito annuo della famiglia;
Nquest: numero questionario della famiglia. Il numero, per es., 173 è quello messo sul questionario compilato dalla
famiglia. Questa variabile è irrilevante dal punto di vista statistico ma serve per distinguere una famiglia dall’altra.
Sex: indica il genere e può assumere due valori diversi: femmina (codice num.: 2), maschio (codice num.: 1).
Staciv: è lo stato civile ed ha quattro modalità: celibe – nubile, coniugato/a, divorziato/a, vedovo/a.
Region: la regione è una variabile con 20 modalità perché 20 sono le regioni italiane.
Le variabili possono essere distinte:
1. Variabili qualitative: vengono misurate su:
Scala di misura nominale o sconnessa: se date due modalità della variabile è possibile affermare solo se
queste sono uguali o diverse. Sono, per es., sesso, luogo di nascita, stato civile, religione, colore degli occhi
etc. Tra le modalità di ciascuno di questi caratteri non è possibile stabilire un ordinamento e quindi le
modalità possono essere elencate in modo del tutto arbitrario.
Scala di misura ordinale: se date due modalità della variabile è possibile solo dare un ordine, specificando
che una precede l’altra. Caratteri ordinati sono quelli che esprimono un grado di soddisfazione (es., poco,
molto), la posizione in una graduatoria, il titolo di studio (senza titolo, licenza elementare, licenza media,
diploma, laurea, dottorato).
2. Variabili quantitative: vengono misurate su:
Scala di intervallo: sono molto rare e sono quelle nelle quali lo zero è fissato su base convenzionale. Un
esempio è la temperatura misurata in gradi centigradi: lo zero che utilizziamo noi è uno zero convenzionale
e non assoluto infatti è diverso se si misura in gradi Celsius o Fahrenheit.
Scala di rapporto: a differenza della scala di intervallo in questo caso possiamo fare un rapporto e quindi,
per es., possiamo dire che una famiglia ha un reddito che è due volte più elevato di un’altra famiglia.
Le variabili quantitative possono essere anche distinte come segue:
Variabili quantitative discrete: una variabile è discreta quando assume un numero intero di valori (i numeri
interi sono quelli negativi e positivi, il reddito per esempio può essere anche negativo). Esempi: numero di
figli, voto a un esame, numero di pezzi prodotti.
Variabili quantitative continue: variabili che possono assumere qualunque valore all’interno dell’intervallo.
Esempi: peso e altezza.
N.B: La statistica si può distinguere in:
a. Statistica descrittiva (l’andamento nel tempo della temperatura, diffusione di una malattia nello spazio, piramide
dell’età): io osservo un fenomeno e ne sintetizzo e descrivo le caratteristiche.
b. Inferenza: passiamo dal particolare al generale. Facendo questa operazione di inferenza siamo soggetti ad errore
dovuto dal fatto che, per es., le 1000 persone che ho preso come campione potrebbero non essere una buona
immagine della popolazione. L’inferenza dunque è l’insieme dei metodi e delle tecniche che ci consentono di
gestire questo particolare errore.
Lavorare con il foglio elettronico della fig.1 è molto difficile dobbiamo quindi sintetizzare ciò che stiamo osservando. Gli
strumenti di sintesi che si usano sono: costruire delle tabelle (quindi radunare tutte le 8151 famiglie in una tabella di piccole
dimensioni), fare dei grafici, calcolare opportune misure (es., calcolare la media). Per es. come facciamo a sintetizzare la
colonna del genere? Conto quante famiglie hanno un capofamiglia maschio e conto quante famiglie hanno un capofamiglia
femmina. Se faccio questa operazione calcolo due quantità che vengono chiamate frequenze assolute (valore che
corrisponde al numero di volte in cui è stato osservato un certo valore di una variabile). La frequenza assoluta è associata
alla modalità: quindi io prendo la modalità e conto quante volte si è presentata. Tramite le frequenze, possiamo ottenere
una distribuzione una rappresentazione molto più sintetica denominata distribuzione di frequenze.
, , , , … , , … ,
Si consideri (variabili) e (successione di tutti i valori osservati: è una colonna della tabella):
1 2
=1
∑ = = 1,2, … , →
( è il numero di modalità di una variabile);
Frequenze assolute :
⁄
=
:
Frequenze relative
⁄
= ( ) × 100
Frequenze percentuali :
2
Esempio di distribuzione di frequenza del “titolo di studio” (fig.2) creata partendo dalla modalità più bassa:
Titolo di studio
Lic. Elementare 2200 0,269906 26,99055 2200 0,269906 26,99055
Lic. Media 2827 0,346829 34,68286 5027 0,616734 61,67341
Maturità 2157 0,26463 26,46301 7184 0,881364 88,13642
Laurea 967 0,118636 11,86358 8151 1 100
Totale 8151 1 100
, , sono dette frequenze cumulate che non ci sono nella distribuzione di frequenza del genere perché viene calcolata
su scala sconnessa. La distribuzione di frequenza della fig.2 viene detta distribuzione delle frequenze cumulate poiché la
frequenza per una data classe è ottenuta come somma della corrispondente frequenza e di tutte quelle relative alle classi
precedenti. Le frequenze cumulate si utilizzano solo in presenza di frequenze ordinabili. Le frequenze cumulate ci dicono il
numero o la % di unità statistiche che presentano un valore pari o inferiore alla modalità corrispondente.
Consideriamo la i-esima frequenza cumulata:
=1
∑
= + + ⋯ + = → formula che ci permette di passare dalle frequenze alle frequenze cumulate.
1 2
= − → formula che ci permette di passare dalle frequenze cumulate alle frequenze non cumulate (per
−1
es. nella colonna delle il valore 967 è dato da 8151-7184, 2200 invece è dato da 2200-0).
Se abbiamo un carattere misurato su scala continua la tabella di distribuzione di frequenza esplode, per es., se faccio la
tabella con tutte le età misurate in anni ho una tabella molto grossa. Dunque la sintesi procede sempre in due passi:
1. Il primo consiste nel prendere le modalità della variabile e dividerle in classi (non considero più l’età in anni ma
metto insieme tutti i soggetti che sono nati lo stesso anno, oppure invece che considerare classi di età annuali
posso considerare classi di età quinquennali, o ancora posso considerare classi di età di ampiezza diversa). La fig.3 è
la rappresentazione della distribuzione di frequenza delle 8151 famiglie (fig.1) per classe di reddito ciascuna di
ampiezza diversa. Non si va avanti di 10.000 euro in 10.000 euro perché la tabella verrebbe enorme (suddividere
però le classi di 100.000 in 100.000 sarebbe comunque un problema perché, per es., metterei famiglie in povertà
assoluta con famiglie ricche). Le classi di ampiezza diversa, dunque, esistono perché, per es., nei casi di classi di
reddito basse devo essere molto dettagliato (es. c’è un enorme differenza tra una famiglia che ha un reddito di
10.000 euro e una famiglia che ha un reddito di 20.000 euro), al contrario, i comportamenti di due famiglie che
hanno un reddito pari, una a 100.000 euro e l’altra a 150.000 euro, non sono molto diversi.
Reddito
Es: =0,8534 perché ho fatto 0,2714
Fino a 10.000 618 0,0758 7,58 618 0,0758 7,58
( )+0,5820 (valore di precedente a
10.000-20.000 2171 0,2663 26,63 2789 0,3422 34,21 0,8534).
20.000-30.000 1955 0,2398 23,98 4744 0,5820 58,19
30.000-50.000 2212 0,2714 27,14 6956 0,8534 85,33
50.000-75.000 845 0,1037 10,37 7801 0,9571 95,70
75.000-100.000 218 0,0267 2,67 8019 0,9838 98,37
100.000-250.000 124 0,0152 1,52 8143 0,9990 99,89
>250.000 8 0,0010 0,10 8151 1,0000 99,99
Totale 8151 1 100 / / /
Se io dalla tavola (fig.1) passo alla distribuzione di frequenza (fig.2-3) faccio una sintesi, ma perdo le informazioni
del singolo (anche se sono irrilevanti per la statistica che studia i fenomeni variabili).
2. Il secondo procedimento consiste nella rappresentazione grafica delle distribuzioni semplici. La trasformazione della
distribuzione semplice da forma tabellare a immagine grafica ha senso se tale operazione riesce a rendere più
evidenti e di facile lettura le caratteristiche della distribuzione della variabile sul collettivo preso in esame. I grafici
sono bidimensionali (anche se in alcuni vengono aggiunti la tridimensionalità e la prospettiva).
Principali tipi di rappresentazione grafica:
a. Grafici a barre o a nastri: in questi grafici ogni frequenza o intensità della distribuzione viene rappresentata o da una
barra o da un nastro così da ottenere una successione di rettangoli aventi la stessa base (o altezza) e le altezze (o
basi) proporzionali alle frequenze o quantità. I grafici a barre sono adatti a rappresentare le distribuzioni di 3
frequenza di caratteri quantitativi discreti (es. titolo di studio, voto esame, numero componenti di una famiglia).
Grafico a barre della frequenza assoluta ( ) della distribuzione di frequenza per titolo di studio:
3000
2500
2000
1500
1000
500
0 Lic. Lic. Media Maturità Laurea
Elementare
b. Cartogrammi: per rappresentare le serie territoriali si utilizza un grafico chiamato cartogramma. Questo grafico ha
come base una mappa sulla quale sono visibili i contorni delle aree geografiche o territoriali rispetto alle quali
vengono analizzate le frequenze o le intensità di un carattere (per es., la popolazione residente, i nati, l’età media, il
reddito medio, etc.). I cartogrammi a ripartizioni colorate sono dei cartogrammi in cui ogni area della carta è
colorata in base alla distribuzione di frequenza.
c. Diagramma a torta: utili quando si vuole rappresentare la composizione di un aggregato. Con questo tipo di grafico
è buona norma rappresentare distribuzioni con un numero di modalità non troppo elevato, poiché aumentando i
settori circolari la loro dimensione diminuisce ed è più difficile poterli confrontare. Mentre il diagramma a barre
può essere utilizzato per qualunque distribuzione di frequenza, il diagramma a torta è specifico per la distribuzione
relativa. Un diagramma a torta è composto da un cerchio diviso in settori ciascuno dei quali è associato ad una
modalità, e l’ampiezza del settore è proporzionale alla frequenza di questa modalità. È ideale per le frequenze
relative perché sommano a 1 (la torta è il 100%). Diagramma a torta della del titolo di studio:
0.118636 0.269906
0.26463 0.346829
Lic. Elem. Lic. Media Maturità Laurea
d. Istogramma: è un grafico costituito da barre non distanziate, con basi uguali o diverse, dove ogni barra possiede
un’area proporzionale alla corrispondente frequenza o quantità. In un istogramma con classi di ampiezza diversa,
l’altezza h del rettangolo corrispondente a una classe viene chiamata densità e si ottiene come rapporto tra la
⁄
∆ = − = ∆
frequenza e l’ampiezza della classe. L’ampiezza di classe . La densità di frequenza (questo
+1
è per le frequenze assolute, ma se avessi le frequenze relative o percentuali basta sostituire, per es., con o ).
Densità di
frequenza Classe ( )
4
SERIE STORICHE E NUMERI INIDICI
, … , , … ,
Si definisce serie storica una sequenza di osservazioni di un fenomeno osservato in tempi. Es.: la
1
rilevazione annuale degli abitanti di una Regione o di un Comune, la rilevazione trimestrale delle retribuzioni, la rilevazione
mensile del numero di occupati, la rilevazione giornaliera delle vendite di un esercizio commerciale.
Rappresentazione grafica di una serie storiche nel piano cartesiano (es. gli abitanti del comune di Genova 2011-2017):
In generale, quando si è interessati a misurare l’entità dei mutamenti in una serie storica si possono effettuare dei rapporti
tra due o più valori della serie. I valori ottenuti vengono chiamati numeri indici semplici. Si parla di numero indice composto
(o sintetico), invece, quando si sintetizzano con un unico indice statistico le variazioni subite contemporaneamente da più
serie.
Numeri indici semplici: servono per analizzare opportunamente l’evoluzione nel tempo di un fenomeno, rilevato in serie
storica e consistono nel rapporto tra due misurazioni opportunamente scelte. Le serie dei numeri indici possono essere
costruite in due modi diversi:
1. A base fissa: i numeri indici a base fissa sono costruiti in rapporto a un tempo fissato che chiameremo base (quindi
, … , , … ,
si utilizza un periodo di riferimento chiamato base). Definizione: data una serie di rilevazioni si dice
1
serie dei numeri indici a base fissa la serie dei rapporti:
(
= = 1, … , )
⁄
, … , , … ,
Esempio: data una serie storica e ipotizzando di aver rilevato la serie storica dei prezzi dall’istante
1
all’istante :
1 ⁄
Per ogni generico istante è possibile calcolare il rapporto ossia il rapporto tra il prezzo rilevato in quel
ℎ ℎ
preciso istante e il
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.