Introduzione
La statistica è la scienza che studia con metodi matematici i fenomeni collettivi, per consentire alle
organizzazioni di assumere decisioni in condizioni di incertezza (ovvero, di assenza di informazioni).
Elementi di indagine statistica
L’indagine statistica è il processo attraverso cui la statistica raccoglie ed elabora informazioni, producendo
conoscenza; in particolare, è composta dalle seguenti attività: definizione degli obiettivi; pianificazione
della raccolta dei dati; raccolta dei dati; elaborazione e analisi dei dati; presentazione dei dati analizzati;
sintesi dei dati per produrre conoscenza.
Popolazione (definizione)
Dico popolazione l’insieme di tutte le unità oggetto di studio, ed indico con la sua dimensione. Dico
parametro una caratteristica specifica della popolazione.
Campione (definizione)
Dico campione il sottoinsieme delle unità osservate nella popolazione, ed indico con la sua dimensione.
Dico statistica una caratteristica specifica del campione.
Indagine totale (definizione)
Dico indagine totale (o rilevazione censuaria) l’indagine statistica che raccoglie i dati dell’intera
popolazione oggetto di studio.
Indagine campionaria (definizione)
Dico indagine campionaria (o campionamento) l’indagine statistica che raccoglie i dati di un sottoinsieme
della popolazione oggetto di studio.
Dico campionamento casuale semplice l’indagine campionaria in cui ogni possibile campione di
dimensione assegnata ha la stessa probabilità di essere selezionato, e in cui ogni unità della popolazione
ha la stessa probabilità di essere scelta.
Statistica descrittiva
La statistica descrittiva comprende metodi grafici e numerici utilizzati per sintetizzare ed elaborare i dati
raccolti, in modo da trasformarli in informazioni.
Statistica inferenziale
La statistica inferenziale fornisce le basi per previsioni e stime che consentono di trasformare le
informazioni in conoscenza.
Inferenza statistica (definizione)
Dico inferenza statistica il processo attraverso cui, a partire da risultati campionari, si traggono conclusioni
circa una intera popolazione.
Statistica descrittiva
Come osservato, la statistica descrittiva è la branca della statistica che studia i criteri di rilevazione,
classificazione, sintesi e rappresentazione dei dati appresi dallo studio di una popolazione o di un
campione.
Variabile statistica
La statistica raccoglie i dati da una popolazione o da un campione, e li classifica in variabili; le variabili
statistiche sono classificate in diverse categorie.
Variabile statistica (definizione)
Dico variabile statistica la funzione che associa un elemento di un insieme omogeneo di unità statistiche,
dette dati, ad uno ed un solo elemento di un insieme omogeneo di qualità del fenomeno osservato, dette
caratteristiche o modalità della variabile.
Tipologie di variabili
Esistono due tipologie di variabili: le variabili categoriche, e quelle numeriche.
Variabile categorica (definizione)
Dico variabile categorica una variabile le cui modalità sono espresse in forma verbale.
Variabili numeriche
Dico variabile numerica una variabile le cui modalità sono espresse in forma di numero.
Variabile discreta (definizione)
Dico variabile discreta una variabile numerica tale per cui l’insieme delle modalità è un insieme
numerabile, ovvero tale da assumere solo valori determinati (anche infiniti), e avente origine da un
processo di conteggio.
Variabile continua (definizione)
Dico variabile continua una variabile numerica tale per cui l’insieme delle modalità è un insieme non
numerabile, ovvero tale da assumere qualunque valore reale in un intervallo, e avente origine da un
processo di misurazione.
Livelli di misurazione
Le variabili rilevate statisticamente possono inoltre essere distinte in qualitative o quantitative, in relazione
ai diversi significati attribuibili alla differenza fra coppie di modalità.
Variabili qualitative
Una variabile qualitativa è una variabile tale per cui non è possibile attribuire alcun significato logico alla
differenza fra una coppia di modalità, in quanto questa non è misurabile quantitativamente.
Dati nominali (definizione)
Dico dati nominali le variabili qualitative per cui non esiste alcun criterio di ordinamento delle modalità.
Dati ordinali (definizione)
Dico dati ordinali le variabili qualitative per cui esiste un criterio di ordinamento delle modalità.
Variabili quantitative
Una variabile quantitativa è una variabile tale per cui la differenza fra una coppia di modalità detiene un
significato logico, in quanto questa è misurabile quantitativamente.
Scala ad intervallo (definizione)
Dico scala ad intervallo la scala che indica l’ordine e la distanza dei dati da un’origine arbitraria misurata
con una determinata unità di misura.
In una scala ad intervallo, il rapporto tra due modalità non detiene alcun significato logico.
Scala di rapporto (definizione)
Dico scala di rapporto la scala che indica l’ordine e la distanza dei dati da un’origine assoluta, e per cui
dunque il rapporto tra due modalità assume un significato logico preciso.
Rappresentazione di dati
Frequenza dei dati
, … , , … ,
Sia la variabile statistica che associa i dati alle modalità .
Frequenza assoluta e relativa
Frequenza assoluta (definizione) −esima,
Dico frequenza assoluta (o numerosità) della modalità ed indico con , il numero di volte in cui
tale modalità compare nell’insieme di dati. − ( )
≔ #
∈ [, ] ∀ ∈ [1, ],
Poiché per definizione vale la seguente relazione fondamentale:
∑ =
=
Frequenza relativa (definizione)
−esima.
Sia la frequenza assoluta associata alla modalità Dico frequenza relativa per la modalità
−esima,
ed indico con , il valore:
≔
∈ [, ] ∀ ∈ [1, ],
per cui vale che e vale la seguente relazione fondamentale:
∑ =
=
Distribuzione di frequenza
Distribuzione di frequenza (definizione) , … , , … ,
Dico distribuzione di frequenza per l’insieme di dati rispetto alle modalità la tabella che
1 1
associa ad ogni modalità la rispettiva frequenza (assoluta o relativa).
Modalità Frequenze assolute Modalità Frequenze relative
1
1 1 1
⋮ ⋮ ⋮ ⋮
Diagrammi di rappresentazione
Rappresentazione di variabili qualitative
Le variabili qualitative sono rappresentate attraverso diagrammi a barre, a torta o di Pareto.
Diagramma a barre
Il diagramma a barre è un diagramma che presenta le modalità della variabile qualitativa (sull’asse delle
ascisse) corrispettivamente alla frequenza assoluta/relativa di ogni modalità (sull’asse delle ordinate).
Se il diagramma a barre rappresenta dati ordinali, ha significato l’ordine in cui sono posizionate le barre.
Diagramma a torta
Il diagramma a torta è un diagramma che presenta la frequenza assoluta/relativa di ogni modalità della
variabile qualitativa attraverso un settore di cerchio ad essa proporzionale.
−esima
In particolare, l’angolo fra i raggi del settore della modalità ha valore:
= ∙ °
Diagramma di Pareto
Il diagramma di Pareto è un tipo particolare di diagramma a barre, in cui le modalità sono presentate in
ordine crescente di frequenza, e ogni barra è sovrastata da un punto, che indica la frequenza cumulata per
ogni categoria.
I punti sono spesso connessi per formare una linea spezzata. In particolare, la frequenza cumulata per la
−esima
modalità è calcolata come segue:
∑
≔ ∑ ≔
=
=
Il diagramma di Pareto è particolarmente utile per l’individuazione delle categorie più rilevanti nelle
frequenze dei dati.
Grafico per serie storiche
Il grafico per serie storiche è un diagramma che rappresenta la variazione della frequenza assoluta/relativa
di una singola modalità (presentata sull’asse delle ordinate) al variare del tempo (mostrato sull’asse delle
ascisse).
Rappresentazione di variabili quantitative
Per la rappresentazione di variabili quantitative si adottano diagrammi differenti da quelli
precedentemente osservati, e che talvolta richiedono una riclassificazione della distribuzione di frequenza.
Distribuzione di frequenza per variabili quantitative
Come già osservato, la distribuzione di frequenza è la tabella che associa ad ogni modalità di una variabile
(in questo caso quantitativa) la relativa frequenza assoluta/relativa. La rappresentazione di variabili
discrete è analoga a quella di variabili categoriche, senonché in questo caso in entrambe le sezioni della
tabella si hanno valori numerici.
Nel caso di variabili continue (o discrete con molte modalità) è necessaria una riclassificazione dei dati per
classi di intervalli, cioè in intervalli di valori del tipo seguente:
[ , )
, ∈ { , … , }.
con Secondo questa riclassificazione, la distribuzione di frequenza viene ricostruita
calcolando il numero di osservazioni non per ogni modalità, ma per ogni classe.
Classe Frequenze assolute Classe Frequenze relative
[ , ) [ , )
1 1 1 1
⋮ ⋮ ⋮ ⋮
[ , ) [ , )
In particolare, è possibile costruire: ∈ ℕ
1. classi di intervalli di ampiezza costante. In questo caso, sia l’ampiezza dell’intervallo; tale
ampiezza è calcolata come segue:
( , … , ) − ( , … , )
= ∈ [5,20]
dove il termine al numeratore è detto campo di variazione, mentre è il numero di classi.
∈ ℕ
Se secondo tale calcolo si ha , l’ampiezza deve essere approssimata al naturale più vicino.
2. classi di intervalli di frequenza costante.
Densità di frequenza (definizione)
, −esima ≔
[ )
Sia la classe intervallare per una generica variabile quantitativa continua, e siano
−
l’ampiezza dell’intervallo, la frequenza relativa.
−esima,
Dico densità di frequenza relativa alla classe ed indico con , il rapporto fra la frequenza relativa
di tale classe e l’ampiezza dell’intervallo corrispondente.
≔
Diagramma di frequenza
Il diagramma di frequenza è il diagramma che presenta le modalità della variabile quantitativa discreta
(sull’asse delle ascisse) corrispettivamente alla loro frequenza assoluta/relativa (sull’asse delle ordinate).
Istogramma
L’istogramma è il diagramma che presenta le classi intervallari della variabile quantitativa continua
(sull’asse delle ascisse) corrispettivamente alla loro frequenza assoluta/densità di frequenza (sull’asse delle
ordinate).
Nell’istogramma, l’area di ogni rettangolo costruito è proporzionale alla frequenza rilevata per la classe
corrispondente.
In relazione alla riclassificazione per classi adottata, si possono ottenere:
1. istogrammi con classi di ampiezza costante. In questo caso, l’asse delle ordinate presenta
alternativamente la frequenza assoluta o la densità di frequenza.
2. istogrammi con classi di ampiezza diversa. In questo caso, l’asse delle ordinate presenta
obbligatoriamente la densità di frequenza.
L’istogramma può presentare, infine, due tipi diversi di distribuzione di frequenze (assolute, relative) o di
densità di frequenze. In particolare, si distinguono:
1. l’istogramma simmetrico, in cui i valori sono distribuiti in modo approssimativamente regolare
attorno alla classe centrale.
2. l’istogramma asimmetrico, in cui i valori sono distribuiti in prevalenza attorno alle classi iniziali
(asimmetria positiva) o alle classi finali (asimmetria negativa).
Funzione di ripartizione e ogiva
Funzione di ripartizione
, … , , … ,
Sia una variabile statistica che associ i dati alle modalità .
1 1
Funzione di ripartizione (definizione) ,
Dico funzione di ripartizione, o funzione cumulativa delle frequenze, della variabile per il valore ed
[,
: ℝ → ],
indico con la funzione che associa ad la frequenza relativa con cui si osservano dati il cui
.
valore è inferiore o uguale ad
− ({
() ≔ ∙ # (⋃ ∈ { , … , }| ≤ }) ) ≔ { ≤ }
=
Proprietà fondamentali
Si osservano le seguenti proprietà fondamentali:
1. La funzione di ripartizione assume valori differenti a seconda che si calcoli per intervalli chiusi o
aperti di valori, a meno che la frequenza relativa per quei valori sia nulla:
{ < } ≠ { ≤ } >
se
< .
2. Sia Vale allora: { < ≤ } = () − ()
Forma analitica (per variabili discrete e ordinali)
< ⋯ < .
Sia una variabile discreta, o una variabile qualitativa ordinale, e siano le modalità di La
funzione di ripartizione di presenta allora la seguente forma analitica:
<
∈ [ , )
() = { +
≥
[ , ),
ovvero, è una funzione costante negli intervalli e presenta un punto di discontinuità a salto in
+
∀ ∈ [1, ] ∩ ℕ.
Ogiva
, … , ,
[ )
Sia una variabile statistica continua, con i dati , e siano le classi dei valori assunti da
1
∈ [1, − 1] ∩ ℕ ∈ [2, ] ∩ ℕ, < .
per e e con
Ogiva (definizione) , : ℝ → [, ],
Dico ogiva, o curva delle frequenze cumulate, della variabile per il valore e indico con la
funzione definita analiticamente come segue: <
=
−
() = ∈ ( , )
−
{ ≥
per cui il grafico è una spezzata non decrescente.
Un metodo alternativo per il calcolo dell’ogiva prevede l’adozione dell’istogramma, e dunque il calcolo
[ , ).
delle densità di frequenza per ogni intervallo In tal caso, vale che:
<
+ ∙ ( − ) ≤ <
() = {
≥
Proprietà fondamentali
: ℝ → [0,1]
Sia l’ogiva di una variabile quantitativa continua qualsiasi. Si osservano le seguenti proprietà
fondamentali:
1. L’ogiva per un singolo valore è nulla.
() = ∀ ∈ ℝ
< .
2. Sia Vale allora:
{ < < } = { ≤ ≤ } = () − ()
Rappresentazione di più variabili
Le seguenti sono le differenti tipologie di diagrammi con cui è possibile rappresentare un insieme di dati
riferiti a più di una sola variabile statistica.
Diagramma di dispersione
Il diagramma di dispersione è il diagramma in cui i dati statistici rilevati rispetto a due variabili sono
rappresentati come punti di un piano cartesiano, per cui i valori delle due variabili sono presentati
rispettivamente sull’asse delle ascisse e delle ordinate.
Il diagramma di dispersione presenta non solo i possibili valori di ogni variabile, ma anche la distribuzione
dei dati all’interno dei possibili valori, e consente in questo modo di esaminare:
1. l’eventuale relazione tra le due variabili statistiche.
2. la presenza di eventuali valori anomali, cioè che differiscono significativamente dagli altri valori
rilevati.
Il diagramma di dispersione non consente tuttavia di osservare la frequenza con cui si osservano valori
uguali per le due variabili.
Tabella a doppia entrata
, , … , , … ,
Siano due variabili statistiche qualsiasi, con modalità e rispettivamente. La
∈ (, ) { },
tabella a doppia entrata è la matrice dei valori detti frequenze congiunte (assolute o
relative), definiti come segue: ≔ { = ; = }
[1,
∀ ∈ ], ∈ [1, ],
dove è la frequenza assoluta/relativa.
Frequenze marginali (definizione)
In una tabella a doppia entrata, sono dette frequenze marginali assolute/relative (di riga/di colonna) le
, … , , … ,
frequenze assolute/relative totali e definite come segue:
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.