Introduzione
Definizione "filosofica":
La statistica è quella scienza che aiuta a prendere decisioni in condizioni di incertezza
Definizione "formale":
La statistica è una disciplina di carattere metodologico che ha per oggetto l'analisi dei fenomeni
collettivi dotati di variabilità
Fenomeno collettivo: è un fenomeno il cui studio riguarda una pluralità di soggetti od oggetti definiti
unità statistiche.
Alcuni esempi
il motivo della presenza di turisti in una certa località
il grado di soddisfazione degli utenti di un'azienda rispetto al servizio erogato
il numero di abitanti dei comuni di una certa provincia
il reddito e il consumo delle famiglie italiane.
Unità statistiche: unità elementari omogenee che costituiscono l'oggetto di osservazione e di analisi
L'insieme delle unità statistiche omogenee rispetto ad una o più caratteristiche costituisce una
popolazione (o universo o collettivo)
Statistica descrittiva: i caratteri statistici vengono osservati per tutte le N unità statistiche che compongono
la popolazione di interesse (censimento), e siamo quindi in grado di dare una "descrizione" completa di
tale popolazione relativamente ai caratteri di interesse
Inferenza statistica: i caratteri statistici vengono osservati solamente per un campione di n unità
appartenenti alla popolazione di interesse (indagine campionaria) ma, attraverso opportune tecniche, si
cerca comunque di ottenere una descrizione della popoplazione nel suo complesso relativamente ai
caratteri di interesse.
Introduzione 1
Introduzione 2
Elementi di calcolo combinatorio
Si consideri un insieme formato da elementi
n I
n
Dato un insimeme , con si indica il numero di tutte le possibili permutazioni semplici di
I P I
n n n
= ⋅ (n − 1) ⋅ (n − 2) ⋅ … ⋅ 3 ⋅ 2 ⋅ 1 =
P n n!
n ′
Dato un insieme di cui uguali tra loro, con si indica il numero di tutte le possibili permutazioni
I k P
n n
con ripetizione di , ovvero tutti i possibili insiemi ordinati che si possono formare con gli elementi
I n
n
dati =
nk
P n!/k!
Dato un insieme con si indica il numero delle disposizioni semplici di elementi presi
I D n
n n,k
(k ≤ alla volta da . Le disposizioni sono tutti i possibili sottoinsiemi di elementi distinti e
k n) I k
n
totalmente ordinati presi da .
I
n
= −
D n!/(n k)!
n,k ′
Dato un insieme con si indica il numero delle disposizioni con ripetizione di elementi presi
I D n
n n,k
(k ≤> alla volta da . Le disposizioni sono tutti i possibili insiemi di elementi non
K n) I k
n
necessariamente tutti distinti ma ordinati presi da .
I
n
′ = k
D n
n,k
Dato un insieme con si indica il numero delle combinazioni semplici di elementi presi
I C n
n n,k
(k ≤ alla volta da . Le combinazioni sono tutti i possibili sottoinsiemi di elementi distinti
k n) I k
n
presi da .
I
n
= /k! = −
C D n!/(n k)!k!
n,k n,k ′
Dato un insieme con si indica il numero delle combinazioni con ripetizione di elementi presi
I C n
n n,k
(k ≤> alla volta da . Le combinazioni con ripetizione sono tutti i possibili insiemi di
k n) I k
n
elementi non necessariamente distinti presi da .
I
n
′ = (n + − 1)!/(n − 1)!k!
C k
n,k ( )
n
≡
Molto spesso si indica con la seguente simbologia alternativa:
C C
n,k n,k k
Elementi di calcolo combinatorio 1
I caratteri statistici
Modalità dei caratteri statistici: valori o attributi specifici che può assumere un carattere su un'unità
statistica. Queste devono essere:
esaustive: devono rappresentare tutti i possibili modi di manifestarsi del carattere;
non sovrapposte: ad ogni unità statistica si può associare una sola modalità.
Nel momento in cui un carattere assume una certa modalità in corrispondenza di un'unità statistica, siamo
in presenza di un dato statistico.
I caratteri statistici si suddividono in:
Qualitativi: caratteri con modalità non numeriche
Sconnessi o nominali: caratteri per cui le modalità non si possono ordinare
Ordinati (o ordinali): caratteri le cui modalità presentano un ordine logico
Rettilinei: l'ordine è crescente o decrescente
Ciclici: Non è presente un ordine crescente o decrescente (mesi, direzione del vento)
Quantitativi: caratteri con modalità numeriche
Discreti: caratteri le cui modalità scaturiscono da un conteggio
Continui: caratteri le cui modalità scaturiscono da una misurazione
Rilevare (osservare) un carattere quantitativo o qualitativo su un'unità statistica significa classificare l'unità
secondo le modalità assunte dal carattere.
CODIFICA DEI CARATTERI STATISTICI
Quando si intende analizzare un insieme di dati statistici la prima operazione necessaria è la codifica dei
caratteri. Con questa operazione questi vengono inseriti in una tabella e le loro modalità vengono
codificate.
Anche se codificati con un numero, i caratteri qualitativi rimangono tali.
SCHEMA RIEPILOGATIVO
I caratteri statistici 1
DISTRIBUZIONE DI FREQUENZA
L'insieme dei dati è costituito generalmente da tutte le rilevazioni effettuate su ognuna delle unità
statistiche prese in considerazione rispetto ad ogni carattere.
Un primo punto di partenza delle tecniche di sintesi della statistica descrittiva è la derivazione della
distribuzione di frequenza di ciascun carattere di interesse.
Frequenza assoluta: numero di volte in cui una certa modalità di un carattere viene osservata nella
popolazione ( unità). La frequenza assoluta si indica con , dove è un indice che varia da 1 a , il
N n j k
j
numero massimo di modalità del carattere considerato.
Distribuzione di frequenza assoluta: Funzione che associa alle modalità di un carattere, quantitativo o
qualitativo, le ccorrispondenti frequenze assolute osservate nella popolazione
→ La distribuzione di frequenza è un utile strumento di sintesi che ci dà informazioni sulle modalità
assunte dal carattere di interesse nella popolazione. È utile nel caso di caratteri con un numero di
modalità k contenuto.
→Con un numero di modalità del carattere elevato conviene derivare la distribuzione NON per le
singole modalità, ma per delle classi di modalità opportunamente scelte.
La distribuzione di frequenza può essere calcolata anche in forma relativa invece che assoluta
Frequenza relativa: rappresenta la frazione della popolazione che presenta una certa modalità di un
carattere. La frequenza relativa si indica con e si calcola come rapporto fra la corrispondente
f
j
frequenza assoluta e la numerosità totale della popolazione
f
= j
f
j N
Distribuzione di frequenza relativa: funzione che associa alle modalità di un carattere, qualitativo o
quantitativo, le corrispondenti frequenze relative osservate nella popolazione
Di conseguenza, la somma delle frequenze assolute risulterà uguale a , quella delle frequenze relative
N
pari a 1 (o 100 se espresse in percentuale).
I caratteri statistici 2
Frequenze cumulate: sono date dalla somma delle frequenze (assolute, relative o percentuali) con cui si
presentano le prime modalità del carattere.
j
Esempio completo
Distribuzione di frequenza per caratteri quantitativi
Se il carattere che si vuole analizzare presenta moltissime modalità distinte, si possono avere
notevoli difficoltà nella comprensione dei dati osservati, e derivare la distribuzione di frequenza
(assoluta o relativa) richiede molto tempo e non facilita l'interpretazione
Questo avviene spesso con i caratteri quantitativi, continui o discreti.
In questi casi è solitamente necessario o per lo meno conveniente procedere ad un raggruppamento
dei valori in intervalli fra loro disgiunti
Quindi prima di procedere alla derivazione delle distribuzioni di frequenza si suddividono in classi le
modalità del carattere e successivamente si derivano le distribuzioni di frequenza in classi ottenute.
Suddivisione in classi di un carattere quantitativo
I caratteri statistici 3
È opportuno definire le classi in modo tale che:
Il loro numero sia abbastanza piccolo da fornire una sintesi adeguata ma sufficientemente grande
da mantenere l'informazione con un livello accettabile di dettaglio (il numero delle classi si colloca
generalmente tra 5 e 20)
Siano fra loro disgiunte
Comprendano tutte le possibili modalità del carattere
Abbiano, se possibile, la stessa ampiezza. In tal caso si ha:
Dimensione classe = (Valore massimo - Valore minimo) / Numero di classi
Esempio
In un dataset il carattere ETÀ assume 60 modalità distinte (da 18 a 77 anni), con frequenze assolute
che variano da un massimo di 212 ad un minimo di 1. Risulta evidente l'elevata quantità di
informazioni.
Il Valore minimo (modalità più bassa) è pari a 18, il Valore massimo (modalità più alta) è pari a 77.
(77 − 18)/6 ≈ 10
Supponiamo di voler suddividere il carattere in 6 classi, si avrà quindi .
La prima classe raggrupperà quindi le modalità da 18 a 27, la seconda da 28 a 38 e così via.
ATTENZIONE: bisogna sempre indicare se i valori estremi della classe siano inclusi o meno nella
stessa, in modo da saper collocare univocamente ciascuna unità nella classe corretta.
ESEMPIO DA REMARKABLE
RAPPRESENTAZIONI GRAFICHE
Le distribuzioni di frequenza sono utili per ottenere informazione relativamente ai caratteri statistici di
interesse rilevati su una certa popolazione
Invece che in forma tabellare, le distribuzioni di frequenza possono essere rappresentate in forma
grafica
Le rappresentazioni grafiche non forniscono informazioni aggiuntive rispetto a quelle tabulari, ma
possono essere di grande efficacia comunicativa
In generale i vantaggi delle rappresentazioni grafiche sono i seguenti:
consente una visualizzazione immediata dell'andamento del carattere e della struttura della
distribuzione
consente, con notevole sintesi e in poco spazio, il confronto tra più distribuzioni
consente di mettere in evidenza la presenza di casi "anomali" (picchi grafici) che possono essere
dovuti ad errori nei dati o alla presenza di valori sostanzialmente diversi da quelli delle altre
osservazioni
Si presta meglio a scopi divulgativi rispetto alla forma tabellare
Per essre utile ed efficace una rappresentazione grafica dovrebbe contenere chiaramente tutte le
informazioni necessarie alla comprensione dei dati in essa rappresentati, quindi in ogni grafico
dovrebbero figurare:
il titolo
le etichette
la legenda, se nel grafico compare più di una distribuzione
I caratteri statistici 4
le note
Tipi di grafici
Grafico a nastri
Si utilizza solitamente per caratteri qualitativi nominali e rappresenta la frequenza (assoluta o relativa) di
una tabella di frequenze sotto forma di rettangoli (nastri).
Ogni nastro ha la medesima base ed i nastri sono fra loro equidistanti.
Le lunghezze dei nastri sono proporzionali alle frequenze.
Grafico a barre
Si utilizza per caratteri qualitativi nominali, ordinati e quantitativi discreti e rappresenta la frequenza
(assoluta o relativa) di una tabella di frequenze sotto forma di rettangoli (barre).
Ogni frequenza della distribuzione viene rappresentata da una barra (rettangolo), ogni barra ha la
medesima base e sono equidistanti fra loro.
Le altezze delle barre sono proporzionali alle frequenze.
Grafico a torta
Si utilizza soprattutto per caratteri qualitativi nominali ed è una rappresentazione grafica circolare che
mostra le frequenze di una distribuzione sotto forma di sezioni ("spicchi") di un cerchio.
È indicata quando si vuole rappresentare la composizione di un aggregato, l'incidenza delle frequenze
delle singole modalità rispetto al totale.
Non è indicata, invece, quando il numero di modalità è troppo elevato, poiché aumentando i settori
circolari il confronto tra questi diventa complicato.
Ogni settore corrisponde ad una modalità del carattere
L'angolo al centro di ciascun settore è proporzionale alle frequenze.
Istogramma a basi uguali
Si utilizza per i caratteri quantitativi continui suddivisi in classi di uguale ampiezza. È un grafico costituito
da barre non distanziate, dove ogni barra possiede un'area proporzionale alla frequenza (assoluta o
relativa) della classe.
Ogni frequenza della distribuzione viene rappresentata da una barra (rettangolo) ed hanno tutte la
medesima base.
Le barre sono unite fra loro, poiché il carattere rappresentato è continuo.
Le altezze (e le aree) sono proporzionali alle frequenze.
Istogramma a basi diverse
Si utilizza per i caratteri quantitativi continui suddivisi in classi di diversa ampiezza
L'area di ogni rettangolo è pari all'ampiezza della classe che rappresenta, la base di ogni rettangolo è
a
j
pari all'ampiezza della classe che rappresenta e l'altezza di ogni rettangolo è proporzionale alla
a
j f
= j
densità di frequenza , data dal rapporto tra frequenza e ampiezza della classe :
h f a h
j j j j a
j
I caratteri statistici 5
La densità di frequenza consente di tenere in considerazione che la frequenza maggiore osservata per
una classe potrebbe dipendere dalla maggiore ampiezza di quella classe.
Esempio
Consideriamo di nuovo il carattere Età osservato per le unità della popolazione Demo. Questa volta
consideriamo una suddivisione in tre classi di diversa ampiezza: [18,28),[28,48),[48,78).
Per disegnare l'istogramma non possiamo utilizzare direttamente le frequenze (relative) di ciascuna
classe, ma dobbiamo calcolare anche le corrispondenti densità di frequenza.
I caratteri statistici 6
Le medie
Le medie forniscono una sintesi estrema di una serie di dati o di una distribuzione di frequenza
Una media è un singolo valore (o una singola modalità) particolarmente rappresentativo del carattere di
interesse.
Verranno trattate le seguenti medie:
Medie analitiche: si calcolano effettuando operazioni algebriche sulle modalità del carattere; proprio
per questo, possono essere calcolate solo per caratteri quantitativi
media aritmetica
media quadratica
media geometrica
Medie di posizione: non richiedono operazioni algebriche sulle modalità del carattere; possono essere
calcolate per caratteri quantitativi e qualitativi
moda
mediana
quantili
Medie analitiche
Media aritmetica
È il punto di equilibrio (baricentro) di una distribuzione di dati, in quanto bilancia i valori più alti e quelli più
bassi. Si indica con e si calcola sommando tutte le modalità delle unità statistiche appartenenti alla
μ
popolazione di interesse e dividendo per la numerosità della popolazione N:
N
1 ∑
=
μ x
i
N i=1
In questa notazione:
è il valore (modalità) del carattere per l'unità i-esima della popolazione
x
i è il numero totale delle unità statistiche osservate (numerosità della popolazione)
N
La media aritmetica per distribuzioni di frequenza assolute
Se un carattere è quantitativo discreto e conosciamo la sua distribuzione di frequenza assoluta, la media
aritmetica si calcola sommando i prodotti ottenuti moltiplicando ogni valore per la rispettiva frequenza e
dividendo per il totale delle frequenze:
k
∑ x n
j j
j=1
=
μ N
In questa notazione:
è la j-esima modalità assunta dal carattere
x
j
Le medie 1
è la frequenza assoluta con cui si osserva
n x
j j k
∑
è la numerosità della popolazione osservata,
N n
j
j=1
La media aritmetica per distribuzioni di frequenza relative
Se un carattere è quantitativo discreto e conosciamo la sua distribuzione di frequenza relativa, la media
aritmetica si calcola sommando i prodotti ottenuti moltiplicando ogni valore per la rispettiva frequenza
relativa:
k
∑
=
μ x f
j j
j=1
In questa notazione:
è la j-esima modalità assunta dal carattere
x
j è la frequenza relativa con cui si osserva
f x
j j
La media aritmetica per caratteri suddivisi in classi
Abbiamo visto che quando un carattere quantitativo assume molte modalità conviene suddividerlo in
classi e derivare successivamente la distribuzione di frequenza per tali classi.
Quando un carattere quantitativo è suddiviso in classi e conosciamo la sua distribuzione di frequenza
assoluta, possiamo approssimare la media aritmetica utilizzando i valori centrali di ciascuna classe:
k
1 ∑
≈ ⋅
μ c n
j j
N j=1
In questa notazione:
è il valore centrale della j-esima classe
c
j è la frequenza assoluta della j-esima classe
n
j è la numerosità complessiva della popolazione
N
Media aritmetica ponderata
Talvolta nel calcolo della media aritmetica si vuole dare diversa importanza alle osservazioni, attribuendo
a ciascuna di esso uno specifico peso.
La media aritmetica ponderata di un insieme di valori osservati di un carattere quantitativo con pesi
N X
non negativi, è fata da:
k
∑ x w
j j
j=1
=
μ k
∑ w k
j=1
In questa notazione: (j = 1, ...,
è il peso attribuito alla j-esima modalità di
w x k)
j è un coefficiente che aumenta (se > 1) o diminuisce (se < 1) l'importanza del termine
w x
j j
Le proprietà dell
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.