vuoi
o PayPal
tutte le volte che vuoi
Distribuzione di frequenza
La distribuzione di frequenza di una variabile è una rappresentazione nella quale ad ogni
modalità della variabile viene associata la frequenza con la quale esso si presenta nei
dati. In altre parole, la distribuzione di frequenza esplicita quante volte una determinata
modalità si presenta nel collettivo oggetto di studio. La tabella può essere fatta sia per
variabili quantitative sia per variabili qualitative. La tabella può essere univariata (se
prende in considerazione una sola variabile) o bivariata (se prende in considerazione 2
variabili). Nel caso della distribuzione di frequenza univariata si costruirà una tabella
formata da 2 colonne. Nel caso della distribuzione di frequenza bivariata si costruirà una
tabella a doppia entrata detta anche tabella di contingenza. La tabella a doppia entrata è
una tabella formata da righe e colonne. Facendo una distribuzione di frequenza si ricava
quindi la frequenza assoluta ovvero il numero di volte in cui una modalità compare in un
collettivo (insieme di dati). Sulla base della distribuzione di frequenza possiamo anche
ricavare la frequenza relativa e la frequenza cumulata. Per frequenza relativa si intende
il rapporto tra la frequenza assoluta di una modalità e il numero totale del collettivo. Se
moltiplichiamo per 100 la frequenza relativa otteniamo la frequenza percentuale. Per
calcolare una frequenza cumulata si sommano progressivamente tutte le frequenze
assolute o percentuali. Non ha alcun significato calcolare le frequenze cumulate se il
fenomeno statistico non è di tipo ordinabile. Nel caso di una variabile continua non è
possibile far corrispondere ad ogni modalità la rispettiva frequenza. Per fornire una
rappresentazione tabellare di una variabile continua si ricorre quindi ad una
suddivisione in classi. Si distinguono quindi tanti intervalli di classe ciascuno formato da
un limite inferiore e da un limite superiore. Le classi sono omogenee se hanno la stessa
ampiezza mentre sono disomogenee se hanno ampiezze diverse. L’ampiezza si calcola
facendo la differenza tra i due estremi della classe. Data la suddivisione in classi, si
definisce la densità di frequenza come il rapporto tra la frequenza di una classe e la
rispettiva ampiezza. La densità di frequenza indica quanto densamente è popolata una
classe.
Grafici
I dati raccolti in tabelle possono essere rappresentati anche attraverso grafici che offrono
il vantaggio di una descrizione del fenomeno in forma visiva.
Nel caso di variabili qualitative nominali si utilizza il grafico a torta o areogramma.
L’areogramma è un tipo di rappresentazione grafica circolare in cui le frequenze
percentuali di un’indagine statistica vengono tradotte in diverse ampiezze
proporzionali alle frequenze stesse. Questo grafico non possiede senso di lettura.
Nel caso di una variabile qualitativa ordinale si ha senso di lettura quindi non ha
senso utilizzare un grafico a torta. Si usa il grafico a barre. L’asse verticale è un
asse quantitativo mentre l’asse orizzontale è un asse qualitativo. Le barre sono
“non “pessimo”
sconnesse tra loro (non posso calcolare la differenza tra buono” e
“non “pessimo”).
so solo che buono” è meglio di
Nel caso di variabili quantitative discrete si utilizza un grafico a bastoncini. Questo
grafico presenta dei segmenti ovvero delle barre senza area. Sia l’asse verticale sia
l’asse orizzontale sono quantitativi. Il grafico a bastoncini evidenzia con la
lunghezza del segmento le frequenze delle modalità della variabile. Questo grafico
possiede senso di lettura.
Nel caso di variabili quantitative continue si utilizza l’istogramma. L’istogramma è
un grafico costituito da una serie di barre rettangolari contigue ognuna in
rappresentanza di una classe e con area proporzionata alla rispettiva frequenza.
Sull’asse orizzontale troviamo le ampiezze delle classi; sull’asse verticale troviamo
le frequenze. Da un grafico di questo tipo è possibile ottenere un poligono di
frequenza. Per costruire un poligono di frequenza si prende un punto a metà di
ciascuna barra e si procede collegando tutti i punti considerati. Il poligono di
frequenza permette di rappresentare più variabili insieme (variabili quantitative
continue e variabili qualitative nominali). Le variabili quantitative continue
possono essere rappresentate anche mediante un grafico di dispersione. Il grafico
di dispersione è formato da una serie di punti e mette in relazione due variabili
quantitative. Tutti i punti possono essere interpolati in una retta.
Misure di sintesi numerica
I dati vengono sintetizzati mediante misure di sintesi numerica. Le misure di sintesi
numerica sono di 2 tipi: misure di centralità (evidenziano il valore caratteristico di una
distribuzione) e misure di variabilità (evidenziano il grado di dispersione di una
distribuzione). Misure di centralità
Moda la moda è il valore più frequente di una distribuzione, o meglio, la modalità più
ricorrente della variabile (cioè quelle a cui corrisponde la frequenza più elevata). Non
sono necessari calcoli e si applica a tutti i tipi di variabili.
Media aritmetica la media aritmetica è la misura di centralità meglio intesa. Si
applica alle variabili quantitative ed è influenzata da tutti i valori. La media è la somma di
tutti i valori numerici della variabile rapportata al numero totale di osservazioni . La
media aritmetica può essere calcolata anche se la distribuzione è suddivisa in classi: per
prima cosa si individua il valore centrale di ogni classe (se per esempio ho una classe che
comprende tutti gli individui che hanno età compressa tra 20 e 30 anni, il valore centrale
della classe sarà (20 + 30) / 2 ovvero 25. Il valore così ottenuto viene moltiplicato per la
frequenza assoluta relativa a ogni classe. Tutti i risultati vengono sommati tra loro e
divisi per il numero totale di individui.
Mediana è il valore che occupa la posizione centrale di una distribuzione ordinata di
dati in modo tale che il numero di osservazioni con un valore inferiore a quello della
mediana sia uguale al numero di osservazioni con un valore superiore a quello della
mediana. Prima di calcolare la mediana occorre quindi ordinare i dati. Se i dati sono
ordinati in senso crescente (o decrescente), calcolare la mediana è molto facile. Infatti,
con un numero dispari di osservazioni la mediana è il valore centrale; con un numero pari
di osservazioni la mediana è la media dei due valori centrali. Più semplicemente si guarda
la frequenza cumulata relativa: si considera la prima frequenza relativa cumulata che
supera il 50% e la si associa alla rispettiva modalità della variabile. La me diana si può
applicare alle variabili ordinali, discrete e continue. Non è influenzata dai valori estremi.
Non conta il valore della variabile ma il rango.
Quale misura di centralità è più opportuna tra la media e la mediana? Se la distribuzione
è simmetrica applico la media; se la distribuzione è asimmetrica applico la mediana. Si fa
quindi un istogramma e si guarda se la distribuzione è simmetrica o asimmetrica.
Quando media, moda e mediana coincidono in un solo termine la variabile si distribuisce
in maniera perfettamente simmetrica rispetto a quel termine .
Quantili i quantili sono una famiglia di misure , a cui appartiene anche la mediana,
che si distinguono a seconda del numero di parti uguali in cui suddividono una
distribuzione. La mediana è quel quantile che assorbe una quota parte della distribuzione
pari al 50%. Se la distribuzione è divisa in 4 parti si parla di quartili; se la distribuzione è
divisa in 10 parti si parla di decili; se la distribuzione è divisa in 100 parti si parla di
percentili.
Il boxplot o diagramma a scatola e baffi è un grafico che si utilizza per variabili
quantitative ed è ottenuto a partire da 5 valori chiave: valore minimo, primo
quartile, mediana, terzo quartile e valore massimo.
Misure di variabilità
Devianza la devianza è la somma dei quadrati degli scarti dalla media aritmetica
(valore della variabile meno la media aritmetica tutto al quadrato).