Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
QUANTILI
Statistica descrittiva
La statistica descrittiva può essere di tipo numerico o grafico. Essa dipende dal tipo di
variabili, che possono essere categoriche o quantitative. Un esempio delle prime sono il
sesso e la scolarità ed esse possono essere espresse tramite le frequenze: si deve costruire
una tabella che dispone tutte le possibili categorie insieme con le frequenze assolute o
frequenze relative. La frequenza assoluta è il numero di volte che si presenta una certa
modalità nel data set, dunque è la moda: è il numero di volte che si verifica un evento a
prescindere dal numero totale delle prove. É importante però sapere come essa si presenta in
proporzione con il numero di osservazioni del data set, e allora si parla di frequenza
relativa, ovvero la frazione delle volte con cui una determinata categoria appare nel data
set, cioè il rapporto tra la frequenza assoluta e il numero di prove eseguite. Viene misurata
con un numero decimale compreso tra 0 e 1 o in percentuale. La frequenza cumulata,
invece, associata a una modalità o a una classe di modalità, è pari alla somma della sua
frequenza assoluta e di quelle delle modalità che la precedono.
Per esaminare una tabella, però, si potrebbe perdere un certo margine di tempo, perciò è
molto utile l’utilizzo di un grafico o bar chart. Esso ci permette di - : . _ ,
determinare categorie più o meno frequenti. ;
Un altro tipo di grafico che si può utilizzare è il pie chart o grafico
a torta. Regione 1 Regione 2
100
75
50
25
0 - - - -
Perché usare le frequenze relative? Per il confronto della distribuzione di una variabile in
campioni di dimensioni diverse.
Esempio: si vuole valutare l’efficacia di uno psico-farmaco nel curare forme di balbuzie.
L’esperimento coinvolge due gruppi randomizzati di pazienti (A e B). Viene somministrato
un farmaco a 150 pazienti del gruppo A e il placebo a 100 pazienti del gruppo B.
Questo è il grafico delle frequenze assolute. A primo impatto sembrerebbe che il primo
farmaco sia migliore del placebo, ma, osservando il grafico delle frequenze relative, si può
notare come in realtà non sia esattamente così: per questo sono importanti le frequenze
relative.
Una serie di dati numerici è compiutamente descritta da tre proprietà principali:
• La tendenza centrale o posizione;
• La dispersione o variabilità;
• La forma.
Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate:
• Statistiche, quando sono calcolate su un campione di dati (si esprimono con lettere
dell’alfabeto latino);
• Parametri, quando descrivono la popolazione (si esprimono con lettere greche).
Regione 1 Regione 2
80
60
40
20
0 migliorato Invariato Peggiorato
Indice di tendenza centrale
É quella caratteristica che permette di capire la tendenza di una caratteristica in una
popolazione, come la variabile si presenta in quel gruppo. Essa è costituita da media, moda
e mediana.
La media è la somma di tutti i valori delle variabili del campione diviso il numero di unità
del campione (n). Essa si suddivide in lasche e ferme: le prime utilizzano solo parte
dell’osservazione, le seconde utilizzano tutte le osservazioni. La media di una popolazione
si esprime con il simbolo µ (miù).
Quando si prendono in esame una popolazione e un campione di essa, non sempre i due
corrispondono o presentano valori simili, in quanto, per la normale variabilità biologica, il
campione può presentare un valore completamente diverso. Se si aggiunge un valore
estremo al nostro campione, la media di esso varia di molto: questo valore è detto outlayer.
Ciò avviene perché la media è molto sensibile agli outlayers, in quanto viene spostata
drasticamente da essi; per questo bisogna evitare di prendere i valori estremi quando si
vuole fare la media di un campione di una popolazione.
Distribuzione gaussiana: vi sono soggetti con frequenza molto variabile.
Distribuzione asimmetrica: vi sono molti soggetti con una determinata caratteristica e pochi
con un’altra ancora (si dividono in positiva/sulla destra e negativa/sulla sinistra, questi
ultimi con outlayers più bassi).
Per il calcolo della media aritmetica ponderata si tiene conto del peso di ciascun numero,
che influisce sul calcolo finale. Essa risulta essere spostata verso la variabile che ha il peso
maggiore.
La moda è la scelta fatta dalla maggioranza della popolazione. In statistica è la modalità
della variabile che ha la massima frequenza, ovvero la modalità più ricorrente della
variabile. Se si presenta graficamente la distribuzione delle nostre variabili, si ottiene un
grafico detto istogramma e la moda ne dimostra il picco.
La moda qua è 96
100
75
50
25
0 0 2 4 6
Tuttavia, a volte, non vi è un’unica moda. Si può parlare di andamento bimodale quando,
per due categorie, vi è una moda per ognuna di esse. Quando dei valori si presentano con la
stessa frequenza, si parla di andamento zeromodale.
La mediana è il valore che occupa la posizione centrale in un insieme ordinato di dati.
Per calcolare la mediana di un gruppo di dati, bisogna disporre i valori in ordine crescente
oppure decrescente (bisogna dunque ordinarli) e contare il numero totale n di dati: se il
numero n dei dati è dispari, la mediana corrisponde al valore numerico del dato centrale; se
n è pari bisogna fare la media dei due valori centrali (ovvero n/2 e n/2 + 1). Ad esempio, se
abbiamo 10 valori, bisogna fare la media tra il quinto e il sesto valore.
Vi è una relazione tra media, moda e mediana. Nelle distribuzioni simmetriche, esse hanno
tutti e tre i valori uguali. Se l’asimmetria è positiva (o a destra) o negativa (o a sinistra), la
moda è l’indice di tendenza con il valore maggiore, ma l’andamento del grafico è invertito.
L’asimmetria positiva, nel grafico, presenta un picco sulla sinistra e un appiattimento verso
destra; l’asimmetria negativa presenta, invece, un picco a destra e un appiattimento verso
sinistra.
I quantìli
La mediana fa parte della famiglia dei quantili, ovvero una famiglia di misure che divide
una distribuzione in parti uguali. Se una distribuzione viene divisa in quattro parti uguali
(ovvero si usano tre punti), si parla di quartili. Il primo quartile è definito come il numero
q1 per il quale il 25% dei dati statistici è minore o uguale a q1; il secondo quartile è definito
come il numero q2 per il quale il 50% dei dati statistici è minore o uguale a q2. Il secondo
quartile corrisponde alla mediana; il terzo quartile è definito come il numero q3 per il quale
il 75% dei dati statistici è minore o uguale a q3.
In una distribuzione, ad esempio, il primo quartile corrisponde alla mediana dei numeri al di
sotto della mediana della distribuzione; il secondo quartile corrisponde alla mediana della
distribuzione; il terzo quartile corrisponde alla mediana dei numeri al di sopra della mediana
della distribuzione.
In modo analogo si definiscono i decili, ovvero i 9 punti che dividono una distribuzione in
dieci parti, e centili i 99 punti che dividono una distribuzione in centro parti.
Sono molto importanti i percentili. Essi, infatti, sono utili nella pratica clinica per calcolare
l’intervallo di normalità di un parametro biologico e per le cure biologiche (esempio del
BMI).
In caso di differenza tra moda, media e mediana, a quale misura di tendenza centrale è
meglio riferirsi? Si sceglie in base a ciò che conviene.
La mediana è un indice di tendenza centrale, ma anche se fa parte dei quantili questi non
sono indici di tendenza centrale, bensì indici di posizione.
14/11/2022
Gli indici di variabilità
Gli indici di variabilità, o indici di dispersione, servono per poter capire se una variabile è
presente in maniera maggiore o minore nella popolazione o campione. Essi sono diversi:
• Il range;
• Devianza;
• Varianza;
• Deviazione standard;
• Coefficiente di variazione;
• Range interquantilico.
Il range è semplicemente la differenza tra il massimo e il minimo. Esso però potrebbe dare
dei problemi: ogni singolo outlayer potrebbe spostare drasticamente il range e, inoltre, esso
non dice cosa accade esattamente all’interno di una popolazione (se vi è una distribuzione
più o meno omogenea).
Si usa più comunemente allora la deviazione standard, la quale dice quanto sono disperse
le nostre osservazioni rispetto alla media, ma per arrivare a essa vi sono dei passaggi
intermedi. Per calcolarla, si parte dalla devianza, ovvero la somma degli scarti quadratici,
cioè si prende ogni singola osservazione, la si confronta con la media e infine si sommano
tutte le differenze. Si ottengono così valori sia positivi sia negativi, la cui somma dà 0,
dunque un valore inutilizzabile. Tutti questi valori, allora, si elevano al quadrato e in seguito
si sommano, determinando così la formula della somma degli scarti quadratici. Ogni volta
che si aggiunge un’osservazione, però, la devianza aumenta. Perciò, anziché basarsi sulla
somma degli scarti quadratici, ci si deve focalizzare più che altro sullo scarto quadratico
medio, ovvero la varianza.
La varianza di un campione è la misura che caratterizza molto bene la variabilità di un
campione. Al numeratore va messa la devianza, mentre al denominatore va messo n-1 (e si
indica la varianza con s², poiché si parla di “varianza di un campione”) oppure n (si indica la
varianza con ², poiché si parla di “varianza di una popolazione”).
Se si vuole calcolare la varianza, dunque, prima bisogna calcolare la media dei valori a
nostra disposizione per poter poi fare la somma degli scarti quadratici e, alla fine, ottenere
lo scarto quadratico medio dividendo per n o n-1, in base alla presenza di un campione o di
una popolazione.
La deviazione standard altro non è che la radice quadrata della varianza e viene indicata
con “s” o con “ ”. Avendo elevato al quadrato, significa che la varianza ha un’unità di
misura non più comparabile con il nostro indice di tendenza centrale, il quale esprime come
una variabile è caratteristicamente espressa nel gruppo e alla quale bisogna associare un
indice di tendenza variabile, in maniera tale da capire se la variabile è espressa in maniera
più o meno eterogenea nella popolazione o nel campione. Poiché la deviazione standard è
una misura di distanza dalla media, essa ha sempre valore po