DOMANDE E RISPOSTE EPIDEMIOLOGIA NUTRIZIONALE E STATISTICA MEDICA
1. Campione, popolazione, stime e parametri
1. Cosa sono i criteri di inclusione ed esclusione?
I criteri di inclusione descrivono le caratteristiche della popolazione target e permettono di
selezionare individui con caratteristiche simili, in modo da poter fare inferenza dei risultati dal
campione alla popolazione di riferimento. I criteri di esclusione, invece, restringono ulteriormente le
caratteristiche dei partecipanti e rendono più selettivo l’ingresso nel campione. Servono anche ad
evitare l’arruolamento di soggetti che potrebbero compromettere la qualità dei dati oppure che
potrebbero essere esposti a rischi, come ad esempio persone molto anziane o con patologie gravi. In
generale, maggiore è il numero dei criteri di esclusione, più di?icile diventa generalizzare i risultati alla
popolazione. Nel complesso, questi criteri rendono i soggetti del campione più simili tra loro.
2. Che cos’è il campione?
Il campione è un sottogruppo della popolazione target. È importante che sia rappresentativo della
popolazione e che venga selezionato indipendentemente dal fenomeno di studio. Per questo motivo il
campione dovrebbe essere estratto casualmente, seguendo le leggi della probabilità.
3. Cosa sono i parametri e le stime?
I parametri sono valori numerici che descrivono una caratteristica della popolazione, ad esempio la
media del peso corporeo della popolazione. Per definizione i parametri sono univoci ma generalmente
ignoti. La statistica ha proprio lo scopo di stimare questi parametri. Le stime sono invece valori
calcolati sul campione che descrivono le caratteristiche del campione stesso. A di?erenza dei
parametri, le stime possono variare al variare del campione considerato. Inoltre, maggiore è la
numerosità del campione, maggiore è la probabilità che le stime siano rappresentative del parametro
reale della popolazione.
4. Cos’è una variabile statistica?
Una variabile statistica è una caratteristica di interesse della popolazione. Il suo valore nella
popolazione è rappresentato da un parametro che generalmente non è noto, ma può essere stimato
attraverso i dati raccolti nel campione. Le variabili possono essere qualitative oppure quantitative. Le
variabili qualitative possono essere nominali, quando le modalità non hanno un ordine, come nel caso
del sesso o della residenza, oppure ordinali, quando le modalità hanno un ordine logico, come nel
caso del titolo di studio o del livello di reddito. Queste variabili si esprimono attraverso modalità, cioè
categorie rappresentate da sostantivi o aggettivi. Le variabili quantitative invece si distinguono in
discrete e continue. Le variabili discrete derivano da un processo di conteggio e assumono valori
interi, come il numero di pasti al giorno o la frequenza settimanale di consumo di pesce. Le variabili
continue derivano invece da un processo di misurazione e possono assumere qualsiasi valore
all’interno di un intervallo, come il peso corporeo, il BMI o le calorie giornaliere.
2. Strumenti di sintesi descrittiva
1. Che cos’è la frequenza?
La frequenza è il numero di volte in cui i soggetti assumono una determinata modalità o un
determinato valore di una variabile. Ad esempio, una frequenza pari a 21 per la modalità “donne”
indica che nel campione sono presenti 21 individui che appartengono alla categoria donne.
2. Cosa sono le distribuzioni di frequenza?
Le tabelle si chiamano anche distribuzioni di frequenza perché indicano come i soggetti si
distribuiscono tra le diverse modalità o valori di una variabile. Possono riferirsi a una sola variabile, nel
caso di distribuzioni univariate, oppure a più variabili, nel caso di distribuzioni multivariate.
3. Cosa sono le frequenze assolute e relative?
Le frequenze assolute sono numeri che derivano da un processo di conteggio e indicano quanti
soggetti assumono una determinata modalità o un determinato valore della variabile. Le frequenze
relative sono invece proporzioni, cioè il rapporto tra la frequenza assoluta e il numero totale dei
soggetti osservati. La somma delle frequenze relative è pari a 1, oppure al 100% se espresse in
percentuale. Le frequenze relative sono particolarmente utili perché permettono di confrontare gruppi
con numerosità diverse.
4. Che cosa sono le classi?
Le classi sono intervalli che raggruppano più valori di una variabile, in modo da semplificare la
rappresentazione dei dati. All’interno di una classe possono essere presenti valori diversi che però
vengono considerati su?icientemente omogenei. Un esempio sono le classi di età, di peso o di
altezza. Il valore centrale della classe si ottiene facendo la media tra l’estremo inferiore e l’estremo
superiore della classe e rappresenta il valore rappresentativo della classe stessa.
5. Cosa sono le tabelle a doppia entrata?
Le tabelle a doppia entrata permettono di analizzare contemporaneamente due variabili. Le
distribuzioni marginali mostrano come i soggetti si distribuiscono nelle modalità di una variabile
indipendentemente dall’altra. Le distribuzioni condizionali interne, invece, descrivono come si
distribuisce una variabile all’interno delle modalità dell’altra variabile.
3. Misure di statistica descrittiva
1. Cosa sono gli indici di posizione?
Gli indici di posizione sono misure statistiche che riassumono i dati indicando un valore centrale della
distribuzione. I principali indici di posizione sono la media, la moda e la mediana. La media è un
indicatore di sintesi e di compensazione ed è utile soprattutto quando i gruppi sono omogenei. La
moda è il valore che compare con maggiore frequenza nella distribuzione, cioè quello associato alla
frequenza più alta. La mediana è il valore centrale della distribuzione ordinata e divide i dati in due
parti uguali.
2. Cosa sono gli indici di dispersione?
Gli indici di dispersione descrivono la variabilità dei dati attorno al valore centrale. In altre parole
indicano quanto i valori osservati si allontanano dal valore medio della distribuzione.
3. Cos’è l’intervallo di variazione?
L’intervallo di variazione, detto anche range, indica la di?erenza tra il valore massimo e il valore
minimo osservati per una variabile.
4. Cos’è l’intervallo interquartile?
L’intervallo interquartile è la di?erenza tra il terzo quartile, cioè il settantacinquesimo percentile, e il
primo quartile, cioè il venticinquesimo percentile. Questo intervallo contiene il 50% centrale della
distribuzione.
5. Cos’è la varianza?
La varianza è la media dei quadrati degli scarti tra ciascun valore osservato della variabile e la media
della distribuzione. Per la popolazione la varianza si ottiene dividendo per il numero totale di
osservazioni, mentre per il campione si divide per n meno uno. La varianza misura quindi la variabilità
media dei dati rispetto alla media.
6. Cos’è la deviazione standard?
La deviazione standard è la radice quadrata della varianza. È un indice di dispersione che indica
quanto i valori dei dati sono distribuiti attorno alla media. Il suo valore aumenta all’aumentare della
dispersione dei dati.
7. Cos’è il coeCiciente di variazione?
Il coe?iciente di variazione è dato dal rapporto tra deviazione standard e media. È un numero puro,
cioè privo di unità di misura, e permette di confrontare la variabilità di fenomeni diversi tra loro, anche
quando hanno unità di misura o ordini di grandezza di?erenti.
8. Cos’è l’ogiva di Galton?
L’ogiva di Galton è la rappresentazione grafica delle frequenze cumulate. Mostra come le frequenze si
accumulano progressivamente dal valore minimo al valore massimo della variabile. La forma della
curva permette di intuire la velocità con cui avviene il cumulo delle frequenze e quindi se la
distribuzione dei dati è più concentrata o più dispersa.
9. Cosa sono i quantili?
I quantili sono valori che dividono la distribuzione in parti uguali in modo che ogni parte contenga lo
stesso numero di osservazioni. Ad esempio i quartili dividono la distribuzione in quattro parti uguali,
ciascuna contenente il 25% delle osservazioni. Per ottenere quattro quartili sono necessari tre punti di
taglio. Il primo quartile corrisponde al venticinquesimo percentile, il secondo quartile al
cinquantesimo percentile e coincide con la mediana, mentre il terzo quartile corrisponde al
settantacinquesimo percentile. Le frequenze cumulate ai quartili sono quindi pari al 25%, al 50% e al
75%.
10. Cos’è un box plot?
Il box plot è una rappresentazione grafica della distribuzione dei dati che permette di visualizzare sia
gli indici di posizione sia quelli di dispersione. Il rettangolo centrale è delimitato dal primo e dal terzo
quartile e contiene il 50% della distribuzione. All’interno del rettangolo è presente una linea che
rappresenta la mediana. La posizione della mediana all’interno della scatola permette di capire se la
distribuzione è simmetrica oppure asimmetrica. Dal rettangolo partono due segmenti, detti ba?i, che
possono arrivare fino al valore minimo e massimo oppure fino a valori pari a una volta e mezza
l’intervallo interquartile. I valori che si trovano oltre una distanza pari a 1,5 volte l’intervallo
interquartile vengono definiti valori anomali o outlier.
4. Accuratezza e precisione
1. Che cos’è l’accuratezza?
L’accuratezza è il livello di concordanza tra le misure osservate e il valore vero del parametro. Essa
permette di stimare l’errore sistematico, cioè quanto la media delle diverse misurazioni si discosta dal
valore vero. In termini statistici si confronta la media delle misure, indicata con μ, con il valore vero del
parametro, indicato con θ. Nella pratica il valore vero non è generalmente conoscibile e per questo si
utilizzano metodi o strumenti di riferimento chiamati gold standard. Una bassa accuratezza indica che
la media delle misurazioni è lontana dal valore vero e quindi tende a sovrastimarlo o sottostimarlo.
Un’alta accuratezza, invece, indica che la media delle misurazioni è molto vicina oppure coincide con
il valore vero del parametro.
2. Cos’è la precisione?
La precisione è il livello di concordanza tra le misure tra loro e rappresenta una stima dell’errore
casuale. Indica quindi quanto le varie misure ottenute sono simili oppure diverse tra loro, cioè quanto
fluttuano attorno alla media μ. Una bassa precisione indica una grande dispersione dei valori misurati,
mentre un’alta precisione indica che i valori sono molto concentrati attorno alla media. La precisione
è spesso definita anche come ripetibilità o riproducibilità delle misure.
5. Associazione tra due variabili quantitative
1. Qual è la diCerenza tra associazione e correlazione?
Il termine associazione indica in generale la presenza di una relazione tra due variabili e descrive come
una variabile si comporta al variare dell’altra. L’associa
-
Epidemiologia Nutrizionale e Statistica Medica (Ferraroni)
-
Epidemiologia nutrizionale e statistica medica, materiale per esame orale - 2024
-
Epidemiologia nutrizionale e statistica medica, parte 3: esercizi
-
Tesina di Epidemiologia nutrizionale e statistica medica