Estratto del documento

DOMANDE E RISPOSTE EPIDEMIOLOGIA NUTRIZIONALE E STATISTICA MEDICA

1. Campione, popolazione, stime e parametri

1. Cosa sono i criteri di inclusione ed esclusione?

I criteri di inclusione descrivono le caratteristiche della popolazione target e permettono di

selezionare individui con caratteristiche simili, in modo da poter fare inferenza dei risultati dal

campione alla popolazione di riferimento. I criteri di esclusione, invece, restringono ulteriormente le

caratteristiche dei partecipanti e rendono più selettivo l’ingresso nel campione. Servono anche ad

evitare l’arruolamento di soggetti che potrebbero compromettere la qualità dei dati oppure che

potrebbero essere esposti a rischi, come ad esempio persone molto anziane o con patologie gravi. In

generale, maggiore è il numero dei criteri di esclusione, più di?icile diventa generalizzare i risultati alla

popolazione. Nel complesso, questi criteri rendono i soggetti del campione più simili tra loro.

2. Che cos’è il campione?

Il campione è un sottogruppo della popolazione target. È importante che sia rappresentativo della

popolazione e che venga selezionato indipendentemente dal fenomeno di studio. Per questo motivo il

campione dovrebbe essere estratto casualmente, seguendo le leggi della probabilità.

3. Cosa sono i parametri e le stime?

I parametri sono valori numerici che descrivono una caratteristica della popolazione, ad esempio la

media del peso corporeo della popolazione. Per definizione i parametri sono univoci ma generalmente

ignoti. La statistica ha proprio lo scopo di stimare questi parametri. Le stime sono invece valori

calcolati sul campione che descrivono le caratteristiche del campione stesso. A di?erenza dei

parametri, le stime possono variare al variare del campione considerato. Inoltre, maggiore è la

numerosità del campione, maggiore è la probabilità che le stime siano rappresentative del parametro

reale della popolazione.

4. Cos’è una variabile statistica?

Una variabile statistica è una caratteristica di interesse della popolazione. Il suo valore nella

popolazione è rappresentato da un parametro che generalmente non è noto, ma può essere stimato

attraverso i dati raccolti nel campione. Le variabili possono essere qualitative oppure quantitative. Le

variabili qualitative possono essere nominali, quando le modalità non hanno un ordine, come nel caso

del sesso o della residenza, oppure ordinali, quando le modalità hanno un ordine logico, come nel

caso del titolo di studio o del livello di reddito. Queste variabili si esprimono attraverso modalità, cioè

categorie rappresentate da sostantivi o aggettivi. Le variabili quantitative invece si distinguono in

discrete e continue. Le variabili discrete derivano da un processo di conteggio e assumono valori

interi, come il numero di pasti al giorno o la frequenza settimanale di consumo di pesce. Le variabili

continue derivano invece da un processo di misurazione e possono assumere qualsiasi valore

all’interno di un intervallo, come il peso corporeo, il BMI o le calorie giornaliere.

2. Strumenti di sintesi descrittiva

1. Che cos’è la frequenza?

La frequenza è il numero di volte in cui i soggetti assumono una determinata modalità o un

determinato valore di una variabile. Ad esempio, una frequenza pari a 21 per la modalità “donne”

indica che nel campione sono presenti 21 individui che appartengono alla categoria donne.

2. Cosa sono le distribuzioni di frequenza?

Le tabelle si chiamano anche distribuzioni di frequenza perché indicano come i soggetti si

distribuiscono tra le diverse modalità o valori di una variabile. Possono riferirsi a una sola variabile, nel

caso di distribuzioni univariate, oppure a più variabili, nel caso di distribuzioni multivariate.

3. Cosa sono le frequenze assolute e relative?

Le frequenze assolute sono numeri che derivano da un processo di conteggio e indicano quanti

soggetti assumono una determinata modalità o un determinato valore della variabile. Le frequenze

relative sono invece proporzioni, cioè il rapporto tra la frequenza assoluta e il numero totale dei

soggetti osservati. La somma delle frequenze relative è pari a 1, oppure al 100% se espresse in

percentuale. Le frequenze relative sono particolarmente utili perché permettono di confrontare gruppi

con numerosità diverse.

4. Che cosa sono le classi?

Le classi sono intervalli che raggruppano più valori di una variabile, in modo da semplificare la

rappresentazione dei dati. All’interno di una classe possono essere presenti valori diversi che però

vengono considerati su?icientemente omogenei. Un esempio sono le classi di età, di peso o di

altezza. Il valore centrale della classe si ottiene facendo la media tra l’estremo inferiore e l’estremo

superiore della classe e rappresenta il valore rappresentativo della classe stessa.

5. Cosa sono le tabelle a doppia entrata?

Le tabelle a doppia entrata permettono di analizzare contemporaneamente due variabili. Le

distribuzioni marginali mostrano come i soggetti si distribuiscono nelle modalità di una variabile

indipendentemente dall’altra. Le distribuzioni condizionali interne, invece, descrivono come si

distribuisce una variabile all’interno delle modalità dell’altra variabile.

3. Misure di statistica descrittiva

1. Cosa sono gli indici di posizione?

Gli indici di posizione sono misure statistiche che riassumono i dati indicando un valore centrale della

distribuzione. I principali indici di posizione sono la media, la moda e la mediana. La media è un

indicatore di sintesi e di compensazione ed è utile soprattutto quando i gruppi sono omogenei. La

moda è il valore che compare con maggiore frequenza nella distribuzione, cioè quello associato alla

frequenza più alta. La mediana è il valore centrale della distribuzione ordinata e divide i dati in due

parti uguali.

2. Cosa sono gli indici di dispersione?

Gli indici di dispersione descrivono la variabilità dei dati attorno al valore centrale. In altre parole

indicano quanto i valori osservati si allontanano dal valore medio della distribuzione.

3. Cos’è l’intervallo di variazione?

L’intervallo di variazione, detto anche range, indica la di?erenza tra il valore massimo e il valore

minimo osservati per una variabile.

4. Cos’è l’intervallo interquartile?

L’intervallo interquartile è la di?erenza tra il terzo quartile, cioè il settantacinquesimo percentile, e il

primo quartile, cioè il venticinquesimo percentile. Questo intervallo contiene il 50% centrale della

distribuzione.

5. Cos’è la varianza?

La varianza è la media dei quadrati degli scarti tra ciascun valore osservato della variabile e la media

della distribuzione. Per la popolazione la varianza si ottiene dividendo per il numero totale di

osservazioni, mentre per il campione si divide per n meno uno. La varianza misura quindi la variabilità

media dei dati rispetto alla media.

6. Cos’è la deviazione standard?

La deviazione standard è la radice quadrata della varianza. È un indice di dispersione che indica

quanto i valori dei dati sono distribuiti attorno alla media. Il suo valore aumenta all’aumentare della

dispersione dei dati.

7. Cos’è il coeCiciente di variazione?

Il coe?iciente di variazione è dato dal rapporto tra deviazione standard e media. È un numero puro,

cioè privo di unità di misura, e permette di confrontare la variabilità di fenomeni diversi tra loro, anche

quando hanno unità di misura o ordini di grandezza di?erenti.

8. Cos’è l’ogiva di Galton?

L’ogiva di Galton è la rappresentazione grafica delle frequenze cumulate. Mostra come le frequenze si

accumulano progressivamente dal valore minimo al valore massimo della variabile. La forma della

curva permette di intuire la velocità con cui avviene il cumulo delle frequenze e quindi se la

distribuzione dei dati è più concentrata o più dispersa.

9. Cosa sono i quantili?

I quantili sono valori che dividono la distribuzione in parti uguali in modo che ogni parte contenga lo

stesso numero di osservazioni. Ad esempio i quartili dividono la distribuzione in quattro parti uguali,

ciascuna contenente il 25% delle osservazioni. Per ottenere quattro quartili sono necessari tre punti di

taglio. Il primo quartile corrisponde al venticinquesimo percentile, il secondo quartile al

cinquantesimo percentile e coincide con la mediana, mentre il terzo quartile corrisponde al

settantacinquesimo percentile. Le frequenze cumulate ai quartili sono quindi pari al 25%, al 50% e al

75%.

10. Cos’è un box plot?

Il box plot è una rappresentazione grafica della distribuzione dei dati che permette di visualizzare sia

gli indici di posizione sia quelli di dispersione. Il rettangolo centrale è delimitato dal primo e dal terzo

quartile e contiene il 50% della distribuzione. All’interno del rettangolo è presente una linea che

rappresenta la mediana. La posizione della mediana all’interno della scatola permette di capire se la

distribuzione è simmetrica oppure asimmetrica. Dal rettangolo partono due segmenti, detti ba?i, che

possono arrivare fino al valore minimo e massimo oppure fino a valori pari a una volta e mezza

l’intervallo interquartile. I valori che si trovano oltre una distanza pari a 1,5 volte l’intervallo

interquartile vengono definiti valori anomali o outlier.

4. Accuratezza e precisione

1. Che cos’è l’accuratezza?

L’accuratezza è il livello di concordanza tra le misure osservate e il valore vero del parametro. Essa

permette di stimare l’errore sistematico, cioè quanto la media delle diverse misurazioni si discosta dal

valore vero. In termini statistici si confronta la media delle misure, indicata con μ, con il valore vero del

parametro, indicato con θ. Nella pratica il valore vero non è generalmente conoscibile e per questo si

utilizzano metodi o strumenti di riferimento chiamati gold standard. Una bassa accuratezza indica che

la media delle misurazioni è lontana dal valore vero e quindi tende a sovrastimarlo o sottostimarlo.

Un’alta accuratezza, invece, indica che la media delle misurazioni è molto vicina oppure coincide con

il valore vero del parametro.

2. Cos’è la precisione?

La precisione è il livello di concordanza tra le misure tra loro e rappresenta una stima dell’errore

casuale. Indica quindi quanto le varie misure ottenute sono simili oppure diverse tra loro, cioè quanto

fluttuano attorno alla media μ. Una bassa precisione indica una grande dispersione dei valori misurati,

mentre un’alta precisione indica che i valori sono molto concentrati attorno alla media. La precisione

è spesso definita anche come ripetibilità o riproducibilità delle misure.

5. Associazione tra due variabili quantitative

1. Qual è la diCerenza tra associazione e correlazione?

Il termine associazione indica in generale la presenza di una relazione tra due variabili e descrive come

una variabile si comporta al variare dell’altra. L’associa

Anteprima
Vedrai una selezione di 4 pagine su 13
Domande e risposte Epidemiologia nutrizionale e statistica medica Pag. 1 Domande e risposte Epidemiologia nutrizionale e statistica medica Pag. 2
Anteprima di 4 pagg. su 13.
Scarica il documento per vederlo tutto.
Domande e risposte Epidemiologia nutrizionale e statistica medica Pag. 6
Anteprima di 4 pagg. su 13.
Scarica il documento per vederlo tutto.
Domande e risposte Epidemiologia nutrizionale e statistica medica Pag. 11
1 su 13
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze mediche MED/01 Statistica medica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher filirodi di informazioni apprese con la frequenza delle lezioni di Epidemiologia nutrizionale e statistica medica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano o del prof Ferraroni Monica.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community