Epidemiologia nutrizionale e statistica medica, parte 1

Name: Epidemiologia nutrizionale e statistica medica, parte 1
Brand: Skuola.net
Rating: 5 (1 reviews)

Aggiornato il 16/11/2022

di panseralaila

Publisher

Vota 5,0/5 (1)

Contenuto originale e autentico, validato dal Team di Esperti di Skuola.net

Appunti di epidemiologia nutrizionale e statistica medica, parte 1, che comprende: - Introduzione- Statistica - Distribuzione gaussiana- Teorema del limite centrale- Studi osservazionali - Studi …

Esame Epidemiologia nutrizionale e statistica medica

Facoltà Interfacoltà

Dal corso del Prof. Ferraroni Monica

Università Università degli Studi di Milano

A.A. 2018-2019

87 pagine

3 download

Appunto

Scarica

Estratto del documento

TABELLE

Le tabelle dicono quante persone stanno in quella modalità (distribuzione di frequenza).

DISTRIBUZIONE DI FREQUENZA

La frequenza assoluta è il numero di volte, la frequenza relativa è quante volte sul totale si è verifica

quella modalità, e si esprime in percentuale. Essa ci consente di fare confronti in maniera immediata

tra le modalità che ho a disposizione. Es. le modalità del gruppo sanguigno di 100 soggetti sono 0,

A, B e AB. Di queste 100 persone, posso contare quante di esse hanno ciascuna modalità, quindi 47

su 100 hanno la modalità 0, etc.

Es. ho la lunghezza supina di 60 neonati (variabile quantitativa continua). Posso fare media, moda,

mediana, valore massimo e minimo, deviazione standard. I dati non sono ordinati.

Costruisco delle classi e conto quanti ce ne sono in ogni classe. In ogni classe ho messo dei valori

che mi fanno avere un valore centrale comodo. Calcolo per ogni classe la frequenza, la frequenza

relativa (%), e poi la frequenza relativa cumulata, che si ottiene sommando le frequenze precedenti

con quella della riga che considero. La frequenza relativa cumulata mi dice come si comporta il

fenomeno man mano che si sommano le frequenze. Per tutte le variabili posso calcolare la frequenza

assoluta, relativa e cumulata.

Es. in questa immagine descrivo un insieme di soggetti, in base al sesso, al gruppo di età e al livello

di educazione. Divido i pazienti in base alla loro patologia (cancro al colon, cancro al retto e

controllo). Si tratta di uno studio caso-controllo, e in questo tipo di studio deve esserci un

appaiamento tra controlli e casi, ossia ci devono essere delle caratteristiche in comune, es. per ogni

maschio caso prendo un maschio controllo, oppure per ogni caso di un’età prendo un controllo della

stessa età. In questo caso è importante fare le frequenze relative, e posso scegliere se farle di riga o

di colonna. Come scelgo? Occorre avere buon senso.

In questo caso faccio le percentuali di colonna, per poter confrontare le righe es. se prendo i

→

controlli, il 58.7% sono maschi e il 41.3% femmine, che sommati fanno 100%, quindi sto facendo le

percentuali di colonna 58.7% = 1189 / (1189+835) in percentuale. La stessa cosa vale per l’età, es.

→

i controlli sotto i 40 anni sono il 13.1%, valore che confronto con 4.4% e 4.3%, e deduco che è difficile

trovare un caso sotto i 40 anni. Guardando la zona education, vediamo che gran parte dei soggetti

malati ha meno di 7 anni di educazione (non ha finito le scuole medie); considerando gli anni dello

studio (1985 fine studio), queste persone avevano più di 40 anni, quindi c’è una certa corrispondenza

tra età e scolarizzazione, e la si deduce guardando la quantità di persone malate.

TABELLE A DOPPIA ENTRATA

Nelle tabelle a una entrata vedo una variabile alla volta. Es. le tabelle seguenti sono a una entrata e

rappresentano rispettivamente il fumo (fumatore, non fumatore, ex fumatore) e la presenza o

assenza di BPCO (patologia bronco-cronico-ostruttiva). Dalle 2 tabelle si vede che tale patologia è

presente nell’11% dei casi, e la maggior parte dei soggetti del campione sono non fumatori.

Voglio vedere se c’è una relazione tra le 2 caratteristiche, quindi le metto in una tabella a doppia

entrata, o di contingenza. In una tabella a 2 vie ho rappresentate 3 distribuzioni di frequenza, 2

marginali e una congiunta. La distribuzione congiunta è una nuova distribuzione che mette insieme

le variabili precedentemente descritte (ossia come le 2 caratteristiche si presentano insieme nello

stesso paziente), e ha tante variabilità quanto è il prodotto delle variabili di riga per quelle di colonna

(in questo caso 6 celle 2 colonne x 3 righe). Quindi posso vedere i soggetti che in contemporanea

→

non fumano e hanno la malattia, oppure quelli che non fumano e non sono malati, etc. Le somme

delle righe e delle colonne sono le distribuzioni marginali, rispettivamente di riga e di colonna. La

distribuzione marginale è quello che succede una volta che sono bloccato in una certa riga (quindi

es. riga non fumatore), senza considerare l’assenza o la presenza della malattia sommo i non

→

fumatori, e non mi interessa se hanno o no la BPCO. La stessa cosa posso farla sulla colonna. A destra

in basso o il totale di tutto, ossia tutte le persone che sono presenti nella tabella, ossia la dimensione

campionaria.

Nella tabella ci sono alcuni vincoli, es. il totale della prima riga deve suddividersi negli elementi della

prima riga la somma dei non fumatori sani e malati deve darmi il totale, etc. Se quindi ho delle

→

missing information il soggetto non può essere rappresentato. Infatti può succedere che la somma

dei soggetti divisi in una certa categoria non corrisponda al totale dei soggetti in studio (missing

information).

Tornando alla tabella, i soggetti non si distribuiscono in modo uguale all’interno della congiunta,

perché ci sono diverse relazioni tra le quantità delle variabili. Siccome ho molti più sani che malati,

avrò più persone nella colonna dei sani distribuiti tra i fumatori, non fumatori ed ex, e così vale anche

per il fumo. Posso dire che il fumo non incida sulla malattia? No, perché da un lato ne ho metà,

dall’altro ne ho molti meno. Devo utilizzare le distribuzioni condizionali.

DISTRIBUZIONI CONDIZIONALI

Le distribuzioni condizionali rappresentano la distribuzione di una variabile all’interno delle

modalità dell’altra variabile. È la percentuale di riga o di colonna. Se le distribuzioni condizionali sono

differenti, si può supporre che esista una relazione tra le 2 variabili.

Si possono fare distribuzioni percentuali di riga o di colonna. In quelle di riga posso confrontare le

colonne tra di loro.

Es. distribuzione condizionale di riga valuto la distribuzione della BPCO su un livello di fumo,

→

quindi fisso la riga, ossia il livello di fumo, e quindi la somma della riga mi darà il 100% dei soggetti

di quella riga (annullo i totali di riga). Es. 9042 / 9667 = 93.5%, quindi la probabilità di essere sano

tra i non fumatori è il 93.5%, mentre di essere malati è il 6.5%. Se il fumo non avesse nessuna

incidenza sulla malattia, mi aspetterei di avere una proporzione uguale tra fumatori e non fumatori.

Invece non è così. © Laila Pansera -14

Posso costruire anche le percentuali di colonna, vedendo come la gente fuma tra le categorie di

malattia. In questo caso annullo le colonne e confronto le righe. In questo caso vedo che la

proporzione tra fumatori, non ed ex fumatori non è mantenuta nelle categorie di malattia ho molti

→

più fumatori tra i malati, e più non fumatori tra i sani.

Con questo sistema posso fare analisi preliminari di più variabili. Se avessi 3 variabili farei una tabella

a 3 vie, etc. In generale oltre la 3 vie non si fa questa analisi, ma si usano specifici modelli statistici.

08.10.18

GRAFICI

Sulle tabelle occorre sapere la distribuzione semplice e quella congiunta. A volte dobbiamo usare dei

GRAFICI, che sono molto usati, perché danno l’idea che sia semplice veicolare l’informazione. Questo

non è del tutto vero, in quanto l’uso dei grafici, a meno che non si tratti di situazioni particolari,

consente con facilità di truffare (tirando il grafico per lungo o per largo).

I 2 grafici più importanti sono:

- Diagrammi a punti

- Istogrammi o poligoni di frequenza.

L’istogramma è una rappresentazione grafica per variabili quantitative continue rappresentate

sull’asse delle x, generalmente divise in classi, mentre sull’asse delle y viene rappresentata la

frequenza (assoluta o relativa). La differenza tra usare frequenza assoluta o relativa è che la relativa

prescinde dalla numerosità di soggetti su cui stiamo lavorando, quindi non dice il numero di soggetti

con la frequenza relativa posso confrontare studi con gruppi a numerosità diversa.

→

Il poligono di frequenza è lo stesso meccanismo di distribuzione, in cui congiungo i punti mediani

di ogni canna d’organo dell’istogramma, con una spezzata. La spezzata si fa partire da terra e arrivare

a terra, inventandosi una finta classe precedente e una finta classe successiva. Una canna d’organo

può mancare, perché si tratta di una variabile continua. Il poligono di frequenza viene utilizzato molto

quando devo confrontare diversi studi, es. lunghezza bambini in 3 diverse località (una linea per ogni

studio).

Le classi hanno una regola generale: la variabile relativa ai soggetti nella stessa classe deve essere

omogenea (non significa uguale), ossia rispetto allo studio che sto facendo mi dicono la stessa cosa.

Le classi possono essere uguali o diverse, a seconda della natura della variabile, è meglio avere classi

di uguale ampiezza, ma ci possono essere casi in cui le classi non possono essere di uguale ampiezza

(es. anni di istruzione degli es. precedenti, in cui accorpo in 7 anni di istruzione = non hanno finito le

medie). © Laila Pansera -16

Es. tratto da una rivista scientifica: sono stati pubblicati i primi risultati del registro italiano della fibrosi

cistica (malattia genetica cronica). Alla fine degli anni ’80 lo stato ha emanato un decreto, che ha

istituito un registro dei soggetti fibrotici, in quanto questa malattia è molto costosa, ed è a carico

dello stato quindi tutti i soggetti sono registrati, lo stato finanzia cure e trattamenti, ma vuole

→

sapere i progressi. Ad oggi la fibrosi cistica viene diagnosticata con il test del tallone (screening

neonatale obbligatorio), mentre prima la diagnosi era fatta dal medico. I dati del grafico sono dal

1988 al 2000, e mostrano la distribuzione per età. Ho le percentuali sull’asse x e le età sull’asse y.

Non avere persone oltre il 34 anni significa che i soggetti sono morti. Il 75% dei bambini nell’88 aveva

meno di 14 anni (45% nella classe 0-4, 25% nella classe 5-9 e poco meno del 25% nella classe 10-

14). Il resto (25%) si suddivide per le altre classi di età. A 15 anni ho un calo della frequenza, perché

il periodo dello sviluppo è critico per il fibrotico, in quanto è difficile gestire la parte ormonale →

elevata mortalità. Quasi nessuno arriva a 34 anni nell’88 nessun fibrotico cistico con malattia

→

conclamata sposato con figli.

Quando entro in questo registro non posso uscire (a meno che non vado all’estero).

Nel 2000 quelli che sono nati nell’88 hanno 10-14 anni o 15-19 anni, quindi da più del 25% sono

passati a meno del 20%, gli altri sono morti. L’andamento è diverso, ed è cambiato qualco

Anteprima

Vedrai una selezione di 10 pagine su 87