Appunti completi di Biostatistica - teoria

Name: Appunti completi di Biostatistica - teoria
Brand: Skuola.net
Availability: InStock
Author: aryyy18

Aggiornato il 29/01/2026

di aryyy18

Publisher

Vota

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti completi di Biostatistica teorica di Biotecnologie I anno, con alcuni esempi e modalità di calcolo. argomenti: variabilità statistica, dati, tabelle e grafici, rischio, …

Esame Biostatistica

Facoltà Medicina e chirurgia

Dal corso del Prof. Nodari Claudia

Università Università degli Studi di Brescia

A.A. 2024-2025

67 pagine

Appunti esame

Scarica

Estratto del documento

VARIABILITÀ STATISTICA

Statistica = scienza che studia fenomeni collettivi soggetti

a variabilità

Biostatistica = disciplina che si occupa dell’osservazione

viluppo e dell’applicazione dei metodi statistici per lo

studio delle problematiche legate alla salute

Variabilità

= variabilità di un fenomeno è l’attitudine di

questo a manifestarsi in diversi modi, cioè con

diverse modalità

• obiettivo dei metodi statistici e comprendere

andamento di fenomeno tenendo conto degli

eﬀetti di questa variabilità

• variabilita strumentale => variabilità può

essere legata a procedura di misurazione, a

operatore o a strumentazione

• può riguardare rilevazioni riferite a soggetti o

ripetizione di una misura su uno stesso

soggetto

• variabilità biologica = variabilità propria di un fenomeno

• tanti fattori diﬀerenziano i soggetti in studio

• c’è una variabilità anche in uno stesso individuo dovuta a tempo o altri fattori emozionali,

metabolici…

Accuratezza e precisione

• accuratezza = capacità di misurare fenomeno in

modo corretto controllando variabilità

strumentale. l’errore introdotto da una misura

errore sistematico

poco accurata è (rilevabile e

correggibile)

• precisione = capacità di contenere la variabilità

biologia studiando fenomeno in un contesto più

omogeneo. errore introdotto da imprecisione è

errore casuale (quantificabile ma non eliminabile)

Terminologia

Variabili = caratteristiche delle unità statistiche che possono assumere una pluralità di modalità al

variare dell’unità su cui sono rilevate

• indicate con lettere maiuscole tra le ultime X, Y, Z

Dati = valori numerici o modalità categoriche assunti dalle variabili

• indicati con lettere minuscole e diﬀerenziati con un indice che distingue le diverse unità fra loro

x, y…

Popolazione = totalità degli elementi che hanno certe caratteristiche

• raramente si studiano tutte le singole unità di una popolazione perché (esame di un numero

ridotto consente di tratte conclusioni su popolazione superando seguenti problemi) :

- popolazione può essere molto grande e lo studio lungo e costoso

- unità presentano variabilità ridotta o assente

- non tutte unità sono disponibili

Campione = sottoinsieme opportunamente estratto dall’intera popolazione (con campionamento)

dal quale si possono ricavare, con margini di errore contenuti, le caratteristiche dell’intera

popolazione

• deve riprodurre caratteristiche della popolazione soprattutto per gli aspetti (le variabili) ritenuti

rilevanti ai fini della ricerca

• caratteristiche campione sono tanto più simili a quelle della popolazione quanto maggiore la sua

numerosità

Errore di selezione / bias di selezione = errore sistematico che deriva

dal fatto che il campione non è rappresentativo della popolazione

(dovrebbe rappresentare immagine in scala ridotta della popolazione)

Campionamento

= processo di estrazione di un sottoinsieme rappresentativo di unità statistiche da una

popolazione di interesse più ampia.

Studio di un numero limitato di unità permette di trarre conclusioni generali su popolazione, la cui

validità dipende da corretta applicazione dei metodi di campionamento

Campionamento casuale / random sampling => per avere campionamento corretto : se

campione selezionato in modo casuale e intuitivo supporre che sia rappresentativo della

popolazione di interesse

metodi di campionamento:

a) Campionamento casuale semplice

= estraendo una certa quota di unità da popolazione in

modo casuale

- schema di campionamento in cui ogni possibile

sottoinsieme di una dimensione stabilita ha la stessa

possibilità di essere estratto da popolazione

- casualità ottenuta con sistema sorteggio randomizzato

di campionamento)

di unità a partire da elenco (base in

cui presenti tutte le unità della popolazione

b) Campionamento sistematico

= unità che costituiscono campioni estratte da popolazione a

di campionamento)

intervalli regolari (passo

- più pratico rispetto a casuale semplice

- assicura che singole unità del campione siano distribuite

uniformemente all’interno della popolazione

- occorre verificare che passo di campionamento garantisca

casualità e non sia influenzato da fattori esterni

c) Campionamento stratificato

= per studiare un carattere che, presumibilmente o

notoriamente, può essere influenzato da un certo fattore

presente nella popolazione

- popolazione suddivisa in categorie (strati) definite su

base del fattore influenzante e all’interno di ogni strato si

estrae un campione randomizzato

- campione ottenuto rappresenta meglio popolazione d a

cui è stato estratto

- la ridotta numerosità degli strati può rendere poco

attendibili stime riferite agli stessi

d) Campionamento a grappolo / cluster)

= popolazione divisa in gruppi (grappoli ciascuno

dei quali è una rappresentazione della popolazione e si

estraggono i grappoli

- tutte unità possono far parte del campione oppure solo

a due stadi)

parte (campionamento

- rispetto a altri metodi, facilità reclutamento diminuendo

costi e tempi indagine

- errore può essere più elevato

ERRORE CASUALE

• anche senza errore di selezione si può ottenere campione non rappresentativo

• tecniche dell’inferenza permettono di quantificare potenziale errore introdotto da

campionamento casuale

• c’è relazione tra errore sistematico, errore casuale e numerosità campionaria :

- errore casuale e sempre presente

- errore casuale diminuisce con un’adeguata numerosità campionaria

I DATI

Statistica descrittiva = comprende insieme di strumenti finalizzati a rappresentare in modo

opportuno le caratteristiche più importanti di un insieme di dati = si descrivono informazioni

contenute in campione di dati

- tecniche forniscono una sintesi dei dati raccolti su un campione e costituiscono il punto di

partenza per qualsiasi successiva analisi inferenziale relativa a tutta popolazione di interesse

Statistica inferenziale = si utilizzano tali informazioni (ottenute con statistica descrittiva) per fare

delle aﬀermazioni più generali riguarda di la popolazione da cui campione è stato estratto

• strumenti della statistica descrittiva :

- tabelle di frequenza

- grafici

- indici statistici

Classificazione dei dati

1) CATEGORICI / QUALITATIVI

= quando unità statistiche possono essere assegnate a categorie distinte che non hanno un

valore numerico ma che esprimono una qualità (possono essere codificati con valori numerici ma

rappresentano sono etichette senza valore quantitativo)

- Dato Binario = se le categorie possibili sono due si/no , positivo/negativo

- Dato Nominale = se non esiste ordine proprio tra le categorie gruppo sanguigno, tipologia di

epatite

- Dato Ordinale = se esiste ordine proprio tra le categorie stadio del tumore

2) NUMERICI / QUANTITATIVI

= quando derivano da calcoli o misurazioni

- Dato Discreto = se rappresenta un conteggio numero ospedalizzazione

- Dato Continuo = se rappresenta misurazione espressa in una data unità di misura (in un

intervallo ci sono potenzialmente infiniti valori possibili del dato continuo, in realtà dipendono

da strumento di misura) peso in Kg, reddito annuo

RACCOLTA DATI

- su carta in maniera tradizionale

- su schede elettroniche (Electronic Case Report Forms, eCRF) per inserimento e

sincronizzazione più veloce e controllata

INSERIMENTO DATI - MATRICE DEI DATI

• inseriti in formato digitale con fogli elettronici o database

• ogni unità statistica deve essere codificata da un identificatore alfanumerico univoco e dati

trattati nel rispetto normative privacy

• dati generalmente inseriti in tabella che contiene una riga per unità statistica e una colonna per

variabile

• in alcuni studi una stessa variabile potrebbe essere rilevata a tempi diversi su stessa unità

note per l’inserimento :

- nomi devono iniziare con una lettera e essere preferibilmente brevi, alfanumerici, senza spazi

- colori non sono informazioni utilizzabili

- ogni variabile ha formato preciso (testo, h

- numero, data) : è meglio evitare valori tipo <20, 20+, 20%

- attenzione a lettere maiuscole / minuscole

- non inserire righe / colonne vuote

Dizionario dei dati : quando si lavora con insieme di dati complessi è utile descrivere in modo

dettagliato i campi del dataset in documento a parte che per ciascuna variabile contenga

- nome

- ruolo (nell’analisi)

- etichetta

- eventuale unità di misura

- tipo di variabile

- valori permessi e/o range

- definizione variabile se calcolata ad altre

- indo supplementari e note

Dati mancanti : nella matrice possono esserci dati mancanti assenza info viene codificata in

modo un omo ricorrendo a codici facilmente riconoscibili

Controllo dati :

- in presenza valori anomali è opportuno controllare dati originali

- risposte diverse devono avere codifiche distinte

- inserimento dati non deve mai comportare alcuna perdita di info

- utilizzo database diminuisce probabilità errore

TABELLE E GRAFICI

Sintesi dei dati : come rappresentarli in modo sintetico rispetto alla matrice

• strumenti più opportuni per sintetizzare insieme dati sono legati al tipo di dato da descrivere

Tabelle di frequenza

= rappresenta in modo ordinato le modalità che una variabile può assumere e frequenza con cui

tali modalità compaiono nei dati (distribuzione di frequenza)

• per ogni modalità nella tabella sono riportati i conteggi (frequenze assolute), frequenze relative o

percentuali ed eventualmente cumulate

FREQUENZE

- assoluta (ni) = numero di volte (conteggio) con cui si presenta una certa modalità della

variabile in N osservazioni

- relativa (fi) = proporzione con cui si presenta certa modalità della variabile rispetto al totale N

delle osservazioni

- relativa percentuale (fi%) = frequenza relativa a 100 osservazioni

Tabelle per dati categorici

Confronto delle frequenze : per confrontare distribuzioni di frequenza relative a campioni di

diversa numerosità N è necessario usare frequenze relative

• importante riportare sempre anche le numerosità campionarie a cui distribuzione percentuale si

riferisce

Grafici per dati categorici

Grafico a barre = rettangoli di altezza proporzionale alla

frequenza assoluta o relativa di ciascuna modalità

Grafico a torta = settori circolari di ampiezza corrispondente

alla frequenza relativa di ciascuna modalità

Tabelle per dati numerici (discreti)

Frequenze comulate (assolute o percentuali) = frequenza con cui si presentano le modalità

inferiori ad una determinata modalità Fi = F (i-1) + ni

Fi% = F(i-1)% + fi%

• possibile calcolare le frequenze cumulate quando i dati sono almeno di tipo categorico ordinale

Tabelle per dati numerici (continui)

Grafico per dati numerici (continui)

istogramma : rappresentazione più comune e si

costruisce da distribuzione di frequenza in classi del

dato

- costituito da rettangoli adiacenti, con base uguale

all’ampiezza delle classi (forma dell’ istogramma

dipende dal numero e dalla scelta delle classi)

- se classi hanno stessa ampiezza, altezza di ciascun

rettangolo rappresenta la frequenza della classe

corrispondente alla sua base

- se classi sono di ampiezza diversa, altezza dei

rettangoli non rappresenta la frequenza (intervallo di

valori più ampio conterrà un numero maggiore di

unità rispetto a uno più stretto); altezza rappresenta

rapporto tra frequenza e ampiezza (densità

frequenza) e la frequenza zia di ciascuna classe sarà rappresentata dall’area del rettangolo

- se riduciamo ampiezza di classe (si dovrebbe scegliere in modo da far risaltare nel modo

migliore le proprietà e particolarità dei dati) :

- se aumentiamo la numerosita N del campione :

RISCHIO

ex “il cancro al colon colpirà circa 150 000 americani”

ma su quanti????

Contestualizzazione del rischio : quante persone potrebbero ammalarsi ? (popolazione a rischio

= riferito alla popolazione che rischia di ammalarsi se si parla invece di tumore alla cervice la

popolazione a rischio saranno solo le donne)

• manca un dato per capire bene il dato

• spesso utilizzato per attirare attenzione

• definire bene a chi si riferisce il rischio (età, sesso, fumatori o non)

Anche il metodo di espressione del dato e importante (notazione) 150.000 su 300 milioni (numero

di americani) e più difficilmente comprensibile rispetto a 5 su 10.000

è importante anche definire il tempo in cui si potrebbe verificare (di solito 10 anni)

• l’arco di tempo e arbitrario ma non dev’essere né troppo lungo né troppo corto la malattia colpirà

150.000 persone in 10 anni o in 10 mesi?

Si deve anche valutare il tipo di rischio si parla del rischio di contrarre la malattia o del rischio di

morire della malattia ?

Misure di rischio

DATI BINARI

• esprimono solo due possibili valori qualitativi a cui di solito sono generalmente assegnate

etichette numeriche 1 e 0

• può essere descritto utilizzando un rapporto che nella maggioranza dei casi è definito come :

- proporzione (o frequenza, rischio, probabilità) = tipo di rapporto in cui il numeratore è incluso

nel denominatore

- tasso / rate = rapporto in cui esiste stretta correlazione tra numeratore e denominatore e una

misura temporale fa parte intrinseca nel denominatore

Descrizione dati binari :

RISCHIO DI MALATTIA

• calcolo della frequenza della malattia (intesa come variabile binaria) permette di quantificare

rischio di ammalarsi e confrontare tale rischio tra popolazioni diverse

• quantificare frequenza di una malattia con un conteggio è semplice e molto utile per alcuni

propositi

• però una misura confrontabile della frequenza di una malattia deve tenere in considerazione non

sono numero assoluto soggetti affetti ma anche dimensione della popolazione di riferimento e

eventualmente lunghezza intervalli di tempo a cui la rilevazione si riferisce semplice conteggio

casi malattia e poco utile per quantificare rischio di malattia

PREVALENZA

Prevalenza (di una malattia) = proporzione di soggetti in una popolazione che rappresentano tale

malattia in un momento specifico

prevalenza = numero casi malattia in uno specifico momento / popolazione totale

• numero casi presenti in popolazione in determinato momento dipende da frequenza con un i

nuovi casi si generano e sono identificati e anche dalla durata media della malattia

• potrebbe variare da una popolazione all’altra solo perché ci sono variazioni nel decorso della

malattia

• sarebbe più utile quindi misurare il numero di nuovi vasi che si generano da una popolazione

STUDI TRASVERSALI E LONGITUDINALI

- studi trasversali = i soggetti vengono osservati in una sola occasione

- studi longitudinali = permettono di studiare i cambiamenti nel tempo degli individui e delle

popolazioni

INCIDENZA CUMULATIVA

Incidenza cumulativa (IC) = differisce da prevalenza in quanto si riferisce ai soli nuovi casi di una

malattia che si sviluppano in una popolazione in uno specifico intervallo di tempo = è la proporzione

di una popolazione inizialmente libera da malattia che si ammala in un certo intervallo di tempo

IC = n. nuovi casi nell’intervallo di tempo / popolazione tot a rischio all’inizio dell’intervallo

di t

Coorte di 5000 donne di età 45-75 e stata identificata all’inizio del 1981 e seguita per 5 anni.

Durante il periodo di t sono stati diagnosticati 20 casi di tumore alla mammella. Rischio di

sviluppare tumore mamme ma in questa popolazione è 20/5000 = 0.4% (IC a 5 anni)

• denominatore dovrebbe rappresentare popolazione a rischio da cui potrebbero derivare i casi di

malattia

• popolazione può essere definita con varie modalità

• non sempre possibile condurre studi in cui identificare e eliminare dal denominatore chi non è

suscettibile alla malattia

• in questi casi si può approssimare denominatore con la numerosità media della popolazione nel

periodo, numerosità della popolazione a metà periodo o popolazione all’inizio del periodo

• stima dell’IC comprende definizione di un tempo di riferimento che dev’essere specificato

• IC pubblicate in due studi possono essere confrontate tra loro solo se il tempo di riferimento è lo

stesso

• nel calcolo IC si assume che l’intera popolazione a rischio venga seguita durante periodo di

tempo considerato

• spesso partecipanti di uno studio vengono persi di vista durante l’osservazione e calcolo IC non

tiene conto di questi

• alcuni soggetti inoltre entrano nello studio dopo che è iniziato

• IC non tiene conto di quando evento insorge

• fornisce info su numero di eventi di interesse che si sono verificati in certo intervallo di tempo ma

non include nessuna info sul momento preciso dell’intervallo in cui eventi sono accaduti

Di 20 soggetti con dolore a ginocchio moderatamente grave da osteoartrite, un gruppo di 10 riceve

farmaco A, un altro B. Entrambi gruppi sono seguiti per 10 ore, ogni ora si chiede loro se dolore e

sostanzialmente diminuito (eventi binario : si/no).

4 soggetti in ciascun gruppo non hanno avuto sollievo durante 10h

Farmaco A : 6 pazienti sollievo in 1-3 ore

Farmaco B : 6 pazienti sollievo dopo 7-9 ore

IC dell’evento soll

Anteprima

Vedrai una selezione di 15 pagine su 67