VARIABILITÀ STATISTICA
Statistica = scienza che studia fenomeni collettivi soggetti
a variabilità
Biostatistica = disciplina che si occupa dell’osservazione
viluppo e dell’applicazione dei metodi statistici per lo
studio delle problematiche legate alla salute
Variabilità
= variabilità di un fenomeno è l’attitudine di
questo a manifestarsi in diversi modi, cioè con
diverse modalità
• obiettivo dei metodi statistici e comprendere
andamento di fenomeno tenendo conto degli
effetti di questa variabilità
• variabilita strumentale => variabilità può
essere legata a procedura di misurazione, a
operatore o a strumentazione
• può riguardare rilevazioni riferite a soggetti o
ripetizione di una misura su uno stesso
soggetto
• variabilità biologica = variabilità propria di un fenomeno
• tanti fattori differenziano i soggetti in studio
• c’è una variabilità anche in uno stesso individuo dovuta a tempo o altri fattori emozionali,
metabolici…
Accuratezza e precisione
• accuratezza = capacità di misurare fenomeno in
modo corretto controllando variabilità
strumentale. l’errore introdotto da una misura
errore sistematico
poco accurata è (rilevabile e
correggibile)
• precisione = capacità di contenere la variabilità
biologia studiando fenomeno in un contesto più
omogeneo. errore introdotto da imprecisione è
errore casuale (quantificabile ma non eliminabile)
Terminologia
Variabili = caratteristiche delle unità statistiche che possono assumere una pluralità di modalità al
variare dell’unità su cui sono rilevate
• indicate con lettere maiuscole tra le ultime X, Y, Z
Dati = valori numerici o modalità categoriche assunti dalle variabili
• indicati con lettere minuscole e differenziati con un indice che distingue le diverse unità fra loro
x, y…
Popolazione = totalità degli elementi che hanno certe caratteristiche
• raramente si studiano tutte le singole unità di una popolazione perché (esame di un numero
ridotto consente di tratte conclusioni su popolazione superando seguenti problemi) :
- popolazione può essere molto grande e lo studio lungo e costoso
- unità presentano variabilità ridotta o assente
- non tutte unità sono disponibili
Campione = sottoinsieme opportunamente estratto dall’intera popolazione (con campionamento)
dal quale si possono ricavare, con margini di errore contenuti, le caratteristiche dell’intera
popolazione
• deve riprodurre caratteristiche della popolazione soprattutto per gli aspetti (le variabili) ritenuti
rilevanti ai fini della ricerca
• caratteristiche campione sono tanto più simili a quelle della popolazione quanto maggiore la sua
numerosità
Errore di selezione / bias di selezione = errore sistematico che deriva
dal fatto che il campione non è rappresentativo della popolazione
(dovrebbe rappresentare immagine in scala ridotta della popolazione)
Campionamento
= processo di estrazione di un sottoinsieme rappresentativo di unità statistiche da una
popolazione di interesse più ampia.
Studio di un numero limitato di unità permette di trarre conclusioni generali su popolazione, la cui
validità dipende da corretta applicazione dei metodi di campionamento
Campionamento casuale / random sampling => per avere campionamento corretto : se
campione selezionato in modo casuale e intuitivo supporre che sia rappresentativo della
popolazione di interesse
metodi di campionamento:
a) Campionamento casuale semplice
= estraendo una certa quota di unità da popolazione in
modo casuale
- schema di campionamento in cui ogni possibile
sottoinsieme di una dimensione stabilita ha la stessa
possibilità di essere estratto da popolazione
- casualità ottenuta con sistema sorteggio randomizzato
di campionamento)
di unità a partire da elenco (base in
cui presenti tutte le unità della popolazione
b) Campionamento sistematico
= unità che costituiscono campioni estratte da popolazione a
di campionamento)
intervalli regolari (passo
- più pratico rispetto a casuale semplice
- assicura che singole unità del campione siano distribuite
uniformemente all’interno della popolazione
- occorre verificare che passo di campionamento garantisca
casualità e non sia influenzato da fattori esterni
c) Campionamento stratificato
= per studiare un carattere che, presumibilmente o
notoriamente, può essere influenzato da un certo fattore
presente nella popolazione
- popolazione suddivisa in categorie (strati) definite su
base del fattore influenzante e all’interno di ogni strato si
estrae un campione randomizzato
- campione ottenuto rappresenta meglio popolazione d a
cui è stato estratto
- la ridotta numerosità degli strati può rendere poco
attendibili stime riferite agli stessi
d) Campionamento a grappolo / cluster)
= popolazione divisa in gruppi (grappoli ciascuno
dei quali è una rappresentazione della popolazione e si
estraggono i grappoli
- tutte unità possono far parte del campione oppure solo
a due stadi)
parte (campionamento
- rispetto a altri metodi, facilità reclutamento diminuendo
costi e tempi indagine
- errore può essere più elevato
ERRORE CASUALE
• anche senza errore di selezione si può ottenere campione non rappresentativo
• tecniche dell’inferenza permettono di quantificare potenziale errore introdotto da
campionamento casuale
• c’è relazione tra errore sistematico, errore casuale e numerosità campionaria :
- errore casuale e sempre presente
- errore casuale diminuisce con un’adeguata numerosità campionaria
I DATI
Statistica descrittiva = comprende insieme di strumenti finalizzati a rappresentare in modo
opportuno le caratteristiche più importanti di un insieme di dati = si descrivono informazioni
contenute in campione di dati
- tecniche forniscono una sintesi dei dati raccolti su un campione e costituiscono il punto di
partenza per qualsiasi successiva analisi inferenziale relativa a tutta popolazione di interesse
Statistica inferenziale = si utilizzano tali informazioni (ottenute con statistica descrittiva) per fare
delle affermazioni più generali riguarda di la popolazione da cui campione è stato estratto
• strumenti della statistica descrittiva :
- tabelle di frequenza
- grafici
- indici statistici
Classificazione dei dati
1) CATEGORICI / QUALITATIVI
= quando unità statistiche possono essere assegnate a categorie distinte che non hanno un
valore numerico ma che esprimono una qualità (possono essere codificati con valori numerici ma
rappresentano sono etichette senza valore quantitativo)
- Dato Binario = se le categorie possibili sono due si/no , positivo/negativo
- Dato Nominale = se non esiste ordine proprio tra le categorie gruppo sanguigno, tipologia di
epatite
- Dato Ordinale = se esiste ordine proprio tra le categorie stadio del tumore
2) NUMERICI / QUANTITATIVI
= quando derivano da calcoli o misurazioni
- Dato Discreto = se rappresenta un conteggio numero ospedalizzazione
- Dato Continuo = se rappresenta misurazione espressa in una data unità di misura (in un
intervallo ci sono potenzialmente infiniti valori possibili del dato continuo, in realtà dipendono
da strumento di misura) peso in Kg, reddito annuo
RACCOLTA DATI
- su carta in maniera tradizionale
- su schede elettroniche (Electronic Case Report Forms, eCRF) per inserimento e
sincronizzazione più veloce e controllata
INSERIMENTO DATI - MATRICE DEI DATI
• inseriti in formato digitale con fogli elettronici o database
• ogni unità statistica deve essere codificata da un identificatore alfanumerico univoco e dati
trattati nel rispetto normative privacy
• dati generalmente inseriti in tabella che contiene una riga per unità statistica e una colonna per
variabile
• in alcuni studi una stessa variabile potrebbe essere rilevata a tempi diversi su stessa unità
note per l’inserimento :
- nomi devono iniziare con una lettera e essere preferibilmente brevi, alfanumerici, senza spazi
- colori non sono informazioni utilizzabili
- ogni variabile ha formato preciso (testo, h
- numero, data) : è meglio evitare valori tipo <20, 20+, 20%
- attenzione a lettere maiuscole / minuscole
- non inserire righe / colonne vuote
Dizionario dei dati : quando si lavora con insieme di dati complessi è utile descrivere in modo
dettagliato i campi del dataset in documento a parte che per ciascuna variabile contenga
- nome
- ruolo (nell’analisi)
- etichetta
- eventuale unità di misura
- tipo di variabile
- valori permessi e/o range
- definizione variabile se calcolata ad altre
- indo supplementari e note
Dati mancanti : nella matrice possono esserci dati mancanti assenza info viene codificata in
modo un omo ricorrendo a codici facilmente riconoscibili
Controllo dati :
- in presenza valori anomali è opportuno controllare dati originali
- risposte diverse devono avere codifiche distinte
- inserimento dati non deve mai comportare alcuna perdita di info
- utilizzo database diminuisce probabilità errore
TABELLE E GRAFICI
Sintesi dei dati : come rappresentarli in modo sintetico rispetto alla matrice
• strumenti più opportuni per sintetizzare insieme dati sono legati al tipo di dato da descrivere
Tabelle di frequenza
= rappresenta in modo ordinato le modalità che una variabile può assumere e frequenza con cui
tali modalità compaiono nei dati (distribuzione di frequenza)
• per ogni modalità nella tabella sono riportati i conteggi (frequenze assolute), frequenze relative o
percentuali ed eventualmente cumulate
FREQUENZE
- assoluta (ni) = numero di volte (conteggio) con cui si presenta una certa modalità della
variabile in N osservazioni
- relativa (fi) = proporzione con cui si presenta certa modalità della variabile rispetto al totale N
delle osservazioni
- relativa percentuale (fi%) = frequenza relativa a 100 osservazioni
Tabelle per dati categorici
Confronto delle frequenze : per confrontare distribuzioni di frequenza relative a campioni di
diversa numerosità N è necessario usare frequenze relative
• importante riportare sempre anche le numerosità campionarie a cui distribuzione percentuale si
riferisce
Grafici per dati categorici
Grafico a barre = rettangoli di altezza proporzionale alla
frequenza assoluta o relativa di ciascuna modalità
Grafico a torta = settori circolari di ampiezza corrispondente
alla frequenza relativa di ciascuna modalità
Tabelle per dati numerici (discreti)
Frequenze comulate (assolute o percentuali) = frequenza con cui si presentano le modalità
inferiori ad una determinata modalità Fi = F (i-1) + ni
Fi% = F(i-1)% + fi%
• possibile calcolare le frequenze cumulate quando i dati sono almeno di tipo categorico ordinale
Tabelle per dati numerici (continui)
Grafico per dati numerici (continui)
istogramma : rappresentazione più comune e si
costruisce da distribuzione di frequenza in classi del
dato
- costituito da rettangoli adiacenti, con base uguale
all’ampiezza delle classi (forma dell’ istogramma
dipende dal numero e dalla scelta delle classi)
- se classi hanno stessa ampiezza, altezza di ciascun
rettangolo rappresenta la frequenza della classe
corrispondente alla sua base
- se classi sono di ampiezza diversa, altezza dei
rettangoli non rappresenta la frequenza (intervallo di
valori più ampio conterrà un numero maggiore di
unità rispetto a uno più stretto); altezza rappresenta
di
rapporto tra frequenza e ampiezza (densità
frequenza) e la frequenza zia di ciascuna classe sarà rappresentata dall’area del rettangolo
- se riduciamo ampiezza di classe (si dovrebbe scegliere in modo da far risaltare nel modo
migliore le proprietà e particolarità dei dati) :
- se aumentiamo la numerosita N del campione :
RISCHIO
ex “il cancro al colon colpirà circa 150 000 americani”
ma su quanti????
Contestualizzazione del rischio : quante persone potrebbero ammalarsi ? (popolazione a rischio
= riferito alla popolazione che rischia di ammalarsi se si parla invece di tumore alla cervice la
popolazione a rischio saranno solo le donne)
• manca un dato per capire bene il dato
• spesso utilizzato per attirare attenzione
• definire bene a chi si riferisce il rischio (età, sesso, fumatori o non)
Anche il metodo di espressione del dato e importante (notazione) 150.000 su 300 milioni (numero
di americani) e più difficilmente comprensibile rispetto a 5 su 10.000
è importante anche definire il tempo in cui si potrebbe verificare (di solito 10 anni)
• l’arco di tempo e arbitrario ma non dev’essere né troppo lungo né troppo corto la malattia colpirà
150.000 persone in 10 anni o in 10 mesi?
Si deve anche valutare il tipo di rischio si parla del rischio di contrarre la malattia o del rischio di
morire della malattia ?
Misure di rischio
DATI BINARI
• esprimono solo due possibili valori qualitativi a cui di solito sono generalmente assegnate
etichette numeriche 1 e 0
• può essere descritto utilizzando un rapporto che nella maggioranza dei casi è definito come :
- proporzione (o frequenza, rischio, probabilità) = tipo di rapporto in cui il numeratore è incluso
nel denominatore
- tasso / rate = rapporto in cui esiste stretta correlazione tra numeratore e denominatore e una
misura temporale fa parte intrinseca nel denominatore
Descrizione dati binari :
RISCHIO DI MALATTIA
• calcolo della frequenza della malattia (intesa come variabile binaria) permette di quantificare
rischio di ammalarsi e confrontare tale rischio tra popolazioni diverse
• quantificare frequenza di una malattia con un conteggio è semplice e molto utile per alcuni
propositi
• però una misura confrontabile della frequenza di una malattia deve tenere in considerazione non
sono numero assoluto soggetti affetti ma anche dimensione della popolazione di riferimento e
eventualmente lunghezza intervalli di tempo a cui la rilevazione si riferisce semplice conteggio
casi malattia e poco utile per quantificare rischio di malattia
PREVALENZA
Prevalenza (di una malattia) = proporzione di soggetti in una popolazione che rappresentano tale
malattia in un momento specifico
prevalenza = numero casi malattia in uno specifico momento / popolazione totale
• numero casi presenti in popolazione in determinato momento dipende da frequenza con un i
nuovi casi si generano e sono identificati e anche dalla durata media della malattia
• potrebbe variare da una popolazione all’altra solo perché ci sono variazioni nel decorso della
malattia
• sarebbe più utile quindi misurare il numero di nuovi vasi che si generano da una popolazione
STUDI TRASVERSALI E LONGITUDINALI
- studi trasversali = i soggetti vengono osservati in una sola occasione
- studi longitudinali = permettono di studiare i cambiamenti nel tempo degli individui e delle
popolazioni
INCIDENZA CUMULATIVA
Incidenza cumulativa (IC) = differisce da prevalenza in quanto si riferisce ai soli nuovi casi di una
malattia che si sviluppano in una popolazione in uno specifico intervallo di tempo = è la proporzione
di una popolazione inizialmente libera da malattia che si ammala in un certo intervallo di tempo
IC = n. nuovi casi nell’intervallo di tempo / popolazione tot a rischio all’inizio dell’intervallo
di t
Coorte di 5000 donne di età 45-75 e stata identificata all’inizio del 1981 e seguita per 5 anni.
Durante il periodo di t sono stati diagnosticati 20 casi di tumore alla mammella. Rischio di
sviluppare tumore mamme ma in questa popolazione è 20/5000 = 0.4% (IC a 5 anni)
• denominatore dovrebbe rappresentare popolazione a rischio da cui potrebbero derivare i casi di
malattia
• popolazione può essere definita con varie modalità
• non sempre possibile condurre studi in cui identificare e eliminare dal denominatore chi non è
suscettibile alla malattia
• in questi casi si può approssimare denominatore con la numerosità media della popolazione nel
periodo, numerosità della popolazione a metà periodo o popolazione all’inizio del periodo
• stima dell’IC comprende definizione di un tempo di riferimento che dev’essere specificato
• IC pubblicate in due studi possono essere confrontate tra loro solo se il tempo di riferimento è lo
stesso
• nel calcolo IC si assume che l’intera popolazione a rischio venga seguita durante periodo di
tempo considerato
• spesso partecipanti di uno studio vengono persi di vista durante l’osservazione e calcolo IC non
tiene conto di questi
• alcuni soggetti inoltre entrano nello studio dopo che è iniziato
• IC non tiene conto di quando evento insorge
• fornisce info su numero di eventi di interesse che si sono verificati in certo intervallo di tempo ma
non include nessuna info sul momento preciso dell’intervallo in cui eventi sono accaduti
Di 20 soggetti con dolore a ginocchio moderatamente grave da osteoartrite, un gruppo di 10 riceve
farmaco A, un altro B. Entrambi gruppi sono seguiti per 10 ore, ogni ora si chiede loro se dolore e
sostanzialmente diminuito (eventi binario : si/no).
4 soggetti in ciascun gruppo non hanno avuto sollievo durante 10h
Farmaco A : 6 pazienti sollievo in 1-3 ore
Farmaco B : 6 pazienti sollievo dopo 7-9 ore
IC dell’evento soll
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Biostatistica - Appunti
-
Appunti Elementi di biostatistica
-
Appunti di R-Biostatistica
-
Appunti Economia