STATISTICA MEDICA
LEZIONE 1
L’oggetto della statistica sono quei fenomeni che presentano caratteri di variabilità all’interno di un
collettivo di riferimento (popolazione statistica), costruito a partire da unità statistiche o elementari.
PRIMA DOPO
Approccio AUTORITARIO CONSENSUS CONFERENCE: reso più comodo
dal web e dalla comunicazione della comunità
scientifica tramite lo scambio di dati
L’approccio statistico alla medicina permette di abbattere il paradigma storico nella formazione e
nella pratica medica, basato sull’ipse dixit e sulla voce delle autorità del settore: il ricorso ad un nuovo
paradigma, EBM (evidence based medicine), affida l’indagine medica ad osservazioni sistematiche ed
una metodologia di ricerca controllata e riproducile.
AMBITI DELLA STATISTICA:
Proprio a causa della variabilità con cui ci dobbiamo confrontare quotidianamente è nata la statistica:
essa consente di descrivere il soggetto medio, il soggetto tipo, per valutarne le sue caratteristiche e
quanto esso disti dai vari campioni a nostra disposizione.
Per lo studio dei dati la statistica si avvale di varie branche affini:
ha a che fare con la presentazione,
statistica descrittiva l’organizzazione e la sintesi dei dati
presenta le distribuzioni teoriche sia per misure
statistica matematica discrete sia per misure continue, allo scopo di
illustrarne le caratteristiche fondamentali, le
relazioni che esistono tra esse, gli usi possibili,
che permettono di “collegare” la statistica
“descrittiva” e quella “inferenziale
viene usata per quantificare la probabilità che
statistica inferenziale una deduzione basata sull’analisi dei dati raccolti
per un campione sia vera e quanto sia proiettabile
sulla popolazione generale.
La statistica è quindi un insieme di tecniche volte allo studio dei dati ottenuti da:
-OSSERVAZIONE: nella quale lo statistico osserva cosa accade;
-SPERIMENTAZIONE: nella quale lo statistico, basandosi sulla teoria, propone delle spiegazioni in
una veste formale di tipo matematico, trasformandole poi in ipotesi adatte all’esame statistico.
Si definisce “variabile” ciò che viene osservato o misurato.
I dati ci interessano per il loro contenuto informativo, e possiamo trarli da differenti fonti:
1. Indagini apposite;
2. Documentazione amministrativa;
3. Cartelle cliniche.
La qualità dei dati statistici dipende:
• dalla possibilità che essi offrono di soddisfare le esigenze informative;
• dal processo di produzione, ossia dalle modalità con cui essi sono stati ottenuti.
1. Rilevanza (o pertinenza), valuta se questi soddisfano le esigenze conoscitive (attuali e future) degli
utenti;
2. Accuratezza (delle stime), riguarda la vicinanza tra valori stimati nelle indagini e valori veri (ma
sconosciuti) della popolazione;
3. Tempestività (puntualità / regolarità), è l'intervallo di tempo che intercorre tra il momento della
diffusione dell‘informazione prodotta e l'epoca di riferimento della stessa;
4. Accessibilità, richiama la semplicità di reperire e acquisire l'informazione disponibile;
5. Confrontabilità, la possibilità di confrontare nel tempo e nello spazio le statistiche riguardanti il
fenomeno di interesse;
6. Coerenza, implica relazioni chiare e semplici tra corpi di dati;
7. Completezza
8. Imparzialità, l’informazione è prodotta secondo un disegno oggettivo e che segue rigorosi canoni
scientifici;
9. Regolarità, riguarda la diffusione dei dati ed indica la frequenza con cui l'indagine è ripetuta ed i
dati sono resi disponibili;
10. Chiarezza, la possibilità di ottenere assistenza nell'utilizzo ed interpretazione dei dati.
Il “nemico” da gestire nel momento in cui si fa ricorso alla statistica è ’ . Ogni
L ERRORE CASUALE
misura basata su un campione di soggetti, anche se sono estratti a caso dalla popolazione che ci
interessa, differirà dal valore vero “di una certa quantità” (dovuta ad una serie di processi casuali,
prima ancora che metodologici).
-Perché non si misura direttamente la popolazione, invece di ricorrere all’artificio di analizzare un
campione per dedurre le caratteristiche della popolazione?
Valutare tutta la popolazione è sostanzialmente impossibile (se non illogico: si immagini, ad esempio,
di valutare l’altezza media mondiale).
L’errore sistematico risulta, ai fini statistici, più controllabile rispetto a quello casuale, in quanto si
ripete con costanza e può essere (più o meno facilmente) eliso, mentre l’errore causale è a noi
sconosciuto.
La statistica inferenziale si propone, tra le altre cose, di contrastare l’errore causale, quantificandone
gli effetti e permettendo allo statistico di controllarlo.
Il primo passo da affrontare per operare statisticamente è saper estrarre correttamente un campione
valido, che rispetti i criteri statistici e che riduca al minimo l’errore casuale.
Il campione descrive gli individui sotto osservazione nello studio, mentre la popolazione descrive
gli ipotetici (e di solito) infiniti soggetti sui quali si vuole generalizzare ciò che si è misurato dal
campione.
Non posso parlare di campione se non ho chiarito qual è la popolazione di riferimento:
1° step: definire la popolazione 2° step: definire il campione da estrarre
Il campione a sua volta deve soddisfare alcuni requisiti fondamentali:
-deve essere rappresentativo, cioè contenere le caratteristiche essenziali dell’universo dal quale è stato
estratto;
-deve essere sufficientemente numeroso da ridurre al minimo l’errore di campionamento.
MODALITA’ DI ESTRAZIONE DI UN CAMPIONE
L’estrazione di un campione può essere portata avanti attraverso tecniche diverse, tra le quali spiccano
l’estrazione sistematica , l’estrazione stratificata , l’estrazione a più stadi (cluster sample) o
l’estrazione casuale.
CAMPIONAMENTO SISTEMATICO
Le unità statistiche che costituiranno il campione sono estratte dall’universo ad intervalli regolari:
questo rappresenta un metodo pratico e veloce, ma bisogna essere certi che l’intervallo scelto non sia
influenzato da qualche variabile esterna che agisce con la stessa ciclicità del campionamento.
CAMPIONAMENTO STRATIFICATO
Si suddivide la popolazione in un certo numero di strati (o sottopopolazioni) secondo la variabile
ausiliaria. Da ogni strato viene poi estratto un certo numero di unità in modo che, ad esempio, il
campione presenti la stessa proporzione di soggetti con un certo valore della variabile ausiliaria che c’è
nella popolazione. Ciò contribuisce a migliorare la precisione delle stime.
CAMPIONAMENTO A PIU’ STADI (Cluster Sample)
È molto simile al campionamento stratificato, ma si costruiscono prima sottoinsiemi della popolazione
e, in seguito, a partire dai sottoinsiemi realizzati, si opera un campionamento stratificato. Tuttavia, per
quanti parametri io possa stratificare, ci saranno sempre infinite possibilità di stratificazione, che non
riusciremo a gestire (es. assetto genetico ecc.)
CAMPIONAMENTO CASUALE
La caratteristica principale di questa tecnica di campionamento è che ogni unità ha una probabilità di
essere campionata identica alla altre: nello specifico, il campionamento casuale si effettua
utilizzando una generazione di numeri casuali mediante routine informatiche. Il campione, tuttavia,
deve essere sufficientemente esteso per ridurre al minimo l’errore di campionamento. Attraverso il
corretto utilizzo di un campionamento casuale, le possibilità che la generalizzazione sia valida
aumentano sensibilmente.
Tuttavia, ci si ritroverà spesso nella situazione di voler affermare che qualcosa che abbiamo fatto al
nostro campione (un test farmacologico, ad esempio) ha effettivamente funzionato.
Va ricordato che, prendendo un campione di soggetti, dividendolo casualmente in due gruppi e
somministrando ad un gruppo “un quid” e all’altro un placebo, la probabilità di osservare una
differenza qualsiasi in favore del trattamento è pari al 50%. Tuttavia, man mano che la differenza che ci
interessa diventa più grande, allora la probabilità che questa sia solo il frutto di una combinazione
casuale diventa viva via più remota. Per tali motivi, in statistica, si ricorre alla dizione “p<0.001”, per
indicare che si può affermare con fiducia che la probabilità che una differenza di una entità pari a
̀
questa o più grande sia emersa per caso e inferiore a 0.001, cioè meno dello 0.1%.
̀ ̀
La Statistica Inferenziale mira a calcolare le probabilità che una differenza sia apparsa soltanto per
caso. Ma come si può stimare, senza conoscere il valore reale, quanto il valore che abbiamo sia
distante da esso?
Per stimare quanto distante si trovi il nostro campione rispetto al valore reale va considerata la distanza
di ogni singolo valore dalla media (deviazione standard) e la grandezza del campione.
Se si trova una variazione relativamente piccola è verosimile che la media del campione sia
abbastanza vicina al valore vero.
Se abbiamo un campione molto grande, indipendentemente dalle variazioni, tutte le differenze nei
singoli valori tenderanno a cancellarsi da sole e la nostra stima si avvicinerà al valore vero.
Per ridurre la confusione tra i vari dati matematici (quelli riferiti al campione e quelli r