STATISTICA MEDICA 02-03-17
(lezione 1)
Attività di ricerca:
ipotesi di ricerca --> deve essere molto precisa, non un’idea generale; è importante in un’associazione sapere
- uso sale)
anche quale sia la causa e quale l’effetto (es: ↑PA,
test di ipotesi
- evidenza empirica
- disegni di ricerca
-
Si parte da un’idea/osservazione per vedere se l’associazione che è stata notata regge (es: psoriasi e stress). La ricerca può
influenzare lo stile di vita; un esempio è il Tromso heart study. Il Tromso heart study è uno studio iniziato nel 1980 su una
popolazione di oltre 15.000 persone (7213 donne e 7368 uomini) con un’età compresa tra i 20-54 anni, il cui scopo
era di verificare quali fossero i principali fattori di rischio delle malattie cardiovascolari e le condizioni di base che
determinavano un aumento di questi fattori di rischio. Da questo studio è risultato che l’assunzione di grandi quantità di caffè
aumentava la quantità di colesterolo sierico. In generale gli studi in questo ambito hanno sempre dimostrato l’esistenza
di una stretta correlazione tra i livelli di colesterolo nel sangue e l’assunzione di grassi (in particolare grassi animali); il
Tromso heart study sconvolge questa convinzione, soprattutto perché il caffè non è dotato di grassi, se non di grassi
vegetali(ma in piccole quantità). In seguito altri studi sul caffè hanno confermato questa tesi: è stato fatto anche uno
studio inverso che ha dimostrato che una riduzione del consumo di caffè provoca una riduzione dei livelli di
colesterolo nel sangue. Alla fine degli anni ‘90, si è scoperto che lo studio era stato condotto in maniera sbagliata in
quanto a Tromso (piccola cittadina della Norvegia), e nel circolo polare artico il caffè veniva assunto con la panna
(responsabile dell’aumento dei livelli di colesterolo.
Metodi di statistica medica:
estrarre dalla popolazione un campione significativo (campionamento)
- trarre dal campione una serie di informazioni (rilevazione dei dati)
- descrivere le informazioni rilevate sul campione (statistica descrittiva)
- approssimare la distribuzione che le informazioni potrebbero assumere nella popolazione dio riferimento (curve di
- distribuzione)
generalizzare sulla base delle stime effettuare sul campione quanto accade sulla popolazione da cui il campione è
- stato estratto (statistica inferenziale)
Popolazione e campione
(le lettere greche indicano un dato di popolazione le lettere latine un dato di campione)
- o popolazione
Popolazione obiettivo target
* Finita --> es: anomalie di comportamento (droghe, alcool) dei giovani delle scuole superiori dell’ASL Bo nord ai fini di
effettuare un programma di educazione sanitaria nelle scuole
* Infinita --> es: valutare l’efficacia di un trattamento di disintossicazione dallòa tossicodipendenza in giovani adolescenti
La popolazione obiettivo è quella su cui mi interessa agire (es: persone con psoriasi); se esiste correlazione tra i sue
elementi che ipotizzavo associati, torno alla popolazione obiettivo e agisco ad es suggerendo una dieta povera di sale.
(o base di campionamento)
Popolazione campionata
-
Nella selezione del campione fare attenzione all’errore o bias di selezione
- Tipi di campionamenti:
1) probabilistici
Casuale
• Casuale semplice
• Per ogni popolazione campionata, posso fare tanti campioni della stessa tagli (numerosità); il campione casuale
semplice è un campione estratto casualmente tra tutti i campioni casuali della stessa taglia --> no bias di selezione
Sistematico
• Ordino in un certo modo la popolazione campione (es: alfabetico) ed estraggo un soggetto ogni 5
Stratificato
• Pongo dei limiti (es: solo maschi tra i 20 e i 40 anni) e poi estraggo il campione. Popolazione campionata e
popolazione obiettivo devono essere omogenee, anche dal punto di vista della provenienza geografica,
dell’alimentazione… (il risultato dello studio sarà applicabile a uomini tra i 20 e i 40 anni con caratteristiche simili a
quelle della popolazione campionata)
A grappolo
• Simile allo stratificato ma soprattutto per studi ambientali (es: medicina del lavoro, tossicità aziende --> prima si fa
estrazione all’interno delle aziende in modo che tutte siano rappresentate)
2) non probabilistici 1
A quote
• La popolazione viene divisa in strati sulla base di alcune variabili di struttura della popolazione (es: età, sesso,
professione), come nel campionamento stratificato. L'intervistatore sceglie arbitrariamente le unità da intervistare
purché queste rientrino in uno degli strati considerati.
A valanga
• Es: invito amici (non è un campione rappresentativo)
A scelta ragionata
• le unità sono scelte tra quelle che si ritiene siamo più connesse al fenomeno oggetto di studio
Accidentale
•
La Statistica Medica si divide in due branche:
Statistica descrittiva: raccolta organizzazione, sintesi e analisi dei dati
- Statistica inferenziale: raggiungere delle decisioni su un vasto set di dati (popolazione) esaminandone solo una
- piccola parte (campione)
STATISTICA DESCRITTIVA
Tipi di variabili:
Quantitative
- Le misure fatte su queste variabili danno informazioni sulla loro grandezza (variabili continue o discrete)
Qualitative
- Le misure fatte sulle variabili qualitative danno informazioni riguardanti l’attributo (hanno una legenda)
Tipologie di variabili e scale di misura (livello di precisione crescente):
-->qualitativa: solo categorie, i cui dati non possono essere disposti in alcun ordine (nessuna
Scala nominale
- relazione matematica tra le categorie)
--> qualitativa: le categorie sono ordinate, ma non possono essere calcolate le differenze tra loro
Scala ordinale
- (relazione di ordine, ad es crescente). Un esempio è la scala di NY per lo scompenso cardiaco (1=lieve, 4=grave):
definisco una differenza ma non riesco a quantificarla.
--> quantitativa: senza uno zero assoluto; sulla scala non è presente un valore 0 corrispondente
Scala di intervalli
- a una quantità nulla, come ad esempio nelle scale Celsius o Farenheit, il cui valore 0 non corrisponde ad una
quantità nulla --> Quantitativa: presenza di uno zero assoluto (es: temperatura Kelvin)
Scala di rapporti
- Scala numerica
- * --> Quantitativa: conteggi
discreta
* --> Quantitativa: variabile che può essere misurata, forniscono info sulla loro grandezza
continua
Analisi esplorativa dei dati:
1) Distribuzione: rappresentazione grafica
2) Centro: un valore rappresentativo medio
3) Variazione: una misura di quanto i dati siano dispersi al loro interno
4) Valori estremi o outlier: valori che si discostano dalla maggioranza dei dati
Metodi di statistica descrittiva: Variabili Qualitative
Rappresentazioni grafiche
-
Istogrammi
Torte
Mappatura
Tabelle di frequenza
-
Frequenza assoluta (FA)
Numero di casi che presentano una certa
caratteristica; non si usa perché non ha
significato (dipende dalla taglia del campione)
Frequenza relativa (FR)
Numero di casi che presentano una certa
caratteristica diviso per l’effettivo
Frequenza cumulativa
Somma della frequenza (assoluta o relativa) di
ogni modalità alle modalità precedenti; molto
utile con variabili qualitative in scala ordinale
Frequenza valida (F%)
Numero di casi che presentano una certa
caratteristica diviso per l’effettivo e rapportato a
100 2
Tavole di contingenza
- Le tabelle di contingenza sono un particolare
tipo di tabelle a doppia entrata (cioè tabelle
con etichette di riga e di colonna), utilizzate
in statistica per rappresentare e analizzare le
relazioni tra due o più variabili. In esse si
riportano le frequenze congiunte delle
variabili.
Frequenze assolute
Frequenza relative al totale di riga
Frequenze relative al totale di colonna
Frequenza relative al totale di generale
A seconda di come calcolo le percentuali, cambia
l’aspetto e il risultato.
Metodi di statistica descrittiva: Variabili Quantitative
rappresentazioni grafiche
-
Istogrammi
Torte
Mappatura
Indicatori di posizione
-
Media
Mediana
Moda
Media pesata
Quintili
Indicatori di dispersione
-
Scarto semplice
Deviazione standard
Varianza
Coefficiente di variazione
Intervallo interquartile
Errore standard
Organizzazione delle variabili in scala numerica continua:
Per una variabile in scala numerica continua, la rappresentazione grafica è più difficile; bisogna cercare di raggruppare i dati,
creando intervalli della variabile nel campione. Importante conoscere valore minimo e massimo del campione, calcolare il
numero e l’ampiezza delle classi. n)
Numero delle classi --> regola di Sturges k=1+3,322*(log 10
Ampiezza delle classi w=R/k
Le misure di tendenza centrale
Gli indicatori di tendenza centrale utilizzabili per le misure in scala numerica continua sono:
Media aritmetica
- Risente molto dei valori estremi, soprattutto se il valore è piccolo
Mediana
- La mediana è quel valore che divide l’insieme in due parti uguali (indicatore centrale di posizione; si trova al centro
dell’insieme di dati messi in ordine crescente). Non risente degli estremi. Se il numero delle osservazioni è dispari, è
data dal valore che si trova al centro della lista. (n+1)/2; se il numero delle osservazioni è pari abbiamo due valori al
centro della lista e si considera la loro media come mediana (può quindi non appartenere al campione, come anche
la media). Media e mediana sono UNICHE.
Moda
- Quel valore che si verifica più frequentemente; non è unica (insiemi bimodali, trimodali…). Se tutti i valori sono
diversi non c’è la moda; un insieme di dati può avere più mode.
Media pesata
- I dati posseggono diversi dati di importanza
e, in alcuni casi, può essere necessario
tener conto di questo fatto. In ambito clinico
è d’uso frequente (es: eziopatogenesi
multifattoriale); meno usata in statistica
Relazione tra media, moda e mediana 3
a) quando media e mediana precedono (sono a sinistra) la moda; valori
Asimmetrica a sinistra o asimmetria negativa:
bassi nella coda
b) Quando coincidono, il parametro è distribuito nella popolazione
simmetricamente
c) quando media e mediana seguono (sono a destra) la moda; valori alti
Asimmetrica a destra o asimmetria positiva:
nella coda
Alcuni test statistici non permettono di paragonare parametri con asimmetria diversa.
La misure di variabilità o dispersione
(variabilità attorno alla media; es: PA --> media 125; vedo come si distribuiscono tutte le PA, se sono lontane la media non
rappresenta nessuno; il valore centrale deve essere associato ad un valore di dispersione)
Gli indicatori di dispersione per misure in scala numerica continua sono:
Intervallo di variazione (o range)
- Il campo di variazione di una distribuzione è la differenza tra il valore massimo e minimo rilevati
L’intervallo rappresenta il valore minimo e il valore massimo
L’utilità è limitata; tiene conto solo di 2 valori nell’insieme di dati, non permette di capire come sono distribuiti i dati
Scarto semplice
- Scarto di ogni valore rispetto alla media; si possono calcolare lo scarto della popolazione e del campione
Varianza
- è la somma di tutti gli scarti al quadrato (in modo che i valori positivi e negativi non si annullino tra loro)
Nel campione, la varianza è divisa per (n-1), che rappresenta i gradi
di libertà del campione --> I gradi di libertà esprimono il numero
minimo di dati sufficienti a valutare la quantità d'informazione
contenuta nella statistica. Infatti, quando un dato non è indipendente,
l'informazione che esso fornisce è già contenuta implicitamente negli
altri. (Es:se ho 4 calzini e 4 cassetti, ognuno dei quali può contenere un solo calzino, l’ultimo calzino avrà una sola
possibilità; i gradi di libertà rappresentano quindi il numero di valori che sono liberi di variare quando si calcola un
test statistico)
Deviazione standard
- è la radice quadrata della varianza, ed è un indice di dispersione della media. Si fa la radice quadrata perché, per
essere confrontabile, la misura di variabilità deve avere la stessa unità di misura dei dati)
Coefficiente di variazione
- Permette di confrontare misure di fenomeni riferite a unità di misura differenti, in quanto si tratta di un numero
adimensionale; è il rapporto tra la deviazione standard di un determinato campione e la sua media aritmetica in
valore assoluto. Ad esempio, la deviazione standard di un campione di redditi espressi in Lire è completamente diversa
della deviazione standard degli stessi redditi espressi in Euro, mentre il coefficiente di dispersione è lo stesso in entrambi i
casi.
Es: Distribuzione a campana o normale o di Gauss Il valore centrale è la media; i dati si distribuiscono
simmetricamente a destra e a sinistra.
Il coefficiente di variazione (CV) è un indice di
dispersione che serve per confrontare la dispersione di
due insiemi di dati con unità di misura diverse (es:
altezza e peso). La CV si utilizza anche per la stessa
variabile ma in situazioni diverse (es: altezze di bambini
e adulti).
La deviazione standard (DS) è invece utile per indicare la
dispersione in un solo insieme di dati.
Misure di posizione
Gli indicatori di posizione riguardano la mediana e ciò che le sta attorno:
Quartili e percentili
- I percentili dividono i dati ordinati in 100 gruppi, comprendenti ciascuno l’1% dei valori, che vengono indicati con P ,
1
4
P , …, P Si usano sui grandi
2 99.
numeri (es: crescita dei
bambini). Il cinquantesimo
percentile è la mediana.
I quartili dividono i dati ordinati
in 4 parti uguali, comprendenti
ciascuna il 25% dei valori
Q separa il 25% inferiore dei dati
• 1
dal 75% superiore dei dati (il 25%
dei dati è minore o uguale a Q )
1
Q separa il 50% inferiore dei dati
• 2
dal 50% superiore (mediana)
Q separa il 75% inferiore dei dati
• 3
dal 25% superiore
Intervallo o range interquartile
- (IQR) e Q --> valori
Differenza tra Q 3 1
attorno alla mediana.
L’outlier è un valore estremo che
dobbiamo analizzare per capire se è un
errore o un dato reale. Può avere una
notevole influenza su:
media
- deviazione standard
- grafitazione --> per
- l’istogramma bisogna scegliere
una scala che contenga tutti i
valori, per cui se un valore è molto alto o molto basso gli altri risulteranno schiacciati
Il è una rappresentazione grafica utilizzata per descrivere la distribuzione di un campione tramite semplici indici di
boxplot
dispersione e di posizione. Il rettangolo (la "scatola") è delimitato dal primo e dal terzo quartile, e diviso al suo interno dalla
mediana, Q . I segmenti (i "baffi") sono delimitati dal minimo e dal massimo dei valori. Evidenzia l’eventuale presenza di
2
outlier, e dovrebbe essere fatto all’inizio di uno studio.
I dati con deviazione standard molto alta sono dati dispersi, non rappresentativi del
campione.
Il valore atteso è il valore che potremmo aspettarci di rilevare in una situazione di normalità;
è un valore a cui fare riferimento, ma non è detto corrisponda a verità.
Es: Se al I anno i fumatori sono il 30%, quale sarà il valore atteso di fumatori iscritti al II
anno su un totale di 200 iscritti?
Bisogna conoscere la popolazione obiettivo (che ha definito la popolazione campionata che ha definito il campione) per
valutare (es: numero maschi/femmine)
Questionario di autovalutazione:
1) Qual è la differenza tra quesiti di ricerca e ipotesi di ricerca?
A) i quesiti di ricerca sono più precisi delle ipotesi
B) i quesiti di ricerca sono più vaghi delle ipotesi
C) i quesiti di ricerca sono uguali alle ipotesi
D) nessuna delle precedenti
2) Quali sono i benefici del conoscere i risultati di ricerche precedenti nell'area di interesse?
A) si può vedere come altri hanno affrontato i problemi simili
B) si può vedere come altri ricercatori hanno suggerito di andare avanti con la ricerca
C) permette di evitare la conduzione di ricerca inutili
D) tutte le precedenti
3) Che cosa si intende per evidence-based practice?
A) il disegno di uno studio
B) un test di ipotesi
C) i cambiamenti che scaturiscono a seguito di una ricerca
D) nessuna delle precedenti
4) In una distribuzione asimmetrica positiva la media e la mediana si trovano:
A) a sinistra della moda 5
B) a destra della moda
C) è indifferente la loro posizione rispetto alla moda
D) nessuna delle precedenti
5) In un box plot la lunghezza della scatola rappresenta:
A) varianza
B) campo di variazione
C) scarto interquartile
D) deviazione standard
6) Volendo riportare le frequenze dei punteggi campionari, quale dei seguenti grafici si dovrebbe usare?
A) box plot
B) grafico a linee
C) istogramma
D) nessuna delle precedenti
7) Quali delle seguenti variabili può essere definita come quantitativa discreta?
A) la glicemia
B) il peso
C) età
D) numero di posti letto di un ospedale
8) Data la seguente distribuzione: 10, 3,8, 10, 10, 8, 7, 2,1, il valore 8 è:
A) la media
B) la moda
C) la mediana
D) la varianza
9) Un ricercatore ha misurato la pressione a 70 pazienti reclutati per uno studio. Volendo presentare le 70 misure ai
suoi collaboratori in modo adeguatamente sintetico, quali indicatori avrà utilizzato per poter f
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Appunti di Statistica medica
-
Statistica Medica - Appunti
-
Appunti del corso di Statistica medica
-
Appunti di Statistica medica, 3