C.I. Infermieristica basata sulle prove di efficacia
Corso di statistica
Professori: Paola Di Giulio, Prof. Riccieri, Carlotta Sacerdote (carlotta.sacerdote@cpo.it)
Durata del corso: 36 ore
Libro di testo
- Statistica per discipline biomediche, 6ª edizione - The McGraw-Hill Companies, 2007
- Biostatistica - Pagano, Gauvreau - Idelson-Gnocchi, 2003
Esame
L'esame consiste nel saper affrontare un quesito scientifico: abbiamo delle ipotesi scientifiche e dobbiamo saperle valutare sotto il punto di vista quantitativo e qualitativo. È fondamentale saper valutare i risultati di lavoro scientifico che otteniamo.
Lezione 1: Lezione introduttiva
In che modo la dieta influenza le malattie?
Più carne si mangia quotidianamente e più l'incidenza di tumori al colon è alta. All'aumentare della quantità calorica assunta aumenta il rischio di tumori alla mammella. Studi di coorte sono studi dove si osservano dei soggetti reclutati per valutare tutti i loro fattori di rischio per i tumori correlati alla dieta assunta. Si nota dopo 2, 3, 10 anni di cosa si sono ammalati. Lo studio di coorte è il miglior studio e ha un costo gestionale molto elevato perché non si può fare uno studio simile reclutando un piccolo numero di persone. Una persona su 100 sviluppa un tumore al colon più o meno.
Lo Studio EPIC Europe è tra i migliori. Ha reclutato tante persone diverse in 10 Paesi europei, in Italia 6 città. Il follow-up permette di vedere se queste persone nel corso degli anni hanno avuto una malattia, se erano morte e altre informazioni. Poi sono stati fatti studi eziologici sulle malattie per vedere nel corso degli anni cosa è successo. Ha la rappresentanza europea di 10 stati e in Italia.
Problemi: guarda slide.
Quali sono i dati a livello di popolazione sul consumo di frutta e verdura e sull'ipertensione in Italia?
Lezione 2
Problema 1: Consumo di frutta e verdura
Variabile qualitativa e quantitativa.
La matrice di dati: sulle colonne abbiamo le variabili (età, sesso, ecc.) e sulle righe i soggetti (caso es. individuo). I casi possono essere individui o insiemi di individui ma anche famiglie, ricoveri ospedalieri. Ci sono caratteristiche misurabili e non, quindi daremo una variabile più descrittiva perché non c'è un numero ma M o F. Una variabile quantitativa è, ad esempio, la PAO, età; le variabili qualitative indicano la qualità.
Variabili qualitative
- Variabili qualitative ordinali: sono variabili che riguardano una categoria, ma che in qualche maniera posso mettere in ordine. Se chiedo il titolo di studio posso mettere in ordine il titolo di studio dal più grande al più piccolo: ex prima tutti i laureati, poi i diplomati, medie… quindi posso ordinare. Anche fumatori, ex fumatori e non fumatori; la gravità di un tumore con classificazione PTA: PT1, PT2, … PT4; quindi posso ordinarli in ordine di gravità ad ex. Posso elencarli ma non posso stabilire la distanza ex: non posso determinare la distanza tra scuole medie e scuole superiori, quindi non posso fare delle operazioni su di esse. Non posso determinare la distanza!
- Variabili qualitative nominali: queste invece non posso metterli in ordine, ex Maschio o femmina perché non esiste uno che è più altro dell’altro, oppure l’etnia (origine caucasoide, africana, asiatica, europea) sono delle qualità ma non possono essere in ordine.
Variabili quantitative
- VQ discrete: misuro solo numeri interi: numero di figli che ho avuto ex 1, 2, 3 figli. O sono stato ricoverato 2 volte o 5. O per le porzioni di pasta.
- VQ continua: è una misura in cui io posso avere la virgola: ex se misuro il BMI (peso/m2) da numeri con la virgola quindi Variabili qualitative continue.
Statistica descrittiva
- Grafici
- Indice di tendenza centrale: è un valore che riassume tutti i valori: quanto i miei dati sono vicini al valore riassuntivo che ho dato
- Indice di dispersione: quanto i miei dati sono vicini al riassunto che ho dato
- Tabelle: numero oggettivo
- Grafici: dati
Distribuzione di frequenza
Sulle righe le modalità che assume la variabile: Maschio o femmina, sano o malato (tutte variabili qualitative o le variabili discrete se sono limitati).
- Colonne:
- Frequenza relativa: Numero di soggetti in quella modalità. ex modalità della variabile M o F. se ho uno studio con 50 M e 50 F. nella modalità M ci sono 50 (frequenza assoluta). Si calcola: si prende la Frequenza assoluta e si divide per il totale: 50 M /100 tot= 0.5; 50F/100=0.5
- Frequenza relativa percentuale: 0.5 M *100%= 50%
- Frequenza cumulata: per la prima categoria è il numero di soggetti nella prima categoria, nella seconda categoria è il numero della prima + quelli della seconda. Quindi accumuliamo. Nell’ultima categoria avremo il totale.
| Porz (verdura) | F (frequenza) | Fr (freq relativ) | P (freq rel %) | Fc (freq cumul) | Pc (fre cum %) |
|---|---|---|---|---|---|
| 1 | 0 | 0 | 0% | 0 | 0% |
| 2 | 1 | 0.25 | 25% | 1 | 25% |
| 3 | 1 | 0.25 | 25% | 2 | 50% |
| 4 | 2 | 0.50 | 50% | 4 | 100% |
| Tot | 4 | 1 | 100% | - | - |
Classi
Categorie: se ho delle informazioni biologiche.
| Classi per grammi (verdura) | F (frequenza) | Fr (freq relativ) | P (freq rel %) | Fc (freq cumul) | Pc (fre cum %) |
|---|---|---|---|---|---|
| <200 | 1 | 0.25 | 25% | 1 | 25% |
| 201-400 | 0 | 0 | 0% | 1 | 25% |
| 401-600 | 1 | 0.25 | 25% | 2 | 50% |
| 601-800 | 2 | 0.50 | 50% | 4 | 100% |
| Tot | 4 | 1 | 100% | - | - |
Tabelle di contingenza
Quanti M e quante F mangiano le verdure. Quindi a doppia entrata.
| Ragusa | Torino | |
|---|---|---|
| X1 (maschi) | 2 | 1 |
| X2 (femmine) | 1 | 0 |
Grafici
I dati possono essere sintetizzati ed illustrati tramite l’uso di grafici. I grafici forniscono una semplice ed immediata lettura di risultati.
Tipi di grafici
- Grafico a torta: mostra la frequenza della modalità della variabile. È normalmente utilizzata per variabili nominali. Ex 70% M e 30% F.
- Diagramma a barre: meglio per quelle qualitative. è un grafico per illustrare una distribuzione di frequenza per dati nominali e ordinali. Sulle orizzontali le diverse categorie e su quelle verticali sono i soggetti e le varie altezze sono le frequenze. Ex barra maschi alta 7 e barra donna altezza 3. Le barre devono essere staccate e devono avere la stessa larghezza.
- Istogramma: è utilizzato per le variabili quantitative discrete o continue. In orizzontale abbiamo i vari soggetti con larghezza diversa perché abbiamo la continuità. e sulle Y abbiamo le frequenze assolute o relative. Se ho da 0 a 30 anni sarà più larga rx a quella da 31 a 40 anni.
Quando si costruisce un grafico bisogna ricordarsi che: deve essere leggibile.
Lezione 3
Riassunto 2 lezione più/meno.
Problema 1 II parte: Consumo di frutta e verdura in Italia
Sulle righe i soggetti o unità di analisi (gruppi, ricoveri ospedalieri). Distinzioni delle variabili qualitative sono le variabili dove abbiamo una caratteristica non misurabile quindi non numerica, quelle quantitative sono quelle numeriche che possiamo misurare, si dividono in ordinari (dare un ordine ma non possiamo dare una distanza numerica ex più grave, grave, meno grave) e nominale (etnia, tipo di patologia). Quantitative discrete (numero intero ex n. di sigarette) continua (pressione, km). Ci sono tabelle di frequenza e quelle di contingenza se voglio confrontare 2 variabili. Grafici a torta per le nominali, per le ordinarie a barre e per le quantitative l’istogramma.
Misure di tendenza centrale o di posizione
In un unico valore riassunto tutti i dati in una sola variabile: Sono:
- Moda: può essere utilizzato con qualunque tipo di variabile. La moda rappresenta la categoria della variabile, è il valore qualitativo che viene rappresentato più volte. Se ho 10 uomini e 2 donne, la moda è uomini perché è la categoria della variabile che è maggiormente presente. La moda non sempre è un solo valore (unimodale), potrei avere più moda (bimodali) anche (plurimodali). Se in una classe ci sono 50 donne e la maggior parte di loro ha 38 (misura piede) e 20 uomini in questo caso abbiamo 2 moda cioè donna e 38 quindi bimodale. Oppure potrei avere 2 mode ex che di quelle 50 donne 10 hanno 38 e 10 hanno 37, in questo caso saranno 2 le moda. Se ho ad esempio 4 ragazze che misurano di piede 38, 39, 40, 41, in questo caso non ho moda perché nessuno si presenta maggiormente rispetto agli altri.
- Mediana: è la modalità di una variabile qualitativa a cui appartiene il caso che divide a metà delle osservazioni. In questo caso non parlo delle qualitative nominali, più utilizzate nella quantitativa; si potrebbero utilizzate anche nelle variabili qualitative ordinarie. Metto in ordine questa sequenza di numeri: 3 3 2 0 4 5 7 5 metto in ordine crescente le modalità quindi: 0 2 3 3 4 5 5 7, quindi prendo il valore centrale cioè fra 3 e 4 dato che pari farò la media aritmetica dei due valori centrali cioè: 3+4/2=3,5. 3,5 sarà la nostra mediana. Se fossero dispari ex: 0 2 5 8 8 la nostra mediana sarà 5. Un altro metodo è vedere quante variabili abbiamo ad esempio un numero dispari di variabili: 15 (250, 51, 24, 356, 425, …, n15), in questo caso faremo (15+1)/2=8, prenderemo l’8avo numero contando dal più piccolo verso il più grande. Se sono pari si fa solo il totale diviso 2 quindi se sono 14 serie di numeri (250, 51, 24, 356, 425, …, n14) faremo 14/2 =7 quindi il 7° numero dal più piccolo al più grande sarà la nostra mediana.
- Media: devo sommare tutti i valori di una variabile e dividerli per il numero di essi. Posso fare la media solo per le variabili quantitative possono essere sia continue che discrete. SOMMO LA VARIABILE DI TUTTI I SOGGETTI E DIVIDO PER IL NUMERO TOTALE DEI SOGGETTI. Se voglio fare la media di variabili divisibili per classi, la media si calcola in questo modo: se ho un numero di classi uguale a k ex 4 classi come faccio? Calcolo la media di ciascuna classe, ex se una classe va da 0 a 100 la media di classe è 50 x k 0+100/2= 50, successivamente devo moltiplicare 50 per il numero di soggetti che si trovano nella classe ad esempio 10 soggetti, quindi 50*10=500.
Esempio di calcolo della media
| Classi | Frequenza assoluta | Classi * frequenza ass. |
|---|---|---|
| 0-200= media 100 | 5 | 500 |
| 201-400= 300.5 | 5 | 1502.5 |
| 401-600= 500.5 | 3 | 1501.5 |
| 601-800= 700.5 | 2 | 1401 |
| Totale | 15 | 4905 |
Totale 4905 -> 4905/15= 323 MEDIA
Osservazioni
Se abbiamo una quantitativa si possono utilizzare moda, mediana e media. Se ho 4 persone con 17 anni e uno di 62:
- Moda: perché sono di più 17
- Mediana: 17 17 17 17 62= 17
- Media: 22.6
Quindi in questo caso sarebbe la migliore da tener presente perché in effetti sono la maggior parte. Guarda slide dove fa vedere l’equilibrio perché rende l’idea.
Misure di dispersione
Quanto i miei dati si discostano dai dati assunti cioè dai dati di tendenza centrale. Sono sostanzialmente 3:
- Range (campo di variazione)
- Differenza interquartile (Q3- Q1)
- La mediana mi da il 50% della distribuzione. Se il migliore valore di tendenza centrale è la moda utilizzerò la media.
- Deviazione standard e varianza:
- Varianza: quando vogliamo dare un indice della dispersione; cioè quando i miei valori si discostano da...
- Deviazione standard: è la radice quadrata della varianza: la varianza si calcola con i quadrati degli scarti dalla media. La deviazione standard, essendo la radice quadrata, ci permette di tornare alle unità di misura “naturali” delle..
Lezione 4: esercitazione
Perché non ci sono percentuali.. Quantitativa, qualitativa rappresenta uno stile di vita.
Lezione 5: Campionamento
Quale è la prevalenza di una malattia in Italia. O prendo tutta l’Italia e chiedo a tutti se hanno il diabete. Oppure seleziono un campione in maniera opportuna in modo che sia rappresentativo. Se misuro la PAO in un campione otterrò il risultato di quel campione probabilmente simili alla popolazione.
Campionamento → caso EPIC → il campionamento è stato realizzato prendendo dei donatori di sangue e altri residenti in Torino e con età fra 35 e 65 anni.