Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
TABELLE
Le tabelle dicono quante persone stanno in quella modalità (distribuzione di frequenza).
DISTRIBUZIONE DI FREQUENZA
La frequenza assoluta è il numero di volte, la frequenza relativa è quante volte sul totale si è verifica
quella modalità, e si esprime in percentuale. Essa ci consente di fare confronti in maniera immediata
tra le modalità che ho a disposizione. Es. le modalità del gruppo sanguigno di 100 soggetti sono 0,
A, B e AB. Di queste 100 persone, posso contare quante di esse hanno ciascuna modalità, quindi 47
su 100 hanno la modalità 0, etc.
Es. ho la lunghezza supina di 60 neonati (variabile quantitativa continua). Posso fare media, moda,
mediana, valore massimo e minimo, deviazione standard. I dati non sono ordinati.
© Laila Pansera -11
Costruisco delle classi e conto quanti ce ne sono in ogni classe. In ogni classe ho messo dei valori
che mi fanno avere un valore centrale comodo. Calcolo per ogni classe la frequenza, la frequenza
relativa (%), e poi la frequenza relativa cumulata, che si ottiene sommando le frequenze precedenti
con quella della riga che considero. La frequenza relativa cumulata mi dice come si comporta il
fenomeno man mano che si sommano le frequenze. Per tutte le variabili posso calcolare la frequenza
assoluta, relativa e cumulata.
Es. in questa immagine descrivo un insieme di soggetti, in base al sesso, al gruppo di età e al livello
di educazione. Divido i pazienti in base alla loro patologia (cancro al colon, cancro al retto e
controllo). Si tratta di uno studio caso-controllo, e in questo tipo di studio deve esserci un
appaiamento tra controlli e casi, ossia ci devono essere delle caratteristiche in comune, es. per ogni
maschio caso prendo un maschio controllo, oppure per ogni caso di un’età prendo un controllo della
stessa età. In questo caso è importante fare le frequenze relative, e posso scegliere se farle di riga o
di colonna. Come scelgo? Occorre avere buon senso.
In questo caso faccio le percentuali di colonna, per poter confrontare le righe es. se prendo i
→
controlli, il 58.7% sono maschi e il 41.3% femmine, che sommati fanno 100%, quindi sto facendo le
percentuali di colonna 58.7% = 1189 / (1189+835) in percentuale. La stessa cosa vale per l’età, es.
→
i controlli sotto i 40 anni sono il 13.1%, valore che confronto con 4.4% e 4.3%, e deduco che è difficile
trovare un caso sotto i 40 anni. Guardando la zona education, vediamo che gran parte dei soggetti
malati ha meno di 7 anni di educazione (non ha finito le scuole medie); considerando gli anni dello
studio (1985 fine studio), queste persone avevano più di 40 anni, quindi c’è una certa corrispondenza
tra età e scolarizzazione, e la si deduce guardando la quantità di persone malate.
© Laila Pansera -12
TABELLE A DOPPIA ENTRATA
Nelle tabelle a una entrata vedo una variabile alla volta. Es. le tabelle seguenti sono a una entrata e
rappresentano rispettivamente il fumo (fumatore, non fumatore, ex fumatore) e la presenza o
assenza di BPCO (patologia bronco-cronico-ostruttiva). Dalle 2 tabelle si vede che tale patologia è
presente nell’11% dei casi, e la maggior parte dei soggetti del campione sono non fumatori.
Voglio vedere se c’è una relazione tra le 2 caratteristiche, quindi le metto in una tabella a doppia
entrata, o di contingenza. In una tabella a 2 vie ho rappresentate 3 distribuzioni di frequenza, 2
marginali e una congiunta. La distribuzione congiunta è una nuova distribuzione che mette insieme
le variabili precedentemente descritte (ossia come le 2 caratteristiche si presentano insieme nello
stesso paziente), e ha tante variabilità quanto è il prodotto delle variabili di riga per quelle di colonna
(in questo caso 6 celle 2 colonne x 3 righe). Quindi posso vedere i soggetti che in contemporanea
→
non fumano e hanno la malattia, oppure quelli che non fumano e non sono malati, etc. Le somme
delle righe e delle colonne sono le distribuzioni marginali, rispettivamente di riga e di colonna. La
distribuzione marginale è quello che succede una volta che sono bloccato in una certa riga (quindi
es. riga non fumatore), senza considerare l’assenza o la presenza della malattia sommo i non
→
fumatori, e non mi interessa se hanno o no la BPCO. La stessa cosa posso farla sulla colonna. A destra
© Laila Pansera -13
in basso o il totale di tutto, ossia tutte le persone che sono presenti nella tabella, ossia la dimensione
campionaria.
Nella tabella ci sono alcuni vincoli, es. il totale della prima riga deve suddividersi negli elementi della
prima riga la somma dei non fumatori sani e malati deve darmi il totale, etc. Se quindi ho delle
→
missing information il soggetto non può essere rappresentato. Infatti può succedere che la somma
dei soggetti divisi in una certa categoria non corrisponda al totale dei soggetti in studio (missing
information).
Tornando alla tabella, i soggetti non si distribuiscono in modo uguale all’interno della congiunta,
perché ci sono diverse relazioni tra le quantità delle variabili. Siccome ho molti più sani che malati,
avrò più persone nella colonna dei sani distribuiti tra i fumatori, non fumatori ed ex, e così vale anche
per il fumo. Posso dire che il fumo non incida sulla malattia? No, perché da un lato ne ho metà,
dall’altro ne ho molti meno. Devo utilizzare le distribuzioni condizionali.
DISTRIBUZIONI CONDIZIONALI
Le distribuzioni condizionali rappresentano la distribuzione di una variabile all’interno delle
modalità dell’altra variabile. È la percentuale di riga o di colonna. Se le distribuzioni condizionali sono
differenti, si può supporre che esista una relazione tra le 2 variabili.
Si possono fare distribuzioni percentuali di riga o di colonna. In quelle di riga posso confrontare le
colonne tra di loro.
Es. distribuzione condizionale di riga valuto la distribuzione della BPCO su un livello di fumo,
→
quindi fisso la riga, ossia il livello di fumo, e quindi la somma della riga mi darà il 100% dei soggetti
di quella riga (annullo i totali di riga). Es. 9042 / 9667 = 93.5%, quindi la probabilità di essere sano
tra i non fumatori è il 93.5%, mentre di essere malati è il 6.5%. Se il fumo non avesse nessuna
incidenza sulla malattia, mi aspetterei di avere una proporzione uguale tra fumatori e non fumatori.
Invece non è così. © Laila Pansera -14
Posso costruire anche le percentuali di colonna, vedendo come la gente fuma tra le categorie di
malattia. In questo caso annullo le colonne e confronto le righe. In questo caso vedo che la
proporzione tra fumatori, non ed ex fumatori non è mantenuta nelle categorie di malattia ho molti
→
più fumatori tra i malati, e più non fumatori tra i sani.
© Laila Pansera -15
Con questo sistema posso fare analisi preliminari di più variabili. Se avessi 3 variabili farei una tabella
a 3 vie, etc. In generale oltre la 3 vie non si fa questa analisi, ma si usano specifici modelli statistici.
08.10.18
GRAFICI
Sulle tabelle occorre sapere la distribuzione semplice e quella congiunta. A volte dobbiamo usare dei
GRAFICI, che sono molto usati, perché danno l’idea che sia semplice veicolare l’informazione. Questo
non è del tutto vero, in quanto l’uso dei grafici, a meno che non si tratti di situazioni particolari,
consente con facilità di truffare (tirando il grafico per lungo o per largo).
I 2 grafici più importanti sono:
- Diagrammi a punti
- Istogrammi o poligoni di frequenza.
L’istogramma è una rappresentazione grafica per variabili quantitative continue rappresentate
sull’asse delle x, generalmente divise in classi, mentre sull’asse delle y viene rappresentata la
frequenza (assoluta o relativa). La differenza tra usare frequenza assoluta o relativa è che la relativa
prescinde dalla numerosità di soggetti su cui stiamo lavorando, quindi non dice il numero di soggetti
con la frequenza relativa posso confrontare studi con gruppi a numerosità diversa.
→
Il poligono di frequenza è lo stesso meccanismo di distribuzione, in cui congiungo i punti mediani
di ogni canna d’organo dell’istogramma, con una spezzata. La spezzata si fa partire da terra e arrivare
a terra, inventandosi una finta classe precedente e una finta classe successiva. Una canna d’organo
può mancare, perché si tratta di una variabile continua. Il poligono di frequenza viene utilizzato molto
quando devo confrontare diversi studi, es. lunghezza bambini in 3 diverse località (una linea per ogni
studio).
Le classi hanno una regola generale: la variabile relativa ai soggetti nella stessa classe deve essere
omogenea (non significa uguale), ossia rispetto allo studio che sto facendo mi dicono la stessa cosa.
Le classi possono essere uguali o diverse, a seconda della natura della variabile, è meglio avere classi
di uguale ampiezza, ma ci possono essere casi in cui le classi non possono essere di uguale ampiezza
(es. anni di istruzione degli es. precedenti, in cui accorpo in 7 anni di istruzione = non hanno finito le
medie). © Laila Pansera -16
Es. tratto da una rivista scientifica: sono stati pubblicati i primi risultati del registro italiano della fibrosi
cistica (malattia genetica cronica). Alla fine degli anni ’80 lo stato ha emanato un decreto, che ha
istituito un registro dei soggetti fibrotici, in quanto questa malattia è molto costosa, ed è a carico
dello stato quindi tutti i soggetti sono registrati, lo stato finanzia cure e trattamenti, ma vuole
→
sapere i progressi. Ad oggi la fibrosi cistica viene diagnosticata con il test del tallone (screening
neonatale obbligatorio), mentre prima la diagnosi era fatta dal medico. I dati del grafico sono dal
1988 al 2000, e mostrano la distribuzione per età. Ho le percentuali sull’asse x e le età sull’asse y.
Non avere persone oltre il 34 anni significa che i soggetti sono morti. Il 75% dei bambini nell’88 aveva
meno di 14 anni (45% nella classe 0-4, 25% nella classe 5-9 e poco meno del 25% nella classe 10-
14). Il resto (25%) si suddivide per le altre classi di età. A 15 anni ho un calo della frequenza, perché
il periodo dello sviluppo è critico per il fibrotico, in quanto è difficile gestire la parte ormonale →
elevata mortalità. Quasi nessuno arriva a 34 anni nell’88 nessun fibrotico cistico con malattia
→
conclamata sposato con figli.
Quando entro in questo registro non posso uscire (a meno che non vado all’estero).
Nel 2000 quelli che sono nati nell’88 hanno 10-14 anni o 15-19 anni, quindi da più del 25% sono
passati a meno del 20%, gli altri sono morti. L’andamento è diverso, ed è cambiato qualco