Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
N.B.:
• il chi-quadro può essere utilizzato solo se nessun valore atteso è minore di 5,
altrimenti è necessario utilizzare il test di Fischer;
• esiste anche il chi-quadro per la bontà dell’adattamento che utilizza come ipotesi
nulla: i dati osservati seguono la distribuzione binomiale;
• eseguire il test attraverso Excel.
Regressione: relazione di tipo asimmetrico in cui una variabile casuale (Y) dipenda da una
variabile fissa (X); ad esempio il peso (Y) dipende dalla statura (X).
Correlazione: relazione di tipo simmetrico: le due variabili sono entrambe casuali. La
correlazione può essere positiva, se all’aumentare della X aumenta anche la Y; negativa, se
all’aumentare della X diminuisce la Y; indipendente, se X e Y non sono in relazione.
Regressione lineare semplice (all’esame scrivere come si calcolano a e b):
Se non si considera ε: , dove E(Y) è il valore atteso, la media, del peso degli
() = +
0 1 1
individui che hanno una determinata altezza (x ); invece, se si considera ε si considera la
1
variabilità individuale ed è perciò possibile calcolare il peso di un determinato individuo.
Nella regressione lineare semplice può essere utile scomporre la devianza:
Si cerca la regga retta che meglio interpola i punti attraverso il metodo dei quadrati
minimi, in altri termini si sceglie la retta che riduce al minimo la devianza residua in questo
modo:
Assunzioni per la regressione lineare semplice:
• ε=0;
• omoschedasticità;
• indipendenza degli errori;
• distribuzione normale degli errori.
Correlazione: il coefficiente di correlazione r è un numero adimensionale che varia tra -1
e +1. Se:
• r=-1, i punti si allineano lungo una retta discendente;
• r=0, i punti si dispongono a casa, senza mostrare un andamento crescente o
decrescente;
• r=+1, i punti si allineano lungo una retta ascendente.
r e r si calcolano nella seguente maniera:
2
r indica quanto bene la X spiega la Y, ad esempio se r =15.5% si può affermare che il 15.5%
2 2
del punteggio del test può essere spiegato con il voto di maturità.
Analisi della varianza (ANOVA) a 1 criterio
L’analisi della varianza si utilizza quando vi sono k
gruppi con un numero variabile di unità statistiche.
Ogni unità statistica viene individuata da due numeri
in posizione pedice: il primo indica il gruppo di
appartenenza e il secondo indica la posizione del
soggetto all’interno del gruppo.
È poi necessario conoscere la media generale e le medie di ognuno dei gruppi.
̅
H : .
µ = µ = ⋯ = µ
0 1 2 0
H : almeno una media differisce dalle altre.
1
Innanzitutto si consideri la seguente relazione:
Dove:
Gli assunti sono:
• omoschedasticità della varianza;
• le osservazioni sono fra loro indipendenti;
• in ciascun gruppo le osservazioni sono distribuite in modo gaussiano.
Assunto quanto detto si può ora eseguire il test F:
Se F>soglia critica (indicata come P che se è minore dello 0.001 si scrive P<0,001) si rifiuta
H .
0
Significato: ‘l’età varia significativamente nei reparti’.
Se il test F è significativo si possono confrontare fra loro le singole medie utilizzando dei test
appropriati chiamati contrasti o confronti multipli.
Analisi multivariabile: nell’analisi univariabile vi è una X e una Y, in quella
multivariabile molte X e in quella multivariata molte Y.
Nell’analisi univariabile si utilizza la regressione lineare semplice, con X e Y quantitative.
Nell’analisi multivariabile si possono utilizzare:
• la regressione lineare multipla in cui X e Y sono variabili quantitative;
• l’ANOVA in cui Y è quantitativa e X qualitativa;
• ANCOVA (analisi della covarianza) in Y è quantitativa e X sono qualitative e
quantitative.
Regressione lineare multipla: La regressione lineare multipla serve a valutare
simultaneamente l’influenza su una variabile di
risposta di molte variabili esplicative, indipendenti,
e a valutare l’influenza di una variabile esplicativa su
una variabile di risposta.
Ad esempio Y potrebbe essere il peso, X l’età, X la
1 2
statura e X l’introito calorico.
3
Con E(Y) si calcola il valore medio del peso.
Nella regressione lineare multipla la funzione legame è l’= (identità), che unisce la variabile
dipendente al predittore lineare; invece nel modello di regressione logistica la funzione
legame è ]=.
log [ 1−
Le assunzioni della regressione lineare multipla sono:
• ε=0;
• omoscedasticità;
• indipendenza e distribuzione normale degli errori.
In questo caso come metodo di ottimizzazione è opportuno utilizzare il metodo dei minimi
quadrati che necessitò dell’omoscedasticità e che viene utilizzato per i modelli lineari in cui
la funzione legame è l’identità (regressione lineare semplice e multipla, ANOVA e ANCOVA).
È necessaria anche in questo caso la scomposizione della devianza:
H : tutte le variabili predittive sono irrilevanti (β =β =0).
0 1 2
Il test F permette di calcolare il coefficiente di determinazione R , che permette ad esempio
2
di affermare che il 61,1% della variabilità nel peso neonatale è spiegata dalla correlazione
con l’età gestionale e con la statura.
Importante è infine il coefficiente di correlazione parziale che rispecchia eventuali
associazioni tra queste variabili ed un eventuale confondente e che può essere definito come
il coefficiente di correlazione tra due variabili, ottenuto tenendo costante il valore di una
terza variabile.
Gradi di libertà:
Verosimiglianza: se i parametri sono noti e i dati ignoti si utilizza la probabilità, se invece
sono noti i dati e i parametri sono ignoti si utilizza la verosimiglianza; ad esempio se si
ponesse l’attenzione sulla distribuzione binomiale nel caso della probabilità varia la x, nel
caso della verosimiglianza varia π:
N.B.: su Excel vi è un file sulla verosimiglianza.
Misure di frequenza di malattia:
• se si considera la malattia come stato, è possibile calcolare la frequenza dell’essere
malati in qualunque punto del tempo; è necessario allora utilizzare la prevalenza
che indica la proporzione di una popolazione affetta dalla malattia in un determinato
istante;
• se si considera la malattia come evento, è possibile calcolare la frequenza di comparsi
di nuovi casi in un certo periodo di tempo; è necessario allora utilizzare allora
l’incidenza che indica la frequenza con cui compaiono nuovi eventi in una
popolazione candidata.
Lo studio può essere:
• popolazione fissa (coorte): insieme di individui caratterizzati dallo sperimentare
un evento comune al tempo zero e seguiti nel tempo;
• popolazione dinamica: insieme di individui caratterizzati da un comune stato di
appartenenza. Tale popolazione presenta un ricambio più o meno elevato dei suoi
membri.
Prevalenza: . La prevalenza è definita puntuale se viene
= (+)
calcolata in un determinato istante; tale prevalenza è difficile da calcolare, si preferisce allora
la prevalenza in una certa unità di tempo. È necessario considerare tutte le persone che
hanno contratto la malattia in quell’unità di tempo, ma non bisogna considerare i morti: se
la popolazione nel 1989 è 100000, i casi di TBC al 1/01/1989 sono 970, i nuovi casi durante
1480
l’anno sono 510 e i deceduti per TBC durante l’anno sono 27, la prevalenza è: ; infine
100000
nella life-prevalence si considerano malati tutti quei soggetti che hanno avuto la malattia
almeno una volta nell’arco della loro vita.
Incidenza cumulativa:
(quest’ultima formula si utilizza
= ℎ
0
per le popolazioni dinamiche e indica un tasso di incidenza) probabilità che un individuo
libero da malattia sviluppi la malattia durante uno specificato periodo di tempo. L’unità di
misura dell’incidenza è , in cui il denominatore è persone-tempo.
∙
Persone-tempo: somma di tutti i tempi di osservazione dei soggetti a rischio
Tasso di incidenza/grezzo di mortalità (si chiama anche incidenza):
= =
, si introduce perché soggetti possono entrare
0 + 1 ∙
2
nello studio in momenti diversi, alcuni soggetti vengono persi al follow-up e poiché un
soggetto è effettivamente a rischio solo fino a quando non sviluppa la malattia.
L’ incidenza cumulativa è una proporzione, perché tutte le persone nel numeratore sono
anche al denominatore; è una misura della probabilità o rischio della malattia, ovvero di
quale proporzione della popolazione svilupperà la malattia durante uno specifico intervallo
di tempo. In contrasto, il tasso di incidenza è come la velocità misurata in chilometri all’ora:
indica quanto rapidamente la popolazione si ammala con una misura espressa in gente per
anno.
Durata: = ∙
Relazione tra prevalenza, incidenza e durata: la prevalenza dipende sia
dall’incidenza (rischio) che dalla durata della malattia. L’ elevata prevalenza di una malattia
all’interno di una popolazione può riflettere un rischio elevato o una sopravvivenza
prolungata senza guarigione. Viceversa, una bassa prevalenza pu&og