Anteprima
Vedrai una selezione di 11 pagine su 46
Biostatistica - SGI, terzo anno Pag. 1 Biostatistica - SGI, terzo anno Pag. 2
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Biostatistica - SGI, terzo anno Pag. 6
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Biostatistica - SGI, terzo anno Pag. 11
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Biostatistica - SGI, terzo anno Pag. 16
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Biostatistica - SGI, terzo anno Pag. 21
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Biostatistica - SGI, terzo anno Pag. 26
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Biostatistica - SGI, terzo anno Pag. 31
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Biostatistica - SGI, terzo anno Pag. 36
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Biostatistica - SGI, terzo anno Pag. 41
Anteprima di 11 pagg. su 46.
Scarica il documento per vederlo tutto.
Biostatistica - SGI, terzo anno Pag. 46
1 su 46
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Formattazione del testo

S S+1 1- -n n√ -1 1 2 2 δ δ ESS ·⊆ ±=- t a d, + 2- -n n+ 2-n n 1 221 2̅ 1 1√ES S · += - -d fi n n1 2Per fare ciò, utilizziamo la proc ttest, dove andiamo a vedere la parte ‘pooled’. Sia ilp-value che gli intervalli di confidenza ci offrono informazioni sulla nostra stima. Sarebbemeglio andare a commentare entrambi. Se, per ragioni di spazio, andiamo a sacrificare ilp-value e concentriamoci sugli intervalli di confidenza che, anche in maniera ridotta, cidanno qualche informazione sul p-value. Sarebbe sempre da evitare basarsi solo intermini di significatività o meno del p-value (non molto comprensibile). Infatti, gli intervallidi confidenza ci fanno capire, oltre alla presenza di significatività statistica, se ho ancheuna significatività clinica.• Studi di non-inferioritàSempre più spesso vengono condotti trial clinici randomizzati per valutare se l’efficacia diun nuovo

Il trattamento è buona quanto quella di un trattamento di riferimento. Il nuovo trattamento può offrire vantaggi (costi, effetti collaterali, facilità di somministrazione) che rendono conveniente dimostrare la sua non-inferiorità in termini di efficacia. In questi studi l'inferenza si basa su considerazioni di tipo clinico e, dal punto di vista statistico, sull'esame dell'intervallo di confidenza della differenza tra i due gruppi posti a confronto.

Attenzione: l'assenza di evidenza di una differenza ipotizzata, non implica che c'è evidenza che la differenza non ci sia. In altre parole, se in uno studio di non-inferiorità prendessimo una decisione sulla base del fatto che la differenza osservata non è statisticamente significativa, commetteremmo un grosso errore. Diremmo, infatti, che un trattamento potenzialmente inferiore rispetto ad un altro, è in realtà equivalente o non-inferiore a quello di riferimento.

ponendo a rischio i futuri pazienti. Non riuscire a dimostrare una differenza significativa degli esiti tra due gruppi (non rifiutare H0) non implica che i due gruppi posti a confronto siano tra loro uguali (accetto H0). L'assenza di evidenza contro l'ipotesi nulla non significa che questa sia vera. Spesso, l'assenza di evidenza è dovuta a una bassa potenza dello studio (scarsa numerosità campionaria). In queste situazioni, allora, decideremo un range (clinico) in cui considereremo equivalenti i due effetti. Andiamo a porre il margine di non-inferiorità che diventa la nostra ipotesi nulla. Vogliamo dimostrare che il farmaco che testiamo non superi questa soglia di non-inferiorità. Vediamo se l'intervallo si sovrappone o meno al mio range clinico. Se il limite inferiore dell'IC non supera la soglia di inferiorità, possiamo decidere di commercializzare il nuovo trattamento visto che è non-inferiore rispetto a quello ponendo a rischio i futuri pazienti.

Lezione 9 – 21/10

Il modello di regressione lineare semplice

Oggi parliamo del modello lineare semplice. Questo strumento può essere utilizzato per spiegare una relazione tra variabili e per predire valori futuri. Per andare a stimare la retta utilizziamo la stima dei minimi quadrati che minimizza le distanze al quadrato tra ciò che ho osservato e la retta stessa. I valori che stimiamo per la retta ottimale sono la pendenza e l'intercetta che è il punto che interseca l'asse delle y. Per stimare la retta di regressione, in SAS possiamo usare la proc glm. Le stime della retta vengono fatte sul campione osservato.

Noi, però, non vogliamo limitarci ad una descrizione: vogliamo anche fare inferenza. Per fare inferenza, però, dobbiamo verificare che siano rispettate delle proprietà altrimenti l'inferenza che estendiamo ad altri dati non è corretta. Gli assunti sono due: osservazioni tra loro indipendenti (garantita

dalla retta di regressione è zero. Invece, se l'ipotesi alternativa è vera, allora la retta di regressione ha una pendenza diversa da zero, il che indica che c'è un legame tra x e y. Per testare l'ipotesi nulla, possiamo utilizzare il p-value. Il p-value ci indica la probabilità di ottenere un risultato almeno tanto estremo quanto quello osservato, assumendo che l'ipotesi nulla sia vera. Se il p-value è inferiore a un certo livello di significatività (solitamente 0.05), possiamo rigettare l'ipotesi nulla e concludere che c'è un legame significativo tra x e y. In alternativa, possiamo utilizzare i test di ipotesi. Un test di ipotesi comune è il test t per la pendenza della retta di regressione. Se il valore del test t è maggiore di un certo valore critico (solitamente 2), possiamo rigettare l'ipotesi nulla e concludere che c'è un legame significativo tra x e y. In entrambi i casi, dobbiamo fare attenzione a non confondere la significatività statistica con la rilevanza pratica. Anche se un legame tra x e y è statisticamente significativo, potrebbe non essere rilevante dal punto di vista pratico. Pertanto, è importante valutare anche l'importanza del legame dal punto di vista del dominio del problema.

retta sarebbe pari a 0. Un grafico molto utile, per andare a verificare l'ipotesi di omoschedasticità, è uno scatterplot dei residui rispetto ad y. Oltre a questo, possiamo verificare che tipo di relazione c'è tra i dati.

Ora possiamo stimare le bande di confidenza: qual è l'intervallo che a livello 1-a% contiene la vera retta di regressione? Questo intervallo viene costruito andando ad affiancare tutti gli intervalli di confidenza per ogni osservazione y. Ovviamente, all'aumentare di n la stima è più precisa. Nel grafico delle bande di confidenza viene riportato anche l'intervallo di previsione che misura la precisione dei singoli valori previsti di y per ogni x. Più l'intervallo è ampio, meno la stima è precisa. Nell'esempio, il modello è inutile sotto il punto di vista previsivo. L'intervallo di previsione ha una formula a cui aggiungiamo 1 e per questo è molto

più ampio delle bande di confidenza.̅ 2 ̅ 2-( ) -( )-x x -x x√ √1 12∧ 2∧B C +( )±= - - I Py y + +(1 )±= - -st y y sta a, 2-- , 2- -n nn n 22 22 -( )-( ) ∑ -x x∑ -x x

Anche se scartiamo un modello da un punto di vista predittivo, non vuol dire che non valga da un punto di vista descrittivo. Per valutare il modello da un punto di vista predittivo si utilizza l’indice R quadro.

C’è un legame tra il test t per il confronto fra due trattamenti e il modello di regressione lineare. Infatti, l’intercetta diventa la media quando x = 0 (quindi quando si usa il trattamento codificato con 0) e a+b quando x = 1. Abbiamo il modello a rette parallele in cui ho stessa pendenza ma intercetta diversa.

Settimana 4 Lezione 10 – 24/10

• Modello di regressione lineare multiplo

Il modello di regressione lineare multiplo può essere usato a fini predittivi o a fini esplicativi. Prima vedremo come si usa a fini predittivi: non mi

interessa sapere perché c'è una relazione tra le variabili, ma mi interessa che quelle relazioni mi predichino il meglio possibile la variabile risposta. Questo è ciò che sta alla base degli studi prognostici. Se, invece, siamo interessati alle cause andremo a utilizzare il modello con scopo descrittivo. Nell'esempio andremo a vedere un dataset in cui cerchiamo di prevedere la pressione partendo dall'età. La relazione più semplice che posso andare a utilizzare è quella lineare. L'indice che mi indica la bontà della predizione di un modello è l'R quadro. Nell'esempio la relazione tra età e pressione è significativa ma il modello (con R quadro = 0.51) non sembra essere adatto per lo scopo di previsione. Allora cerchiamo di passare al modello multiplo, inserendo anche il peso. Quando abbiamo una relazione con più di due variabili, non possiamo usare uno scatterplot ma un piano.

La rappresentazione più semplice è quella tridimensionale. Nell'asse z vado a porre la variabile risposta, mentre in x e y le covariate. Invece di far passare una retta che minimizza le distanze euclidee con i punti, facciamo passare un piano. Esiste solo un piano che minimizza le distanze tra questo e i punti. Ovviamente posso andare a complicare le relazioni anche in caso di un piano, inserendo termini quadratici o altre funzioni analitiche. Nel nostro caso, però, andremo a cercare la relazione più semplice. L'interpretazione dei coefficienti è un po' diversa rispetto a quella della retta: se prendiamo il coefficiente del peso (pari a 0.27) diciamo che all'aumentare di 1 kg e mantenendo costante l'età, la pressione aumenta di 0.27. Parliamo di effetto corretto perché è indipendente dal valore che assumono le altre variabili. SAS non disegna il piano ma mi presenta un grafico bidimensionale in cui mi presenta le

curve di livello al cambiare delle variabili. Se vediamo che le curve di livello crescono, vediamo che i valori della risposta salgono. Ciò che ci interessa, quando usiamo un modello a scopo predittivo, più che il valore del p-value di ogni variabile è l'R quadro e/o gli intervalli di predizione. Quando si sviluppa un modello predittivo, è necessario sviluppare il modello su un insieme di dati chiamato di sviluppo (training set) e validarlo in una casistica diversa, chiamato insieme di validazione (validation set).

Come facciamo ad ottenere i valori predetti dopo aver stimato un modello? I valori predetti possono essere 'estratti' dal modello tramite il nome 'p'. Quindi, la prima cosa che dobbiamo fare è creare un dataset con i valori predetti. Per fare ciò basta inserire nella glm il comando output out nome_nuovo_data p = nome_variabile.

Nel modello d'esempio ho buona specificità (mi da un risultato negativo)

anche se l'evento non è presente) ma poca sensibilità (dico che l'evento non c'è quando c'è). Per questo motivo il modello sembra non essere un buon previsore. Valutando solo con l'R quadro siamo troppo ottimisti. Bisogna fare una prova con i dati di training. Lezione 11 - 25/10 Il problema che abbiamo con i modelli predittivi è che se li valutiamo sul set di dati che abbiamo usato per la stima dei parametri, l'R quadr
Dettagli
Publisher
A.A. 2022-2023
46 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher saratitani di informazioni apprese con la frequenza delle lezioni di Elementi di biostatistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Bagnardi Vincenzo.