Anteprima
Vedrai una selezione di 12 pagine su 51
Statistica II Pag. 1 Statistica II Pag. 2
Anteprima di 12 pagg. su 51.
Scarica il documento per vederlo tutto.
Statistica II Pag. 6
Anteprima di 12 pagg. su 51.
Scarica il documento per vederlo tutto.
Statistica II Pag. 11
Anteprima di 12 pagg. su 51.
Scarica il documento per vederlo tutto.
Statistica II Pag. 16
Anteprima di 12 pagg. su 51.
Scarica il documento per vederlo tutto.
Statistica II Pag. 21
Anteprima di 12 pagg. su 51.
Scarica il documento per vederlo tutto.
Statistica II Pag. 26
Anteprima di 12 pagg. su 51.
Scarica il documento per vederlo tutto.
Statistica II Pag. 31
Anteprima di 12 pagg. su 51.
Scarica il documento per vederlo tutto.
Statistica II Pag. 36
Anteprima di 12 pagg. su 51.
Scarica il documento per vederlo tutto.
Statistica II Pag. 41
Anteprima di 12 pagg. su 51.
Scarica il documento per vederlo tutto.
Statistica II Pag. 46
Anteprima di 12 pagg. su 51.
Scarica il documento per vederlo tutto.
Statistica II Pag. 51
1 su 51
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

REGRESSIONE LINEARE MULTIPLA

Il confondimento. In una situazione come quella dell'esempio in cui una variabile (sesso) influenza sia la variabile X (altezza) che la variabile Y (peso), si parla di CONFONDIMENTO. La stima corretta dell'associazione fra altezza e peso può essere determinata solo correggendo per l'effetto di confondimento dovuta al sesso.

Il genere modifica la relazione tra altezza e peso? Se sì, non mi posso accontentare della regressione lineare semplice.

I modelli aggiustati. La correzione per il confondimento dell'effetto di X su Y da parte di una terza variabile Z si effettua inserendo Z nel modello di regressione lineare Y = β0 + β1 ∙ X + β2 ∙ Z.

La regressione multipla. Il confondimento può avvenire anche ad opera di una variabile continua. In generale, quando si inseriscono più predittori (variabili X) nel modello di regressione lineare si parla di regressione multipla.

Y: variabile dipendente - continua e normalmente distribuita.

X1...Xn: variabili indipendenti dette anche predittori - possono essere sia continue che categoriche. Se X1 è la variabile per la quale si vuole studiare l'associazione con Y, X2, ...., Xn sono i confondenti. Valutazione del modello. Possiamo calcolare il coefficiente di determinazione R2 e fare il grafico dei residui. Se aggiungo una variabile al modello, il coefficiente di determinazione non può diminuire -> bisogna tener conto di quante variabili aggiungo e un coefficiente che tiene conto di questo è l'R2 corretto. L'R2 corretto è una stima della correlazione della popolazione ma non può essere interpretato come la porzione di variabilità spiegata dal modello. Esempio riassuntivo. Si vuole valutare se il numero di parole conosciute (parole) dipende dal tempo dedicato all'ascolto di un adulto che legge loro un libro (lettura) ed il tempo dedicato al gioco collettivo (gioco). Si conduce uno studio su 10 bambini i cui risultati.dedicati all'ascolto di un adulto che legge loro un libro.

dedicati al gioco Collettivo.- p=0.155915→la relazione lineare tra i minuti dedicati al gioco e il numero di parole conosciute NON è statisticamente significativo.

R^2=0.23→il 23% di variabilità tra i valori osservati del numero di parole conosciute è spiegato dalla regressione lineare dei minuti dedicati al gioco collettivo.

R^2=r^2=0.23→la correlazione tra numero di parole conosciute e minuti dedicati all'ascolto di un libro è moderato (=0.48=√0.23).

Possiamo calcolare il numero di parole medio conosciute per determinati minuti dedicati al gioco collettivo. Es. se un bambino dedica 1 ora all'ascolto di un libro in media conoscerà 35 parole (35=34.6-0.13*60).

Il 69% di variabilità tra i valori osservati del numero di parole conosciute è spiegato dalla regressione lineare dei minuti dedicati all'ascolto del libro e al gioco collettivo. La lettura da sola spiega il 838/(838+41+399)=838/1278=66% della variabilità.

E il gioco ne spiega un ulteriore 3%. Per la stima e la significatività di ciascun coefficiente, l'ordine delle variabili non è importante. Inoltre la variabilità spiegata dalla regressione è la stessa (69%) ma cambia il contributo di ciascuna variabile sulla variabilità totale. Il gioco da solo spiega il 23% della variabilità, e la lettura ne spiega un ulteriore 45%. Il termine di interazione non è significativo. La lettura da sola spiega il 66% della variabilità, il gioco ne spiega un ulteriore 3%, e il termine di interazione ne spiega un ulteriore 10%.

TABELLE DI CONTINGENZA

Vogliamo valutare la relazione tra due variabili che non sono né continue né categoriche:

TEST DI ASSOCIAZIONE CHI-QUADRO

Supponiamo di aver condotto uno studio su 365 morti per cancro dell'utero e 309 morti per cancro del seno per studiare la relazione tra tipo di tumore e stato civile e di aver ottenuto i

Sistema di ipotesi:
  1. Ho: Non c'è alcuna associazione tra le variabili (morte e stato civile)
  2. Ha: Esiste un'associazione
Rifiuto o non rifiuto l'ipotesi nulla. Procedura: immaginiamo che l'ipotesi nulla sia vera, ovvero che non ci sia associazione. Dopo aver calcolato le frequenze attese (si prendono i marginali di righe e i marginali di colonna e si divide per la numerosità), si confrontano con quelle osservate. Se l'ipotesi nulla fosse vera → frequenze attese = frequenze osservate (le eventuali differenze sono dovute al caso). Non possiamo confrontare la somma delle frequenze attese con quella delle osservate perché sono entrambe pari al numero di osservazioni (nel nostro esempio 674). Si può dimostrare che la statistica più opportuna è χ². Siccome χ² = ... Allora rifiuto l'ipotesi nulla ovvero ESISTE un'associazione tra tipologia di morti e stato civile.

statocivile.TEST CHI-QUADRO: PER TABELLE 2X2

Per grandi campioni e per tabelle 2x2 il test chi-quadro equivale a fare un test s’ipotesi non direzionale sul confronto di due proporzioni, ovvero

TEST CHI-QUADRO: NOTE

  1. Il test del chi quadrato da un risultato sulla significatività di un’associazione e non sulla FORZA.
  2. Funziona solo per grandi campioni.

Criterio (ancora dibattuto ma valido tutt’oggi): almeno 80% delle frequenze attese sono maggiori di 5 e tutte sono maggiori di 1.

Se tale criterio non è verificato, si possono accorpare le celle. Se tale criterio non è verificato e ho una tabella 2 x 2:

  • Soluzione 1: Test esatto di Fisher;
  • Soluzione 2: Correzione di Yates.

FORZA DI UN’ASSOCIAZIONE: OR

Ricordiamo che se un evento E si verifica con probabilità p, allora possiamo definire l’oods dell’evento E, la quantità.

Un modo per quantificare un’associazione tra due variabili categoriche è quello di

calcolare il RAPPORTO degli odds, detto Odds Ratio, OR.

Supponiamo che vogliamo quantificare la forza di associazione tra tipologia di cancro estato civile e di vare la seguente tabella di contingenza.

OR: INTERPRETAZIONE

OR=1→odds di E nelle maritate è UGUALE all’odds di E nelle nubile→NESSUNA ASSOCIAZIONE tra stato civile e tipo di tumore.

OR>1→odds di E nelle maritate è MAGGIORE all’odds di E nelle nubile→esseremaritata è DIRETTAMENTE ASSOCIATO al tumore dell’utero rispetto all’essere nubile (essere maritare è un fattore di RISCHIO).

OR<1→odds di E nelle maritate è MINORE all’odds di E nelle nubile→essere maritata è INVERSAMENTE ASSOCIATO al tumore dell’utero rispetto all’essere nubile (esseremaritare è un fattore PROTETTIVO).

Approfondimento

LE MISURE NEGLI STUDI EPIDEMIOLOGICI

Vogliamo misurare:

  • effetto;
  • associazione.

LE MISURE DI EFFETTO

Il Rischio

epidemiologia: rischio = probabilità

DOMANDA: Qual è la probabilità di presentare una determinata condizione in un determinato periodo di tempo?

RISPOSTA:
Il Rischio e l’Incidenza Cumulativa
10 soggetti che osserviamo per 4 anni. i puntini rossi sono gli eventi che si verificano.
Il Rischio come misura di presenza

ATTENZIONE: Il rischio è una misura esatta della presenza di una certa condizione solo se ma questo non si verifica quasi mai.
Dobbiamo ricorrere ad un’altra misura che è il TASSO.

DOMANDA: Quanti eventi di interesse si sono verificati in un intervallo di tempo per ogni elemento della popolazione?

RISPOSTA:
Il Tasso e la Densità di Incidenza
Teniamo conto che ogni individuo fornisce un proprio contributo allo studio in termini di unità temporali a rischio, ovvero su 10 individui:
▪ 5 individui (#2,4,5,6,8) non sperimentano l’evento durante i 4 anni di osservazione fornendo allo studio un contributo complessivo di (5)

individui * 4 anni) = 20 anni arischio;

1 individuo (#1) sperimenta l'evento dopo 3 mesi dall'ingresso nello studio e, daquel momento, non può più essere considerato a rischio; questo individuo fornisce quindi un contributo di 0.25 anni;

1 individuo (#3) sperimenta l'evento dopo 1 anno e 9 mesi dall'ingresso nello studio fornendo un contributo di 1.75 anni;

1 individuo (#7) sperimenta l'evento dopo 2 anni e 3 mesi dall'ingresso nello studio fornendo un contributo di 2.25 anni;

1 individuo (#9) sperimenta l'evento dopo 2 anni e 9 mesi dall'ingresso nello studio fornendo un contributo di 2.75 anni;

1 individuo (#10) sperimenta l'evento dopo 3.5 anni dall'ingresso nello studio fornendo un contributo di 3.5 anni.

T viene detto DENSITÀ di INCIDENZA.

L'Odd di diDOMANDA: qual è il rapporto tra una probabilità ( essere malato o essere diportatore un fattore rischio) e il suo

RISPOSTA:Questa misura sarà fondamentale per gli studi osservazionali caso-controllo (di cui parleremo). LE MISURE DI ASSOCIAZIONE RISPOSTA: sono numeri adimensionali che permettono di confrontare la frequenza dell'evento di interesse in gruppi con differenti caratteristiche (ad esempio esposti o non esposti ad un determinato). Il Rischio Relativo: rapporto tra incidenze cumulative È stato condotto uno studio per valutare l'associazione tra ipoglicemia e mortalità (ACCORD trial), confrontando un controllo intensivo della glicemia.
Dettagli
Publisher
A.A. 2019-2020
51 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher sarafava di informazioni apprese con la frequenza delle lezioni di Statistica II e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Pisa o del prof Lucenteforte Ersilia.