Biostatistica

Appunti di analisi dei dati sulla biostatistica basati su appunti personali del publisher presi alle lezioni della prof. Antolini dell’università degli Studi di Milano Bicocca - …

Esame Analisi dei dati

Facoltà Medicina e chirurgia

Dal corso del Prof. Antolini Laura

Università Università degli Studi di Milano - Bicocca

Publisher Alicegi

A.A. 2019-2020

16 pagine

Appunto

Vota 5,0 / 5 (1)

Scarica

Estratto del documento

Tabelle di frequenza e rappresentazioni grafiche

Prendiamo in considerazione dei dati derivanti da uno studio sulla sindrome metabolica (383 bambini): - Ppas = pressione sistolica (variabile quantitativa) - Acole (qualitativo ordinale): Normopeso (NWo), Sovrappeso (OWo), Obeso (OBo) I dati devono essere riassunti per poter fare delle osservazioni. Si utilizza una tabella di frequenza per conteggiare il numero di bambini con le diverse modalità. Le frequenze assolute sono utili per una prima osservazione del fenomeno, ma è utile calcolare le frequenze relative prendendo la frequenza assoluta e dividendola per il totale (la somma delle frequenze relative è 1). Per passare alle frequenze percentuali è sufficiente moltiplicare per 100. Per la rappresentazione grafica si utilizza un grafico a torta con sezioni proporzionali alla percentuale di soggetti con le diverse modalità (NW, OW, OB). In alternativa, si possono usare dei diagrammi a barre, la base è decisa dal software e non influisce sulla rappresentazione dei dati.

ha nessun rilevo, l'altezza è proporzionale alla frequenza assoluta. La somma delle altezze è la dimensione dello studio

Il grafico a barre può essere creato usando le frequenze percentuali, questo è utile per fare delle comparazioni tra studi. La somma delle altezze è 100.

VARIABILI CONTINUE

Andiamo ad analizzare la variabile pressione sistolica che è una variabile di tipo continuo.

Se vado a considerare le frequenze assolute non è significativo poiché è una variabile sparsa, può essere utile raggruppare la variabile in classi (intervalli di pressione sistolica con una ampiezza definita). Ottengo in questo modo una frequenza assoluta della classe. Le classi vengono rappresentate tra parentesi, la parentesi tonda indica che il valore non è incluso mentre la quadra indica che il valore è compreso - (95, 100] classe aperta a sinistra e chiusa a destra per cui 95 è escluso e 100 è incluso.

raggruppamento in classi può essere pensato come una discretizzazione di una variabile continua. Posso calcolare le frequenze relative e moltiplicarle per 100 in modo da avere la percentuale di soggetti che appartengono alle classi che ho costruito. Vi sono classi più popolate e classi meno popolate.

La rappresentazione grafica di una variabile continua raggruppata in classi è un particolare istogramma. Per interpretare un istogramma bisogna considerare che la serie di rettangoli hanno delle aree pari alle frequenze relative di ciascuna classe, le basi sono delle basi che hanno un'ampiezza pari alla grandezza delle classi. L'altezza è regolata in modo tale che l'area del rettangolo sia uguale alla frequenza relativa della singola classe. L'altezza si ricava dividendo la frequenza relativa per l'ampiezza della classe. Si costruisce un istogramma con un'area totale sottesa pari a 1, questo è importante poi per procedere con

Una approssimazione a gaussiana

Gli istogrammi possono avere dei buchi, ma solo a causa dei miei dati, se faccio un istogramma con classi più piccole vi saranno più buchi, se diminuisco le classi i buchi si chiudono.

Se io moltiplico la base per la percentuale invece che per la densità non mi da un significato, invece se ho la densità ho una interpretazione per l'area.

Il vantaggio di fare un istogramma in density è che riesco ad approssimare ad una variabile continua gaussiana. I gradini dell'istogramma sono fittizi perché abbiamo deciso noi come dividere le classi.

INDICI RIASSUNTIVI

Indici riassuntivi che si possono usare per descrivere una variabile continua rappresentata con un istogramma, ci danno una idea della grandezza del fenomeno e della sua dispersione. Questi due numeri possono sostituire un istogramma per una rappresentazione più compatta.

I due indici riassuntivi corredano l'istogramma - dando un idea dell'orine di

grandezza media aritmetica ->- e della sua dispersione deviazione standard ->la media è indicata con la lettera minuscola che rappresenta i singoli dati e poi si aggiunge una barra soprala lettera. La media è definita come la somma delle singole unità diviso per il numero delle unità in analisi. È sempre compresa tra il minimo e il massimo valore dei nostri dati. È il baricentro di un fenomeno quantitativo, se si conservano le distanze dei valori della media siottrieranno alcuni valori negativi, alcuni positivi, alcuni nulli. La somma di queste distanze con segno è sempre pari a zero. La deviazione standard ci dice quanto un fenomeno è disperso rispetto alla propria media- Fenomeni poco dispersi le singole x sono molto vicine ad x medio ->- fenomeni molto dispersi è la somma di x meno x medio al quadrato saranno sempre numeri positivi quindi la somma non sarà ->zero. Queste distanze al quadrato sono sommate e divise per

sono noti, è possibile calcolare gli intervalli in cui si trovano le percentuali fisse di soggetti nello studio. Questi intervalli sono definiti come "intervalli di confidenza". Gli intervalli di confidenza sono utili per valutare la precisione delle stime statistiche. Ad esempio, se si vuole stimare la percentuale di persone che preferiscono il cioccolato al latte, si può calcolare un intervallo di confidenza che indica la percentuale di persone che preferiscono il cioccolato al latte con un certo grado di sicurezza. Per calcolare gli intervalli di confidenza, si utilizza la distribuzione normale. La distribuzione normale è una distribuzione di probabilità continua che ha una forma a campana. La media della distribuzione normale è uguale alla media del campione, mentre la deviazione standard della distribuzione normale è uguale alla deviazione standard del campione divisa per la radice quadrata del numero di osservazioni nel campione. Gli intervalli di confidenza sono calcolati utilizzando la formula: intervallo di confidenza = media del campione ± (z * deviazione standard del campione) dove z è il valore critico corrispondente al livello di confidenza desiderato. Ad esempio, se si desidera un livello di confidenza del 95%, il valore critico corrispondente è 1,96. In conclusione, gli intervalli di confidenza sono utili strumenti statistici per valutare la precisione delle stime. Consentono di ottenere una stima della percentuale di soggetti nello studio con un certo grado di sicurezza.

Sono usare per uno istogramma simmetrico, la media e la deviazione standard mi permettono di definire 3 intervalli:

Distanza di una deviazione standard dalla media vi sono il 68% dei dati
Due deviazioni standard dalla media sono il 95% dei dati
Tre deviazioni standard dalla media vi sono il 99% dei dati

I tre valori sono più vicini tanto più il fenomeno è meno disperso, ma conservano sempre le stesse percentuali fisse.

FUNZIONE GAUSSIANA

Si può approssimare un istogramma che rappresenta la divisione in classi di una variabile continua tramite una gaussiana, l'approssimazione gaussiana permette il calcolo delle aree sottese in regioni di interesse.

L'istogramma della pressione arteriosa presenta una suddivisione in classi di ampiezza 5, l'andamento della funzione a gradini è strettamente dipendente dalla scelta delle dimensioni delle classi, classi più ampie avrebbero portato ad un numero di gradini inferiore andamento.

<p>Un istogramma simmetrico (può essere tagliato in due parti sovrapponibili) può essere approssimato dalla funzione gaussiana che ha il vantaggio di essere una funzione continua e derivabile in ogni suo punto - vantaggi interpretativi. La distribuzione gaussiana è parte di una famiglia molto ampia di funzioni dal punto di vista matematico, al distribuzione gaussiana dipende da due parametri: μ e σ. μ e σ devono essere fissati per identificare nella famiglia la gaussiana di nostro interesse che approssima il fenomeno che stiamo analizzando. Se si pone μ = (x medio) e σ usuale alla variazione x standard si dimostra che la funzione approssimerà bene il nostro istogramma e sottenderà un'area unitaria parziale all'area sottesa dall'istogramma stesso. Per approssimare bene l'istogramma l'area sotto alla gaussiana deve essere pari a 1. - L'area che la gaussiana sottende tra μ - σ e</p>

µ +σ è pari a 0,68- L’area che la gaussiana sottende tra µ -1,96 σ e µ +1,96 σ è pari a 0,95- L’area che la gaussiana sottende tra µ - 2,58σ e µ +2,58σ è pari a 0,99L’approssimazione gaussiana ci permette di eliminare la suddivisione in classi, inoltre mi permette dicalcolare aree di mio interesse.Sigma è un parametro di variabilità, più sigma èpiccolo più la mia gaussiana si stringe. Se sigmaè tenuto fisso, ma si aumenta il parametro µ siavrà una gaussiana spostata a destra cambial’ordine di grandezza del fenomeno. Lagaussiana ha un massimo in x= µL’area che è sottesa deve essere sempre lastessa infatti al diminuire di sigma si ha unaumento dell’altezza.Siamo interessati a calcolare la percentuale di fenomeno che si presenta oltre al mio valore 130. probabilità che un soggetto ha di avere

Una pressione con un valore superiore a 130.

Calcolo l'area sottesa dalla gaussiana a destra di 130 è approssimabile all'area sottesa dai quattro rettangoli dell'istogramma.

Non è possibile calcolare l'area sottesa dalla gaussiana tramite i metodi di integrazione funzione -> non integrabile.

Si sfrutta una proprietà delle gaussiana: l'area sottesa da una gaussiana è ottenibile mediante una corrispondente area ottenuta da una gaussiana con parametro µ pari a zero e un parametro σ pari a 1.

Grazie a questa corrispondenza di aree è possibile ottenere un'area sottesa tramite valori tabulati.

L'area a destra di 130 è la probabilità di avere una pressione sistolica maggiore di 130.

Questa area corrisponde all'area della gaussiana standardizzata maggiore del valore (130- µ)/ σ.

Quindi nel nostro caso: Z = 1,4.

L'area a destra di 130 corrisponde all'area a destra di 1,4 della gaussiana standardizzata.

gaussiana standardizzata

Nella tabella sotto riportata vengono indicate le aree in coda a valori di zeta positivi e negativi. L'area a destra di valori di zeta positivi corrisponde all'area a sinistra di valori di zeta negativi.

- Colonna il primo decimale

- In riga il secondo decimale

Questa tabella permette di calcolare anche aree non tra le code, ad esempio il valore compreso tra 0,5 e 1,4 è calcolabile tramite differenza tra l'area a destra di 0,5 e l'area a destra di 1,4: 0,31-0,08

MEDIANA, QUARTILI, BOX-PLOT, CLASSIFICAZIONE

Per descrivere dei fenomeni con un istogramma non simmetrico si usano mediana, quartili, minimi e massimo.

Sono delle indicazioni utili anche quando si ha uno studio che non hanno dei grandi numeri di soggetti (quando si hanno pochi dati).

Anteprima

Vedrai una selezione di 5 pagine su 16

Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 5 pagg. su 16.
Scarica il documento per vederlo tutto.

Scarica

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Alicegi di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Antolini Laura.

Appunti correlati

Invia appunti e guadagna

Recensioni

5/5

1 recensione

5 stelle

4 stelle

3 stelle

2 stelle

1 stella

Ti è piaciuto questo appunto?

Studente Anonimo

9 Agosto 2022

Biostatistica

Tabelle di frequenza e rappresentazioni grafiche

VARIABILI CONTINUE

Recensioni

Domande e risposte

I migliori insegnanti di Matematica

Salvatore F.

Daniele P.

Matteo S.