Biostatistica

Name: Biostatistica
Brand: Skuola.net
Price: 7.99 EUR
Availability: InStock
Rating: 4.5 (2 reviews)
Author: nadia.sam_

Revisionato il 24/05/2026

di nadia.sam_

Publisher

Vota 4,5/5 (2)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti di Biostatistica basati su appunti personali del publisher presi alle lezioni del prof. Massolo dell’università degli Studi di Pisa - Unipi, facoltà di Scienze …

Esame Biostatistica

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Massolo Alessandro

Università Università degli Studi di Pisa

A.A. 2018-2019

76 pagine

Appunto

Scarica

Estratto del documento

Lezione 28/09/18 - Parte 1

Introduzione alle statistiche

Fisher → ANOVA, p-value, multiple regression, chi-square exact test

Galton → regressione lineare

Pearson → coefficiente di correlazione, chi-quadro

Statistica e popolazioni

Una popolazione statistica è un insieme di individui con caratteristiche che variano (variabili), concetto molto diverso da quello biologico. Infatti, in statistica una popolazione può essere anche intesa come insieme di processi (es. insieme di fulmini). La statistica raccoglie tutti i dati dei singoli individui, qualunque essi siano, e ne fa una generalizzazione.

Quando si parla di parametro ci si riferisce a una caratteristica che caratterizza tutta la mia popolazione. Se invece la misurazione è fatta su un campione statistico della popolazione (sottoinsieme di unità statistiche che fanno parte di una popolazione), il calcolo di questa proprietà della popolazione mi dà una stima del parametro medio della popolazione, ma non ottengo il parametro certo.

Parametro → popolazione
Stima → campione

L’obiettivo di un campione è stimare una caratteristica di una popolazione e anche la sua variabilità.

Per avere una buona stima, il campione deve avere delle caratteristiche:

Rappresentativo → Rispecchia la caratteristica in tutta la popolazione, permettendo di descrivere non solo la tendenza centrale, ma anche la variabilità.
Non distorto (unbiased) → La selezione dei soggetti nella popolazione da inserire nel mio campione deve rispecchiare la variabilità della popolazione: cioè se, per esempio, voglio misurare l’altezza di una popolazione e prendo solo individui alti, la media che ottengo non rispecchierebbe quella reale della popolazione, introducendo così un bias.
Casuale

Disgni di campionamento

Importante è evitare la distorsione e gli errori di campionamento. Un errore di campionamento c’è sempre se uso un campione perché la stima che ottengo non è perfetta e cambia ogni volta che cambio il campione. Io posso far convergere il parametro e la stima fino a ridurre al minimo l’errore. So che l’errore esiste, sta a me gestirlo.

A seconda del tipo di popolazione, ci sono diversi disegni, tra cui casuale (si alzi chi ha il n di matricola che finisce con un numero primo), uniforme e opportunistico (quest’ultimo è il più utilizzato), sistematico (per esempio in ogni fila si alzi la quinta persona).

Stima

Se io uso campioni che sono rappresentativi e non distorti, la stima che ottengo sarà precisa. Se invece io ho un n basso, posso ottenere campioni con stime molto diverse, posso ottenere valori dispersi, e quindi una stima imprecisa. (nella slide, ogni pallino è un campionamento)

La variabilità della popolazione fa sì che se una popolazione è molto variabile, necessito di tanti campioni, se invece è poco variabile, per ottenere una stima precisa mi bastano meno campioni.

Variabilità

La prima sorgente di variabilità è quella naturale.
C’è poi quella strumentale/metodologica.
La variabilità dell’operatore (cioè a seconda di chi fa l’esperimento, la misurazione è diversa).
Campionaria: errore di campionamento.

Variabili e dati

Il dato è il risultato della misurazione statistica, i singoli valori che si ottengono. La variabile è una caratteristica/misura che presenta variabilità → sesso, altezza, colore dei capelli. Il sesso è una variabile discreta, l’altezza è continua.

La differenza tra sesso e colore di capelli o altezza è che la prima è nominale, le altre sono graduali, cioè hanno una scala ordinale. Il primo elemento che la variabilità mi descrive è l’identità. In una variabile nominale (sesso) ho solo un ‘info, l’identità, in una variabile di tipo ordinale (colore capelli) non ho solo l’info di identità ma anche info inerente al rango (ho capelli più o meno scuri), nella variabilità continua (altezza) posso anche dire di quanto sono più alto o basso di un altro.

Cos’è l’unità campionaria? Si può chiamare in vari modi: unità statistica, caso, individuo, soggetto, evento, osservazione. La variabile posso definirla caratteristica, attributo, campo, colonna. Il dato è una misurazione, record. Non usare il termine misura.

Tipi di variabili

Nominali → sono dati qualitativi, categoriali es. sesso → l’info che mi dà è solo l’identità.
Ordinali → categoriali, quantitative es. colore capelli → oltre che identità anche il rango (ordine).
Continue → quantitative es. peso, temperatura, lunghezza (temperatura è una misurazione relativa e ciò mi impedisce di fare un rapporto, il peso e la lunghezza sono assoluti) → identità + rango + rapporto (ex 50 cm sono la metà di 100 cm, ma non vale se la scala è relativa) posso trasformare la variabile altezza in una categoriale, perdendo dunque informazioni.

Lezione 03/10/18

Archiviazione dati

Una volta che misuro una caratteristica, poi la devo archiviare. Per farlo si usa tipicamente Excel. Ad ogni riga di una matrice di dati, corrisponde un’unità statistica e in ogni colonna c’è una caratteristica che ho misurato in un’unità. Ogni cella di una colonna ha lo stesso formato di dati (nominale, quantitativo) e questo crea problemi se manca un dato: in quel caso non metto nulla o uso una codifica (ex NA) che dico al software che vuol dire che manca il dato.

Excel è un foglio di calcolo, non mi permette di archiviare (non ha una riga in alto che mi permetta di inserire variabili o la colonna per identità, devo inserirla io. L’ID dovrebbe essere una colonna chiave, cioè che non assume mai lo stesso numero per due volte, per cui, ad esempio, si può mettere il CF. Il campo chiave può essere numerico o alfanumerico.

La laurea magistrale ha un formato nominale, se uso però un codice (ex codice laurea) devo aggiungere un foglio detto “look at table” in cui inserisco un’altra matrice di dati in cui descrivo cosa vogliono dire i codici/sigle usate. L’altezza è una variabile continua.

Note comprende info nominali che vuoi inserire in archivio (ex info particolari su un campione). Se per esempio non so un’altezza, non metto NA, o ? nella colonna altezza, ma lo inserisco o nelle note o in una colonna in più tipo height-not. Se voglio fare calcoli, come media, o grafici, non lo faccio nel foglio principale ma ne creo un altro. Perché la media non è un record.

È importante assicurarci che tutti i dati che inseriamo siano nel corretto formato, altrimenti perdo l’info (ex metto la virgola al posto del punto → Excel me lo considera testo). Altro problema è che quando organizzo i dati secondo un criterio, rischio di perdere l’associazione tra le celle (seleziona → dati → ordina → spunta ho etichette → scegli criterio).

Rappresentazione dei dati

Rappresentare i dati nominali a conteggio:

Grafico a barre (e sue variazioni), tabelle di contingenza
Posso anche usare istogrammi.

Organizzo le categorie per frequenza, includo una categoria che mi comprende tutte le cause che non ho considerato, mettendola in fondo. Metto tutto in un grafico a barre. Quella che ho nell’esempio è una frequenza assoluta (per la relativa devo dividere la frequenza assoluta per il totale).

Esistono altri dati nominali in cui metto a confronto due serie di dati: tabelle di contingenza → cosa accade se qualcos’altro accade.

Grafici e rappresentazioni

Nel grafico a mosaico in ordinata ho la frequenza relativa ma non si indica il valore n (valore max 1). Negli istogrammi → rispetto ai diagrammi a barre, non ho l’info dell’abbondanza delle singole specie, mediante l’uso di intervalli/categorie detti bin (di una dimensione che dipende dalle situazioni, ad esempio da quanti dati ho).

Mi danno due info diverse, il diagramma a barre mi dice la frequenza di ogni specie, l’istogramma invece mi dà un’immagine generica di come sono distribuite le specie, perdo però il valore nominale della singola specie. La somma delle aree nell’istogramma mi dà il numero di osservazioni (se y = freq.assoluta). Se uso la freq relativa, la somma sarà 1.

Forme degli istogrammi

Uniforme → il numero di soggetti in ogni bin è uguale (ex ho preso 10 persone con un certo intervallo di altezze, altre 10 per il successivo e così via).
A campana → normale o di Gauss.
Asimmetrica → il picco è spostato più a destra o sinistra.

Un altro modo di rappresentare un dato di conteggio è il grafico di frequenza cumulativa → ci dice, partendo da 0, quali specie hanno 1, 2, 3 soggetti (ex il 50% delle specie ha meno di 25 individui).

Nei tre grafici sui salmoni, cambia il bin ma la somma delle aree deve rimanere la stessa, e pari al numero totale di osservazioni.

Regole per decidere il numero di classi/bin da usare in un istogramma

Formula di Sturgess
Scott (S = deviazione standard, misura della dispersione intorno alla media aritmetica): più s e N sono grandi e più le classi sono grandi.

Confronto di istogrammi

Per confrontare diversi campioni.

Confronto di frequenze cumulate

Lo stesso confronto si può fare con le frequenze cumulate. La variabilità tra i campioni delle 4 popolazioni, è molto simile, per cui anche le curve di frequenza cumulativa saranno molto simili, ma traslate una rispetto ad un'altra.

Associazioni di variabili numeriche

Scatter plot → le unità statistiche sono le coppie padre-figlio.
Diagramma a linee → unione di valori che sono temporalmente successivi uno all’altro: confronto abbondanza lince-pellicce e lince-lepre, ha senso solo se le variabili sono collegate (ex temporalmente).

Da qui potrei poi effettuare associazioni con, per esempio, la variazione delle condizioni climatiche con i picchi di vendita di pellicce o con il rapporto preda-predatore.

Lezione 05/10/18

Unità statistica

Non confonderla con il numero di soggetti, chiedersi cosa sto cercando di misurare.

Rappresentazione di dati: Mappe

Ex buco dell’ozono. Permettono di visualizzare rapidamente il pattern, ed ex fare confronti di anno in anno.

Criteri di una buona comunicazione

Mostrare i dati
Descrivere gli assi
Semplicità: rimuovere le ridondanze e evitare gli elementi non chiari
Rappresentare accuratamente le misurazioni
Didascalia: il grafico deve essere comprensibile se lo leggiamo anche solo accompagnato dalla sua didascalia, isolato dal resto del testo dell’articolo

Descrizione numerica sintetica

Come sintetizzare i dati ottenuti da un’analisi statistica. La prima cosa da fare è campionare, cioè identificare quale sono le mie unità statistiche e individuare un sottoinsieme della mia popolazione che la rappresenti in modo corretto. Dobbiamo poi rilevare e archiviare i dati utilizzando un protocollo di raccolta dati. I dati vengono poi rappresentati e poi devo riassumere il tutto numericamente tramite calcolo di statistica descrittiva: per inferire qualcosa dal campione alla popolazione.

Come si descrive una distribuzione numericamente?

Le info che mi interessano sono:

La moda, cioè il valore più frequente
La media
La mediana, cioè il valore centrale se metto i valori in ordine (n: dispari, valore al centro; n: pari; media valori centrali)

Le caratteristiche di un grafico che mi interessano sono:

→ media. La tendenza centrale o mediana
→ deviazione. Dispersione standard o differenza interquartile. Misura di posizione: Quartili e Mediana. La mediana corrisponde al secondo quartile. Se considero le percentuali (25% e 50%) si chiamano percentili. Tramite la misurazione del primo e terzo quartile posso sapere qual è la dispersione intorno al valore centrale: più i due numeri sono vicini più i dati sono vicini alla mediana. In generale, se ho una distribuzione normale, il primo e il terzo quartile sono equidistanti dalla mediana, ma non è sempre così.

Diagramma a scatole e baffi

Il grafico box plot sui ragni, non ha una distribuzione normale in quanto non c’è simmetria tra i quartili tra i valori che essi assumono, i "baffi" rappresentano il valore max e min nella distribuzione osservata, a patto che stiano entro 1,5 volte l’intervallo interquartile a meno di valori estremi (puntino). I valori indicati con una “o” significa che stanno oltre 3 volte la distanza interquartile a partire dall’inizio del box, e sono detti outliers, e quindi sono fuori dalla mia distribuzione.

La distanza interquartile è il primo dato di variabilità ed è data dalla distanza tra primo e terzo interquartile. Vedo che con l’amputazione c’è si un aumento della velocità ma noto anche che c’è una notevole variabilità, con la distanza interquartile che è circa il doppio di quello prima dell’amputazione.

Un altro modo per rappresentare questi dati, dato che c’è una correlazione tra la velocità prima e dopo l’amputazione di uno stesso ragno, cosa che non viene fuori dal box plot: infatti i due grafici a box potrebbero essere relativi a due diversi campioni. Invece, se metto in grafico sulle ascisse "before" e "after" (dato nominale; prima e dopo l’amputazione) e in ordinata la velocità (un dato continuo) e unisco con una retta i dati del singolo animale, vedo come sono cambiati, perdo le info di mediana ma mette in evidenza che i dati sono appaiati e anche la correlazione tra velocità e amputazione.

Media aritmetica

È una misura di tendenza centrale. Somma di tutti i valori diviso il numero dei valori. Se voglio calcolare la media da una tabella di frequenza faccio la sommatoria della altezza nell’intervallo per la frequenza, diviso n = frequenza.

Misure di dispersione: varianza e deviazione standard

La dispersione dei valori intorno alla media la calcolo tramite la distanza di ogni valore del campione dalla media; cioè la differenza dei loro valori elevata al quadrato (perché altrimenti avrei valori negativi, io voglio i loro valori assoluti). Faccio quindi la sommatoria delle differenze al quadrato = DEVIANZA (SQ o SS).

Dividendo SQ per n-1, per avere la media di questi scarti, ottengo la VARIANZA. NB → TUTTI QUESTI VALORI SI RIFERISCONO AL CAMPIONE, QUINDI STO STIMANDO LA VARIANZA DELLA POPOLAZIONE. (USO LETTERE ROMANE, MENTRE PER IL CAMPIONE USO QUELLE GRECHE → μ = media; σ = deviazione standard).

Uso n-1 per correggere la stima, ed è importante soprattutto se n è piccolo mentre un n grande rende la stima più convergente alla media vera. Per poi ritornare al concetto di distanza del dato dalla media, devo fare la radice quadrata della varianza che mi dà la DEVIAZIONE STANDARD (DS) O SCARTO QUADRATICO MEDIO → distanza media dei valori dalla media.

Un altro modo per analizzare la variazione di campioni, posso confrontare direttamente la deviazione standard (non la devianza perché essa è dipendente dal numero di casi in un campione, dato che è una sommatoria).

Confrontare la variabilità?

CV = (deviazione standard della popolazione/media della popolazione) x 100. Idem per il campione. Questo coefficiente di variazione potrebbe anche essere >1 se la variabilità è molto alta.

Altra misura di variabilità è il range cioè la distanza numerica tra valore massimo e minimo (max-min), quindi l’ampiezza dei miei dati: se ex i miei dati sono 25 e 75 = range è 50. L’intervallo invece è 25-75.

NB → INTERVALLO (min; max) RANGE (max – min). La somma degli scarti è 0!! Perché ha valori positivi e negativi. Invece, la devianza è un minimo. La media delle medie ponderate è la media. La media non sempre è un buon indicatore/descrizione della popolazione, è buono se la distribuzione è normale, mentre se è ad esempio asimmetrica verso destra, essa sarà più spostata verso sinistra o in una distribuzione con più picchi, non mi dà info importanti.

Confronto tra misure di posizione e variabilità

N di piastre sullo spinarello. La media è molto influenzata dal tipo di distribuzione, in alcune distribuzioni sono quindi più utili mediana e scarto interquartile. La media è come un baricentro, la mediana no, è la misura centrale quando ordino i dati! La moda anche è un buon indicatore, dicendomi qual è il valore più frequente nella distribuzione.

Lezione 10/10/18

Distribuzione campionaria di una stima

Come parametro usiamo la lunghezza media di un gene umano, espresso in numero di nucleotidi. Nel genoma umano si contano 20049 geni. Il grafico è una distribuzione di frequenza relativa: in ordinata non trovo il numero di geni che ha tot nucleotidi ma la frequenza relativa, cioè la probabilità che nel genoma si trovi un gene della tot lunghezza. Quello che ho è il parametro, la lunghezza media del gene che è μ = 2622 e il parametro σ = 2036,9 nucleotidi. Il grafico è asimmetrico, per cui la media potrebbe non essere l’indicatore più adeguato.

Anteprima

Vedrai una selezione di 10 pagine su 76