Anteprima
Vedrai una selezione di 10 pagine su 76
Biostatistica Pag. 1 Biostatistica Pag. 2
Anteprima di 10 pagg. su 76.
Scarica il documento per vederlo tutto.
Biostatistica Pag. 6
Anteprima di 10 pagg. su 76.
Scarica il documento per vederlo tutto.
Biostatistica Pag. 11
Anteprima di 10 pagg. su 76.
Scarica il documento per vederlo tutto.
Biostatistica Pag. 16
Anteprima di 10 pagg. su 76.
Scarica il documento per vederlo tutto.
Biostatistica Pag. 21
Anteprima di 10 pagg. su 76.
Scarica il documento per vederlo tutto.
Biostatistica Pag. 26
Anteprima di 10 pagg. su 76.
Scarica il documento per vederlo tutto.
Biostatistica Pag. 31
Anteprima di 10 pagg. su 76.
Scarica il documento per vederlo tutto.
Biostatistica Pag. 36
Anteprima di 10 pagg. su 76.
Scarica il documento per vederlo tutto.
Biostatistica Pag. 41
1 su 76
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

DESCRIZIONE NUMERICA SINTETICA

Come sintetizzare i dati ottenuti da un’analisi statistica.

La prima cosa da fare è campionare, cioè identificare quale sono le mie unità statistiche e

individuare un sottoinsieme della mia popolazione che la rappresenti in modo corretto.

Dobbiamo poi rilevare e archiviare i dati utilizzando un protocollo di raccolta dati.

I dati vengono poi rappresentati e poi devo riassumere il tutto numericamente tramite calcolo di

statistica descrittiva: per inferire qualcosa dal campione alla popolazione.

Come si descrivere una distribuzione numericamente?

Le info che mi interessano sono: 6

• La moda, cioè il valore più frequente

• La media,

• La mediana, cioè il valore centrale se metto i valori in ordine (n: dispari,valore al centro;

n:pari; media valori centrali.

Le caratteristiche di un grafico che mi interessano sono:

• →media

La tendenza centrale o mediana

• →deviazione

Dispersione standard o differenza interquartile

Misura di posizione : Quartili e Mediana

la mediana corrisponde al secondo quartile

se considero le percentuali (25% e 50%) si chiamano percentili.

Tramite la misurazione del primo e terzo quartile posso sapere qual è la dispersione intorno al

valore centrale: più i due numeri sono vicini più i dati sono vicini alla mediana.

In generale, se ho una distribuzione normale, il primo e il terzo quartile sono equidistanti dalla

mediana, ma non è sempre così

DIAGRAMMA A SCATOLE E BAFFI

Il grafico box blot sui ragni, non ha

una distribuzione normale in quanto

non c’è simmetria tra i quartili )tra i

valori che essi assumono, il baffi

rappresentano il valore max e min

nella distribuzione osservata, a patto

che stiano entro 1,5 volte l’intervallo

interquartile a meno di valori estremi

(puntino).

I valori indicati con una “o” significa

che stanno oltre 3 volte la distanza

interquartile a partire dall’inizio del

box, e sono detti outlayer, e quindi

sono fuori dalla mia distribuzione

La distanza interquartile è il primo dato di variabilità ed è data dalla distanza tra primo e terzo

interquartile.

Vedo che con l’amputazione c’è si un aumento della velocità ma noto anche che c’è una notevole

variabilità, con la distanza interquartile che è circa il doppio di quello prima dell’amputazione.

Un altro modo per rappresentare questi dati, dato che c’è una correlazione tra la velocità prima e

dopo l’amputazione di uno stesso ragno, cosa che non viene fuori dal box plot: infatti i due grafici

7

a box potrebbero essere relativi a due diversi campioni! Invece se metto in grafico sulle ascisse

before e after (dato nominale; prima e dopo l’amputazione)e in ordinata la velocità (un dato

continuo)e unisco con una retta i dati del singolo animale, vedo come sono cambiati, perdo le info

di mediana ma mette in evidenza che i dati sono appaiati e anche la correlazione tra velocità e

amputazione.

MEDIA ARITMETICA

È una misura di tendenza centrale.

Somma di tutti i valori diviso il numero dei valori.

Se voglio calcolare la media da una tabella di frequenza faccio la sommatoria della altezza

nell’intervallo per la frequenza, diviso n=frequenza

MISURE DI DISPERSIONE: VARIANZA E DEVIAZIONE STANDARD

La dispersione dei valori

intorno alla media la calcolo

tramite la distanza di ogni

valore del campione dalla

media; cioè la differenza dei

loro valori elevata al quadrato

(perché altrimenti avrei valori

negativi, io voglio i loro valori

assoluti)

Faccio quindi la sommatoria

delle differenze al quadrato=

DEVIANZA (SQ o SS)

Dividendo SQ per n-1, per avere la media di questi scarti, ottengo la VARIANZA

NB→TUTTI QUESTI VALORI SI RIFERISCONO AL CAMPIONE, QUINDI STO STIMANDO LA VARIANZA

DELLA POPOLAZIONE. (USO LETTERE ROMANE, MENTRE PER IL CAMPIONE USO QUELLE

GRECHE→µ=media; σ= deviazione standard)

Uso n-1 per correggere la stima, ed è importante soprattutto se n è piccolo mentre un n grande

rende la stima più convergente alla media vera.

Per poi ritornare al concetto di distanza del dato dalla media, devo fare la radice quadrata della

varianza che mi da la DEVIAZIONE STANDARD (DS) O SCARTO QUADRATICO MEDIO→ distanza media

dei valori dalla media

Un altro modo per analizzare la variazione di campioni, posso confrontare direttamente la

deviazione standard (non la devianza perché essa è dipendente dal numero di casi in un campione,

dato che è una sommatoria)

CONFRONTARE LA VARIABILITA’?

CV= (deviazione standard della popolazione/media della popolazione )x 100

Idem per il campione

Questo coefficiente di variazione potrebbe anche essere >1 se la variabilità è

molto alta. 8

Altra misura di variabilità è il RANGE cioè la distanza numerica tra valore massimo e minimo

(max-min), quindi l’ampiezza dei miei dati: se ex i miei dati sono 25 e 75= range è 50

L’intervallo invece è 25-75 ≠

NB→ INTERVALLO (min;max) RANGE (max – min)

La somma degli scarti è 0!! Perché ha valori positivi e negativi

Invece la devianza è un minimo

La media delle medie ponderate è la media.

La media non sempre è un buon indicatore/ descrizione della popolazione, è buono se la

distribuzione è normale, mentre se è ad esempio asimmetrica verso destra, essa sarà più spostata

verso sinistra o in una distribuzione con più picchi, non mi dà info importanti.

CONFRONTO TRA MISURE DI POSIZIONE E VARIABILITA’

N di piastre sullo spinarello

La media è molto influenzata dal tipo di

distribuzione, in alcune distribuzioni sono

quindi più utili mediana e scarto interquartile.

La media è come un baricentro, la mediana no,

è la misura centrale quando ordino i dati!

La moda anche è un buon indicatore, dicendomi

qual è il valore più frequente nella distribuzione

MODE LASCHE→MEDIANA E MODA LEZIONE 10/10/18

DISTRIBUZIONE CAMPIONARIA DI UNA STIMA

Come parametro usiamo la lunghezza media di un gene

umano, espresso in numero di nucleotidi.

Nel genoma umano di contano 20049 geni.

Il grafico è una distribuzione di frequenza relativa: in

ordinata non trovo il numero di geni che ha tot nucleotidi

ma la frequenza relativa, cioè la probabilità che nel

genoma si trovi un gene della tot lunghezza. Quello che

ho è il parametro, la lunghezza media del gene che è

µ=2622 e il parametro σ=2036,9 nucleotidi.

Il grafico è asimmetrico, per cui la media potrebbe non

essere l’indicatore più adeguato. 9

Se ora prendo un campione di 100 geni, mi aspetto

di trovare stime differenti della media e della

deviazione standard→il grafico in questo caso è di

frequenza assoluta, per cui l’area sotto la curva è pari

a 100 (n tot geni del campione) Nel grafico di

distribuzione di frequenza relativa, se fosse una

curva, l’area sarebbe pari a 1.

Infatti, m=2411, s=1463,5; è normale che ci sia una

discrepanza tra stima e parametro, ed è anche

normale che con un altro campione io trovo valori

ancora diversi.

Ma se il campionamento è corretto, la maggior parte delle stime tenderebbero a

convergere/avvicinarsi al valore vero. Può succedere anche se trovi dei valori di media molto più

estremo, ma con molta meno probabilità.

Se campiono tante volte, pescando a caso 100 geni dalla popolazione, posso graficamente

rappresentare la probabilità di trovare diversi

valori della media campionaria stimata, e

trovare la media delle medie stimate. (grafico di

frequenza relativa che rappresenta la

distribuzione delle medie che ottengo

campionando n volte[dal grafico non so quante

volte ho campionato perché non ho in ordinata

la frequenza assoluta])→NB ha una

distribuzione di tipo normale mentre quella di

partenza no! Perché sono parametri diversi!

QUINDI LA MEDIA CAMPIONARIA E’ ESSA STESSA UNA VARIABILE, PERCHE’ IL CAMPIONE NON E’

UNIVOCO, E DIPENDE DALLA SELEZIONE E DALL’ n STESSO.

Cosa cambia se prendo un campione di 20 geni?

LA MISURA DI TENDENZA CENTRALE NON CAMBIA DAI

CAMPIONAMENTI A 100 GENI , MA QUELLO CHE

CAMBIA E’ LA VARIABILITA’ CHE CAMBIA→CURVA PIU’

LARGA!

SE USO 200 GENI, LA CURVA SARA’ PIU’ STRETTA.

Quindi campioni più ampi (n maggiore)= MAGGIORE

PRECISIONE DELLA STIMA!!

Aumentare l’n quando il parametro nella popolazione è

molto variabile, non mi modifica la variabilità della

popolazione, ma riduce la variabilità nel campione che

uso per stimare, RIDUCO QUINDI L’ERRORE

CAMPIONARIO!

QUANDO HO DUE CAMPIONI CHE STIMANO LO STESSO PARAMETRO, OTTERRO’ DUE STIME

DIVERSE, MA LA COSA CHE MI INTERESSA E’ QUANTO DIFFERISCONO PER IL VALORE DI TENDENZA

CENTRALE E QUANDO E’ DIVERSA LA LORO DISPERSIONE!

Più i campioni sono precisi, e quindi le loro curve strette, che nessun campione sarà uguale ad un

altro, avrò quindi tutte curve che si sovrappongono poco e per nulla

10

OVVIAMENTE E’ INUTILE ESSERE ESTREMAMENTE PRECISI, DIPENDE DAL TIPO DI PARAMETRO, DA

QUANTO E’ VARIABILE, E IN BASE A CI0’ DEVO CERCARE DI DECIDERE IL VALORE DI n!

COME MISURO LA PRECISIONE DI UNA STIMA???

USO LA DEVIAZIONE STANDARD O L’INTERVALLO INTERQUARTILE.

Per le curve normali si usa la deviazione standard, ma la precisione

dipende dall’n !

quindi ES(ERRORE STANDARD)= S/√n ( radice perché fitta meglio)

L’errore standard si calcola con le stime campionarie →

ES sarà maggiore per le i campioni con n più piccolo, a slides per i

valori di ES

È quindi fondamentale riportare nei risultati, oltre a media e

deviazione standard, anche l’n, per sapere quanto sono affidabili le

stime.

Quindi il 95% dell valori delle medie ottenute con n campionamenti da ex 500 unità statistica, si

trova entro un intervallo di media+/- 2ES. INTERVALLO DI CONFIDENZA

11 LEZIONE 17/10/18

L’errore standard è associato al processo di campionamento, se io misuro nell’intera popolazione,

io ottengo il parametro media certo, non ha senso che ci sia un errore.

CURVA NORMALE STANDARDIZZATA:

è una curva normale che uso come riferimento per tutte le curve con distribuzioni normale.

I suoi valori sono noti: ex io so che da quella curva

Ogni distribuzione normale è caratterizzata da due parametr

Dettagli
Publisher
A.A. 2018-2019
76 pagine
SSD Scienze biologiche BIO/05 Zoologia

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher nadia.sam_ di informazioni apprese con la frequenza delle lezioni di Biostatistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Pisa o del prof Massolo Alessandro.