Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
DESCRIZIONE NUMERICA SINTETICA
Come sintetizzare i dati ottenuti da un’analisi statistica.
La prima cosa da fare è campionare, cioè identificare quale sono le mie unità statistiche e
individuare un sottoinsieme della mia popolazione che la rappresenti in modo corretto.
Dobbiamo poi rilevare e archiviare i dati utilizzando un protocollo di raccolta dati.
I dati vengono poi rappresentati e poi devo riassumere il tutto numericamente tramite calcolo di
statistica descrittiva: per inferire qualcosa dal campione alla popolazione.
Come si descrivere una distribuzione numericamente?
Le info che mi interessano sono: 6
• La moda, cioè il valore più frequente
• La media,
• La mediana, cioè il valore centrale se metto i valori in ordine (n: dispari,valore al centro;
n:pari; media valori centrali.
Le caratteristiche di un grafico che mi interessano sono:
• →media
La tendenza centrale o mediana
• →deviazione
Dispersione standard o differenza interquartile
Misura di posizione : Quartili e Mediana
la mediana corrisponde al secondo quartile
se considero le percentuali (25% e 50%) si chiamano percentili.
Tramite la misurazione del primo e terzo quartile posso sapere qual è la dispersione intorno al
valore centrale: più i due numeri sono vicini più i dati sono vicini alla mediana.
In generale, se ho una distribuzione normale, il primo e il terzo quartile sono equidistanti dalla
mediana, ma non è sempre così
DIAGRAMMA A SCATOLE E BAFFI
Il grafico box blot sui ragni, non ha
una distribuzione normale in quanto
non c’è simmetria tra i quartili )tra i
valori che essi assumono, il baffi
rappresentano il valore max e min
nella distribuzione osservata, a patto
che stiano entro 1,5 volte l’intervallo
interquartile a meno di valori estremi
(puntino).
I valori indicati con una “o” significa
che stanno oltre 3 volte la distanza
interquartile a partire dall’inizio del
box, e sono detti outlayer, e quindi
sono fuori dalla mia distribuzione
La distanza interquartile è il primo dato di variabilità ed è data dalla distanza tra primo e terzo
interquartile.
Vedo che con l’amputazione c’è si un aumento della velocità ma noto anche che c’è una notevole
variabilità, con la distanza interquartile che è circa il doppio di quello prima dell’amputazione.
Un altro modo per rappresentare questi dati, dato che c’è una correlazione tra la velocità prima e
dopo l’amputazione di uno stesso ragno, cosa che non viene fuori dal box plot: infatti i due grafici
7
a box potrebbero essere relativi a due diversi campioni! Invece se metto in grafico sulle ascisse
before e after (dato nominale; prima e dopo l’amputazione)e in ordinata la velocità (un dato
continuo)e unisco con una retta i dati del singolo animale, vedo come sono cambiati, perdo le info
di mediana ma mette in evidenza che i dati sono appaiati e anche la correlazione tra velocità e
amputazione.
MEDIA ARITMETICA
È una misura di tendenza centrale.
Somma di tutti i valori diviso il numero dei valori.
Se voglio calcolare la media da una tabella di frequenza faccio la sommatoria della altezza
nell’intervallo per la frequenza, diviso n=frequenza
MISURE DI DISPERSIONE: VARIANZA E DEVIAZIONE STANDARD
La dispersione dei valori
intorno alla media la calcolo
tramite la distanza di ogni
valore del campione dalla
media; cioè la differenza dei
loro valori elevata al quadrato
(perché altrimenti avrei valori
negativi, io voglio i loro valori
assoluti)
Faccio quindi la sommatoria
delle differenze al quadrato=
DEVIANZA (SQ o SS)
Dividendo SQ per n-1, per avere la media di questi scarti, ottengo la VARIANZA
NB→TUTTI QUESTI VALORI SI RIFERISCONO AL CAMPIONE, QUINDI STO STIMANDO LA VARIANZA
DELLA POPOLAZIONE. (USO LETTERE ROMANE, MENTRE PER IL CAMPIONE USO QUELLE
GRECHE→µ=media; σ= deviazione standard)
Uso n-1 per correggere la stima, ed è importante soprattutto se n è piccolo mentre un n grande
rende la stima più convergente alla media vera.
Per poi ritornare al concetto di distanza del dato dalla media, devo fare la radice quadrata della
varianza che mi da la DEVIAZIONE STANDARD (DS) O SCARTO QUADRATICO MEDIO→ distanza media
dei valori dalla media
Un altro modo per analizzare la variazione di campioni, posso confrontare direttamente la
deviazione standard (non la devianza perché essa è dipendente dal numero di casi in un campione,
dato che è una sommatoria)
CONFRONTARE LA VARIABILITA’?
CV= (deviazione standard della popolazione/media della popolazione )x 100
Idem per il campione
Questo coefficiente di variazione potrebbe anche essere >1 se la variabilità è
molto alta. 8
Altra misura di variabilità è il RANGE cioè la distanza numerica tra valore massimo e minimo
(max-min), quindi l’ampiezza dei miei dati: se ex i miei dati sono 25 e 75= range è 50
L’intervallo invece è 25-75 ≠
NB→ INTERVALLO (min;max) RANGE (max – min)
La somma degli scarti è 0!! Perché ha valori positivi e negativi
Invece la devianza è un minimo
La media delle medie ponderate è la media.
La media non sempre è un buon indicatore/ descrizione della popolazione, è buono se la
distribuzione è normale, mentre se è ad esempio asimmetrica verso destra, essa sarà più spostata
verso sinistra o in una distribuzione con più picchi, non mi dà info importanti.
CONFRONTO TRA MISURE DI POSIZIONE E VARIABILITA’
N di piastre sullo spinarello
La media è molto influenzata dal tipo di
distribuzione, in alcune distribuzioni sono
quindi più utili mediana e scarto interquartile.
La media è come un baricentro, la mediana no,
è la misura centrale quando ordino i dati!
La moda anche è un buon indicatore, dicendomi
qual è il valore più frequente nella distribuzione
MODE LASCHE→MEDIANA E MODA LEZIONE 10/10/18
DISTRIBUZIONE CAMPIONARIA DI UNA STIMA
Come parametro usiamo la lunghezza media di un gene
umano, espresso in numero di nucleotidi.
Nel genoma umano di contano 20049 geni.
Il grafico è una distribuzione di frequenza relativa: in
ordinata non trovo il numero di geni che ha tot nucleotidi
ma la frequenza relativa, cioè la probabilità che nel
genoma si trovi un gene della tot lunghezza. Quello che
ho è il parametro, la lunghezza media del gene che è
µ=2622 e il parametro σ=2036,9 nucleotidi.
Il grafico è asimmetrico, per cui la media potrebbe non
essere l’indicatore più adeguato. 9
Se ora prendo un campione di 100 geni, mi aspetto
di trovare stime differenti della media e della
deviazione standard→il grafico in questo caso è di
frequenza assoluta, per cui l’area sotto la curva è pari
a 100 (n tot geni del campione) Nel grafico di
distribuzione di frequenza relativa, se fosse una
curva, l’area sarebbe pari a 1.
Infatti, m=2411, s=1463,5; è normale che ci sia una
discrepanza tra stima e parametro, ed è anche
normale che con un altro campione io trovo valori
ancora diversi.
Ma se il campionamento è corretto, la maggior parte delle stime tenderebbero a
convergere/avvicinarsi al valore vero. Può succedere anche se trovi dei valori di media molto più
estremo, ma con molta meno probabilità.
Se campiono tante volte, pescando a caso 100 geni dalla popolazione, posso graficamente
rappresentare la probabilità di trovare diversi
valori della media campionaria stimata, e
trovare la media delle medie stimate. (grafico di
frequenza relativa che rappresenta la
distribuzione delle medie che ottengo
campionando n volte[dal grafico non so quante
volte ho campionato perché non ho in ordinata
la frequenza assoluta])→NB ha una
distribuzione di tipo normale mentre quella di
partenza no! Perché sono parametri diversi!
QUINDI LA MEDIA CAMPIONARIA E’ ESSA STESSA UNA VARIABILE, PERCHE’ IL CAMPIONE NON E’
UNIVOCO, E DIPENDE DALLA SELEZIONE E DALL’ n STESSO.
Cosa cambia se prendo un campione di 20 geni?
LA MISURA DI TENDENZA CENTRALE NON CAMBIA DAI
CAMPIONAMENTI A 100 GENI , MA QUELLO CHE
CAMBIA E’ LA VARIABILITA’ CHE CAMBIA→CURVA PIU’
LARGA!
SE USO 200 GENI, LA CURVA SARA’ PIU’ STRETTA.
Quindi campioni più ampi (n maggiore)= MAGGIORE
PRECISIONE DELLA STIMA!!
Aumentare l’n quando il parametro nella popolazione è
molto variabile, non mi modifica la variabilità della
popolazione, ma riduce la variabilità nel campione che
uso per stimare, RIDUCO QUINDI L’ERRORE
CAMPIONARIO!
QUANDO HO DUE CAMPIONI CHE STIMANO LO STESSO PARAMETRO, OTTERRO’ DUE STIME
DIVERSE, MA LA COSA CHE MI INTERESSA E’ QUANTO DIFFERISCONO PER IL VALORE DI TENDENZA
CENTRALE E QUANDO E’ DIVERSA LA LORO DISPERSIONE!
Più i campioni sono precisi, e quindi le loro curve strette, che nessun campione sarà uguale ad un
altro, avrò quindi tutte curve che si sovrappongono poco e per nulla
10
OVVIAMENTE E’ INUTILE ESSERE ESTREMAMENTE PRECISI, DIPENDE DAL TIPO DI PARAMETRO, DA
QUANTO E’ VARIABILE, E IN BASE A CI0’ DEVO CERCARE DI DECIDERE IL VALORE DI n!
COME MISURO LA PRECISIONE DI UNA STIMA???
USO LA DEVIAZIONE STANDARD O L’INTERVALLO INTERQUARTILE.
Per le curve normali si usa la deviazione standard, ma la precisione
dipende dall’n !
quindi ES(ERRORE STANDARD)= S/√n ( radice perché fitta meglio)
L’errore standard si calcola con le stime campionarie →
ES sarà maggiore per le i campioni con n più piccolo, a slides per i
valori di ES
È quindi fondamentale riportare nei risultati, oltre a media e
deviazione standard, anche l’n, per sapere quanto sono affidabili le
stime.
Quindi il 95% dell valori delle medie ottenute con n campionamenti da ex 500 unità statistica, si
→
trova entro un intervallo di media+/- 2ES. INTERVALLO DI CONFIDENZA
11 LEZIONE 17/10/18
L’errore standard è associato al processo di campionamento, se io misuro nell’intera popolazione,
io ottengo il parametro media certo, non ha senso che ci sia un errore.
CURVA NORMALE STANDARDIZZATA:
è una curva normale che uso come riferimento per tutte le curve con distribuzioni normale.
I suoi valori sono noti: ex io so che da quella curva
Ogni distribuzione normale è caratterizzata da due parametr