A AF
precisi alla seconda cifra decimale:
3.91, 4.29, 4.01, 3.96, 4.45, 4.18, 4.26, 4.39, 3.65, 3.79, 4.38, 4.07, 3.56, 4.04, 3.38, 4.07, 3.98, 4.3, 3.74, 4.08, 4.08, 3.66, 4.26, 3.71, 3.99,
4.05, 4.11, 3.85, 4.08, 3.76, 3.99, 3.95, 4.45, 4.04, 4.17, 4.01, 4.11, 3.71, 4.52, 4.06, 4.04, 3.71, 4.55, 4.41, 4.08, 3.99, 4.47, 4.14, 4.00, 3.81
mol/L.
§ I risultati di prove ripetute rappresentano un sottoinsieme, detto “campione”, degli infiniti valori che si sarebbero potuti raccogliere, il cui
insieme è detto “popolazione” o “spazio campionario”.
§ I metodi e gli scopi della statistica differiscono a seconda che si voglia
• semplicemente caratterizzare il campione -> statistica descrittiva,
• usare il campione per trarre informazioni sulla popolazione da cui è estratto -> statistica inferenziale.
§ Il campione è caratterizzato da
• dimensione: il numero di dati (nell’esempio, 50),
• valori dei dati,
• intervallo (range) in cui sono contenuti i dati (nell’esempio, [3.38, 4.55]).
§ Per descrivere il campione, è utile suddividere il range in sottointervalli, detti “classi” (bin).
• Spesso, non è elementare scegliere il numero e la la dimensione delle classi.
- L’ampiezza delle classi è, in genere, costante.
- Il numero non deve essere ne eccessivo ne eccessivamente ridotto.
• Con riferimento all’esempio, scegliamo di suddividere il campione in 10 classi di ampiezza 0.125.
• Il punto medio di ciascuna classe ne costituisce il class mark (3.44, 3.57, ...)
Frequenze dei dati del campione
§ Definite le classi, si può contare quanti dati appartengono a ciascuna di esse.
• Dati che cadono esattamente sul bordo tra due classi vengono contati a metà in ciascuna delle due.
• Il conteggio fornisce le frequenze assolute delle classi.
• La somma delle frequenze assolute è pari alla dimensione del campione.
• Corrispondentemente, si possono calcolare le frequenze relative delle classi dividendo ciascuna frequenza assoluta per la dimensione del
campione (nell’esempio, 50).
• Il valore di ogni frequenza relativa è (ovviamente) compreso tra 0 e 1.
• La somma delle frequenze relative è pari a 1.
• Frequenze assolute e relative possono essere diagrammate tramite istogrammi
• La barra che “spicca” sulle altre individua, in qualche senso, la «tendenza centrale» dei dati.
è possibile individuare un unico picco, la distribuzione dei dati di dice “monomodale”; se i picchi sono due, la distribuzione si dice
-Quando
«bimodale»…
§ Ripetendo 50 volte la misura di per = 6 mol/L, non abbiamo ottenuto 50 volte lo stesso valore sperimentale, ma notiamo che esiste una
A AF
struttura nei dati misurati.
• Come mai esiste questa struttura?
• Si può riconoscere una «tendenza centrale» nell’istogramma?
- Come la si potrebbe misurare?
• Si può riconoscere una dispersione dei dati attorno alla tendenza centrale?
- Come la si potrebbe misurare?
§ Quando si effettua una misura 1 di una quantità , l’osservazione sperimentale approssima (sperabilmente) il valore vero di .
§ Se ripetiamo la misura, otteniamo 2 1, ma entrambe approssimano il valore vero di .
≠
§ Aumentando il numero di misure, si vede emergere una struttura nei dati raccolti.
§ Se la sperimentazione è fatta bene e non si commettono errori sistematici, i valori misurati tenderanno ad addensarsi attorno al valore vero.
§ Accuratezza: una misura ripetuta è tanto più accurata quanto più la tendenza centrale dei dati si avvicina al valore vero del misurando.
• L’accuratezza di un esperimento dipende da quanto si possono controllare o compensare gli errori sistematici.
• D’ora in avanti, non ci occuperemo più di errori sistematici (ipotizzandoli assenti).
§ Precisione: una misura è tanto più precisa quanto più i singoli valori misurati, in condizioni di ripetibilità, si concentrano intorno alla loro
tendenza centrale.
• E’ una misura della riproducibilità del risultato.
•La precisione di un esperimento dipende da quanto si riescono a ridurre gli errori casuali
ISPC Pagina 8
•La precisione di un esperimento dipende da quanto si riescono a ridurre gli errori casuali
§ Una volta calcolate le frequenze (assoluta e relativa) dei bin in cui si è suddiviso il campione, si possono determinare le corrispondenti frequenze
cumulative.
• La frequenza cumulativa assoluta della classe con class mark 0 è la somma delle frequenze assolute delle classi con class mark 0.
≤
• La frequenza cumulativa relativa della classe con class mark 0 è la somma delle frequenze relative delle classi con class mark 0.
≤
• Anche per le frequenze cumulative si possono costruire istogrammi, il cui andamento è (ovviamente) non decrescente
Misure della tendenza centrale del campione
§ Date osservazioni sperimentali (nell’esempio, 50), si possono calcolare degli indicatori che caratterizzano in maniera sintetica la distribuzione
dei dati del campione.
§ Descrittori della tendenza centrale di un campione
• Media:
(nell’esempio, la media del campione vale 4.045 mol/L)
- La media non è un descrittore robusto della tendenza centrale di un campione: asimmetrie significative nella distribuzione dei dati o la presenza
di dati fuori scala hanno una grossa influenza sulla media.
• Mediana: ordinati i dati in senso crescente, è il valore che divide il campione in due parti, ciascuna contenente la metà dei dati
- Se il numero dei dati è pari, la mediana è a metà tra i due dati centrali (come nell’esempio, in cui la mediana del campione vale 4.045 mol/L).
- Se il numero dei dati è dispari, la mediana è il valore centrale.
- La mediana è robusta.
• Moda: class mark della classe con la frequenza più elevata (nell’esempio, la moda vale 4.07 mol/L)
- Quando due o più classi condividono la frequenza più elevata, il campione si dice «bimodale» o «multimodale». In caso contrario, esso è
monomodale.
§ Quando le tre misure della tendenza centrale differiscono, di solito vale
Quartili e percentili
§ Quando un insieme ordinato di dati viene diviso in quattro parti uguali, i tre punti di divisione sono detti «quartili».
• Il primo quartile 1 è un valore tale che circa il 25% delle osservazioni hanno valori inferiori ad esso (e il 75% superiori).
• Il secondo quartile 2 è un valore tale che circa il 50% delle osservazioni sono al di sotto di esso.
secondo quartile coincide con la mediana.
-Il
• Il terzo quartile 3 ha circa il 75% delle osservazioni al di sotto di esso.
§ Il 100 -esimo percentile (con 0 % delle osservazioni sono pari o inferiori a questo valore (e circa il 100(1
≤ ≤ 1) è un valore tale che circa il 100 −
)% sono al di sopra di esso).
• Il 50° percentile coincide con la mediana.
Misure della dispersione del campione
§ Descrittori della dispersione dei dati di un campione rispetto alla tendenza centrale
• Deviazione dalla media:
- La media delle deviazioni dalla media dei dati di un campione
, è nulla.
• Media dei valori assoluti delle deviazioni:
- E’ un indicatore scomodo da usare.
• Deviazione standard:
- Nell’esempio, la deviazione standard del campione vale 0.26 mol/L.
Indicatore dimensionale ,ha le stesse unità di misura dei dati
• Varianza:
- Nell’esempio, la varianza del campione vale 0.068 mol2/L2.
Ha il quadrato delle unità di misura dei dati
- La deviazione standard e la varianza misurano la dispersione dei dati di un campione attorno alla media, pertanto possono essere usate solo
quando la media è utilizzata come misura della tendenza centrale.
- Deviazione standard e varianza sono descrittori non robusti della dispersione dei dati di un campione.
• Intervallo interquartile: = 3 1
−
Misure della forma del campione
§ Descrittori della forma della distribuzione dei dati di un campione
• Skewness (coefficiente di asimmetria):
- < 0 -> distribuzione ha “coda” a sinistra, = 0 -> distribuzione simmetrica, > 0 à distribuzione ha “coda” a destra (nell’esempio, = −
ISPC Pagina 9
- < 0 -> distribuzione ha “coda” a sinistra, = 0 -> distribuzione simmetrica, > 0 à distribuzione ha “coda” a destra (nell’esempio, = −
0.12: la distribuzione dei dati “pende” un po’ a sinistra)
• Curtosi:
- Tanto più κ > 1, tanto più la distribuzione è “appuntita”, tanto più κ < 1, tanto meno la distribuzione è appuntita (nell’esempio, κ = 2.79: la
distribuzione dei dati è piuttosto appuntita).
- Il calcolo della curtosi ha senso solo per distribuzioni monomodali.
Non negativa
Limite 0 , non va sotto
- Molti autori, invece della curtosi, utilizzano la excess kurtosis, pari a κ 3, può essere negativa
−
Box plot
§ Un box plot (o box-and-whiskers plot) è una descrizione grafica di diverse caratteristiche importanti di un set di dati, come la tendenza
centrale, la dispersione, l'asimmetria e la presenza di osservazioni «insolite».
§ La scatola racchiude l'intervallo interquartile con il bordo sinistro (o inferiore) in 1 e il bordo destro (o superiore) in 3.
§ Una linea attraversa la scatola a 2 (i.e., il 50° percentile/la mediana).
§ Un "baffo" si estende da ciascuna estremità della scatola.
• Il baffo inferiore è una linea che va da 1 al più piccolo dato entro 1.5 da 1.
• Il baffo superiore va da . al più grande dato entro 1.5 da .. § I dati più lontani dalla scatola rispetto all’estensione dei baffi vengono
rappresentati come singoli punti. • I dati fuori dai baffi, ma a distanza inferiore a 3 dal bordo della scatola, sono chiamati «outlier».
• I dati a distanza superiore a 3 dal bordo della scatola sono chiamati «outlier estremi».
identificare i due tipi di valori anomali, sono spesso utilizzati simboli diversi (ad esempio, cerchi aperti e pieni).
-Per
Elementi di probabilità – Variabili Aleatorie scalari
Frequenza e probabilità
§ Quando misuriamo un valore 1 di una quantità , il dato sperimentale approssima il valore vero di .
• Se ripetiamo la misura, otteniamo, in generale, 2 1 (a causa degli errori sperimentali), ma entrambi i valori approssimano il valore vero.
≠
-
Identificazione di modelli
-
Identificazione dei batteri
-
Identificazione dei virus
-
Flashcard saggi di identificazione