Estratto del documento

A AF

precisi alla seconda cifra decimale:

3.91, 4.29, 4.01, 3.96, 4.45, 4.18, 4.26, 4.39, 3.65, 3.79, 4.38, 4.07, 3.56, 4.04, 3.38, 4.07, 3.98, 4.3, 3.74, 4.08, 4.08, 3.66, 4.26, 3.71, 3.99,

4.05, 4.11, 3.85, 4.08, 3.76, 3.99, 3.95, 4.45, 4.04, 4.17, 4.01, 4.11, 3.71, 4.52, 4.06, 4.04, 3.71, 4.55, 4.41, 4.08, 3.99, 4.47, 4.14, 4.00, 3.81

mol/L.

§ I risultati di prove ripetute rappresentano un sottoinsieme, detto “campione”, degli infiniti valori che si sarebbero potuti raccogliere, il cui

insieme è detto “popolazione” o “spazio campionario”.

§ I metodi e gli scopi della statistica differiscono a seconda che si voglia

• semplicemente caratterizzare il campione -> statistica descrittiva,

• usare il campione per trarre informazioni sulla popolazione da cui è estratto -> statistica inferenziale.

§ Il campione è caratterizzato da

• dimensione: il numero di dati (nell’esempio, 50),

• valori dei dati,

• intervallo (range) in cui sono contenuti i dati (nell’esempio, [3.38, 4.55]).

§ Per descrivere il campione, è utile suddividere il range in sottointervalli, detti “classi” (bin).

• Spesso, non è elementare scegliere il numero e la la dimensione delle classi.

- L’ampiezza delle classi è, in genere, costante.

- Il numero non deve essere ne eccessivo ne eccessivamente ridotto.

• Con riferimento all’esempio, scegliamo di suddividere il campione in 10 classi di ampiezza 0.125.

• Il punto medio di ciascuna classe ne costituisce il class mark (3.44, 3.57, ...)

Frequenze dei dati del campione

§ Definite le classi, si può contare quanti dati appartengono a ciascuna di esse.

• Dati che cadono esattamente sul bordo tra due classi vengono contati a metà in ciascuna delle due.

• Il conteggio fornisce le frequenze assolute delle classi.

• La somma delle frequenze assolute è pari alla dimensione del campione.

• Corrispondentemente, si possono calcolare le frequenze relative delle classi dividendo ciascuna frequenza assoluta per la dimensione del

campione (nell’esempio, 50).

• Il valore di ogni frequenza relativa è (ovviamente) compreso tra 0 e 1.

• La somma delle frequenze relative è pari a 1.

• Frequenze assolute e relative possono essere diagrammate tramite istogrammi

• La barra che “spicca” sulle altre individua, in qualche senso, la «tendenza centrale» dei dati.

è possibile individuare un unico picco, la distribuzione dei dati di dice “monomodale”; se i picchi sono due, la distribuzione si dice

-Quando

«bimodale»…

§ Ripetendo 50 volte la misura di per = 6 mol/L, non abbiamo ottenuto 50 volte lo stesso valore sperimentale, ma notiamo che esiste una

A AF

struttura nei dati misurati.

• Come mai esiste questa struttura?

• Si può riconoscere una «tendenza centrale» nell’istogramma?

- Come la si potrebbe misurare?

• Si può riconoscere una dispersione dei dati attorno alla tendenza centrale?

- Come la si potrebbe misurare?

§ Quando si effettua una misura 1 di una quantità , l’osservazione sperimentale approssima (sperabilmente) il valore vero di .

§ Se ripetiamo la misura, otteniamo 2 1, ma entrambe approssimano il valore vero di .

§ Aumentando il numero di misure, si vede emergere una struttura nei dati raccolti.

§ Se la sperimentazione è fatta bene e non si commettono errori sistematici, i valori misurati tenderanno ad addensarsi attorno al valore vero.

§ Accuratezza: una misura ripetuta è tanto più accurata quanto più la tendenza centrale dei dati si avvicina al valore vero del misurando.

• L’accuratezza di un esperimento dipende da quanto si possono controllare o compensare gli errori sistematici.

• D’ora in avanti, non ci occuperemo più di errori sistematici (ipotizzandoli assenti).

§ Precisione: una misura è tanto più precisa quanto più i singoli valori misurati, in condizioni di ripetibilità, si concentrano intorno alla loro

tendenza centrale.

• E’ una misura della riproducibilità del risultato.

•La precisione di un esperimento dipende da quanto si riescono a ridurre gli errori casuali

ISPC Pagina 8

•La precisione di un esperimento dipende da quanto si riescono a ridurre gli errori casuali

§ Una volta calcolate le frequenze (assoluta e relativa) dei bin in cui si è suddiviso il campione, si possono determinare le corrispondenti frequenze

cumulative.

• La frequenza cumulativa assoluta della classe con class mark 0 è la somma delle frequenze assolute delle classi con class mark 0.

• La frequenza cumulativa relativa della classe con class mark 0 è la somma delle frequenze relative delle classi con class mark 0.

• Anche per le frequenze cumulative si possono costruire istogrammi, il cui andamento è (ovviamente) non decrescente

Misure della tendenza centrale del campione

§ Date osservazioni sperimentali (nell’esempio, 50), si possono calcolare degli indicatori che caratterizzano in maniera sintetica la distribuzione

dei dati del campione.

§ Descrittori della tendenza centrale di un campione

• Media:

(nell’esempio, la media del campione vale 4.045 mol/L)

- La media non è un descrittore robusto della tendenza centrale di un campione: asimmetrie significative nella distribuzione dei dati o la presenza

di dati fuori scala hanno una grossa influenza sulla media.

• Mediana: ordinati i dati in senso crescente, è il valore che divide il campione in due parti, ciascuna contenente la metà dei dati

- Se il numero dei dati è pari, la mediana è a metà tra i due dati centrali (come nell’esempio, in cui la mediana del campione vale 4.045 mol/L).

- Se il numero dei dati è dispari, la mediana è il valore centrale.

- La mediana è robusta.

• Moda: class mark della classe con la frequenza più elevata (nell’esempio, la moda vale 4.07 mol/L)

- Quando due o più classi condividono la frequenza più elevata, il campione si dice «bimodale» o «multimodale». In caso contrario, esso è

monomodale.

§ Quando le tre misure della tendenza centrale differiscono, di solito vale

Quartili e percentili

§ Quando un insieme ordinato di dati viene diviso in quattro parti uguali, i tre punti di divisione sono detti «quartili».

• Il primo quartile 1 è un valore tale che circa il 25% delle osservazioni hanno valori inferiori ad esso (e il 75% superiori).

• Il secondo quartile 2 è un valore tale che circa il 50% delle osservazioni sono al di sotto di esso.

secondo quartile coincide con la mediana.

-Il

• Il terzo quartile 3 ha circa il 75% delle osservazioni al di sotto di esso.

§ Il 100 -esimo percentile (con 0 % delle osservazioni sono pari o inferiori a questo valore (e circa il 100(1

≤ ≤ 1) è un valore tale che circa il 100 −

)% sono al di sopra di esso).

• Il 50° percentile coincide con la mediana.

Misure della dispersione del campione

§ Descrittori della dispersione dei dati di un campione rispetto alla tendenza centrale

• Deviazione dalla media:

- La media delle deviazioni dalla media dei dati di un campione

, è nulla.

• Media dei valori assoluti delle deviazioni:

- E’ un indicatore scomodo da usare.

• Deviazione standard:

- Nell’esempio, la deviazione standard del campione vale 0.26 mol/L.

Indicatore dimensionale ,ha le stesse unità di misura dei dati

• Varianza:

- Nell’esempio, la varianza del campione vale 0.068 mol2/L2.

Ha il quadrato delle unità di misura dei dati

- La deviazione standard e la varianza misurano la dispersione dei dati di un campione attorno alla media, pertanto possono essere usate solo

quando la media è utilizzata come misura della tendenza centrale.

- Deviazione standard e varianza sono descrittori non robusti della dispersione dei dati di un campione.

• Intervallo interquartile: = 3 1

Misure della forma del campione

§ Descrittori della forma della distribuzione dei dati di un campione

• Skewness (coefficiente di asimmetria):

- < 0 -> distribuzione ha “coda” a sinistra, = 0 -> distribuzione simmetrica, > 0 à distribuzione ha “coda” a destra (nell’esempio, = −

ISPC Pagina 9

- < 0 -> distribuzione ha “coda” a sinistra, = 0 -> distribuzione simmetrica, > 0 à distribuzione ha “coda” a destra (nell’esempio, = −

0.12: la distribuzione dei dati “pende” un po’ a sinistra)

• Curtosi:

- Tanto più κ > 1, tanto più la distribuzione è “appuntita”, tanto più κ < 1, tanto meno la distribuzione è appuntita (nell’esempio, κ = 2.79: la

distribuzione dei dati è piuttosto appuntita).

- Il calcolo della curtosi ha senso solo per distribuzioni monomodali.

Non negativa

Limite 0 , non va sotto

- Molti autori, invece della curtosi, utilizzano la excess kurtosis, pari a κ 3, può essere negativa

Box plot

§ Un box plot (o box-and-whiskers plot) è una descrizione grafica di diverse caratteristiche importanti di un set di dati, come la tendenza

centrale, la dispersione, l'asimmetria e la presenza di osservazioni «insolite».

§ La scatola racchiude l'intervallo interquartile con il bordo sinistro (o inferiore) in 1 e il bordo destro (o superiore) in 3.

§ Una linea attraversa la scatola a 2 (i.e., il 50° percentile/la mediana).

§ Un "baffo" si estende da ciascuna estremità della scatola.

• Il baffo inferiore è una linea che va da 1 al più piccolo dato entro 1.5 da 1.

• Il baffo superiore va da . al più grande dato entro 1.5 da .. § I dati più lontani dalla scatola rispetto all’estensione dei baffi vengono

rappresentati come singoli punti. • I dati fuori dai baffi, ma a distanza inferiore a 3 dal bordo della scatola, sono chiamati «outlier».

• I dati a distanza superiore a 3 dal bordo della scatola sono chiamati «outlier estremi».

identificare i due tipi di valori anomali, sono spesso utilizzati simboli diversi (ad esempio, cerchi aperti e pieni).

-Per

Elementi di probabilità – Variabili Aleatorie scalari

Frequenza e probabilità

§ Quando misuriamo un valore 1 di una quantità , il dato sperimentale approssima il valore vero di .

• Se ripetiamo la misura, otteniamo, in generale, 2 1 (a causa degli errori sperimentali), ma entrambi i valori approssimano il valore vero.

Anteprima
Vedrai una selezione di 4 pagine su 15
Identificazione e simulazione dei processi chimici Pag. 1 Identificazione e simulazione dei processi chimici Pag. 2
Anteprima di 4 pagg. su 15.
Scarica il documento per vederlo tutto.
Identificazione e simulazione dei processi chimici Pag. 6
Anteprima di 4 pagg. su 15.
Scarica il documento per vederlo tutto.
Identificazione e simulazione dei processi chimici Pag. 11
1 su 15
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Ingegneria industriale e dell'informazione ING-IND/27 Chimica industriale e tecnologica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher pinanuzzo_ di informazioni apprese con la frequenza delle lezioni di Identificazione e simulazione dei processi chimici e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Napoli Federico II o del prof Massimiliano Corrado.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community