Estratto del documento

Esperimento random

Un esperimento random è un esperimento che, ripetuto in condizioni omogenee (controllando al meglio i fattori che si ritiene abbiano influenza sul risultato), fornisce risultati differenti da ripetizione a ripetizione. La variabilità del risultato è dovuta a fattori non controllabili: variabile random, casuale o aleatoria. La statistica studia gli esperimenti random e gli esperimenti in cui il risultato varia sia perché cambia un fattore controllato (effetto deterministico) sia per l’effetto di fattori non controllabili. L’applicazione della statistica a esperimenti che non possono essere ripetuti è estremamente rischiosa. Quindi, noi non troveremo mai il valore vero ma ci gireremo intorno, perché riusciremo mai a eliminare il fattore random. Ma possiamo sapere il nostro grado di incertezza o di certezza del dato dell’esperimento che abbiamo trovato. Bisogna fornire: il risultato + incertezza + la fiducia del tutto.

Popolazione e campione

Un esperimento random può essere teoricamente ripetuto infinite volte: queste infinite ripetizioni costituiscono la famiglia, la popolazione infinita delle possibili ripetizioni. In realtà, un esperimento viene ripetuto un numero limitato di volte; queste ripetizioni costituiscono un campione statistico o semplicemente campione (da non confondere con il campione in senso chimico) estratto dalla popolazione infinita.

Popolazione: Infinita e astrazione ovvero la teoria del risultato (probabilità)

Campione: Limitato e reale a cui posso accedere fisicamente (frequenza). Il campione rappresenta la popolazione.

Rappresentatività

È estremamente importante valutare la rappresentatività del campione, in funzione di quale popolazione esso rappresenta. Per scegliere adeguatamente il campione occorre definire con cura la popolazione di interesse e individuarne i fattori di variabilità noti. Campionamento proporzionale: prendo campione con dati proporzionali ad esso. Es. Prendo un numero di persone proporzionale alla popolazione della regione e non un numero uguale per ogni regione. I fattori sono dati certi come la residenza o l’età. La variabile è un dato che cambia e misuro a valle, fatto dall’insieme dei fattori che ho fatto varia e che influenzano la mia misura. Deve essere significativa altrimenti siamo troppo lontani dal numero vero.

Esempio: un fattore di variabilità

In un esperimento che consiste nella determinazione della concentrazione di una base debole mediante titolazione con un acido forte, la variabilità del risultato dipende dall’apprezzamento del viraggio (incertezza sul volume equivalente). La popolazione ha un solo fattore di variabilità. Un campione di cinque ripetizioni è sufficiente (in pratica) per rappresentare la variabilità della popolazione, la cui valutazione è necessaria per valutare l’incertezza del risultato.

Esempio: più fattori di variabilità

In un esperimento che consiste nello studio chimico della composizione di un olio di oliva DOP, ad esempio, determinazione cromatografica delle concentrazioni dei costituenti lo spazio di testa. La variabilità del risultato dipende poco dall’errore analitico, molto dalle variabili climatiche, di composizione del terreno, di trattamento della pianta, stato fitosanitario, maturazione alla raccolta, modalità tecnologiche di spremitura, modalità e tempo di conservazione. La popolazione presenta un numero elevato di fattori di variabilità. Un campione di 100 unità può essere sufficiente a rappresentare questa variabilità solo se si utilizza un efficiente disegno di campionamento.

Come possiamo razionalizzare i fenomeni random

Poiché il risultato (o evento) di un esperimento random varia da ripetizione a ripetizione, vi è una irregolarità, che impedisce di fare ipotesi certe sul risultato di una singola ripetizione. Tuttavia, operando con un campione costituito da un numero relativamente grande di ripetizioni, si individuano aspetti che permettono di trarre conclusioni meno incerte di quanto appaia a prima vista. La probabilità di un risultato è una astrazione matematica e, matematicamente, può essere definita come: La probabilità corrisponde alla popolazione infinita. La frequenza corrisponde al campione statistico. Es. La frequenza che possa uscire testa al posto di croce.

Concetto: Bisogna ripetere un esperimento da passare da una teoria alla realtà: tendenza alla regolarità. Il mio esperimento replicato tende a un valore che ruota in un intorno regolare e quindi il fattore random diminuisce con l’aumentare di replicazioni. Il numero di repliche deve essere un numero tale da permettere di fare una tendenza alla regolarità più simile alla realtà. Ricorda: non posso avere la certezza del 100% perché non posso andare chiedere a tutta la popolazione se guardano la TV alla sera oppure no, ma devo prendere un numero alto di campioni che mi permette di arrivare ad avere un dato più simile alla realtà.

Frequenza misurata diversa da frequenza attesa

Ciascun evento i ha probabilità 1/6 in quanto i risultati corrispondono alle 6 facce equivalenti di un dado supposto essere un cubo perfetto geometricamente e fisicamente. Frequenza assoluta o attesa = p * N → grazie alla tendenza alla regolarità, all’aumentare di N la frequenza assoluta tenderà alla frequenza attesa. La somma di tutte le frequenze relative deve fare 1.

Rappresentare i dati

Come si possono estrarre le informazioni utili da matrici di dati che raccolgono i risultati delle determinazioni sperimentali? Esempio: determinazione della densità di un liquido (200 determinazioni).

  • Ordino i dati.
  • Calcolo il range = valore massimo – valore minimo.
  • Suddivido il range in intervalli di classe (bin) dove h = ampiezza di ciascun intervallo.
  • Procedo al conteggio del numero di determinazioni per ciascun intervallo = n = frequenza assoluta.
  • Calcolo f (frequenza relativa) come rapporto tra il numero di determinazioni in ciascun intervallo e il numero di determinazioni totali = ni/N.
  • Suddivido f per l’ampiezza dell’intervallo = f/h.

Concetto

Abbiamo bisogno di una tendenza alla regolarità nel raccogliere i nostri dati per capire la tendenza. Dall’istogramma di frequenza possiamo passare alla distribuzione dei nostri dati che devono tendere all’infinito. Questo mi fa passare dal campione alla popolazione (dall’astratto alla realtà ovvero il più vicino al valore vero). Densità di probabilità l’infinitesimo colonna nell’istogramma (colonna y). Distribuzione di probabilità è l’andamento totale dei dati che ho nell’istogramma (colonna x e y). Le densità bisogna definirle in un range ben preciso. Sulle X ho variabile che devo misurare.

La variabilità dell'asse delle X

Su questa asse ho le infinite determinazioni di una variabile. Più grande è X più grande è il range, ho una variabilità maggiore. L’integrale definito di questa funzione è la probabilità. Ed ha una forma solitamente a campana. Che cosa è la probabilità? È la frequenza con cui mi aspetto che avvenga un fenomeno riferendomi alla popolazione ma soprattutto essa la visualizzo matematicamente attraverso l’integrale definito. Se vado a sommare tutte le frequenze di tutti gli intervalli ottengo il 100%, il 100% della probabilità è pari al 100% dell’integrale della nostra X (variabile). Funzione di distribuzione cumulata: sono sull’asse delle X e prendo ogni risultato di frequenza di ogni istogramma e li accumulo. Essa la posso ricavare dalla probabilità. Istogramma accumulato lo ottengo attraverso la somma di tutte le colonne. Si può generare a partire da dati sperimentali sommando i dati di ogni intervallo a quelli degli intervalli precedenti → esempio densità di un liquido. Esso lo posso fare attraverso una linea spezzata che unisce la somma dei vari singoli valori di frequenza (quante volte appare quel numero), non divido gli intervalli, esso prende il nome del poligono somma. Ottengo un numero in ordine crescente sommando la frequenza di esso.

Scala a gradini (idea)

La variabile: O assume dati certi senza valori intermedi quindi ho solo numeri interi 1,2,3,4 e non 1.2 o 1.31 come nella variabile continua. Essa è già spezzata in intervalli.

Scivolo (idea): Ho un range all’interno del quale posso avere tutti i numeri di questo range, con numeri molto molto precisi determinati dal tipo di strumento.

Concetto: capire se i nostri dati sono corretti per cui applicare i teoremi della statistica.

Come posso descrivere i miei dati ovvero una distribuzione di probabilità?

Ho bisogno di pochi numeri che ci permettono di sapere la posizione, dispersione e asimmetria della nostra distribuzione.

  • Posizione, dove, all’interno del dominio di variabilità di X, si addensa la distribuzione dei dati considerati. Può essere sullo 0 o tutta a dx
  • Dispersione, come è la variabilità rilevata nei dati considerati e, pertanto, quanto è ampia la distribuzione associata all’interno del dominio di X. È alta, lunga, panciuto…
  • Asimmetria, misura della mancanza di specularità tra le due parti della distribuzione a destra e a sinistra. È spostata verso valori massimi verso destra o verso valori minimi verso sinistra.

Media e dispersione

In generale:

  • Media: trovo un dato influenzato dai campioni e valori anomali. Numero informativo ma grossolano.
  • Mediana: si pone al centro perché divide tutte le determinazioni. Ovvero ho 7 numeri messi in ordine crescente la mediana è 4 perché è al centro. Se ho un numero pari di determinazioni come 6, li metto in ordine crescente e faccio la media dei due numeri centrali ovvero 3 e 4 e trovo la mediana. Nella popolazione la mediana è il 50% in cui ritrovo i dati = suddivide la probabilità a metà.
  • Moda: numero che ricorre più volte.

Parametri di dispersione

Varianza: mi dice quanto sono accurata (prossima al valore vero) e precisa (molto precisa bassa varianza, curva magra).

Scarto: mi focalizza solo sulla variabilità dei miei dati. Per calcola la varianza metto lo scarto al quadrato e lo divido per k-1 ovvero il numero dei dati -1. X-m è lo scarto dalla media, ovvero focalizza l’attenzione sui dati variabili, quindi a me interessa quanto il dato si discosta dalla media, mi concentro non sulla parte I comune con la media ma ciò che differisce da essa. La loro nuova media sarà 0, una centratura della media. In questo caso abbiamo uno scarto quadrato, e lo divido per k (miei determinazioni) -1. Perché -1? Mi sono mangiato un grado di libertà ovvero da questi dati avevo già calcolato la media e quindi sono dati già lavorati. E per calcolare la varianza devo avere almeno due dati da cui faccio prima le media e successivamente la varianza. Varianza e media sono fortemente dipendenti.

Grado di libertà v(ni) o DoF = Grado di indipendenza del dato. Per gradi di libertà si intende il numero di informazioni indipendenti che sono utilizzate per il calcolo di un indice statistico: in altre parole, i gradi di libertà si ottengono sottraendo alla numerosità dei dati utilizzati il numero dei parametri già calcolati usando gli stessi dati e che concorrono al calcolo dell’indice considerato.

Dopo aver calcolato la varianza faccio sempre la deviazione standard, passando da s a s, con le stesse unità di misura. Intervallo= il nostro massimo e minimo all’interno ci sono i nostri dati. Intervallo interquartili= Intervallo compreso tra gli interquartili ovvero una suddivisione in 4 parti dell’area sottesa e di solito il 2 quartile è la mediana. Quindi togliamo potere alle code (dove tende la curva a valori di probabilità molto bassi) e abbiamo il 50% dei miei dati centrati sulla mediana. Es. Ho 16 dai li divido in 4 gruppi da 4 dati, con come mediana. Questo è più efficiente del range perché si focalizza solo sul 50% centrale dei miei dati. Quindi risento meno di dati anomali (che si trovano sempre nelle code, estremi).

Coefficiente di variabilità: Volendo svincolare la deviazione standard dalla particolare grandezza misurata e dall’unità di misura associata, è possibile definire un parametro normalizzato, che consente di effettuare confronti anche tra misurazioni di grandezze differenti: il coefficiente di variazione (CV). Tale parametro è definito quale rapporto tra la deviazione standard (s) e la media aritmetica (m) calcolate per la stessa serie di misure, ed è frequentemente espresso in percentuale: =/ · 100%. Si tratta di un parametro adimensionale, sempre positivo (o, al minimo, nullo nel caso limite di deviazione standard pari a zero), totalmente svincolato e lo calcolo più difficilmente quando ho una soluzione poco concentrata. Outliers: dati anomali.

Distribuzione della media e della varianza

L’esperimento base fornisce una variabile random che indichiamo con X = N(15,2): queste sono 10 ripetizioni dell’esperimento base. Ogni 5 ripetizioni dell’esperimento base calcoliamo la media m sui 5 risultati. Dalle 10 ripetizioni dell’esperimento base abbiamo ottenuto 2 ripetizioni dell’esperimento che fornisce la media su 5 valori. X = dati originali. M è un estimatore del valore vero più vicino al valore vero rispetto a X, perché ha una dispersione più piccola. di destra. L’incertezza (errore) associata al calcolo della media di più repliche è tanto minore quanto maggiore è il numero delle repliche stesse (dimostrabile per propagazione della varianza). → Per questo motivo la media è un miglior estimatore del valore vero! Il fattore radice di N dipende dal numero di determinazioni. Più repliche faccio più sono preciso a determinare un valore in laboratorio.

La legge di propagazione della varianza

Data una serie di variabili aleatorie indipendenti X1, X2,… Xn oggetto di una misura sperimentale, e una variabile Y, calcolata come funzione di queste variabili (Y = f(X1, X2,… Xn)), è possibile stimare l’errore associato alla variabile Y a partire dall’errore delle variabili X misurate, attraverso la legge nota come legge di propagazione delle varianze (anche detta legge di propagazione degli errori); essa origina dal fatto che le variabili sperimentali X sono soggette a una variabilità che si propaga alla variabile calcolata Y, contribuendo additivamente alla varianza ricavata. Quando faccio un errore esso viene trasmesso in ogni passaggio, quindi io fornisco un risultato con errori (primo errore quando peso un oggetto perché la bilancia porta un errore associato) perché esso si propaga e accresce. Tutte le varianti contribuiscono in maniera additiva alla propagazione dell’errore.

Distribuzione χ2 (chi-quadrato) della varianza

Essendo una somma di quadrati, la varianza è sempre positiva e fortemente asimmetrica soprattutto quando il numero di gradi di libertà è basso. All’aumentare dei gradi tende ad acquisire una certa simmetria. Questa distribuzione blu= unimodale, fortemente asimmetrica e sono numeri sempre positivi, perché è tutto elevato al quadrato. Ha 3 gradi di libertà e ho fatto 4 determinazioni. Le linee aumentano i gradi di libertà (D.o.f = 10) abbiamo un comportamento simmetrico a campana (linea rossa). Sono distribuzione legate al grado di libertà!

Che cos'è un test di significato

Un test statistico è uno strumento logico-matematico utilizzato per valutare se le informazioni estratte dai dati raccolti durante un esperimento rispettano un'ipotesi (denominata H [ipotesi nulla] e definita a priori) che si vuole verificare. È un'ipotesi nulla perché è fatta a priori senza decisioni certe, che successivamente voglio verificare. Poiché l’esperimento che si conduce è per definizione random (si misurano variabili aleatorie e quindi affette da errore) i test che utilizzano i suoi risultati sono a loro volta affetti da errore. Grazie alla tendenza alla regolarità dell’esperimento random, però, è possibile andare a valutare la probabilità di commettere tale errore!

Che tipo di errore si può commettere

È possibile andare a valutare la probabilità di commettere un errore di tipo I. Tale probabilità di consueto si indica con α e viene denominata livello di significatività. L’errore di tipo II è quantificabile solo fissando un valore per il parametro su cui si intende eseguire il test differente da quello specificato sotto l’ipotesi nulla e che sia in accordo con l’ipotesi alternativa. Per controllare e ridurre l’errore di seconda specie basta aumentare la dimensione del campione. ➔ Noi impostiamo i test in modo che abbaiano solo i falsi positivi e non i falsi negativi. Livello di significatività: risultato il più possibile aderente alla realtà. Errori di tipo α sono gli errori di falso positivo ed essi li rappresentiamo nelle code dei grafici. Quindi troviamo la probabilità per cui potremmo rifiutare un H0.

Code e probabilità di significato

Data una distribuzione di probabilità (non necessariamente normale), è possibile definire v e v1 2 [limiti critici] (con v > v) tali che la probabilità di ottenere x < v sia pari alla p.

Anteprima
Vedrai una selezione di 12 pagine su 54
Statistica Pag. 1 Statistica Pag. 2
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Statistica Pag. 6
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Statistica Pag. 11
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Statistica Pag. 16
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Statistica Pag. 21
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Statistica Pag. 26
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Statistica Pag. 31
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Statistica Pag. 36
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Statistica Pag. 41
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Statistica Pag. 46
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Statistica Pag. 51
1 su 54
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze chimiche CHIM/01 Chimica analitica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Valentina2212 di informazioni apprese con la frequenza delle lezioni di Chimica analitica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Genova o del prof Malegori Cristina.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community