vuoi
o PayPal
tutte le volte che vuoi
RAPPRESENTAZIONE DELLE OSSERVAZIONI
L'insieme di misure sperimentali effettuate si può rappresentare in una tabella dove si elencano le misure ottenute e il numero di volte che tale misura è stata ottenuta. Il lancio del dato è un tipo di variabile aleatoria discreta. Per variabili continue, si definiscono intervalli (bin) entro cui le misure possono cadere, e si effettua il conteggio all'interno di ogni intervallo. Le tabelle, poi, possono essere rappresentate graficamente tramite istogrammi: - Sulle ascisse si rappresentano gli intervalli dei valori osservati - Sulle ordinate il numero di osservazioni in ogni intervallo (o la loro frequenza, ossia il numero di volte che succede una cosa diviso il numero totale di cose che hai misurato) L'istogramma dipende dalla scelta degli intervalli: - Non devono essere troppo piccoli, per non averne molti vuoti - Neanche troppo grandi, o non caratterizzano la "forma" della distribuzione - Possibilmente diuguale dimensione- Una buona regola empirica è: DEFINIZIONE FREQUENTISTA DI PROBABILITA' Dato il numero ni di apparizioni dell'evento xi su un totale di N prove, definisco come frequenza: fi =(ni /N) La frequenza fi è la migliore stima della probabilità dell'evento xi. Per un numero infinito di prove la frequenza tende alla probabilità: → Legge dei grandi numeri all'aumentare di N, il valore medio stimato tende al valore medio esatto (omeglio del valore atteso). DISTRIBUZIONI → - Distribuzioni limite campionando adeguatamente lo spazio campione posso stimare la distribuzione che governa il mio esperimento (passaggio al limite) ed i suoi principali parametri. Esempio: in un lancio di un dado non truccato a sei facce sappiamo che ogni possibile uscita è equiprobabile (P(x; x={1,…,6}) =1/6). Ciò implica che la distribuzione che governa il fenomeno deve rappresentare la uniformità di probabilità di ciascunodegli eventi: "Eventi equiprobabili". Quindi se faccio un numero limitato di lanci posso ottenere risultati approssimati; se passo al limite delle infinite misure (esempio 25 10^6) - Densità di probabilità (PDF) l'istogramma delle frequenze tende alla funzione densità di probabilità, che descrive la probabilità in funzione dell'evento osservato: - Nel caso di variabili discrete, definisce la probabilità di osservare l'evento i-esimo - Nel caso continuo, la probabilità di un evento specifico è uguale a zero. Si definisce invece la probabilità di osservare un valore in un determinato intervallo: - Funzione cumulativa (CDF) definisce la probabilità di avere un valore minore di uno prefissato: Matematicamente, la CDF si ottiene dalla sommatoria della PDF, o nel caso di variabili continue, tramite l'operazione integrale (l'asintoto tende a 1): QUANTILI Si indica p-esimoIl quartile Q1 è il valore al di sotto del quale ricade il 25% dei casi.
Il quartile Q2 è il valore al di sotto del quale ricade il 50% dei casi.
Il quartile Q3 è il valore al di sotto del quale ricade il 75% dei casi.
Come si calcolano i quartili:
- Si ordinano in senso crescente i valori della variabile
- Si calcolano le frequenze cumulative
- Si calcola la posizione del quartile con le apposite formule.
- Si cerca nella distribuzione il valore corrispondente alla posizione trovata
Formule per il calcolo della posizione:
- I Quartile Q1 => PosQ1 = [(N+1)/4]x1
- II Quartile Q2 => PosQ2 = ...
- [(N+1)/4]x2o - Questo potrebbe essere un'espressione matematica, ma senza ulteriori informazioni non è possibile determinare quale tag HTML utilizzare.
- III Quartile Q3=> PosQ3 = [(N+1)/4]x3 - Questo potrebbe essere un'espressione matematica, ma senza ulteriori informazioni non è possibile determinare quale tag HTML utilizzare.
- STIMA PRAMETRI STATISTICI
- Stimatore di un parametro statistico
- Ipotesi: i parametri di una distribuzione sono valori costanti (solitamente non noti). I corrispondenti valori stimati sono variabili random in funzione del numero di campioni, che seguono una distribuzione di probabilità, con un valore medio e un intervallo di incertezza.
- Proprietà degli stimatori:
Esperimenti differenti appartengono a classi di universalità e sono descritti da medesime distribuzioni statistiche o funzioni, le cui caratteristiche sono specificate da famiglie di parametri. Possiamo pensare di riassumere il comportamento di una popolazione usando pochi parametri ed utilizzando un campione ridotto di osservazioni (statistica inferenziale).
(es. stimatore della media o della varianza) Una funzione dei dati campionati che permette di calcolare il valore ipotizzato del parametro statistico.
- Uno stimatore è non distorto (unbiased) se il
Il valore medio delle sue realizzazioni coincide con il valore che si vuole misurare.
Si definisce come stimatore più efficiente quello che a parità di campioni (e distorsioni) presenta una dispersione (incertezza) minore.
Uno stimatore è più o meno robusto a seconda di come risente di eventuali outliers (misure errate).
Data una serie di campioni (che si suppone appartenere a una distribuzione nota a priori, ma con parametri ignoti), il principio di massima verosimiglianza stabilisce come miglior stima dei parametri quella che massimizza la probabilità del realizzarsi della serie di campioni.
Esempio: stima della media. Dati N campioni, x1,...,xN, da una distribuzione gaussiana con media μ sconosciuta (ma SD σ nota), la probabilità di avere estratto i campioni è pari a:
Ho il massimo di PTOT minimizzando l'esponente:
Parametri statistici - Centralità: Molte distribuzioni hanno un valore massimo (più probabile).
attorno a cui stanno la quasi totalità deglieventi. Siamo quindi interessati a valori che descrivano tale “centro” della distribuzione. Gli stimatori dellacentralità sono:
- Media è il valore atteso data la PDF (somma pesata)
- Moda è il valore con massima frequenza; se la PDF è continua:
- Mediana è il valore che divide la distribuzione a metà (è il 50° percentile)
Media, moda e mediana coincidono se la PDF è simmetrica e monomodale. Il valore medio è lostimatore più usato per stimare la centralità (ed è unbiased), ma la mediana è quello più robusto (ciòche risente meno di eventuali outliers).La media risente fortemente del valore “strano”!!
MEDIA PESATA E CENTRO DI MASSAIn fisica si definisce centro di massa di un sistema di corpi la somma (vettoriale) delle loro posizioni pesaterispetto alle loro masse.Media pesata
sull'errore Se ho diverse misure della stessa grandezza (ad es. effettuate con strumenti diversi) posso calcolare la loro media tenendo conto dell'errore ad esse associato. Il peso di ciascuna misura sarà inversamente proporzionale al suo errore (varianza = σ^2): Stima della dispersione Ci sono vari modi per stimare la dispersione dei dati attorno al valore più probabile: - Varianza e deviazione standard → - IQR (inter-quartile range) è la distanza tra il 25° e il 75° percentile in cui cade il 50% "centrale" dei dati Stima dell'asimmetria Per distribuzioni non simmetriche assume valore non nullo l'asimmetria (Skewness), definita come: Curtosi Parametro che ti dice quanto la funzione è schiacciata o no (definisce lo schiacciamento o meno di una distribuzione): DISTRIBUZIONI NOTEVOLI La Statistica Descrittiva prevede la caratterizzazione di uno o più insiemi di osservazioni sperimentali. Le "classi diuniversalità sono descritte da medesime distribuzioni statistiche o funzioni (pdf) e servono per caratterizzare le proprietà di una intera popolazione a partire da un numero limitato di osservazioni (campione). Vediamo alcune classi di universalità:
DISTRIBUZIONE UNIFORME
Nella teoria delle probabilità la distribuzione uniforme è una distribuzione di probabilità che attribuisce la stessa probabilità a tutti i possibili eventi appartenenti ad un dato intervallo o spazio campione.
- Distribuzione uniforme discreta: distribuzione di probabilità che attribuisce la stessa probabilità a tutti i possibili eventi appartenenti ad un dato intervallo spazio campione (lancio del dado). Avremo N possibili risultati discreti dell'esperimento. La distribuzione uniforme discreta deve rappresentare l'equiprobabilità di tutti gli eventi: fi = 1/N
- Distribuzione uniforme continua: considero un sistema in cui i...
Possibili esiti siano entro un intervallo di valori continui. La distribuzione uniforme continua assegna equiprobabilità di tutti gli eventi nell'intervallo. La PDF vale in ogni punto 1/(b-a).
Nel caso della distribuzione uniforme non ci sono dei gran parametri. Però, posso calcolare il valore di aspettazione (somma di un risultato per la sua probabilità) che è uguale al valore medio della funzione.
Esercizio:
Data una scheda telefonica da 5 euro di cui non si sa se sia mai stata usata e nel caso sia stata usata non si conosce l'ammontare ancora disponibile, è ragionevole ipotizzare per tale ammontare X una distribuzione di probabilità uniforme (continua).
- Calcolare valore atteso e varianza di X
- Devo fare una telefonata interurbana il cui costo sarà maggiore di 2 euro. Quale è la probabilità che la scheda telefonica sia sufficiente per fare la telefonata?
Punto 1 per quanto specificato dal testo è
ragionevole assumere per X la disponibilità residua dellascheda, una distribuzione uniforme (continua) sull'intervallo (0,5). Pertanto il valore atteso di X è <X>=(5+0)/2=2,5 euro e s(X)=(5-0)2/12 = 25/12 = 2.083 euro
La probabilità richiesta è P(X>2). P(X≥2) = 1-P(X≤2). Usiamo la definizione di funzione cumulativa (CDF), che ci permette di calcolare P(X≤2):
Nel caso di distribuzione uniforme: P(X>2) = 1-P(X≤2) = 1-(2-0)/(5-0) = 0.6
DISTRIBUZIONE BINOMIALE
Descrive la probabilità di osservare x eventi favorevoli avendone osservati n, dato un evento con probabilità nota P=π (0<π<1) di accadere (e 1-π di non accadere). Se lancio una moneta 10 volte, che probabilità ho cheesca testa 3 volte?
Momenti: media e varianza
DISTRIBUZIONE DI POISSON
Descrive la probabilità di osservare un evento x volte (numero intero), in funzione di un parametro λ: