Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
STATISTICA
ELEMENTI BASE DELLA PROBABILITÀ
Dato un esperimento, l'insieme di tutti i possibili risultati si definisce come spazio dei campioni (S).
Gli esperimenti possono essere effettuati:
- con o senza ordinamento dei risultati
- con o senza remissione
Si definisce come evento un insieme di risultati, sottoinsieme dello spazio dei campioni (A ⊆ S).
È possibile definire delle operazioni tra gli eventi come: A ∪ B, A ∩ B, A - B.
Esempio
- Lancio di 2 monete => S = {TT, CC, TC, CT}
- Evento A: esce almeno 1 T => A = {TT, TC, CT}
- Evento B: escono 2 T => B = {TT}
- Evento C: A ∪ B => C = {TT, TC, CT}
- Evento D: A ∩ B => D = {TT}
Due eventi si dicono disgiunti se tutti i risultati sono diversi.
Dato un esperimento e il suo spazio dei campioni si definisce come probabilità una funzione che assegna ad ogni evento A un numero P(A), che misura la possibilità che si verifichi l'evento A.
P: S(A) → R[0,1] ⊆ È in %
dove S(A) è l'insieme di tutti i possibili eventi.
La probabilità soddisfa i seguenti assiomi:
- P(A) > 0 ∀A
- P(S) = 1
- Se A1, A2, ..., An sono disgiunti vale: P(A1 ∪ A2 ∪ ... ∪ An) = Σi=1n P(Ai)
Detto Ac l'insieme complementare di A, e detti A e B due eventi, valgono le seguenti proprietà:
- P(Ac) = 1 - P(A)
- P(∅) = 0
- Se A ⊆ B allora P(A) < P(B)
- P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
Il modello Equally Likely Model (ELM) calcola la probabilità di un evento come:
P(A) = casi favorevoli/casi totali
Dato un esperimento, il numero totale di risultati che posso avere cambia in base all'ordinamento e alla rimissione.
Insieme ordinato
- Tot. risultati con rimissione: nk
- Tot. risultati senza rimissione: n(n-1)...(n-k+1)
Insieme non ordinato
- Con rimissione: (n + k - 1)! / (n - 1)! k!
- Senza rimissione: n!/(k! (n - k)!)
Dato un esperimento e 2 eventi A e B occorre fare la somma delle probabilità degli eventi se è prevista una disgiunzione (parola chiave "o"). Gli eventi possono essere compatibili o incompatibili:
Eventi incompatibili:
P(A ∪ B) = P(A) + P(B)
Lanciando un dado qual'è la probabilità di ottenere un 5 o un 6
P(A ∪ B) = 1/6 + 1/6 = 1/3
P(A ∩ B) = 0
Eventi compatibili:
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
Lanciando un dado qual'è la probabilità di ottenere un numero pari o un numero divisibile per 3?
Pari: = 3/6
Divisibile: = 2/6
P(A ∪ B) = 3/6 + 2/6 - 1/6 = 2/3
di eventi che accadono nell'unità di tempo , allora la PMF sarebbe:
gX(x) = e-λ λx / x! X = 0, 1...
Se avessimo invece Xt = numero di eventi che accadano nell'intervallo [0, t] allora la PMF è:
gX(x) = e-λt (λt)x / x! X = 0, 1...
Supponiamo che da un benzinaio arrivino in media 25 auto all'ora,
sia X3 = n° auto tra le 9 e le 10; qual è la probabilità che
arrivino 10 auto tra le 9 e le 10? Qual è la probabilità che
arrivino tra i 20 e i 30 clienti tra le 9 e le 10?
gX(10) = e-25 2510 / 10! = 0,0003
P(20 < X < 30) ⟹ gX(30) - gX(20)
Distribuzioni Continue
Definiamo variabile aleatoria continua una variabile casuale il
cui supporto coincide con un intervallo di numeri reali.
Si definisce funzione di densità di probabilità (PDF) fX associata
a X la funzione:
fX(x): SX ➝ R tale che
P(X ∈ A) = ∫A fX(x) dx = ∫cd fX(x)
in cui abbiamo che SX è un intervallo [a, b].
Valgono le seguenti proprietà:
- fX(x) ≥ 0 ∀ x ∈ SX
- ∫SX fX(x) = 1
Si definisce anche la funzione di ripartizione (CDF):
FX(t) = P(X < t) -∞ < t < ∞
Statistica Ordinata
Per statistica ordinata si intende una statistica fatta dopo aver ordinato i dati in ordine non decrescente.
Il quantile di ordine p, 0 < p < 1, indicato con qp, è un valore che indica che circa il 100p% dei dati è minore di qp.
Quantili più utilizzati sono: 25%, 50% e 75% (quartili).
Se ho una serie di valori nell'intervallo [18, 30] e so che q0,1 = 22,3 vuol dire il 10% dei valori sono minori di 22,3.
Misure della diffusione di dati:
- Varianza e deviazione standard:
Varianza campionaria: s2 = Σni=1(xi - x̄)2 / n-1
- Range interquartile:
IQR = q0,75 - q0,25
Quartile divide in 4 parti uguali
Deviazione Assoluta della Media (MAD):
Dopo aver calcolato la mediana x̄ si calcolano le deviazioni assolute della mediana |x1-x̄|, |x2-x̄|, ..., |xn-x̄|, quindi si calcola la mediana di questi valori moltiplicata per un coefficiente c.
Misure della forma:
Misura della simmetria:
g1 = 1/n . Σni=1 (xi - x̄)3/s3
Se g1 > 0 la distribuzione è considerata asimmetrica a destra, se g1 < 0 la distribuzione è considerata asimmetrica a sinistra, se g1 ≈ 0 è simmetrica.
In generale si definisce asimmetrica quando: |g1| > 2√6/nε
Nel caso in cui la popolazione non avesse distribuzione normale è possibile usare il teorema del limite centrale per calcolare l'intervallo di confidenza. Se n è sufficientemente grande, per il teorema, la variabile aleatoria X̄ della media campionaria ha approssimazione una distribuzione normale. Quindi l'intervallo di confidenza si calcola sempre come:
(X̄ - zα/2 σ-/√n ; X̄ + zα/2 σ-/√n)
Test di ipotesi
In un test di ipotesi occorre decidere tra due asserzioni contraddittorie riguardo un parametro, quale sia quella corretta.
Procedura per un test di ipotesi:
- Considero un SRS(n)
- Formulo un'ipotesi nulla H0
- Formulo un'ipotesi alternativa H1
- Calcolo una statistica
- Confronto il valore della statistica calcolata con quello dell'ipotesi nulla e calcolo un valore detto p-value
- Interpreto il p-value e decido se l'ipotesi nulla è da rigettare o no
Il p-value determina se rispetto ad una popolazione di valori, l'insieme campionato sia significativamente rappresentativo, ovvero se i valori siano più o meno aderenti all'ipotesi H0 formulata.
Normalmente un valore di p-value maggiore di 0,05 indica che l'ipotesi campionata è nulla: la probabilità di trovare un valore della media campionaria più estremo di quello osservato è del 5%.
Quindi abbiamo che se:
- p-value <= α ⟶ rifiutiamo l'ipotesi nulla
- p-value > α ⟶ non rifiutiamo l'ipotesi nulla