Calcolo della probabilità
A differenza della statistica descrittiva, nella statistica inferenziale cambia il contesto osservato poiché, in tal caso, viene osservato solo un campione, di numerosità n, del collettivo. Si tratta, dunque, di una rilevazione parziale che, fornendoci informazioni solo su un sottoinsieme della popolazione, si situa in un contesto di incertezza poiché è impossibile affermare che tale sintesi rappresenti l’intera popolazione. Tuttavia usufruendo di modelli costituiti da variabili casuali è possibile definire, per il campione scelto casualmente, le proprietà della popolazione sulla base dei risultati noti del calcolo della probabilità.
Nell’ambito statistico l’applicazione del calcolo della probabilità è recente ed è inteso, in senso lato, come il grado di incertezza connesso al risultato scaturito da una prova, ovvero da un esperimento aleatorio, casuale, che ha due o più possibili risultati, definiti eventi (per esempio gli eventi del lancio di una moneta sono testa e croce).
Definizione classica
In parole povere, dunque, in una prova, l’evento E si verifica con una probabilità P(E), compresa tra 0 e 1, che misura il grado di incertezza del verificarsi dell’evento. Premesso ciò vi sono diverse accezioni di probabilità. In primis, nella definizione classica, essa è definita come il rapporto fra il numero dei casi favorevoli all’evento e il numero dei casi possibili, purché questi siano tutti ugualmente possibili:
P(E) = n. casi favorevoli / n. casi possibili
Esempio. Lancio di un dado. E = P(E) = 1/6
Esempio. Lancio di un dado truccato.
E −> 1/6 2/6 1/6 1/12 1/12 1/6
Si noti come in quest’ultimo esempio viene messo in luce uno dei due principali difetti di tale definizione. Infatti, in tale prova, siccome i casi favorevoli hanno un diverso peso, non sono equiparabili. Inoltre si può osservare che tale definizione presenta un “vizio” poiché utilizza il concetto di probabilità (“purché tutti questi siano ugualmente possibili”) nel momento stesso in cui la si sta definendo.
Definizione frequentista
È possibile delineare un’accezione più ampia che prende il nome di definizione frequentista basata sulla ripetibilità della prova al fine di osservare le frequenze con cui si presentano i singoli eventi. Naturalmente, poiché sia possibile, è necessario che tutte le condizioni nelle quali viene svolta la prova si mantengano inalterate.
Dunque, in senso pratico, è necessario ripetere per n volte la stessa prova, fra i cui esiti è presente l’evento E, ed è possibile definire la probabilità di tale evento come:
P(E) = lim n −>∞ (n. di volte che si verifica E / n)
Esempio. Lancio di una moneta
| n | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| T | T | C | C | T | C | |
| P(C) | 0/1 | 0/2 | 1/3 | 2/4 | 2/5 | 3/6 |
Generalmente, al crescere del numero n delle prove effettuate, la frequenza degli eventi tenderà ad avvicinarsi all’effettiva probabilità che l’evento E si verifichi diminuendo, dunque, il grado di incertezza.
Definizione assiomatica
Infine, vi è un'ultima definizione che si accompagna alle definizioni sopra citate, denominata definizione assiomatica. Tale definizione, introdotta da Kolmogorov nel 1933, si basa sull’utilizzo di assiomi e funzioni, e prevede la rappresentazione degli eventi attraverso insiemi:
Unione di due insiemi (“o”)
- A = {1, 2}
- B = {2, 5, 13}
- A B A B = {1, 2, 5, 13}
Intersezione di due insiemi (“e”)
A ∩ B = {2}
- A B Insiemi disgiunti
- A B = Ø A B Evento E complementare
B ∩ B = Ø insieme vuoto B B = Ω spazio campionario che contiene tutti gli E ∪ B
Prima di esplicitare, in modo completo, la definizione assiomatica, occorre definire, esaustivamente, i possibili eventi di una prova e lo spazio in cui essi sono contenuti. Quando consideriamo un esperimento aleatorio è possibile distinguere due tipi di eventi: gli eventi elementari, indicati con, ovvero gli E semplici, fra loro disgiunti, che possono essere considerati come possibili esiti della prova (le facce di un dado) e gli eventi non elementari, ovvero E elementari logicamente legati fra loro attraverso operazioni come unioni o intersezioni.
Esempio. Numeri pari del lancio di un dado
P(Punteggio pari) = P(“2” ∪ “4” ∪ “6”)
Dunque, in una prova, occorre far riferimento a tutti i possibili eventi, che nel loro insieme formano un’algebra di Boole, in modo tale da considerare una collezione di eventi E = {E1, …, Ei}, tutti sottoinsiemi di Ω = {i1}.
In particolare se E1, E2 E allora al suo interno deve valere:
- E ∪ E → si verifica uno o l’altro.
- E ∩ E → si verificano contemporaneamente E1 e E2.
Esempio. Lancio di una moneta due volte
Vi sono due possibili eventi, T e C. Ω = {(T,T),(T,C),(C,T),(C,C)} → rappresenta lo spazio che contiene gli E elementari
- E1 = “Esce T almeno una volta” = (T,T) ∪ (T,C) ∪ (C,T)
- E2 = “Esce T al primo lancio” = (T,T) ∪ (T,C)
- E3 = “I due lanci non danno lo stesso esito” = (T,C) ∪ (C,T)
- E6 = “Al primo lancio esce sia testa che croce” = (T,C) ∩ (T,T) ∪ (C,T) ∪ (C,C) = Ø
- E7 = “Esce croce almeno una volta oppure testa al primo lancio” = (T,C) ∪ (C,T) ∪ (C,C) ∪ (T,T) ∪ (T,C) = Ω
Da tale esempio è possibile scorgere due particolari tipologie di eventi: l’evento certo, Ω = A ∪ A, ossia l’evento che si verifica sempre, con probabilità 1, in quanto comprende tutti i possibili eventi elementari, e l’evento impossibile, Ø = A ∩ A, ossia l’evento che non può mai verificarsi.
Da quest’ultima definizione è possibile definire che due eventi sono disgiunti se la loro intersezione da origine ad un insieme vuoto e non potranno, quindi, mai verificarsi contemporaneamente.
Definizione assiomatica di Kolmogorov
In conclusione, la definizione assiomatica introdotta da Kolmogorov, definisce la probabilità, P(A), come una funzione di insiemi che associa ad ogni evento A E un numero reale. Tale definizione presenta quattro assiomi, postulati, necessari per ottenere una misura coerente del grado di incertezza di un evento:
- Postulato 1: Gli eventi formano un algebra di Boole.
- Postulato 2: P(A) è sempre un numero > 0.
- Postulato 3: P(Ω) è l’evento certo, quindi = 1.
- Postulato 4: Se A ∩ B = Ø allora la probabilità della loro unione è P(A ∪ B) = P(A) + P(B).
Sulla base di questi quattro assiomi è possibile ricavare le seguenti proprietà:
- 0 ≤ P(A) ≤ 1
- P(A) = 1 - P(A) → probabilità evento complementare
- P(Ø) = 0 → probabilità evento impossibile
- P(A ∪ B) = P(A) + P(B) - P(A ∩ B) → probabilità generale di due eventi
Dimostrazione:
2. P(A) = 1 - P(A) 3° assioma 4° assioma
P(A ∪ A) == P(A) + P(A) == 1
P(A) = 1 - P(A)
P(A) = 1 - P(A)
Probabilità condizionate e indipendenza
Considerando due eventi A e B, si definisce probabiità condizionata la probabilità dell’evento A posto che si sia già verificato l’evento B:
P(A|B) = P(A ∩ B) / P(B), P(B) > 0
Da tale definizione emerge che B viene considerato come un evento certo per cui Ω = B e, quindi, vengono considerati solo i casi favorevoli a B modificando lo spazio campionario degli eventi elementari.
L’indipendenza tra due eventi A e B si verifica qualora la probabilità condizionata di un evento rispetto ad un altro è uguale alla probabilità dell’evento stesso:
P(A|B) = P(A) e P(B|A) = P(B)
e, dunque: P(A ∩ B) = P(A) P(B)
Dimostrazione:
P(A) P(B)
P(A ∩ B)P(A|B) = P(A) P(B) = P(A)
Variabili casuali e distribuzione di probabilità
Per descrivere la distribuzione e le caratteristiche di una popolazione osservando un campione la sola trattazione degli eventi risulta essere scomoda e, per sopperire a tale problema, vengono utilizzate variabili casuali che associano delle quantità numeriche agli eventi stessi.
Dunque una variabile casuale (v.c) o aleatoria, X, è una funzione definita nello spazio campionario Ω che associa, ad ogni possibile evento di una prova, un unico numero reale.
Esempio. Lancio di una moneta
| xP(T) | 1/2 | T | 0 |
|---|---|---|---|
| X(T) | 0 | P(X= 0) | = P(T) |
| xP(T) | 1/2 | C | 1 |
| X(C) | 1 | P(X= 1) | = P(C) |
Come nella statistica descrittiva, anche in tal contesto, fra le variabili quantitative, è opportuno distinguere fra variabili casuali discrete e variabili casuali continue. Tale distinzione dipende dallo spazio campionario, se Ω è discreto allora la v.c sarà discreta mentre, se Ω è continuo, la v.c può essere continua o discreta.
Variabili casuali discrete
Le variabili casuali discrete sono variabili che possono assumere valori in un insieme discreto finito o numerabile. In generale indicheremo con P(X = xi) la probabilità che la v.c. X assuma ciascuno dei valori xi e, la successione di questi valori, viene definita come la distribuzione di probabilità associata alla variabile X. Tale distribuzione deve avere due proprietà:
- ∑ P(xi) = 1
- P(xi) ≥ 0
In particolare la prima proprietà, che identifica l’evento certo, può essere oggetto di verifica e ci consente di comprendere se si tratta di una distribuzione di probabilità.
Esempio. Lancio di due dadi
X = “somma del punteggio lanciando due dadi equilibrati” → variabile casuale
X = Xa + Xb
Vi possono essere due modi per determinare la distribuzione di probabilità:
- Trattandosi di eventi equiprobabili è possibile usufruire della definizione classica per determinare la probabilità di ogni evento P(X= 4) = 3/36
- Descrivere l’evento con unioni e intersezioni al fine ultimo di usufruire della proprietà delle probabilità introdotte da Kolmogorov
Indipendenza
P(X= 2) = P(“1 su A” ∩ “1 su B”) = P(Xa = 1, Xb = 1) == P(Xa = 1) P(Xb = 1) = 1/36
4° assioma
P(X= 3) = P[(“2 su A” ∩ “1 su B”) ∪ (“1 su A” ∩ “2 su B”)] ==
= P(Xa = 2, Xb = 1) + P(Xa = 1, Xb = 2) = 1/36 + 1/36 = 2/36
| X | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| P(X = xi) | 1/36 | 2/36 | 3/36 | 4/36 | 5/36 | 6/36 | 5/36 | 4/36 | 3/36 | 2/36 | 1/36 |
Funzione di ripartizione
Come nella statistica descrittiva anche nella statistica inferenziale, in alcune situazioni, potremmo essere interessati non alla probabilità che la v.c. assuma uno specifico valore ma, bensì, alla probabilità che essa assuma un valore minore o uguale ad un dato valore xi, ossia alla probabilità cumulata P(X ≤ xi).
In tal contesto, dunque, una funzione di ripartizione, associata ad una v.c. discreta o continua, è la funzione che fa corrispondere ai valori X le probabilità cumulate ed è indicata con:
F(X) = P(X ≤ x)
La funzione di ripartizione gode di importanti proprietà:
- F(X) è non decrescente, ossia x1 < x2 → F(x1) ≤ F(x2)
- lim x→−∞ F(X) = 0 e lim x→∞ F(X) = 1
- È continua a destra, ovvero lim x→0+ F(X) = F(X0)
La funzione di ripartizione di una v.c. discreta è una funzione a gradini ed è definita anche in corrispondenza a valori che la v.c. non può assumere, inoltre essa corrisponderà a:
F(X) = ∑ P(X= w) dove w ≤ x
Esempio. Funzione di ripartizione associata ad una v.c. discreta
| X | -1 | 1 | 3 |
|---|---|---|---|
| P(X = xi) | 0,2 | 0,5 | 0,3 = 1 |
F(-2) = P(X ≤ -2) = 0
F(-1,1) = P(X ≤ -1,1) = 0
Da come si evince la funzione di ripartizione assume valore 0 per tutti i valori inferiori al minimo.
F(-1) = P(X ≤ -1) = 0,2
F(-0,3) = P(X ≤ -0,3) = 0,2
Da come si evince la funzione di ripartizione assume valore costante nell’intervallo fra i due valori.
F(1) = P(X ≤ 1) = P (X= -1) + P(X= 1) = 0,7
F(3) = P(X ≤ 3) = P(X= -1) + P(X= 1) + P(X= 3) = 1
2° proprietà: F(x) → ∞ vale fino a 0,7, 0,2
2° proprietà: ∞ vale fino a -1
Variabili casuali continue
Le variabili casuali continue sono variabili che possono assumere tutti i valori di un intervallo reale. Per tale motivo, dal punto di vista tecnico, non si può ragionare in termini di valori specifici, né, tantomeno, in termini di distribuzione di probabilità perché la probabilità di un punto, essendo questi ultimi infiniti all’interno di un intervallo, è 0.
In tal caso occorre considerare la funzione di densità che descrive, in parole povere, le caratteristiche della probabilità associate ad una variabile continua in termini di densità attraverso l’uso di un istogramma. In tale grafico, come nel caso della statistica descrittiva, le aree dei rettangoli corrispondono alle densità. Dunque la funzione di densità di una variabile casuale continua X è una funzione, f(x), per cui l’area sottesa alla funzione, corrispondente ad un certo intervallo, è uguale alla probabilità che x assuma un valore in quell’intervallo ed è data da:
∫[a,b] f(x) dx
Esempio. Funzione di densità
F(x)
La funzione di densità considera la probabilità che x assuma un valore compreso nell’intervallo [0.5, 0.7] e, tale problema, si scarica nel calcolo dell’integrale di tale area.
Da tale esempio possiamo notare che la funzione di densità può assumere valori anche >1 in quanto non restituisce una probabilità ma, bensì, una densità.
La funzione di densità gode di tre importanti proprietà:
- f(x) ≥ 0 poiché l’integrale di una funzione negativa restituisce un valore negativo e quindi una probabilità negativa;
- L’area totale sottesa alla funzione è uguale a 1, ossia ∫[−∞,+∞] f(x) dx = 1;
- Come già accennato, la probabilità che la v.c. continua X assuma uno specifico valore all’interno dell’intervallo è 0 poiché ogni singolo valore corrisponde ad un intervallo di ampiezza 0, quindi la corrispondente area è anch’essa 0.
La funzione di ripartizione, nel caso di v.c. continue, mantiene le stesse proprietà della funzione di ripartizione della v.c. discreta con la differenza che non è una funzione a gradini ma continua, e viene indicata con:
F(x) = P(X ≤ x) = ∫[−∞,x] f(w)dw
Esempio. Determinazione della probabilità associata ad intervalli conoscendo F(x).
f(x) P(a < x ≤ b)
Da come si può notare nessuna delle due funzioni di ripartizione corrisponde a ciò che cerchiamo, tuttavia è possibile determinare la probabilità dell’intervallo [a, b] semplicemente come differenza fra le due funzioni di ripartizione:
P(a < x ≤ b) = F(b) - F(a)
P(x > b)?
Qualora si richieda la probabilità di un intervallo maggiore a quello noto è possibile far uso della proprietà che lega ad un evento il suo evento complementare, P(A) = 1 - P(A).
Di fatto, essendo per definizione l’area totale sottesa alla funzione = 1 è possibile determinare la probabilità dell’intervallo > b come:
P(x > b) = 1 - F(b)
Valore atteso e varianza di una variabile casuale
Come nella statistica descrittiva anche nella statistica inferenziale sono necessari valori che sintetizzino le caratteristiche di una distribuzione. A tal proposito il valore atteso, E(x), di una variabile casuale X è un modello che ci consente di sintetizzare le caratteristiche di una prova ed è definito come:
E(x) = ∑ xi P(X = xi) se la v.c. è discreta
E(x) = ∫[−∞,+∞] x f(x) dx se la v.c. è continua
In tale modello ciascun valore viene ridotto o esaltato in funzione della probabilità ed esprime il valore che mediamente ci si aspetta di osservare. Ne deriva, quindi, che è analogo alla media ponderata in cui i pesi sono le probabilità. Il valore atteso gode di due proprietà:
- Se due costanti reali a, b il valore atteso di una trasformazione lineare è: E(a + bx) = a + b E(x)
- Se abbiamo due v.c. X e Y: E(x + y) = E(x) + E(y)
E, più in generale: 1° proprietà
E(ax + by) = E(ax) + E(by) == aE(x) + bE(y)
Tuttavia, siccome il valore atteso non ci fornisce alcuna informazione sulla variabilità del fenomeno osservato, una misura che ci consente di sintetizzare questa importante caratteristica è la varianza. La varianza, V(x), di una v.c. è definita sulla base di una logica an...
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Statistica - Appunti
-
Inferenza Statistica
-
Formulario completo esame Statistica - 2° parziale
-
Statistica