Analisi dei dati: calcolo delle probabilità
Il calcolo delle probabilità studia le situazioni in cui interviene il caso → situazioni il cui esito è incerto e non esiste alcuna possibilità di determinarlo con certezza. A ciascun possibile esito, tra tutti quelli alternativi, si attribuisce una valutazione (un numero) che è tanto maggiore quanto più probabile è il suo verificarsi.
Prova ed evento
Prova: ogni operazione (o esperimento) dall’esito casuale e incerto, cioè non prevedibile con certezza. Evento E: ogni possibile risultato di una prova, una proposizione che può dimostrarsi vera, cioè si verifica → 1 oppure falsa, cioè non si verifica → 0.
Eventi elementari
Un evento può essere visto come un’operazione su eventi elementari. Evento elementare E: un possibile risultato elementare di una prova nel senso che E non può essere ottenuto come operazione su altri eventi.
Tipi di eventi
- Eventi incompatibili → non si possono verificare contemporaneamente.
- Eventi necessari → almeno uno di loro si deve necessariamente verificare.
- Eventi indipendenti → il verificarsi di uno dei due eventi non influenza il verificarsi dell’altro evento.
- Evento certo → si verifica sicuramente.
- Evento impossibile → non si può mai verificare.
Partizione di eventi
Un insieme di eventi incompatibili e necessari costituisce una partizione. L’insieme degli eventi elementari incompatibili e necessari di una prova costituisce lo spazio campionario, che quindi è anche una partizione.
Operazioni sugli eventi
- Unione: Evento unione di due eventi E1 ∪ E2 (E1 oppure E2): è l’evento che si verifica se si verifica almeno uno dei due eventi; si verifica solo E1 oppure si verifica solo E2 oppure si verificano entrambi.
- Intersezione: Evento intersezione di due eventi E1 ∩ E2 (E1 e E2): è l’evento che si verifica se si verificano entrambi gli eventi; si verifica sia E1 che E2.
- Negazione o complemento: Evento complementare di un evento E è l’evento che si verifica se non si verifica E.
Le 3 impostazioni della teoria della probabilità
- Impostazione classica: la probabilità di un evento è il rapporto tra il numero di casi favorevoli all’evento e il numero di casi possibili purché questi ultimi siano ugualmente probabili.
- Impostazione frequentista: in una successione di prove identiche svolte nelle stesse condizioni e senza che l’una influenzi il risultato dell’altra, la frequenza con cui un evento si verifica si avvicina sempre più, all’aumentare del numero di prove, alla probabilità di quell’evento (legge empirica del caso).
- Impostazione soggettiva: la probabilità di un evento è il grado di fiducia che il soggetto ha nel realizzarsi dell’evento.
Definizione assiomatica di probabilità
- La probabilità P(E) di un evento E è un numero compreso tra 0 e 1.
- La probabilità di un evento certo è 1.
- La probabilità di un evento impossibile è 0.
- Legge delle probabilità totali: se due eventi E1 e E2 sono incompatibili, allora la probabilità che si verifichi E1 oppure E2 è P(E1 ∪ E2) = P(E1) + P(E2).
La proprietà 4 può essere estesa al caso di più eventi incompatibili: P(E1 ∪ E2 ∪ E3 ∪ E4) = P(E1) + P(E2) + P(E3) + P(E4).
Alcune leggi di probabilità
- La legge delle probabilità totali per eventi non necessariamente incompatibili: A e B sono 2 eventi compatibili → P(A ∪ B) = P(A) + P(B) – P(A ∩ B).
- La legge delle probabilità composte: A e B sono 2 eventi → P(A ∩ B) = P(A) x P(B|A).
- La legge delle probabilità composte per eventi indipendenti: A e B sono 2 eventi indipendenti → P(B|A)=P(B) e P(A|B)=P(A) → P(A ∩ B) = P(A) x P(B).
Variabile aleatoria o numero casuale
Variabile aleatoria (o numero casuale) è il risultato di una prova purché sia esprimibile come numero. Una prova può avere diversi risultati possibili, ciascuno dei quali si realizza con una certa probabilità. X=risultato=modalità con cui si realizza il risultato della prova; xjpj = probabilità con cui si verifica p = P(xj).
Distribuzione di probabilità della variabile aleatoria X
Le x1, x2, …, xj, …, xK sono eventi incompatibili e necessari.
Esempio
Prova = lancio di 2 dadi. Risultato della prova = somma delle facce X.
Modalità con cui si realizza il risultato della prova: =2 =3 =4 =5 =6 =7 =8 =9 =10 =11 =12.
Probabilità con cui si verifica p = P(xj)
| Somma | Probabilità |
|---|---|
| 2 | 1/36 |
| 3 | 1/18 |
| 4 | 1/12 |
| 5 | 1/9 |
| 6 | 5/36 |
| 7 | 1/6 |
| 8 | 5/36 |
| 9 | 1/9 |
| 10 | 1/12 |
| 11 | 1/18 |
| 12 | 1/36 |
Il campionamento
La rilevazione di uno o più caratteri viene effettuata su un campione. Campione: sottoinsieme di u.s. che compongono la popolazione totale. Il campione deve essere “rappresentativo” della popolazione → deve riprodurre, con buona approssimazione, le principali caratteristiche della popolazione.
Si distinguono i campioni probabilistici e i campioni non probabilistici. Campioni probabilistici: l’elaborazione e l’analisi dei dati viene realizzata con i metodi dell’inferenza statistica. Inferenza statistica: metodologia che consente di calcolare il grado di attendibilità dei risultati dell’indagine parziale nei confronti della popolazione da cui è stato selezionato il campione.
Campioni probabilistici
- Campione casuale semplice: tutte le u.s. hanno uguale probabilità di essere selezionate.
- Campione stratificato: la popolazione viene suddivisa in gruppi (gli “strati”) secondo un certo carattere (detto carattere di stratificazione), diverso da quello che è oggetto della rilevazione. All’interno di ciascuno strato la selezione delle u.s. segue lo schema del campionamento casuale semplice.
- Campione a più stadi: vengono scelte successivamente unità di diverso “livello”; ad esempio, comuni, province, regioni. In ciascuno stadio viene usato il campionamento casuale.
Campioni non probabilistici
- Campione ragionato: le unità statistiche sono selezionate in modo da risultare simili, per alcuni caratteri strutturali, alla popolazione da cui sono tratte.
- Campione per “quote”: la numerosità del campione e le caratteristiche dei sottogruppi sono fissate in anticipo, ma la scelta delle unità statistiche da intervistare è lasciata, nel rispetto delle quote, alla discrezionalità degli intervistatori.
- Campione a valanga: si usa per popolazioni “rare”. Viene scelto un gruppo iniziale di persone, dalle quali poi ottenere nomi e indirizzi di altre unità appartenenti alla stessa popolazione.
Inferenza statistica
Obiettivo: capire cosa accade alla popolazione nel suo complesso sulla base delle informazioni relative ad un campione di u.s. estratte in modo casuale da tale popolazione. Indurre (stimare) il valore incognito di alcuni parametri dei caratteri della popolazione sulla base dei dati osservati per quei caratteri sul campione.
Stimatore
È una statistica, cioè una funzione (una elaborazione secondo una certa formula matematica) dei dati quantitativi del carattere osservato sul campione.
Proprietà di uno stimatore
- Non distorsione: la media dello stimatore è uguale al valore incognito del parametro.
- Consistenza: all’aumentare della numerosità del campione, aumenta la probabilità che lo stimatore differisca dal valore vero del parametro meno di una quantità piccola fissata arbitrariamente.
- Efficienza: tra gli stimatori non distorti del parametro, lo stimatore ha variabilità minima.
Stima puntuale
Attribuire un preciso valore numerico al parametro incognito del carattere nella popolazione.
Procedura
- Si individua uno stimatore per il parametro.
- Il valore dello stimatore sul campione osservato costituisce la stima puntuale (il valore che si può attribuire) del parametro incognito del carattere nella popolazione.
Stimatore puntuale
Media Campionaria: Ampiezza della popolazione N. Ampiezza del campione n (n<N). Parametro incognito: media del carattere nella popolazione. Stimatore puntuale del parametro Media campionaria cioè media del carattere nel campione → MX.
Proprietà: corretto, efficiente, consistente.
Stimatore puntuale
Varianza Campionaria Corretta: Ampiezza della popolazione N. Ampiezza del campione n (n<N). Parametro incognito: varianza del carattere nella popolazione. Stimatore puntuale del parametro Varianza campionaria corretta.
Proprietà: corretto, efficiente, consistente.
Stima per intervalli
Intervallo di confidenza: intervallo di valori entro cui “cade” il valore incognito del parametro del carattere nella popolazione. Si associa a tale affermazione la probabilità con cui essa si realizza.
Procedura
- Si individua uno stimatore per il parametro.
- Si individua un intervallo di valori per lo stimatore in base al livello di confidenza (probabilità fissata a priori).
- Il valore incognito del parametro del carattere nella popolazione è incluso, con un certo livello di confidenza, all'interno dell'intervallo identificato.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Prima parte appunti Analisi dati
-
Appunti di Analisi dati
-
Analisi dei dati - Terza parte
-
Analisi dei dati - Seconda parte