PROBABILITÀ e STATISTICA
Appunti del corso del prof. Stefano Zapperi
a cura di Matteo Tajana
2020 Pagina lasciata intenzionalmente vuota.
Documento redatto orgogliosamente con in L TEX.
A
© Matteo Tajana. È vietato distribuire il seguente materiale senza il permesso dell’autore.
Indice
1 Introduzione alla probabilità 1
1.1 Probabilità classica e frequentista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Probabilità Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1 Variabili discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.2 Variabili continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.3 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Distribuzioni di probabilità univariate 7
2.1 La funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Trasformazione di variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Calcolo combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 Distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Distribuzione multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Distribuzione Gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2
2.6 Distribuzione del . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
χ
2.7 Distribuzione Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.8 Distribuzione Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.9 Distribuzione di Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.10 Distribuzione di Lévy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.11 Numeri di occupazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.11.1 Bosoni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.11.2 Fermioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.12 Distribuzioni geometrica e ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3 Il teorema del limite centrale 25
4 Distribuzioni di probabilità multivariate 27
5 Distribuzioni estremali 31
5.1 Massimi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.2 Minimi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.3 Teorema di Fisher-Tippet-Gnedenko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.4 I boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6 Inferenza statistica 34
6.1 Minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.2 Propagazione degli errori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.3 Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4 Rumore Barkhausen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
7 Il principio di massima entropia 41
8 Test statistici 44
8.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
z-statistics
8.2 (di Student) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
t-test 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
8.3 Test del χ
8.4 Test di Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
9 Principal component analysis 47
10 Networks 49
© Matteo Tajana, Università degli Studi di Milano
© Matteo Tajana, Università degli Studi di Milano
ø
Probabilità e Statistica 1
Prima volta che il corso viene erogato. È stato introdotto per far parte del percorso di “Fisica dei dati”, e
si è pensato fosse utile avere un corso di partenza che fornisse il linguaggio di base per le analisi avanzate di
dati. È un corso di base per il machine learning/deep learning. La fisica dei dati è un argomento che permea
diversi settori: fisica medica, fisica sperimentale delle alte energie, può servire a vari scopi.
. . .
Le lezioni saranno di due tipi: ci saranno una parte teorica e poi una di “esercitazione” su (jupyter-
'
E
notebook) su cui vedremo esempi e piccoli esercizi. Essendo un corso di probabilità statistica bisogna trattare
entrambi gli elementi: la prima è la base teorica della statistica pratica. Bisogna creare degli strumenti statistici
per analizzare dei problemi pratici. Ciò che vediamo è artefatto o è vero?
Il sito del corso è è più interattivo di Ariel.
http://labonline.ctu.unimi.it/course/view.php?id=170,
Le esercitazioni saranno su all’url Ci so-
¤ https://github.com/SZapperi/CorsoProbabilitaStatistica.
no vari argomenti, che corrisponderanno a lezioni diverse. Parleremo della definizione di probabilità (e diffe-
renza frequentismo/Bayes), poi ci sono le distribuzioni univariate e le funzioni caratteristiche (cose abbastanza
formali, siamo lontani dalla statistica). Poi avremo una parte sul calcolo combinatorio, come contare gli oggetti
nei vari casi, partizioni e numeri di occupazione. La distribuzione di Poisson sarà successivamente approfon-
dita assieme ai numeri di occupazione. Il Teorema del Limite Centrale verrà ricavato e generalizzato. Poi
passeremo alle distribuzioni multivariate, con correlazioni tra le variabili. Verso la fine del corso affronteremo
argomenti più “esotici”, con distribuzioni estremali (legge dei grandi numeri, fisica delle fratture), maximum
likelihood, confidence levels e MaxEnt. Infine concluderemo con i test statistici per vedere se l’effetto mediano
è vero o è dovuto al caso: se giochiamo a dadi e il nostro avversario tira due 6 uno di seguito all’altro, è un
baro o è tutto regolare? Ci saranno poi degli esercizi di approfondimento a seconda del punto in cui saremo
arrivati con il corso.
La statistica è una disciplina pratica, spiegarla in maniera puramente teorica è poco utile, bisogna sporcarsi
le mani con i dati per capirla veramente.
1 Introduzione alla probabilità
1.1 Probabilità classica e frequentista la probabilità è
La definizione “classica” della probabilità è dovuta a Pascal e Fermat, ed è quella secondo cui
data dal numero di eventi favorevoli normalizzata su quelli totali. La probabilità di avere un “6” al tiro di dado è
data da = , dove è il numero di uscite di 6 mentre è la il numero totale di tiri. Questa definizione
P g/N g N
ha una serie di proprietà. In particolare: (i) 0 (A) 1, (ii) (totale) = 1 e (iii) (impossibile) = 0. Inoltre
P P P
≤ ≤
1 (n + ) = (A) + (B) (A Per eventi esclusivi sappiamo che = e che
(A = n n P P P B). A B N
P B) − − ∧ ∧
∨ A B A∧B
N
(A = (A) + (B). Invece per eventi complementari vale che = 0 e (A) + (A) = 1
P B) P P A A P P
∧ ∧
Questa definizione ha una serie di problemi. Consideriamo per esempio due dadi. Ci chiediamo quale sia
la probabilità che la somma del tiro dei due dadi sia pari a 7, cioè (S = 7). La risposta è ovviamente 1/6, ed
P
emerge qui la tematica dell’indistinguibilità (classica, non quantistica). La definizione data prima si mostra
quindi ambigua, perché intuitivamente darebbe 1/11—la somma di due dadi a sei facce infatti produce 11
numeri (i naturali tra 12 e 2, estremi inclusi), e l’evento (S = 7) è un singolo evento nello spazio degli 11
P
possibili. Non è una definizione assoluta, dipende dal contesto e da dove la applichiamo.
A questo punto ci chiediamo quale possa essere una definizione “migliore”. Possiamo pensare ad una
la probabilità è il rapporto tra eventi favorevoli ed eventi possibili
definizione classica data da Bernoulli e Laplace:
SE questi sono equiprobabili. Non tutti gli eventi avvengono lo stesso numero di volte: l’evento somma = 2
avviene una volta, mentre quello somma = 3 avviene due volte—vedi Fig. 1.
La definizione più comune di probabilità, quella statistica, è la cosiddetta definizione statistica/frequentista,
cioè la probabilità come limite della frequenza. n
= lim
P .
N
N →∞
Possiamo sempre usare questa definizione? In realtà ci sono problemi anche per questa definizione. Per
esempio, qual è la probabilità che domani piova? La domanda è ben posta, ma questa definizione non può
essere applicata in questo caso. Non ha troppo senso andare a vedere nei registri meterologici vecchi quanti
giorni ha piovuto per fare una statistica contando i giorni di sole o pioggia. Arriviamo quindi alla probabilità
soggettiva, perché non sempre è oggettiva. E si arriva quindi alla definizione Bayesiana della probabilità.
;8< ø
2 Probabilità e Statistica
Funzione della probabilità di massa della somma di due dadi.
Figura 1:
1.2 Probabilità Bayesiana
L’approccio Bayesiano si usa quando abbiamo un dato relativo: ad esempio, la pioggia dipende dalle condizioni
metereologiche recenti (ieri/oggi. . . ). (A
P B)
n ∧
A∧B =
(A|B) =
P .
(B)
n P
B
Dobbiamo tener conto tutto ciò che ha preceduto l’evento, il passato. Ad esempio per la moneta, in termini
frequentisti tiriamo tot volte e vediamo quante volte esce testa o croce. Nell’approccio Bayesiano invece ab-
1 . Invece sia il bias che la
biamo (s = = ) dove è il bias che la moneta (non) sia truccata e quindi = I
P t|I I I P 1
0 0 2
12
moneta sia truccata. Allora in questo caso . Nel caso della moneta non è particolarmente illuminante, ma
P >
ci sono casi in cui la probabilità bayesiana sia più efficace di quella frequentista, come ad esempio per il me-
teo. La definizione “classica” porta a dei problemi in alcuni casi definizione “frequentista” più adeguata.
→
Infine abbiamo completato con la definizione “Bayesiana” della probabilità, in cui non esiste una probabilità
assoluta: esistono solo probabilità condizionate, dipendenti dalle informazioni che abbiamo.
Continuiamo con la probabilità condizionata, dipendente dall’informazione che abbiamo: (S|I). Quali
I P
sono le regole della probabilità condizionata?
(i) regola di somma: (A = (A|I) + (B|I) (A
P B|I) P P P B|I);
∨ − ∧
(ii) regola del prodotto, per cui (A = (A|B, (B|I). Questa cosa può essere scritta anche all’inverso
P B|I) P I) P
∧
ovviamente;
(iii) regola di normalizzazione è (A|I) + (A|I) = 1;
P P
(iv) marginalizzazione (A|I) = (A + (A
P P B|I) P B|I).
∧ ∧ 1
La regola del prodotto è alla base del Teorema di Bayes:
(A = (A|B)P (B) = (B|A)P (A)
P B) P P
∧
E quindi (B|A)P (A) (B|A)P (A)
P P
=
(A|B) = .
P (B)
P (B|A)P (A) + (B|A)P (A)
P P
Di fatto quando bisogna fare dei calcoli si usa solitamente la “seconda versione” del teorema di Bayes, in cui
si scompone la probabilità totale di osservare l’evidenza di un fatto. In altre parole,
Likelihood Prior
×
Posterior = .
Evidence A B
Quello che è esprime il teorema è come calcolare quanto spesso sia vero tra tutti i casi in cui lo è.
data una popolazione di studenti, vogliamo stimare la frazione di studenti che sono donne.
Esercizio:
Sappiamo (1) la frazione di studenti nella popolazione, 2%. Sappiamo anche che (2) la frazione femminile
nella popolazione totale è del 50%, e che (3) nella popolazione femminile le studentesse sono l’1.8%.
Per applicare il teorema di Bayes dobbiamo individuare le varie probabilità condizionate. Noi cerchia-
mo la probabilità (essere studente|essere donna). Di conseguenza troviamo che (A) = 2%, e (B) = 50%
P P P
e (A|B) = 1.8%, e otteniamo quindi (B|A) = 0.45%.
P P ;8<
1 Vedi video di 3Blue1Brown : e di Veritasium :
https://www.youtube.com/watch?v=HZGCoVF3YvM https://www.youtube.com/
watch?v=R13BD8qKeTg. ø
Probabilità e Statistica 3
p(H) p(¬H)
p(¬E|H) p(¬H|E)
p(¬E|¬H)
1 p(E|H) p(H|E)
p(E|¬H)
1
Rappresentazione geometrica del Teorema di Bayes sul quadrato unitario 1 1. Osserviamo come
Figura 2: ×
proporzione
(E|H) sia dato dalla di (E) rispetto a (H).
P P P
La teoria della probabilità trova sicuramente (massima?) espressione nel gioco d’azzardo. Più il gioco
d’azzardo è complicato e più è interessante studiarla. Un esempio semplice è il gioco delle tre carte: l’obiettivo
è trovare la carta vincente. Può diventare un gioco puramente probabilistico se le tre carte sono veramente
mischiate. Miglioriamo il gioco, supponendo di scoprire una carta che il mazziere sa non essere quella giusta.
La domanda è questa: se ci viene data possibilità di cambiare carta, conviene cambiare o è indifferente? Anche
se sembra contro intuitivo, conviene cambiare (paradosso di Monty Hall). Un modo per comprendere questo
fatto è supporre che ci siano 100 carte. Ne scegliamo una, e il mazziere ne scopre 98. Ovviamente in questo
rispetto alla scelta iniziale.
caso conviene cambiare, perché le probabilità sono 99% e 1% La Fig. 3 rappresenta
la situazione con 20 porte anziché 100 carte. Altrimenti ci si può fare la tabella, la matrice della scelta. Si
può dimostrare anche con la probabilità Bayesiana! Sia il tenere la carta, e la vittoria. Vogliamo vedere
S G
quanto è (G|S). La marginalizzazione ci dice che = 1 se la prima scelta è giusta, e = 0 se invece è sbagliata.
P σ σ
Quindi 1
X
(G|S) = (G|S, )P (σ = (G|S, 0)P (S|0) + (G|S, 1)P (S|1),
P P σ P P
|S)
=0
σ
dove (0|S) è la probabilità che la prima scelta sia sbagliata e che non abbiamo cambiato carta. La probabilità
P 13
di vittoria non cambiando carta è quindi pari a (S|1) = . Adesso invece cerchiamo il caso cambio carta, e
P C
vittoria. Analogamente a prima, calcoliamo ora
G (G|C) = (G|C, 0)P (C|0) + (G|C, 1)P (C|1).
P P P
Se la scelta era ok ma cambio la probabilità di vincere è ovviamente (C|1) = 0, mentre se ho cambiato e la
P 23 .
prima scelta era sbagliata e quindi vinco, (G|1, 0) = 1 e quindi (C|0) =
P P
La probabilità non è qualcosa di intuitivo, forse “alla fine conviene contare”.
Sia dato un test diagnostico con le seguenti caratteristiche:
Esercizio:
• Sensibilità = probabilità di identificare correttamente un malato = 95%
P
SE
• Specificità = probabilità di identificare correttamente un sano = 90%
P
SP
Sia = 5% la prevalenza di una certa malattia (percentuale della popolazione che mostra i sintomi). Qual
f
è la probabilità di essere malato se il test è positivo?
Conviene come prima cosa fare una tabella che incroci le il numero di persone positive/negative a se-
conda dell’esito del test, data una popolazione di individui. Sappiamo che i malati sono moltiplicato
N N f
per la sensibilità del test. Analogamente possiamo calcolare gli altri valori:
;8<
© Matteo Tajana, Università degli Studi di Milano
ø
4 Probabilità e Statistica
Test Malato Non Malato
+ (1 )(1 )
N f P N f P
− −
SE SP
(1 )
N f P N f P
− − SE SP
Dato un test positivo, vogliamo la probabilità che il l’individuo in considerazione sia veramente malato.
Questo sarà dato dalla probabilità che il test sia positivo diviso le altre due possibilità normalizziamo
f P SE
per la linea positiva—cioè bisogna dividere per la probabilità di essere positivo, data dalla combinazione
di essere malato e positivo assieme a quella di essere sano e falso positivo. La soluzione è quindi
f P 0.05 0.95 1
×
SE = .
'
+ (1 )(1 ) 0.05 0.95 + 0.95 0.1 3
f P f P
− − × ×
SE SP
Osserviamo quanto la probabilità di diagnosticare correttamente un vero positivo con un solo test sia bas-
sa: solo due tamponi su tre danno un esito corretto! Questo è dovuto al fatto che il suddetto test ha una
prevalenza della popolazione bassa (5%). Test sierologici con sensibilità bassa (95% non è altissima, i tam-
poni per il COVID-19 hanno una sensibilità maggiore del 99%) non hanno rilevanza sul singolo ma sulla
popolazione (screening della popolazione, i falsi positivi sono pochi su una grande popolazione). Un’ul-
tima osservazione interessante è la seguente: come cambia la probabilità se viene eseguito due volte (in
maniera indipendente) il tampone sullo stesso individuo? Ri
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.