Estratto del documento

PROBABILITÀ e STATISTICA

Appunti del corso del prof. Stefano Zapperi

a cura di Matteo Tajana

2020 Pagina lasciata intenzionalmente vuota.

Documento redatto orgogliosamente con in L TEX.

A

© Matteo Tajana. È vietato distribuire il seguente materiale senza il permesso dell’autore.

Indice

1 Introduzione alla probabilità 1

1.1 Probabilità classica e frequentista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Probabilità Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 Variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3.1 Variabili discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3.2 Variabili continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3.3 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Distribuzioni di probabilità univariate 7

2.1 La funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2 Trasformazione di variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3 Calcolo combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.1 Distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.2 Distribuzione multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.4 Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.5 Distribuzione Gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2

2.6 Distribuzione del . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

χ

2.7 Distribuzione Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.8 Distribuzione Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.9 Distribuzione di Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.10 Distribuzione di Lévy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.11 Numeri di occupazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.11.1 Bosoni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.11.2 Fermioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.12 Distribuzioni geometrica e ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Il teorema del limite centrale 25

4 Distribuzioni di probabilità multivariate 27

5 Distribuzioni estremali 31

5.1 Massimi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.2 Minimi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.3 Teorema di Fisher-Tippet-Gnedenko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5.4 I boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

6 Inferenza statistica 34

6.1 Minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6.2 Propagazione degli errori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6.3 Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6.4 Rumore Barkhausen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

7 Il principio di massima entropia 41

8 Test statistici 44

8.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

z-statistics

8.2 (di Student) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

t-test 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

8.3 Test del χ

8.4 Test di Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

9 Principal component analysis 47

10 Networks 49

© Matteo Tajana, Università degli Studi di Milano

© Matteo Tajana, Università degli Studi di Milano

ø

Probabilità e Statistica 1

Prima volta che il corso viene erogato. È stato introdotto per far parte del percorso di “Fisica dei dati”, e

si è pensato fosse utile avere un corso di partenza che fornisse il linguaggio di base per le analisi avanzate di

dati. È un corso di base per il machine learning/deep learning. La fisica dei dati è un argomento che permea

diversi settori: fisica medica, fisica sperimentale delle alte energie, può servire a vari scopi.

. . .

Le lezioni saranno di due tipi: ci saranno una parte teorica e poi una di “esercitazione” su (jupyter-

'

E

notebook) su cui vedremo esempi e piccoli esercizi. Essendo un corso di probabilità statistica bisogna trattare

entrambi gli elementi: la prima è la base teorica della statistica pratica. Bisogna creare degli strumenti statistici

per analizzare dei problemi pratici. Ciò che vediamo è artefatto o è vero?

Il sito del corso è è più interattivo di Ariel.

http://labonline.ctu.unimi.it/course/view.php?id=170,

Le esercitazioni saranno su all’url Ci so-

¤ https://github.com/SZapperi/CorsoProbabilitaStatistica.

no vari argomenti, che corrisponderanno a lezioni diverse. Parleremo della definizione di probabilità (e diffe-

renza frequentismo/Bayes), poi ci sono le distribuzioni univariate e le funzioni caratteristiche (cose abbastanza

formali, siamo lontani dalla statistica). Poi avremo una parte sul calcolo combinatorio, come contare gli oggetti

nei vari casi, partizioni e numeri di occupazione. La distribuzione di Poisson sarà successivamente approfon-

dita assieme ai numeri di occupazione. Il Teorema del Limite Centrale verrà ricavato e generalizzato. Poi

passeremo alle distribuzioni multivariate, con correlazioni tra le variabili. Verso la fine del corso affronteremo

argomenti più “esotici”, con distribuzioni estremali (legge dei grandi numeri, fisica delle fratture), maximum

likelihood, confidence levels e MaxEnt. Infine concluderemo con i test statistici per vedere se l’effetto mediano

è vero o è dovuto al caso: se giochiamo a dadi e il nostro avversario tira due 6 uno di seguito all’altro, è un

baro o è tutto regolare? Ci saranno poi degli esercizi di approfondimento a seconda del punto in cui saremo

arrivati con il corso.

La statistica è una disciplina pratica, spiegarla in maniera puramente teorica è poco utile, bisogna sporcarsi

le mani con i dati per capirla veramente.

1 Introduzione alla probabilità

1.1 Probabilità classica e frequentista la probabilità è

La definizione “classica” della probabilità è dovuta a Pascal e Fermat, ed è quella secondo cui

data dal numero di eventi favorevoli normalizzata su quelli totali. La probabilità di avere un “6” al tiro di dado è

data da = , dove è il numero di uscite di 6 mentre è la il numero totale di tiri. Questa definizione

P g/N g N

ha una serie di proprietà. In particolare: (i) 0 (A) 1, (ii) (totale) = 1 e (iii) (impossibile) = 0. Inoltre

P P P

≤ ≤

1 (n + ) = (A) + (B) (A Per eventi esclusivi sappiamo che = e che

(A = n n P P P B). A B N

P B) − − ∧ ∧

∨ A B A∧B

N

(A = (A) + (B). Invece per eventi complementari vale che = 0 e (A) + (A) = 1

P B) P P A A P P

∧ ∧

Questa definizione ha una serie di problemi. Consideriamo per esempio due dadi. Ci chiediamo quale sia

la probabilità che la somma del tiro dei due dadi sia pari a 7, cioè (S = 7). La risposta è ovviamente 1/6, ed

P

emerge qui la tematica dell’indistinguibilità (classica, non quantistica). La definizione data prima si mostra

quindi ambigua, perché intuitivamente darebbe 1/11—la somma di due dadi a sei facce infatti produce 11

numeri (i naturali tra 12 e 2, estremi inclusi), e l’evento (S = 7) è un singolo evento nello spazio degli 11

P

possibili. Non è una definizione assoluta, dipende dal contesto e da dove la applichiamo.

A questo punto ci chiediamo quale possa essere una definizione “migliore”. Possiamo pensare ad una

la probabilità è il rapporto tra eventi favorevoli ed eventi possibili

definizione classica data da Bernoulli e Laplace:

SE questi sono equiprobabili. Non tutti gli eventi avvengono lo stesso numero di volte: l’evento somma = 2

avviene una volta, mentre quello somma = 3 avviene due volte—vedi Fig. 1.

La definizione più comune di probabilità, quella statistica, è la cosiddetta definizione statistica/frequentista,

cioè la probabilità come limite della frequenza. n

= lim

P .

N

N →∞

Possiamo sempre usare questa definizione? In realtà ci sono problemi anche per questa definizione. Per

esempio, qual è la probabilità che domani piova? La domanda è ben posta, ma questa definizione non può

essere applicata in questo caso. Non ha troppo senso andare a vedere nei registri meterologici vecchi quanti

giorni ha piovuto per fare una statistica contando i giorni di sole o pioggia. Arriviamo quindi alla probabilità

soggettiva, perché non sempre è oggettiva. E si arriva quindi alla definizione Bayesiana della probabilità.

;8< ø

2 Probabilità e Statistica

Funzione della probabilità di massa della somma di due dadi.

Figura 1:

1.2 Probabilità Bayesiana

L’approccio Bayesiano si usa quando abbiamo un dato relativo: ad esempio, la pioggia dipende dalle condizioni

metereologiche recenti (ieri/oggi. . . ). (A

P B)

n ∧

A∧B =

(A|B) =

P .

(B)

n P

B

Dobbiamo tener conto tutto ciò che ha preceduto l’evento, il passato. Ad esempio per la moneta, in termini

frequentisti tiriamo tot volte e vediamo quante volte esce testa o croce. Nell’approccio Bayesiano invece ab-

1 . Invece sia il bias che la

biamo (s = = ) dove è il bias che la moneta (non) sia truccata e quindi = I

P t|I I I P 1

0 0 2

12

moneta sia truccata. Allora in questo caso . Nel caso della moneta non è particolarmente illuminante, ma

P >

ci sono casi in cui la probabilità bayesiana sia più efficace di quella frequentista, come ad esempio per il me-

teo. La definizione “classica” porta a dei problemi in alcuni casi definizione “frequentista” più adeguata.

Infine abbiamo completato con la definizione “Bayesiana” della probabilità, in cui non esiste una probabilità

assoluta: esistono solo probabilità condizionate, dipendenti dalle informazioni che abbiamo.

Continuiamo con la probabilità condizionata, dipendente dall’informazione che abbiamo: (S|I). Quali

I P

sono le regole della probabilità condizionata?

(i) regola di somma: (A = (A|I) + (B|I) (A

P B|I) P P P B|I);

∨ − ∧

(ii) regola del prodotto, per cui (A = (A|B, (B|I). Questa cosa può essere scritta anche all’inverso

P B|I) P I) P

ovviamente;

(iii) regola di normalizzazione è (A|I) + (A|I) = 1;

P P

(iv) marginalizzazione (A|I) = (A + (A

P P B|I) P B|I).

∧ ∧ 1

La regola del prodotto è alla base del Teorema di Bayes:

(A = (A|B)P (B) = (B|A)P (A)

P B) P P

E quindi (B|A)P (A) (B|A)P (A)

P P

=

(A|B) = .

P (B)

P (B|A)P (A) + (B|A)P (A)

P P

Di fatto quando bisogna fare dei calcoli si usa solitamente la “seconda versione” del teorema di Bayes, in cui

si scompone la probabilità totale di osservare l’evidenza di un fatto. In altre parole,

Likelihood Prior

×

Posterior = .

Evidence A B

Quello che è esprime il teorema è come calcolare quanto spesso sia vero tra tutti i casi in cui lo è.

data una popolazione di studenti, vogliamo stimare la frazione di studenti che sono donne.

Esercizio:

Sappiamo (1) la frazione di studenti nella popolazione, 2%. Sappiamo anche che (2) la frazione femminile

nella popolazione totale è del 50%, e che (3) nella popolazione femminile le studentesse sono l’1.8%.

Per applicare il teorema di Bayes dobbiamo individuare le varie probabilità condizionate. Noi cerchia-

mo la probabilità (essere studente|essere donna). Di conseguenza troviamo che (A) = 2%, e (B) = 50%

P P P

e (A|B) = 1.8%, e otteniamo quindi (B|A) = 0.45%.

P P ;8<

1 Vedi video di 3Blue1Brown : e di Veritasium :

https://www.youtube.com/watch?v=HZGCoVF3YvM https://www.youtube.com/

watch?v=R13BD8qKeTg. ø

Probabilità e Statistica 3

p(H) p(¬H)

p(¬E|H) p(¬H|E)

p(¬E|¬H)

1 p(E|H) p(H|E)

p(E|¬H)

1

Rappresentazione geometrica del Teorema di Bayes sul quadrato unitario 1 1. Osserviamo come

Figura 2: ×

proporzione

(E|H) sia dato dalla di (E) rispetto a (H).

P P P

La teoria della probabilità trova sicuramente (massima?) espressione nel gioco d’azzardo. Più il gioco

d’azzardo è complicato e più è interessante studiarla. Un esempio semplice è il gioco delle tre carte: l’obiettivo

è trovare la carta vincente. Può diventare un gioco puramente probabilistico se le tre carte sono veramente

mischiate. Miglioriamo il gioco, supponendo di scoprire una carta che il mazziere sa non essere quella giusta.

La domanda è questa: se ci viene data possibilità di cambiare carta, conviene cambiare o è indifferente? Anche

se sembra contro intuitivo, conviene cambiare (paradosso di Monty Hall). Un modo per comprendere questo

fatto è supporre che ci siano 100 carte. Ne scegliamo una, e il mazziere ne scopre 98. Ovviamente in questo

rispetto alla scelta iniziale.

caso conviene cambiare, perché le probabilità sono 99% e 1% La Fig. 3 rappresenta

la situazione con 20 porte anziché 100 carte. Altrimenti ci si può fare la tabella, la matrice della scelta. Si

può dimostrare anche con la probabilità Bayesiana! Sia il tenere la carta, e la vittoria. Vogliamo vedere

S G

quanto è (G|S). La marginalizzazione ci dice che = 1 se la prima scelta è giusta, e = 0 se invece è sbagliata.

P σ σ

Quindi 1

X

(G|S) = (G|S, )P (σ = (G|S, 0)P (S|0) + (G|S, 1)P (S|1),

P P σ P P

|S)

=0

σ

dove (0|S) è la probabilità che la prima scelta sia sbagliata e che non abbiamo cambiato carta. La probabilità

P 13

di vittoria non cambiando carta è quindi pari a (S|1) = . Adesso invece cerchiamo il caso cambio carta, e

P C

vittoria. Analogamente a prima, calcoliamo ora

G (G|C) = (G|C, 0)P (C|0) + (G|C, 1)P (C|1).

P P P

Se la scelta era ok ma cambio la probabilità di vincere è ovviamente (C|1) = 0, mentre se ho cambiato e la

P 23 .

prima scelta era sbagliata e quindi vinco, (G|1, 0) = 1 e quindi (C|0) =

P P

La probabilità non è qualcosa di intuitivo, forse “alla fine conviene contare”.

Sia dato un test diagnostico con le seguenti caratteristiche:

Esercizio:

• Sensibilità = probabilità di identificare correttamente un malato = 95%

P

SE

• Specificità = probabilità di identificare correttamente un sano = 90%

P

SP

Sia = 5% la prevalenza di una certa malattia (percentuale della popolazione che mostra i sintomi). Qual

f

è la probabilità di essere malato se il test è positivo?

Conviene come prima cosa fare una tabella che incroci le il numero di persone positive/negative a se-

conda dell’esito del test, data una popolazione di individui. Sappiamo che i malati sono moltiplicato

N N f

per la sensibilità del test. Analogamente possiamo calcolare gli altri valori:

;8<

© Matteo Tajana, Università degli Studi di Milano

ø

4 Probabilità e Statistica

Test Malato Non Malato

+ (1 )(1 )

N f P N f P

− −

SE SP

(1 )

N f P N f P

− − SE SP

Dato un test positivo, vogliamo la probabilità che il l’individuo in considerazione sia veramente malato.

Questo sarà dato dalla probabilità che il test sia positivo diviso le altre due possibilità normalizziamo

f P SE

per la linea positiva—cioè bisogna dividere per la probabilità di essere positivo, data dalla combinazione

di essere malato e positivo assieme a quella di essere sano e falso positivo. La soluzione è quindi

f P 0.05 0.95 1

×

SE = .

'

+ (1 )(1 ) 0.05 0.95 + 0.95 0.1 3

f P f P

− − × ×

SE SP

Osserviamo quanto la probabilità di diagnosticare correttamente un vero positivo con un solo test sia bas-

sa: solo due tamponi su tre danno un esito corretto! Questo è dovuto al fatto che il suddetto test ha una

prevalenza della popolazione bassa (5%). Test sierologici con sensibilità bassa (95% non è altissima, i tam-

poni per il COVID-19 hanno una sensibilità maggiore del 99%) non hanno rilevanza sul singolo ma sulla

popolazione (screening della popolazione, i falsi positivi sono pochi su una grande popolazione). Un’ul-

tima osservazione interessante è la seguente: come cambia la probabilità se viene eseguito due volte (in

maniera indipendente) il tampone sullo stesso individuo? Ri

Anteprima
Vedrai una selezione di 12 pagine su 55
Probabilità e Statistica Pag. 1 Probabilità e Statistica Pag. 2
Anteprima di 12 pagg. su 55.
Scarica il documento per vederlo tutto.
Probabilità e Statistica Pag. 6
Anteprima di 12 pagg. su 55.
Scarica il documento per vederlo tutto.
Probabilità e Statistica Pag. 11
Anteprima di 12 pagg. su 55.
Scarica il documento per vederlo tutto.
Probabilità e Statistica Pag. 16
Anteprima di 12 pagg. su 55.
Scarica il documento per vederlo tutto.
Probabilità e Statistica Pag. 21
Anteprima di 12 pagg. su 55.
Scarica il documento per vederlo tutto.
Probabilità e Statistica Pag. 26
Anteprima di 12 pagg. su 55.
Scarica il documento per vederlo tutto.
Probabilità e Statistica Pag. 31
Anteprima di 12 pagg. su 55.
Scarica il documento per vederlo tutto.
Probabilità e Statistica Pag. 36
Anteprima di 12 pagg. su 55.
Scarica il documento per vederlo tutto.
Probabilità e Statistica Pag. 41
Anteprima di 12 pagg. su 55.
Scarica il documento per vederlo tutto.
Probabilità e Statistica Pag. 46
Anteprima di 12 pagg. su 55.
Scarica il documento per vederlo tutto.
Probabilità e Statistica Pag. 51
1 su 55
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze matematiche e informatiche MAT/06 Probabilità e statistica matematica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher tajana.matteo di informazioni apprese con la frequenza delle lezioni di Probabilità e statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano o del prof Zapperi Stefano.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community