Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

CSZ

Distribuzione gamma

X ha distribuzione gamma se ha densità di probabilità come scritta sotto (la fx)

Il primo pezzo è zero perché quando X va a più infinito l’esponenziale va a zero, è più forte di tutte

le altre, per X che va a zero e alla meno X va a zero, quindi è zero meno zero, questo per alfa

maggiore uguale di 1.

Si può dimostrare facilmente che gamma di 1 è uguale a 1: Quindi sappiamo calcolare gamma su

tutti gli interi e gamma su tutti i dispari

fratto 2.

30

CSZ

Casi particolari della distribuzione gamma

Lezione 6: 9 marzo 2017

Ancora sulla distribuzione gamma

Proprietà delle distribuzioni gamma: 31

CSZ

Distribuzione normale

Fu proposta da gauss per approssimare le distribuzioni binomiali con numero di prove molto molto

grandi, più tardi fu generalizzato col teorema del limite centrale. Il teorema del limite centrale di

fatto da una giustificazione teorica al fatto che molti fenomeni casuali hanno modello normale.

32

CSZ

Ora siano:

Perché la normale standard è importante? Della distribuzione normale non sappiamo scrivere la

funzione di ripartizione è quindi non sappiamo calcolare le probabilità. Ma i valori della funzione di

ripartizione della normale standard sono stati calcolati e sono valori tabellati.

Quindi se ho la normale standard, in fondo al libro c'è la funzione di ripartizione della normale

standard calcolata nel generico Z, da ora in poi la chiameremo di maiuscolo di zeta (funzione di

ripartizione della normale calcolata in zeta)

Le tavole di cui parliamo sono nel libro a pagina 610, portarle il giorno dell’esame fotocopiate,

all’esame si può portare un formulario, un foglio A4 con le formule sopra.

Esempio sul quaderno pagina 1, 5.5.1* 33

CSZ 1. Utilizzando le funzioni generatrici dei momenti dimostrare che se X1 ha distribuzione

normale di parametri μ1 e σ^2, X2 ha distribuzione normale μ2 e σ^22 allora X1+X2 avrà

anche lei distribuzione normale, di parametri somma dei μ e somma delle σ. Quindi si fa la

funzione generatrice della somma e si vede che è dello stesso tipo.

2. Come conseguenza del punto 1, e del fatto che abbiamo visto la trasformazione lineare

a+bX, se io ho somme per i che va da 1 a n così:

34

CSZ

Lezione 7: 14 marzo 2017

Altro paio di cose sulla distribuzione χ^2

A pagina 611 del libro, c'è la tabella, c'è scritto i valori assunti da χ^2 :

αn

35

CSZ

In generale se abbiamo una distribuzione T con n gradi di libertà chiamaeremo t il valore tale

α,n

che la funzione di ripartizione calcolata in quel punto è 1-α

Distribuzione T e distribuzione F

Motivo per cui sono strane: F viene chiamata L distribuzione di Snedecor (perché poi servirà per

fare l’eq di fisher)

La distribuzione T è la distribuzione di Student

Non ci interessa come sono fatte.

Ci interessa solo:

1. In che occasioni vengono fuori

2. Esistono le tavole e quindi sappiamo calcolarne i quantili

Quando viene fuori la T:

Se ho una var aleatoria Z normale standard è una var aleat C

36

CSZ

Della F che useremo solo per un argomento a fine corso:

A questo punto possiamo dichiarare concluso il capitolo 5

Di questo capitolo possiamo saltare le sezioni 5.3, 5.9, esempio 5.4.4

Inferenza statistica

Introduciamo con un esempio:

Io sono un dirigente di una fabbrica che produce pasta, c'è scritto il peso, i pacchi possono avere

qualche grammo in più o in meno. Consideriamo “buoni” i pacchi con peso compreso tra 475-

525g. Quelli che sono più alti o più bassi li devo scartare. Io che controllo la qualità devo vedere

quanti pacchi sono difettosi, mi serve la proporzione di pacchi difettosi.

Mi interessa il numero di pacchi difettosi su numero di pacchi prodotti, su tutta la produzione.

Per farmi un’idea della proporzione invece di esaminare tutti i pacchi prodotti ne seleziono un

campione, da questo cerco di risalire al numero.

Ci occuperemo di problemi di questo tipo.

Concetti chiave:

Situazione tipica:

Stiamo studiando un insieme molto grande, potenzialmente infinito, questo è detto popolazione,

insieme molto grande di oggetti a cui sono associate delle quantità misurabili. Selezioniamo un

37

CSZ

sottoinsieme ridotto di oggetti detto campione e lo analizziamo cercando di trarre conclusioni

valide per l’intera popolazione.

Esiste una F che è la distribuzione nella popolazione di questa quantità misurabile. Nell’esempio

dei pacchi di pasta ogni pacco di pasta può essere:

• 1=difettoso con una certa probabilità θ

• 0=buono con probabilità 1-θ.

Questa distribuzione è una bernoulliana.

La distribuzione F è incognita, perché non so quanto vale θ. Quello che cerco di individuare è F.

Non tutti i campioni sono buoni. Il campione va selezionatoin modo casuale.

Il primo elemento “estratto” avrà la stessa distribuzione di tutta la popolazione.

Faccio il campionamento così: pesco analizzo e rimetto dentro, magari ripesco, tutti gli elementi

saranno indipendenti e con la stessa distribuzione, selezione con ripetizione. Il testo lo chiama

campione casuale. Campioni tutti estratti dalla popolazione F.

Esempio delle misurazioni:

Ho una misura che può assumere diversi valori con una certa probabilità

Si dice che X=d + ε

Cioè la misura è la distanza vera più un certo errore.

La ε ha una distribuzione normale N(0,σ^2)

F=Funzione di ripartizione di una normale N(d,σ^2)

Problemi di inferenza parametrica

Cioè la F incognita è in corrispondenza con uno o più parametri reali. Noti i parametri diventa nota

anche F. Noi faremo solo inferenza parametrica.

Inferenza non parametrica potrebbe essere ad esempio se non posso ipotizzare ε con

distribuzione qualsiasi non normale allora non è parametrica.

Nei casi di inferenza parametrica la F incognita dipende da qualche parametro θ, useremo

campioni casuali tutti con la stessa distribuzione.

Oggetti di interesse diventa θ. Devo individuare un numero non una intera funzione F. θ è il

parametro.

Cercheremo info su θ mediante le informazioni dai campionari.

T = g(X1, x2…xn) prende il nome di statistica. Una statistica è una funzione dei dati campionari m

non da parametri ignoti. X1-d non è una statistica.

Ancora l’esempio dei pacchi di pasta, campione di 3 pacchi di pasta

X1 è il 74esimo pacco prodotto

X2 il 95esimo

X3 il 172esimo

Sono variabili aleatorie, ci sono le varialbili aleatorie campionarie, questi tre sono 1 o 0. Esempio

X1 difettoso

X2 difettoso

X3 buono

Abbiamo il campione e l’osservazione

Il valore grande è il vettore campione, x minuscoli poi sono i valori osservati.

X1….Xn campione casuale (variabili aleatorie)

..x1,…xn piccoli solo i valori delle osservazioni 38

CSZ

Media campionaria

La legge dei grandi numeri al crescere dei campioni la media campionaria di schiaccia sul valore

atteso.

Teorema del limite centrale 39

CSZ

Esempio di uso del teorema del limite centrale. Esempio 6.3.1

Esempio 6.3.5 sempre sul teorema del limite centrale

40

CSZ

Lezione 8: 16 marzo 2017

Varianza campionaria

Prendo gli scarti della media e faccio i quadrati 41

CSZ

Fine capitolo 6 42

CSZ

Inferenza statistica

Riprendiamo l'esempio dei pacchi di pasta 43

CSZ

Altro esempio 44

CSZ

Lezione 9: 21 marzo 2017

Breve riassunto su cosa è l’inferenza statistica: 45

CSZ 46

CSZ

Modello normale

Particolarità:

1. È il più comune

2. Dipende da due parametri

A seconda dei casi ci si può trovare in situazioni in cui:

47

CSZ

In generale come trovare MLE 48

CSZ

Esercizi dalla fine del capitolo sulle statistiche campionarie

Esercizio 28 pagina 243

In una prova di matematica proposta nelle scuole la media e la deviazione standard dei punteggi

sono stati 517 e 120. Trovare la probabilità approssimata che un campione di 144 studenti abbia

un punteggio medio che superi 507.

Esercizio 30:

Un certo componente è essenziale per il funzionamento di un apparato elettrico e va sostituito in

caso di guasto. Se il tempo di vita ha media 100 ore e deviaz standard 30 ore, voglio che l’apparato

con probabilità superiore al 95% funzioni almeno 2000 ore. Quanti ricambi di questi devo tenere a

disposizione? 49

CSZ

Lezione 10: 23 marzo 2017

50

CSZ 51

CSZ

In linea di massima la prima cosa che guardiamo degli stimatori è l’efficienza.

Sulle stime di massima verosimiglianza possiamo dire che:

Gli stimatori MLE sono

• Asintoticamente non distorti

• Asintoticamente i più efficienti.

(Sono distorti, ma per n che va all’infinito la distorsione tende ad essere zero.)

Preferiamo sempre gli MLE che per n grande sono sempre i migliori. Nel confronto tra due

stimatori quello che è rilevante è l’errore quadratico medio. Poi altra cosa vado a vedere la

distorsione. 52

CSZ

Lezione 11: 28 marzo 2017

Riprende alcune cose della scorsa lezione: 53

CSZ

Quindi lo stimatore distorto è più efficiente del più efficiente non distorto. Dal punto di vista

pratico però in questo esempio i due sono praticamente la stessa cosa.

Nell’altro esempio:

Sullo stimatori di massima verosimiglianza possiamo dire che:

• Per grandi campioni è decisamente il migliore, perché è asintoticamente il più efficiente (si

può dimostrare). Cioè per n che tende all’infinito MSE dello stimatore si MLE tende ad

essere nullo

• È asintoticamente non distorto, cioè per n che tende all’infinito il suo BIAS tende a zero.

Quindi per n grande usiamo la MLE.

Per campioni di numerosità moderata lo stimatore di massima verosimiglianza è spesso distorto

ma comunque abbastanza efficiente.

Sul libro abbiamo fatto 7.1, 7.2 e siamo saltati a 7.7. Ora riprendiamo da 7.3

Intervalli di confidenza

Esempio: acquisti di partite di carbone. Il valore di una partita di carbone dipende da alcune

caratteristiche del carbone: contenuto calorifico lordo, questo viene calcolato in megajoule per kg.

Le procedure ISO per il calcolo comportano un errore di misurazione con distribuzione normale,

σ=0.1 e μ =0.

ε

Quando misuro il contenuto calorifico di un pezzo di carbone mi verrà il valore vero più un errore.

Se ho n misurazioni oggi misurazione Xi sarà il valore vero μ + ε. Valore atteso μ e varianza σ^2. Ci

affidiamo al modello normale con varianza nota e valore atteso ignoto.

Sono state fatte 23 misurazioni 54

CSZ

Voglio trovare un intervallo per μ

Esempio 7.3.1 pag 259

Supponiamo c'è quando un segnale elettrico μ viene trasmesso da una sorgente A il ricevente B

riceve X con distribuzione N(μ,4)

Per ridurre l’errore lo stesso segnale viene trasmesso 9 volte, i valori registrati da B sono da x1 a

x9: 55

CSZ

L’unilaterale sinistro sarà (-infinito, X medio +1.96 per sigma fratto radice di n)

generalizziamo ora:

Esercizio 12 capitolo 6

Un docente sa che il punteggio all’esame finale del suo corso è distribuito con:

Per il punto b ho più grande n perciò significa che la varianza è più piccola, il valore è più

concentrato, pertanto ho una probabilità più grande.

56

CSZ

Lezione 12: 4 aprile 2017

57

CSZ

Per l’esempio del carbone l’intervallo di confidenza al 95% per la varianza diventa

21x0.1294..

A questo punto se i dati sono normali sappiamo trovare gli intervalli di confidenza per qualsiasi

parametro.

In particolare per la media μ nei due casi con varianza nota usiamo Z (normale standard) per

varianza incognita usiamo Tn-1 58

CSZ

Per σ^2 con la χ^2 n-1

In teoria (esercizio 43), se μ fosse nota potremmo trovare gli intervalli di confidenza migliori

perché basati sugli stimatori migliori.

Problema esempio 7.4.1 pag 273

L’amministratore delegato dell’enel deve scegliere le guaine per i cavi.

Vengono testati due tipi di guaine per determinare il montaggio a cui cominciato a deteriorarsi.

59

CSZ

Stiamo facendo un’ipotesi di σ uguali, in realtà non è così perché guardando i dati quello di B

dovrebbe essere almeno il doppio di quello di A.

Si fa la stima congiunta della varianza, pesata ciascuna con n-1.

Esercizio 6.15

Una squadra di basket ha di fronte una stagione con 60 incontri, 32 con squadre di livello A e 28

con squadre di livello B. I risultati delle partite sono tutte indipendenti, le probabilità di vittoria

sono del 50% con le squadre di livello A, 70% con quelle di livello B. Sia X il numero totale di

vittorie ottenuto durante la stagione.

1) La distribuzione di X è binomiale? Una distribuzione è binomiale quando conta il numero di

successi in una serie di prove ripetute, cioè prove indio tra loro tutte con la stessa

probabilità di successo, qui non vi è sempre la stessa probabilità, allora non è binomiale. Se

le probabilità fossero uguali sarebbe binomiale, il motivo è che le prove non sono sempre

nelle stesse condizioni

2) Sia Xa e Xb il numero di vittorie con le squadre A e B, che tipo di variabili aleatorie sono Xa

e Xb? Sono binomiali, perché ora sono prove ripetute. Bin(n=32, P=0.5), Xb distrib

Bin(n=28, P=0,7).

3) Che relazione lega X Xa e Xb? X=Xa + Xb

4) Quanto vale approssimativamente la probabilità che vi siano almeno 40 vittorie? P(X>=40)

possiamo calcolarla in modo esatto e in modo approssimato. Là si calcola in maniera

approssimata perché il testo dice così. 60

CSZ

Approssimazione per continuità

Quando si approssima una variabile aleatoria discreta con una continua:

Immaginiamo che l’esercizio di prima cerca la probabilità che X=40, questa probabilità è zero,

perché ho approssimato una variabile discreta con una continua.

Per il libro sarebbe P(39.5<=X<=40.5) questa è la approssimazione per continuità allora trova un

valore di P diverso da zero. Il libro allora forse la probabilità di prima ce l’ha calcolata facendo

P(X>=39.5)

Negli esercizi dobbiamo fare così solo se ci sembra opportuno.

Esercizio 6.21

Il 12% della popolazione mondiale è mancino. Trova la probabilità che in un campione di

n=100persone vi sia un numero di mancini tra 10 e 14.

Estraiamo un primo elemento dalla popolazione mondiale, può uscire che è mancino o no

61

CSZ

Lezione 13: 6 aprile 2017

Proviamo a fare previsioni su Xn+1. Che valori ci aspettiamo sulla prossima osservazione che non abbiamo

ancora fatto? Costruiamo un intervallo di previsione per X n+1

Quando campioniamo direttamente da una distribuzione normale abbiamo visto più o meno tutto quello

che si può vedere per gli intervalli di confidenza. 1

CSZ

Intervalli approssimati per la media di grandi campioni

Ora generalizziamo a intervalli approssimati per la media di grandi campioni

Esercizio 31 pagina 299

Assegnata una successione di variabili aleatorie iid uniforme su (0,1) si definisce N il minimo degli n tali che

u1+u2+…un >1

Realizza una simulazione al calcolatore 36 realizzazioni di N. Il testo sta chiedendo considera n1, n2…n36 e i

corrispondenti valori osservati.

Questi possono essere visti come iid con distribuzione N vista sopra.

Costruire un intervallo di confidenza per il valore atteso di n, indovina quanto vale E(N)

2

CSZ

Sono numeri tra zero e uno, se ne sommo due già la probabilità è ½ che la somma sia più grande di 1, di

solito quindi bastano pochi numeri per superare 1.

Esercizio 54 pagina 303

Una compagnia di ricerche di mercato vuole determinare la percentuale di famiglie che stanno assistendo

ad un particolare evento sportivo. Per stimare fanno sondaggi telefonici. La domanda è: quante famiglie

dovranno intervistare come minimo se si vuole il 90% di confidenza che la stima non porti un errore non

superiore a +/-2%? 3

CSZ

Per la bernoulli si può fare il caso conservativo perché la P ha un massimo altrimenti non si potrebbe fare.

Problema 18

Supponiamo di voler stimare la media di una popolazione normale che ha entrambi i parametri incogniti, in

particolare cerchiamo di determinare che numerosità deve avere il campione affinché ad un livello di

confidenza 1-α l’intervallo di confidenza bilaterale abbia ampiezza minore o uguale di A.

(Chiedere questo significa chiedere X medio…

Il problema è che t varia con n e andrebbe calcolato per ogni n, il brutto è però che non conosciamo la

varianza campionaria.

Il seguito del problema è spiega come si possa realizzare approssimativamente questo progetto tramite un

doppio campionamento che prevede di raccogliere un campione preliminare di ampiezza 30 e usarne i dati

per dimensionare il campione successivo.

Col primo campione di prova facciamo una stima della varianza, poi la mettiamo nella disequazione scritta

per n e troviamo n per il secondo campione.

Lezione 14: 11 aprile 2017

Del capitolo 7 saltare 7.2.1, 7.8, 7.6 fare a casa per esercizio

Verifica di ipotesi

Partiamo da un esempio

In Olanda il limite di velocità in autostrada è 120. La polizia ha uno strumento per valutare la velocità delle

macchine che passano. Lo strumento della polizia effettua 3 rilevazioni della velocità e poi ne calcola la

media. A seconda del valore della media la polizia decide se multare oppure no.

4

CSZ

Una macchina viene rilevata a 121, multare o no?

Elemento chiave del problema in base a come è costruita la macchina sappiamo che le 3 rilevazioni hanno

un errore normale a media nulla e con una varianza di 4, N(0,4). Questo ci dice che:

Altri esempi di problema di verifica di ipotesi

 Il fumo incide sulla fertilità della donna o no? Biostatistica

5

CSZ  È vero che le emissioni di co2 della mia macchina sono inferiori ai limiti di legge?

 Il moment è più rapido del paracetamolo nel risolvere il mal di testa?

o In questo esempio possiamo ipotizzare che ci sia una X=(tempo di guarigione prendendo il

moment), Y=(idem ma per il paracetamolo). Queste hanno distrib normale con un certo μ e

un certo σ. Si fanno le due ipotesi in cui metto μ dell’uno maggiore dell’altro e il viceversa.

In generale sulla base dei dati campionari si vuole valutare quale tra di ipotesi è supportata o meno dai dati.

Le ipotesi da valutare che in genere sono chiamate H0 e H1 sono formulate in termini di parametri di una

popolazione.

H0 è chiamata ipotesi nulla, H1 è detta ipotesi alternativa. Hanno ruoli diversi, vedremo le differenze e

cosa scrivere in H0 e cosa in H1 quando abbiamo un problema.

Più in generale 6

CSZ

Generalizziamo il problema della multa: abbiamo un campione generato da una popolazione normale:

7

CSZ

Parentesi sulla scelta delle ipotesi e nomenclatura rifiuto non rifiuto

 Dico rifiuto o non rifiuto H0 invece di accetto H1 accetto H0, perché il tutto è basato sul fisso errore

del primo tipo senza curarmi di quello del secondo tipo. Il test è fissiamo α, limitiamolo, controllo

l’errore, non ho idea di cosa succede a quello di II tipo. Supponiamo di avere una probabilità molto

molto piccola per l’errore di primo tipo, trovo la regione critica, supponiamo che alla fine il

campione venga per farmi rifiutare H0, se rifiuto H0 il mio campione è in un insieme molto poco

ragionevole.

Supponiamo che un autista stia guidando veramente a 120, ho la gaussiana della distribuzione dei dati,

abbiamo detto che rifiutiamo in un certo punto, cioè l’osservazione che ho io di 123 è difficilmente

compatibile con l’ipotesi 120, dovrebbe avere una probabilità molto bassa. Quindi il campione osservar che

mi fa rifiutare H0 è estremamente poco compatibile con H0. Un campione di 122.3 è quasi incompatibile.

Non è compatibile con H0 quindi mi fa sembrare ragionevole H1.

Supponiamo di osservare 120.5 non è estremo abbastanza da poter essere considerato irregolare, quindi da

farmi rifiutare. Non dico che è in regola, dico che non sono in grado di affermare che sta andando troppo

veloce. Ecco perché dico rifiuto o non rifiuto. Questo è probabile che stia andando troppo veloce ma non

posso dimostrarlo. Non ho elementi per rifiutare ma certo non accetto.

 Come regolarsi nella scelta tra H0 e H1:

o L’uguale deve comparire sempre su H0, non posso mai avere H1 maggiore o uguale di

qualcosa

o In H1 si mette la conclusione che voglio o vorrei raggiungere. H0 in genere è il

complemento di H1, H1 è quello che io vorrei dimostrare. H0 è spesso costruita solo al fine

di rifiutarla

Sull’esepio di moment e paracetamolo, se μ è il tempo di guarigione posso avere come H0 e H1 due sistemi

diversi, uno in cui dico che il moment è meglio (μp <= μm) uno in cui dico che il paracetamolo è meglio.

Quindi parto da cosa vorrei raggiungere e lo metto in H1, quello che non voglio lo metto in H0 sperando

che poi i dati mi portino a rifiutare.

Esempio delle emissioni di CO2 8

CSZ

Esercizio 41 capitolo 7

Ho due campioni indipendenti provenienti da due distribuzioni normali diverse ma con la stessa deviazione

standard.

Esercizio 6 capitolo 7

Le piene dei fiumi vengono misurate tramite la loro portata. v è detto valore della piena secolare se la

probabilità che D>=v = 0.01 dove D è la portata più grande in un anno.

La tabella 7.4 riporta le portate negli anni, abbiamo 9

CSZ

Esercizio 2 capitolo 7

Ho un campione casuale da una densità fatta così: 10


ACQUISTATO

2 volte

PAGINE

94

PESO

19.24 MB

AUTORE

CSY

PUBBLICATO

6 mesi fa


DETTAGLI
Esame: Statistica
Corso di laurea: Corso di laurea in ingegneria gestionale
SSD:
A.A.: 2017-2018

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher CSY di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università La Sapienza - Uniroma1 o del prof Perone Pacifico Marco.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Statistica

Statistica (teoria ed esempi)
Appunto
Statistica - Tutte le formule utili per il corso
Appunto
Riassunto esercizi Statistica, libro consigliato "Probabilità e Statistica", Ross
Esercitazione
Probabilità e Statistica - Formule e Distribuzioni
Appunto