Che materia stai cercando?

Riassunto esame Statistica, prof. Lombardo, libro consigliato MatMix - Probabilità e Statistica per ingegneri, Alberto Lombardo Appunti scolastici Premium

Riassunto per l'esame del professor Lombardo di statistica inferenziale e calcolo delle probabilità, basato su appunti personali e studio autonomo del testo consigliato dal docente "MatMix - Probabilità e Statistica per ingegneri", Alberto Lombardo . Il file spiega in modo semplice ma efficace i concetti della visione probabilistica, e della statistica inferenziale. Con una buona lettura... Vedi di più

Esame di Statistica e calcolo della probabilità docente Prof. A. Lombardo

Anteprima

ESTRATTO DOCUMENTO

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

questo caso qualunque momento di grado dispari risulta nullo. Infatti, per ogni scarto positivo ne

corrisponde uno negativo di eguale entità e ponderato in modo identico. Si definiscono inoltre i coefficienti

di a‐simmetria β e di curtosi β come segue:

1 2  

3 4

(( ( )) ) (( ( )) )

   

E X E X E X E X

   

     

3 4

'' ( '') ; '' ( '')

E X E X

1 3 2 4

3 4

var( ) var( )

X X

p

l e ( 2 . 5 )

M o

m e n

t i d

i v

a r i a b

i l

i c a s u

a l i m u

l t i p

l e ( 2 . 5 )

M o

m e n

t i d

i v

a r i a b

i l

i c a s u

a l i m u

l t i

Si definiscono i momenti misti (centrati) di una variabile casuale doppia come:

     



      

p q 2

( ( )) ( ( )) ( ) ( ) ( , )

p q

E X E X Y E Y x E X y E Y d F x y

,

p q

Nel caso in cui uno dei due gradi è 0, si ottiene il momento semplice dell’altra variabile. Il più comune di tali

momenti è il momento misto di secondo ordine, detto covarianza:

 

      

cov( , ) ( ( ))( ( )) ( ) ( ) ( )

X Y E X E X Y E Y E XY E X E Y

1,1

Se le due variabili casuali sono indipendenti la covarianza è nulla, ma non è detto il contrario; se cov(X,Y)=0

si parla di indipendenza in senso debole. La relazione di indipendenza vista fin ora si dirà allora in senso forte, e

implica la prima. Una variabile casuale multipla può essere riguardata come un vettore di variabili casuali

 

 , ,...,

X X X X

singole: . Esso può essere caratterizzato dai primi due momenti: il vettore di medie,

1 2 n

costituito dal vettore dei valori attesi delle singole variabili casuali, e la matrice di covarianza:

 

var( ) cov( , ) cov( , )

X X X X X

1 2 1 1

n

 

cov( , ) var( ) cov( , )

X X X X X

 

1 2 2 2

var( ) n

X  

   

 

cov( , ) cov( , ) var( )

 

X X X X X

1 2

n n n 

 cov( , ) var( )

cov( , ) cov( , ) X X X

. Si noti inoltre che . Si

Questa risulta simmetrica poiché X X X X i i i

i j j i

dimostra la disuguaglianza di Cauchy – Schwartz, che nel caso di variabili scartate dal valore atteso, dà:

  

2 2 2 2

( ) ( ) ( ) cov ( , ) var( ) var( )

E XY E X E Y X Y X Y

(Cauchy – Schwartz)

Il caso di uguaglianza si raggiunge se una variabile dipende linearmente dall’altra (es: Y = aX + b). Si

definisce coefficiente di correlazione lineare ρ la quantità adimensionale:

cov( , )

X Y

  var( ) var( )

X Y

2 ≤ 1, e dunque ‐1 ≤ ρ ≤ 1. I limiti della disequazione vengono assunti nel

Da Cauchy – Schwartz si trova: ρ

caso di dipendenza lineare; nel caso di indipendenza debole ρ=0; pertanto può pure dirsi indipendenza lineare.

P a r t i c o

l a r

i f u

n

z i o

n

i d

e i m o

m e n

t

i ( 2 . 6 )

P a r t i c o

l a r

i f u

n

z i o

n

i d

e i m o

m e n

t

i ( 2 . 6 ) 

 

( ) ( ) ( )

it X i t x

C t E e e dF x

Si definisce funzione caratteristica, la seguente: , ove t è una variabile non

X x

aleatoria ed i è il numero immaginario. Come si vede, è una funzione in t e non in x e gode delle seguenti:

La funzione caratteristica esiste sempre, nel senso che l’integrale è sempre limitato.

o È in corrispondenza biunivoca con la funzione di ripartizione e la funzione densità di probabilità, e

o pertanto conoscerla significa determinare univocamente la variabile casuale.

Si definisce funzione generatrice dei momenti, la seguente funzione:

( ) ( )

t X

M t E e

X

che si differenzia dalla precedente per il solo fatto di essere reale (e perciò non esiste sempre). Anche per la

M vi è corrispondenza biunivoca con le funzioni di cui sopra. M prende questo nome perché da essa si

x x

ricavano facilmente i momenti di origine 0 e grado k intero, come la derivata di ordine k calcolata per t=0.

Per esempio M ’(t) = E(x e^(tx)), che con t=0 è proprio E(x). Definiamo la funzione generatrice dei cumulanti:

x 

( ) log( ( ))

K t M t

X X

Derivando la precedente, e calcolandola in t=0, otteniamo anche in questo caso E(x). Con la stessa

operazione, ma derivando due volte o tre volte otteniamo invece μ e μ rispettivamente. Se deriviamo

2 3

 

 2

3

quattro volte invece, sempre in t=0, si trova .

4 2

S – C S

R 7

S – C S

R

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

V

V

A

R I A

B I

L I C

A

S U

A

L I D

I

S C

R E T

E

C

a

p i

t o

l

o 3

. A

R I A

B I

L I C

A

S U

A

L I D

I

S C

R E T

E

V a r i a b

i

l e b

e r n

o

u

l l i a

n

a e b

i n

o

m i a l e ( 3 . 1

)

V a r i a b

i

l e b

e r n

o

u

l l i a

n

a e b

i n

o

m i a l e ( 3 . 1

)

Supponiamo di avere una variabile Y che può assumere i valori 0 e 1. Essa è dunque caratterizzata da un

solo parametro che esprime la possibilità di successo P(1) = ϕ. Tale variabile, detta bernoulliana, è del tutto

specificata una volta fissato ϕ (infatti P(0) = 1 – ϕ = ψ). Si supponga di realizzare n prove indipendenti che

possono considerarsi repliche della bernoulliana. Si dice in questo caso che le variabili casuali sono

identicamente e indipendentemente distribuite (i.i.d.). La variabile a cui siamo interessati è il “numero di

successi” X sulle n prove ( domX = { 0,1,2,…,n } ). Sono mostrate le distribuzioni di probabilità per due casi:

n = 2 n = 3

x P(x) x P(x)

0  0 

2 3



1 2 1  2

3

2  2 2  

2

3

1 3  3

1

Generalizzando ad n prove otteniamo :

1    

n n

  

    

   

n

( ) x n x ( ) 1

 

P x  

P x

 

 

x  0

x

Definiamo allora una nuova variabile X, detta binomiale, come somma di n variabili casuali bernoulliane Y i

che sono i.i.d. . Sotto queste ipotesi la binomiale avrà funzione caratteristica pari alla seguente produttoria:

1

   

  n

     

         

0

( ) ( ) ( )

itY it y it it it it

C t E e e P y e e e C t C e

i

Y X Y

i

i i

 0

y

Dalla funzione generatrice dei cumulanti ricaviamo infine le seguenti relazioni:

 

t t

n e n e

   

         

'( ) '( ) ( ) ''( ) ''( ) var( )

K t K t E X n ; K t K t X n

 

  1 2

  2 

0 0

t t   t

e t

e

 

  

t t

n e e    

     

'''( ) '''( ) (1 2 )

K t K t n

  3 3

3  0

  t

t

e  

   

 

2 2 2

4

t t t

n e e e      

       

2 2

''''( ) ''''( ) 3 (1 6 6 )

K t K t n

  4 4 2

4  0

  t

t

e

Si noti che per ϕ = ½ il momento terzo è nullo e infatti la distribuzione risulta simmetrica. Risulta chiaro però

che al divergere di n, E(X) e var(X) saranno infinite e quindi la variabile risulta poco maneggiabile. Si può far

sì che μ si mantenga costante con ϕ0 con la stessa velocità con cui n diverge. Così μ è costante e si ottiene :

2

  x

n 

   

 

( ) lim x n x

 

P x e

!

 

 x x

n = μ . In

che è la distribuzione di probabilità della variabile casuale Poisson. Si può verificare che così μ= μ

2 3

genere si ritiene che l’approssimazione sia valida per n > 30 e nϕ < 5.

  !

n n

 

1 Dal calcolo combinatorio:  

C  

x n ! !

 

x x n x

 

    

     

n x n x

       

( 1)...( 1) 1 1

x x

n n n x n n n x

    

( ) lim 1 lim ... lim 1 lim 1

2        

P x        

! !

x

   

x n n x n n n n n

n n x x

S – C S

R

8 S – C S

R

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

V a r i a b

i

l e b

i n

o

m i a l e n

e g

a t i v

a e i p

e r g

e o

m e t r i c a ( 3 . 2 )

V a r i a b

i

l e b

i n

o

m i a l e n

e g

a t i v

a e i p

e r g

e o

m e t r i c a ( 3 . 2 )

Nel paragrafo precedente si è adottato il seguente schema: si ripete n volte un esperimento nelle stesse

condizioni e indipendentemente. Adesso ci poniamo nella stessa situazione (i.i.d.), ma fissiamo il numero di

successi, mentre teniamo come variabile il numero delle prove da effettuare. Per ottenere ciò, le prime n‐1

prove dovranno presentare k‐1 successi in una successione qualsiasi, mentre l’n‐esima prova dovrà essere un

successo. Per l’indipendenza delle prove, possiamo scrivere:

  

1 ( 1)!

n n

    

  

 

1

( ) k n k k n k

 

P n   

1 ( )!( 1)!

 

k n k k

Ponendo y = n – k, si ha la distribuzione di probabilità della variabile casuale binomiale negativa:

 

( 1)!

k y 

( ) k y

P y 

!( 1)!

y k

La variabile y rappresenta il numero di prove da effettuare, oltre k, per ottenere il k‐esimo successo. Si trova:

   

  2

( ) / ; var( ) /

E Y k Y k

È interessante osservare le relazioni tra media e varianza per le variabili discrete definite in questo capitolo:

E(X) var(X)

Binomiale nϕ > nϕψ

Poisson μ = μ

Bin. negativa 2

kψ/ϕ > kψ/ϕ

Supponiamo ora di avere un’urna con M palline bianche e N – M nere, e di effettuare un’estrazione di n

palline a caso, ma senza reimbussolamento. Se identifichiamo l’estrazione di una pallina con una

bernoulliana, si vede che le n estrazioni non sono indipendenti tra di loro. In questo caso la probabilità che

sia v il numero di palline bianche estratte risulta pari a: 

  

M N M

  

  

v n v

( )

P v  

N

 

 

n

Per ricavare i primi due momenti non facciamo uso della funzione generatrice dei momenti in quanto troppo

complessa. Per induzione si può dimostrare che le n estrazioni hanno tutte valore atteso pari a M / N.

Analogo è il ragionamento per il calcolo della varianza (var(X )=ϕψ). Dunque, facendo riferimento alla

i

somma di bernoulliane non i.i.d., e considerandone la covarianza , troviamo E(V) e var(V):

1 

n n

nM N n

  

   

( ) ; var( ) var( ) 2 cov( , )

E V V X X X n 

i i j 1

N N

 

1

i i j

Se si pensa ad M / N come al parametro ϕ della bernoulliana, si può osservare che il valore atteso della

variabile ipergeometrica V e della bernoulliana si calcolano allo stesso modo. Inoltre la varianza

dell’ipergeometrica è inferiore di quella della binomiale per il fattore (N‐n)/(N‐1). Ovviamente il fattore è

unitario per n=1, oppure al divergere di N (reimbussolare altera trascurabilmente la composizione di un

urna con un grandissimo numero di palline). 

 2

1

M M M

    

cov( , ) ( ) ( ) ( )

1 X X E X X E X E X  

2

i j i j i j 1 1

N N N N

S – C S

R 9

S – C S

R

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

V

V

A

R I A

B I

L I C

A

S U

A

L I C

O N

T

I N U E

C

a

p i

t o

l

o 4

. A

R I A

B I

L I C

A

S U

A

L I C

O N

T

I N U E

T

a s s o d

i g

u

a s t o

, a f f i

d

a b

i l i t à e v

a r i a b

i l e e s

p

o

n

e n

z i a l e ( 4 . 1 )

T

a s s o d

i g

u

a s t o

, a f f i

d

a b

i l i t à e v

a r i a b

i l e e s

p

o

n

e n

z i a l e ( 4 . 1 )

La più semplice delle variabili casuali continue è la variabile casuale uniforme, definita in un segmento [a,b] e

caratterizzata da una f (x) costante. Per ricavare tale costante k e i momenti basta ricordare che:  

1 1

1 1 m m

b a

 

b b b

  

        

( ) 1 ( )

m m

f x dx kdx k b a k E X x dx

   

( )( 1)

b a b a b a m

a a a

Da queste conclusioni ricaviamo valore atteso e varianza per tutte le funzioni di tal genere, e, in particolare,

nel caso più usuale in cui b = 1 e a = 0 (in tal caso denotiamo la variabile con U) :

    2

        

2 2

( ) / 2 ; var( ) ( ) ( ) /12 ( ) 1/ 2 ; var( ) 1/12

E X a b X E X E X b a E U U

Definiamo ora due nuove funzioni. La funzione di affidabilità R(x) e la funzione tasso di guasto (o di arrivo) λ(x):

  

( ) 1 ( ) ; ( ) ( ) / ( )

R x F x x f x R x

La prima, essendo il complemento a 1 di F(x), rappresenta la probabilità che X > x. Se ad esempio F(x) indica

la probabilità che un fenomeno si verifichi entro il tempo x, R(x) esprime il contrario. Allora il tasso di

guasto, opportunamente moltiplicato per il differenziale esprime la probabilità che il fenomeno si verifichi

nell’intervallo compreso tra x e x+dx , ammesso che non si sia verificato prima. Infatti:

   

        ( )

P x X x dx X x P x X x dx f x dx

 

        

( ) |

x dx P x X x dx X x    

  ( )

P X x P X x R x

Definiamo variabile casuale esponenziale quell’unica variabile che ha λ(x) costante. L’unicità di tale variabile

può assumersi poiché si ricava dalla risoluzione di una equazione differenziale avente soluzione unica:

 

log 1 ( )

( ) ( ) / d F x

f x dF x dx    

  

            

log 1 ( ) log 1 ( )

dx d F x F x x c

( ) 1 ( )

R x F x dx

 

  

      

1 ( ) ( ) 1 lim ( ) 0

x c x c

F x e e F x e F x

. Imponendo il campo di esistenza x>0, deve valere  0

x

x , saranno:

per cui deve essere c = 0. Le funzioni principali della variabile esponenziale, definita per 

  

  

   

( ) 1 ; ( ) ; ( )

x x x

F x e R x e f x e

Il parametro λ può essere eliminato ponendo y = λ x. Un fenomeno il cui

verificarsi nel tempo è regolato da questa variabile casuale, dicesi processo senza

memoria. Chiariamone il significato. Si desideri conoscere l’affidabilità di una

variabile al tempo x’’ ammesso che al tempo x’ < x’’ sia ancora funzionante:

   

   

'' ' '' ( '')

P X x X x P X x R x

   

 

'' '

      x x

'' | '

P X x X x e

   

 

' ' ( ')

P X x P X x R x

La probabilità cercata dipende unicamente, come si vede, dalla misura

dell’intervallo di tempo considerato. Ciò significa che il fenomeno non ha usura, poiché la sua affidabilità

dipende unicamente dal tempo di esposizione. Scriviamo ora le funzioni generatrici dei momenti e dei

cumulanti, da cui ricaviamo valore atteso e varianza per la variabile casuale esponenziale:

    

      

         2

( ) / ; ( ) log log ( ) 1/ ; var( ) 1/

x tx

M t e e dx t K t t E X X

x x

0 i i n s e

r i e , 4 . 2 )

V a r i a b

i

l i W e i b

u

l l e G a m m a , p

r

o

c e s s p

a r a l l e

l o e s t a n

d

b

y (

V a r i a b

i

l i W e i b

u

l l e G a m m a , p

r

o

c e s s i i n s e

r i e , p

a r a l l e

l o e s t a n

d

b

y ( 4 . 2 )

La variabile casuale Weibull è caratterizzata dal fatto di avere tasso di guasto esponenziale:

 

    

     1

( ) ( ) / ( ) log ( ) / ( )

x f x R x d R x dx x

La variabile casuale Gamma è una variabile continua definita per x ≥ 0, con la seguente funzione di densità:

1    

 

 1

( ) x

f x e x

 ( )

   

 

        .

1

( ) ( ) ( 1) ( 1)

x

e x dx Tale parametro è detto fattore di normalizzazione, e

con 0   

( ) ( 1)!

per α intero vale . Dunque la variabile Gamma dipende da λ, detto parametro di scala (che può

n n S – C S

R

10 S – C S

R

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

essere eliminato con la trasformazione y = λx) e dal parametro di forma

1

α>0. Infatti, a seconda di tale parametro si osservano diverse forme della

funzione di distribuzione, come può vedersi in figura. I primi due momenti

2

valgono: E(x) = α / λ, e var(x) = α / λ . Si noti che, dato che l’esponenziale

può essere vista come una particolare gamma con α = 1, sommando n

esponenziali i.i.d. di stesso parametro λ, si ottiene una Gamma (λ , n).

Si supponga di avere un sistema di tal genere, formato da n elementi. Se

il sistema si guasta al guastarsi del primo elemento;

questi lavorano in serie,

siamo quindi interessati alla distribuzione del minimo:

 

  

       

1

( ) 1 (1 ( )) 1 ; ( ) ( )(1 ( ))

n yn n n y

F y F y e f y nf y F y n e

min min

X X X

Se lavorano in parallelo, il sistema si guasta al guastarsi di tutti gli elementi; siamo quindi interessati al max:

  

    

     

1 1

( ) ( ) (1 ) ; ( ) ( )( ( )) (1 )

n y n n y y n

F y F y e f y nf y F y n e e

max max

X X X

È chiaro che in entrambi i casi possiamo calcolare R(y) come il complemento a 1 di F(y). Introduciamo ora un

nuovo tipo di sistema, detto in stand‐by. In questo caso gli elementi funzionano uno alla volta, e si

susseguono al rompersi dell’elemento precedente. La vita del sistema è allora data dalla somma delle vite

dei singoli elementi. Tale somma si distribuisce come visto, come una variabile Gamma di parametri λ e n.

n

e d

e l l a s c o

r t a o

t t

i

m a ( 4 . 3 )

P r o

c e s s o d

i P o

i s s o

n e d

e t e r m i n

a

z i o n

e d

e l l a s c o

r t a o

t t

i

m a ( 4 . 3 )

P r o

c e s s o d

i P o

i s s o

n e d

e t e r m i n

a

z i o

Si supponga di avere nel sistema in stand‐by un problema diverso: si desidera determinare la probabilità di

un certo numero di “guasti” in un fissato intervallo di tempo (0, T). Si supponga che l’elemento guastato non

venga “sostituito” bensì “ripristinato”, cioè l’elemento guastato non viene riportato all’istante 0, ma allo

stato che aveva prima di guastarsi. Si deve verificare contemporaneamente che:

1. Fino al tempo t < T non si realizzi alcun guasto/arrivo, cioè X ≥ t.

1

2. Al tempo t si abbia l’arrivo, ammesso che esso non si sia verificato prima, cioè t ≤ X ≤ t + dt.

1

3. Non si verifichino altri arrivi tra t e T, ossia X > T.

2

Il primo evento corrisponde all’affidabilità, e ha perciò probabilità pari ad R(t). Il secondo evento ha

probabilità λ(t)dt. Il terzo ha probabilità R(T)/R(t), ed indica l’affidabilità condizionata di un elemento che ha

già lavorato fino a t, e viene ora ripristinato (l’affidabilità condizionata è data dal rapporto delle affidabilità).

La probabilità dell’intersezione dei tre eventi è il prodotto delle singole probabilità, in quanto essi risultano

indipendenti per costruzione. Poiché t è un punto generico, si deve effettuare la somma delle probabilità al

variare di t (che può effettuarsi poiché gli eventi nel tempo sono incompatibili). Per 1 e 2 guasti si ha:

T T

 

    

(1) ( ) ( ) ( ) / ( ) ( ) log( ( )) ( ) log( ( ))

P R t t R T R t dt R T d R t R T R T

T 0 0 1

T T

 

   2

(2) (2) ( ) ( ) / ( ) ( ) log( ( )) log( ( )) ( )[log( ( ))]

P P t R T R t dt R T R t d R t R T R T

T t 2

0 0

Per arrivi governati da variabili casuali esponenziali, iterando per k > 2, e sostituendo –log(R(T)) = λT, si ha:

1 

 

( ) ( ) k T

P k T e

T !

k

Questo processo prende il nome di Poisson omogeneo (ponendo λT=μ questa variabile casuale coincide con

una Poisson). In questo caso, a causa della omogeneità del processo, che risulta senza memoria, i due sistemi

con sostituzione o ripristino risultano equivalenti, infatti risulta R(T)/R(t) = R(T‐t).

Si desideri ora determinare la cosiddetta “scorta ottima” in base a funzioni di costo assegnate da

minimizzare. Si abbia quindi un costo di scorta che supponiamo incrementi in modo lineare con la

dimensione n di essa secondo un coefficiente c, il costo deterministico. D’altro lato esiste un costo aleatorio,

dato da una penale C, che pagheremo solo se la scorta non dovesse essere sufficiente a soddisfare le richieste

(superiori dunque ad n). È opportuno valutare questo costo moltiplicandolo per la probabilità P di pagarlo,

che sarà pari a P(X > n) = 1 – F(n), e dunque il costo aleatorio sarà C(1 – F(n)). Il costo totale sarà la somma dei

due costi, e noi vogliamo trovare il valore di n che li minimizza. Analiticamente il problema può essere

1 1

dx   

   

   

     

1 1

, , ( ) ( ) ( ) ( )

x y

1 y x dy dx f x f y f y e x e y

  

 

( ) ( )

dy S – C S

R 11

S – C S

R

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

risolto in modo esplicito. Si tratta di arrestarsi al valore di n per cui un incremento ad n+1 provoca un

incremento del costo totale, ossia quando C (n+1) > C (n), ossia:

tot tot

                

( ) [ ( 1) (1 ( ))] [ (1 ( 1))] [ ( 1) ( )] [ ( 1)] 0

C n c n C F n cn C F n c C F n F n c C P n

tot

cioè quando P(n+1) < c/C. Ovviamente ciò dipende dalla distribuzione delle probabilità. Immaginando che

questa diminuisca asintoticamente, aumentando il rapporto a secondo membro il valore ottimale tende a

diminuire, e viceversa aumentando tale rapporto.

V a r i a b

i

l e c

a s u

a l e g

a u

s s i a n

a e t e

o

r e m a l i m

i

t e c e n

t r a l e ( 4 . 4 )

V a r i a b

i

l e c

a s u

a l e g

a u

s s i a n

a e t e

o

r e m a l i m

i

t e c e n

t r a l e ( 4 . 4 )

Ricaviamo ora una variabile casuale, detta normale o gaussiana, che soddisfa l’equazione:

  2

log( ( )) 1 ( )

d f x x a x a

    

log( ( ))

f x cost

2 2

2

dx b b

con a e b parametri prefissati. Operando la trasformazione z = (x – a) / b, otteniamo:

2

 2

 

1 x a z

 

 

 

 

2

( ) 2

b

f x k e ke

Si vede che questa è una particolare Gamma con parametro di forma pari a ½, ma poiché la variabile casuale

è elevata a potenza positiva, è ammessa anche la metà negativa dei numeri reali. La costante k può ricavarsi

considerando che l’area è raddoppiata rispetto alla Gamma. La f della variabile gaussiana risulta dunque:

2

 

1 x a

1   

  

2

( ) b

f x e

2

b

Tale funzione risulta simmetrica rispetto all’asse x = a, punto che è anche massimo di essa; a è detto

parametro di posizione, b di scala: al variare del primo varia il centro della curva, al variare del secondo

aumenta la dispersione o variabilità della curva. Le M (t), e K (t) risultano:

x x

1 1

2

( )

bt

    2

( ) ; ( ) log( ( )) ( )

at 2

M t e e K t M t at bt

X z z 2

  

2

( ) , var( ) , 0

da cui si ricava che . Il valore atteso coincide con a, così come la

E X a X b 3

deviazione standard è b; per questo motivo a e b sono spesso indicati rispettivamente μ e σ. La

trasformazione z = (x – μ) / σ coincide con la standardizzazione, e pertanto la variabile casuale che si ottiene

con μ = 0 e σ = 1 è la variabile normale standardizzata, che indichiamo con N(0, 1):

 

1 1

  2

( ) exp  

f z z

 2

 

2

La standardizzazione è utile in quanto riconduce la variabile gaussiana alla stessa con valore atteso nullo e

varianza unitaria. Si abbia ora una combinazione lineare di variabili casuali normali indipendenti:

   

...

Y a X a X a X

1 1 2 2 n n

Questa variabile è distribuita secondo una normale con valore atteso e varianza:

     

       

2 2 2 2 2 2

( ) ... ; var( ) ...

E Y a a a Y a a a

1 1 2 2 1 1 2 2

n n n n

Si consideri ora una successione di variabili casuali indipendenti ed identicamente distribuite

   

 2

, ,..., ,... aventi valore atteso pari a μ e varianza σ . Non stiamo ponendo condizioni circa la

X X X X

1 2 n

forma distribuzionale, purché essa sia comune per tutte. Si consideri la successione delle somme

   

     

, ,..., ,... ...

con , . Il valore atteso di ciascuna somma è pari a

parziali S S S S S X S X X X

1 2 1 1 1 2

n n n

2

] = nμ, mentre la varianza sarà var[S ] = nσ , grazie all’indipendenza delle variabili X . Da questa si può

E[S n n i

   

* * * *

, ,..., ,...

costruire la successione delle somme parziale standardizzate , dove:

S S S S

1 2 n

  

( ... )

X X n

* 1 n

S 

n n

Il teorema limite centrale afferma che quest’ultima successione ha come distribuzione limite la normale

standardizzata, ossia converge in legge a N(0, 1). Si osservi come si faccia riferimento ad un insieme di tante,

teoricamente infinite, variabili casuali che si sommano, ma il cui effetto globale ha varianza finita a causa

della standardizzazione, e quindi nel complesso ciascuna variabile avrà un’influenza infinitesima. Possiamo

S – C S

R

12 S – C S

R

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

dunque pensare tali variabili come tante piccole cause che si sovrappongono additivamente ed

indipendentemente tra di esse, dando luogo ad un effetto globale che ha invece una variabilità non

trascurabile. Ovunque un fenomeno si possa pensare come costituito da un “centro deterministico” su cui si

sovrappongono additivamente una serie di infinite cause di peso infinitesimo, allora la popolazione

costituita dalle possibile rilevazioni di tale fenomeno si distribuirà normalmente.

L’applicazione più immediata del teorema di cui sopra riguarda la possibilità di usare la gaussiana come

limite della variabile binomiale. Quest’ultima è la somma di variabili bernoulliane indipendenti ed

identicamente distribuite e quindi, quando il parametro n di tale distribuzione diverge, siamo nelle

condizioni del teorema limite centrale. Ovviamente n non può essere infinito, perciò in genere si ammette

che una buona approssimazione si abbia per n > 30 e min(nϕ , nψ) > 10. Il passaggio al limite congiunto alla

standardizzazione (che mantiene media e varianza costanti) fa compiere alla variabile binomiale, che è

discreta, un “salto” nel continuo. Per migliorare l’approssimazione si può effettuare la cosiddetta correzione

per la continuità. Si tratta di considerare ogni valore che insiste su un punto (ove la variabile discreta è

definita) come una massa di probabilità da “spalmare” su un opportuno intervallo. Per esempio se la

variabile discreta è definita sugli interi si potrà pensare la P(X = x) come la P(x – 0.5 ≤ X ≤ x + 0.5) o ancora si

potrà scrivere P( x ≤ X ≤ x ) = P(x – 0.5 ≤ X ≤ x + 0.5). Accenniamo ad un’ultima distribuzione connessa alla

1 2 1 2

gaussiana: la variabile casuale lognormale, definita come :

1  

  

log( ) ( , ) ( 0)

X Y N Y

Tale variabile è molto utile nel caso in cui Y sia una variabile continua esprimibile tramite variabili continue

che si cumulano moltiplicativamente, infatti, tramite la trasformazione logaritmica, si ottiene:

        

... ... log( ) log( ) log( ) ... log( )...

Y X X X Y X X X

1 2 1 2

n n

Sapendo che la variabile lognormale si distribuisce come una N (μ,σ), E(Y) e var(Y) risultano essere:

 

2 2 2

    

 

  

( /2) 2

( ) ; var( ) 1

E Y e Y e e

V a r i a b

i

l i c

a s u

a l i c o

l

l

e g a u

s s i a n

a ( 4

. 5 )

a t e a l l a g a u

s s i a n

a ( 4

. 5 )

V a r i a b

i

l i c

a s u

a l i c o

l

l

e g

a t e a l l a g

Si chiama variabile casuale chi‐quadrato la variabile casuale formata dalla somma di variabili normali

standardizzate indipendenti elevate al quadrato:

    

2 2 2 2

...

Z Z Z

1 2

v v

Il numero delle Z (v), unico parametro che caratterizza la variabile, prende il nome di gradi di libertà. Si ha:

2  

 

2 2

( ) ; var( ) 2

E v v

v v

Questa variabile è una particolare Gamma avente parametro di scala pari a ½ e parametro di forma pari a

v/2, e dunque gode dell’additività; in particolare sommando chi‐quadrate indipendenti si ottiene una chi‐

quadrato avente gradi di libertà pari alla somma dei gradi degli addendi.

Un’altra variabile importante è la variabile casuale t‐Student, definita come il rapporto tra due variabili

casuali indipendenti, rispettivamente una normale standardizzata a numeratore e la radice di una chi‐

quadrato divisa per i propri gradi di libertà a denominatore. Cioè:

Z

t  2 / v

v

La distribuzione della t‐Student è simmetrica intorno a t = 0. Per v abbastanza grande la t tende alla N(0, 1).

Viene chiamata variabile casuale F‐Fisher il rapporto tra due chi‐quadrato indipendenti, ciascuna divisa per i

propri gradi di libertà. Parliamo ora della variabile casuale normale multivariata. Il caso più semplice è quello

in cui ciascuna variabile è una N(0, 1): Z = (Z , Z ,…, Z ). La funzione di distribuzione risulta:

n

1 2    

1 1 1 1

n 

     

2 2

( ) ( , ,.., ) ( ) ( )... ( ) exp exp

z    

f f z z z f z f z f z z z

1 2 3 1 2  /2

n i i

2 (2 ) 2

   

n

2 i

1

i

Il vettore di medie è il vettore nullo, e la matrice di covarianza è la matrice identica I. La f risulta:

 

1 1

 

( ) exp

z z z

T

 

f  /2

(2 ) 2

 

n

1 Il simbolo “ ” è da leggere “si distribuisce come”.

R S – C S 13

R S – C S

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

Supponiamo ora di operare n trasformazioni lineari determinate dalla matrice A invertibile, che danno una

T = Σ. La formula generale di una variabile casuale

variabile casuale Y=AZ. La Y avrà E(Y)= 0 e var(Y) = AA

normale multivariata risulta:  

1 1 

   

1

( ) exp ( ) ( )

x x μ Σ x μ

T

 

f 

1/2 /2

| | (2 ) 2

 

Σ n

Avente E(X)=μ e var(X)=Σ. Si vede che l’argomento dell’esponenziale è una chi‐quadrato con gradi pari a n.

Solo per la normale multivariata vale che l’indipendenza in senso debole implica quella in senso forte.

L

a l e g

g

e d

e i g

r a n

d

i n

u

m e r i ( 4 . 6 )

L

a l e g

g

e d

e i g

r a n

d

i n

u

m e r i ( 4 . 6 )

Ipotizziamo che la variabile casuale X abbia varianza e valore atteso finiti. Si ha:

 

( )

E X c

  

       

2 2 2 2

var( ) [ ( )] [ ( )] ( ) [ ( )] ( ) [ ( )] ( )

X E X E X X E X dF x X E X dF x X E X dF x

  

( )

E X c

avendo escluso dell’integrale la parte tra [E(X) – c, E(X)+c], con c costante positiva. Se al posto del valore

2 mettiamo il più piccolo valore che può assumersi nel rispettivo intervallo di integrazione, cioè x =

[X – E(X)]

E(X) – c nel primo, e x = E(X)+c nel secondo, otteniamo:

 

( )

E X c

 

      

2 2

var( ) [ ( ) ( )] ( ) [ ( ) ( )] ( )

X E X c E X dF x E X c E X dF x

 

( )

E X c

        

2 2 2

[ ( ) ] [ ( ) ] cioè var( ) (| ( ) | )

c P X E X c c P X E X c X c P X E X c

questa relazione è nota come diseguaglianza di Čebišëv.

Si prenda in considerazione la variabile casuale frequenza relativa F = V/n costituita dal rapporto di successi V

su n prove bernoulliane, avente E(F)= e var(F)=/n. Per la diseguaglianza di Cebisev si ha:

 

 

       

(| | ) , lim 0 lim (| | ) 0

P F c P F c

2 2

n n

 

nc nc

n n

per qualsiasi c > 0 comunque piccolo. Per quanto c sia piccolo ci sarà sempre un n abbastanza grande tale che

sia praticamente nulla la probabilità di finire al di fuori dell’intervallo scelto. Il limite assicura la

convergenza in probabilità della variabile casuale al proprio valore atteso. Stessa tale proprietà vale per la

variabile casuale media aritmetica di variabili casuali i.i.d. con valore atteso e varianza finite:

 n

 /

M X n

 i

1

i

che ha E(M)=E(X) e var(M)=var(X)/n. In questo caso si ha:

  

lim (| ( ) | ) 0

P M E X c

n



n

che afferma la convergenza in probabilità della variabile media aritmetica al proprio E(M). Tale legge è nota

come legge dei grandi numeri. Essa assicura che, superato un certo n, non solo una generica realizzazione non

,

potrà scostarsi da E(M) più un dato ma anche tutte le successive realizzazioni.

Facciamo ora un esempio per capire l’importanza di questa legge. Si supponga di giocare a testa e croce e

testa rappresenti il successo. Si supponga E(X)=ϕ non noto (la moneta non è equa). Il nostro desiderio sia

quello di scoprire il valore di tale parametro avendo la possibilità di ripetere l’esperimento un numero n

molto elevato di volte. Dalla definizione di convergenza in probabilità sappiamo che la frequenza relativa

basata sui lanci potrà discostarsi dal valore di ϕ di un certo scarto, ma la probabilità che tali scostamenti

siano superiori ad un certo ε fissato, per quanto piccolo, diviene sempre più bassa all’aumentare di n; ossia,

per n abbastanza grande possiamo considerare trascurabile la divergenza tra il vero valore di ϕ e la stima

che di esso abbiamo effettuato. Questo è il primo problema di statistica inferenziale che ci siamo posti,

poiché consideriamo ignoto un parametro che caratterizza la distribuzione. Si supponga ora di avere

stabilito che la moneta è equa e di proseguire la partita per un tempo lungo durante il quale si osservano un

numero elevato di permanenze, ossia di risultati uguali. Sapendo ciò, esiste una strategia migliore da seguire

invece di puntare a caso? La risposta è no, poiché il processo è senza memoria, e ogni lancio è indipendente

dal precedente. Infatti la legge afferma che v/n tende a ϕ, ovvero è il rapporto tra due infiniti che si stabilizza

intorno al valore atteso, oscurando anche differenze elevatissime tra numero di teste e croci uscite.

R S – C S

14 R S – C S

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

T

T

A V O

L E S T

A

T

I

S T

I

C H

E

C

a

p i

t o

l

o 5

. A V O

L E S T

A

T

I

S T

I

C H

E

D

i s t r i b

u

z i

o

n

e n

o

r m a l e ( 5 . 1 )

D

i s t r i b

u

z i

o

n

e n

o

r m a l e ( 5 . 1 )

Valori della funzione di ripartizione della variabile normale standard Φ(z)=α.. Poiché la variabile z

è simmetrica intorno a z=0, si ricorda che vale la relazione Φ(–z) = 1 – Φ(z)

Percentili della normale standardizzata z = Φ (α)

‐1

Φ(z) 0.700 0.750 0.800 0.900 0.950 0.975 0.990 0.995 0.999

z 0.5244 0.6745 0.8416 1.2816 1.6449 1.9600 2.3263 2.5758 3.0902

R S – C S 15

R S – C S

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

D

i s t r i b

u

z i

o

n

e b

i n

o

m i a l e ( 5 . 2

)

D

i s t r i b

u

z i

o

n

e b

i n

o

m i a l e ( 5 . 2

) Valori della funzione cumulativa binomiale:

P(x≤X) = P(0)+…+P(X)

R S – C S

16 R S – C S

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

D

i s t r i b

u

z i

o

n

e d

i P o

i s s o

n ( 5 . 3 )

D

i s t r i b

u

z i

o

n

e d

i P o

i s s o

n ( 5 . 3 )

R S – C S 17

R S – C S

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

D

i s t r i b

u

z i

o

n

e G a m m a e C

h

i – q

u

a d

r a t o ( 5 . 4 )

D

i s t r i b

u

z i

o

n

e G a m m a e C

h

i – q

u

a d

r a t o ( 5 . 4 ) Valori della variabile

Gamma con λ= ½ ed

α= n/2

con n gradi

Valori della χ 2

di libertà

R S – C S

18 R S – C S

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

D

i s t r i b

u

z i

o

n

e t – S

t u

d

e n

t ( 5 . 5 )

D

i s t r i b

u

z i

o

n

e t – S

t u

d

e n

t ( 5 . 5 )

Quantili della variabile t – Student t , dove n sono i gradi di libertà, α l’area lasciata alla

(n,α) t t

sinistra. Poiché la variabile t è simmetrica intorno a t=0, si ricorda che vale = –

(n,α) (1–α,n)

R S – C S 19

R S – C S

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

D

i s t r i b

u

z i

o

n

e F – F i s

h

e r ( 5 . 6 )

D

i s t r i b

u

z i

o

n

e F – F i s

h

e r ( 5 . 6 )

Quantili della variabile F(m,n) che lasciano a destra il 5% di probabilità

Quantili della variabile F(m,n) che lasciano a destra l’ 1% di probabilità

R S – C S

20 R S – C S

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

D

i s t r i b

u

z i

o

n

e d

e l r a n

g

e s t u

d

e n

t i

z z a t o q : q

u

a n

t i l i p

e r i l t e s t d

i T

u

k

e y ( 5 . 7 )

D

i s t r i b

u

z i

o

n

e d

e l r a n

g

e s t u

d

e n

t i

z z a t o q : q

u

a n

t i l i p

e r i l t e s t d

i T

u

k

e y ( 5 . 7 )

Quantili del range studentizzato q (p,f) (Test di Tukey)

0.05

Quantili del range studentizzato q (p,f) (Test di Tukey)

0.01

In tabella, f gradi di libertà della stima della variabilità dell’errore accidentale e p numero di medie coinvolte

nel range (estremi incluse). R S – C S 21

R S – C S

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

C ’

C ’

AA

LL

CC

OO

LL

OO DD

EE

LL

LL

EE PP

RR

OO

BB

AA

BB

II

LL

II

TT

ÀÀ

A

L C

O

L O D E L L E P R

O

B

A B

I L I T À

Q u

a n

t i l

i p

e r i l t e

s t d

i D

u

n

c a n ( 5 . 8 )

Q u

a n

t i l

i p

e r i l t e

s t d

i D

u

n

c a n ( 5 . 8 )

Quantili per il test del range multiplo r (p,f) (Test di Duncan)

0.05

Quantili per il test del range multiplo r (p,f) (Test di Duncan)

0.01

In tabella, f gradi di libertà della stima della variabilità dell’errore accidentale e p numero di medie coinvolte

nel range (estremi incluse). R S – C S

22 R S – C S

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

Università degli studi di Palermo – Corso di Laurea Triennale in

Ingegneria Gestionale

Sintesi del corso di Statistica (del Professore A.Lombardo)

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

S

S

TT

AA

TT

II

SS

TT

II

CC

AA II

NN

FF

EE

RR

EE

NN

ZZ

II

AA

LL

EE

T A

T I S T I C

A I

N

F E R

E N

Z I A

L E

S

S O

R

T

E

M

A

R

A

P

N

U

I

D

A

M

I

T O

R

T

E

M

A

R

A

P

N

U

I

D

A

M

I

T

C

a

p i

t o

l

o 1

. t

i c a ( 1 . 1 )

I n

t r o

d

u

z i o

n

e a l l ’ i n

f e

r

e n

z a s t a t i

s t

i c a ( 1 . 1 )

I n

t r o

d

u

z i o

n

e a l l ’ i n

f e

r

e n

z a s t a t i

s

Poniamo le basi logiche dell’inferenza statistica, ossia di quella metodologia che, a partire da dati

sperimentali (campioni), consente di stimare alcune quantità incognite della popolazione, o di un processo

che ha generato quel campione, e di prendere delle decisioni in conseguenza delle osservazioni. La proprietà

fondamentale che un campione dovrebbe avere è la rappresentatività verso quella particolare caratteristica

sulla quale vogliamo fare inferenza. Vi sono due modi fondamentali per scegliere i campioni: ragionato o

casuale. Nel primo caso si chiede ad n esperti della popolazione di scegliere ciascuno m campioni che ritiene

rappresentativi. Un campione può invece dirsi casuale se la probabilità di estrazione di ogni unità che lo

compone era nota e fissata prima dell’estrazione. Nella statistica inferenziale il problema della

rappresentatività non può essere affrontato. Ci si può unicamente affidare alle tecniche di estrazione del

campione. Per il fatto che il campione è considerato come un insieme di estrazioni indipendenti dalla stessa

popolazione, possiamo trattarlo come le realizzazioni {x , x ,…,x } di una stessa variabile casuale X.

n

1 2

Definiamo statistica una quantità sintetica dei dati campionari. Definiamo stimatore una procedura che, sulla

base di una statistica, produce una stima. La stima è dunque il risultato di un certo algoritmo applicato ad

uno specifico campione. Dato il campione {X , X , …, X } costituito da n variabili casuali i.i.d., aventi

n

1 2

funzione di ripartizione F(X|θ), lo stimatore è l’algoritmo T = t(X , X , …, X | θ) che deve produrre una

n

1 2

stima t = t(x , x ,…,x ) il più vicino possibile al parametro θ della popolazione X. Si noti che T è dunque una

n

1 2

variabile casuale, ed avrà allora una distribuzione di probabilità che fa riferimento ad una “popolazione di

campioni” e per questo è detta distribuzione campionaria. Uno stimatore T si dice corretto se e solo se E(T) = θ.

Altrimenti lo stimatore si dice distorto, con distorsione Bias(T) = E(T) – θ. Si badi bene al fatto che la

correttezza di uno stimatore non garantisce affatto che la sua singola realizzazione sia proprio θ. Possiamo

fissare un intervallo intorno a θ, e stabilire quale sia la probabilità che la stima cada all’interno dello stesso:

 

  

   

1

P T

Naturalmente preferiremo uno stimatore di θ che abbia elevata probabilità di produrre stime che cadano

all’interno dell’intervallo: a parità di probabilità, si definisce precisione l’inverso della larghezza di questo

intervallo. Tuttavia uno stimatore più preciso rispetto ad un altro ad un certo livello di probabilità potrebbe

esserlo meno rispetto ad un altro livello. Serve dunque un indice sintetico di variabilità. A tale scopo usiamo

var(T). La misura dell’efficienza di uno stimatore non corretto è data dall’errore quadratico medio:

 

  2

    2

( ) var( ) ( )

MSE T E T T Bias T

Uno stimatore è più efficiente di un altro se avrà un MSE minore. Questa proprietà, come del resto le altre,

vale sempre “in media”. Si consideri una successione {T , T ,…, T ,…} di stimatori di campioni della stessa X,

n

1 2

ma con dimensione campionaria crescente. Se questa successione converge in probabilità a θ allora lo

stimatore si dirà consistente. In altre parole ci si deve accertare che, per ξ > 0 comunque piccolo:

 

 

  

lim 0

P T

n



n

Dato che la convergenza in media quadratica implica quella in probabilità, vale:

 

 

    

lim ( ) 0 lim 0

MSE T P T

n n

 

n n    

  

lim var 0 lim 0 e

Allora lo stimatore è consistente in media quadratica. Ciò si ha se : T Bias T

n n

   

n n

quindi lo stimatore è anche asintoticamente corretto.

V e r o

s i m

i g

l

i a n

z a ( 1 . 2 )

V e r o

s i m

i g

l

i a n

z a ( 1 . 2 )

Introduciamo ora una nuova funzione, strumento fondamentale per la statistica. Sia f(X , X ,…,X |) la

1 2 n .

funzione di distribuzione della variabile casuale multipla C dipendente da un certo insieme di parametri

 ),

Per esempio se le X i.i.d. N(, la funzione di distribuzione sarà:

i  

1 1 n

  

   2 .

( , ,..., | , ) exp ( )

 

f X X X X

  

1 2 /2 2

n i

(2 ) 2

n n  

1

i

La prospettiva statistica è speculare rispetto a quella probabilistica: il campione è già stato estratto mentre

uno o più elementi della f sono incogniti. Se allora scriviamo la precedente con i seguenti accorgimenti

R S – C S 1

R S – C S

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

S

S

TT

AA

TT

II

SS

TT

II

CC

AA II

NN

FF

EE

RR

EE

NN

ZZ

II

AA

LL

EE

T A

T I S T I C

A I

N

F E R

E N

Z I A

L E

otteniamo una funzione che non è più probabilistica (non dipende da variabili casuali), bensì è funzione dei

parametri della f , e viene definita funzione di verosimiglianza :  

1 1 n

  

   2

( , | , ,..., ) exp ( )

 

L x x x x

  

1 2 / 2 2

n i

(2 ) 2

n n  

1

i

È logico pensare che, visto che ci si attende di estrarre campioni che hanno un valore di f elevato, si

ritengono più verosimili valori dei parametri incogniti che rendano la verosimiglianza più elevata. Per

questo motivo è spontaneo determinare la stima dei parametri incogniti come quelli che massimizzano la L.

Essendo la L una quantità sempre positiva, è possibile effettuare la trasformazione logaritmica; se un punto

sarà massimo della log(L) lo sarà anche della verosimiglianza stessa. Indicheremo l() = log[L()] una nuova

:

funzione detta logverosimiglianza. Ricaviamo ora la l() per la normale e massimizziamola rispetto a

1 1

n n

n  

      

       

2 2 ˆ

( | , ,..., , ) log(2 ) ( ) ( | , ,..., , ) ( ) 0

l x x x x l x x x x

  

1 2 1 2

2 2

n i n i

2 2  

1 1

i i

2 , ed essendo negativa la soluzione trovata prima è effettivamente un max:

La derivata seconda risulta –n/ 1 n

  

ˆ x m

i

n 

1

i 

Dunque la media aritmetica dei campioni dà la massima verosimiglianza per il parametro della normale.

 2

Abbiamo ottenuto non soltanto una stima, ma uno stimatore. Vediamo ora il caso in cui l’incognita è :

 1 1

n n

n  

   

         

2 2 2 2 2   

2 2

( | , ,..., , ) ( ) 0 , / ( ) 0 ˆ ( )

l x x x x x

  

1 2

 2 2 4

ˆ ˆ

n i

2 2 i

n

 

1 1

i i

Se sono incogniti entrambi i parametri bisogna risolvere il sistema formato dalle seguenti equazioni:

1 1

n n

n

 

 

     

2

ˆ

( ) 0 ; ( ) 0

x x

  

2 2 4

ˆ ˆ

i i

2 2

 

1 1

i i  

ˆ

 m

2

Sostanzialmente la soluzione della prima equazione non dipende da e quindi risulta sempre , che

sarà sostituita nella seconda equazione, dando luogo alla soluzione:

1 n

ˆˆ

  

2 2

( )

x m

i

n 

1

i

Calcoliamo ora valore atteso e varianza campionaria degli stimatori ottenuti. Per il primo si ha E(m)=,

.

 2 /n e dunque lo stimatore è corretto e consistente per il parametro Per il secondo si ha:

var(m)= 1 1

n n

 

  

    

2 2 2

ˆ

( ) ( ) var( ) var( )

E E X X X

i i

n n

 

1 1

i i  

 2

3

Lo stimatore è corretto. Per la varianza, sapendo che per la normale vale , si ha:

4 2  4

1 1 1 2

n

     

 

        

2 2 4 2 2 2

ˆ

var( ) var( ) ( ) [ ( ) ] ( )

X E X E X

  4 2

2 i i i

n n n n

1

i

Pertanto lo stimatore è anche consistente per tutte le variabili casuali con momento quarto finito.

Per calcolare il valore atteso dell’ultimo stimatore occorre prima fare alcune considerazioni. Si ha che:

2

  1 1

n n n

x

  

  2

   

 

            

2 2 2

( ) ( ) 2( )( )

i

  x m m x m m x m m

 

  

2 2

n i i i

 

  

1 1 1

i i i 2

2 2

  

 

  

 

2

   

( ) ( )

n n n

x m x m

m m m

    

       

2 2

2 ( )

i i

     

n x m 

    1 1

2 2 i n

     

/ n

  

1 1 1 2

( 0)

i i i ( )

è una z

Risulta, per il teorema di Cochran, che le due chi‐quadro sono indipendenti. Ricordiamo inoltre che valore

atteso e varianza di una chi‐quadrato sono n e 2n, se n sono i gradi di libertà della variabile. Troviamo che:

1 1 1

 

n n

  

ˆˆ 2

   

   

2 2 2 2

( )

E E X m E 

1

i n

n n n

1

i  2 /n, che però tende a scomparire

Quindi lo stimatore non è corretto, poiché presenta una distorsione pari a

all’aumentare di n: lo stimatore è asintoticamente corretto. Questa distorsione può essere eliminata

moltiplicando lo stimatore per n/(n‐1). Tuttavia se calcoliamo l’errore quadratico medio per entrambi risulta:

R S – C S

2 R S – C S

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A

S I G

S I G

TT

AA

TT

II

SS

TT

II

CC

AA PP

EE

RR NN

GG

EE

GG

NN

EE

RR

II

AA EE

SS

TT

II

OO

NN

AA

LL

EE

T A

T I S T I C

A P E R N

G

E G

N E R

I A E S T I O

N

A

L E

S

S

TT

AA

TT

II

SS

TT

II

CC

AA II

NN

FF

EE

RR

EE

NN

ZZ

II

AA

LL

EE

T A

T I S T I C

A I

N

F E R

E N

Z I A

L E

 

4

2( 1) 2 1   2

n n

ˆ ˆ ˆ n ˆ

    

      

2 2 2 4 4

ˆ ˆ ˆ 

( ) var( ) ( ) 2 4

ˆ

;

MSE Bias  

MSE

2 2 2  

1 1

 

n n n n n

Il primo MSE risulta sempre minore del secondo e dunque, contrariamente a come si sarebbe pensato

guardando solo il valore atteso, lo stimatore più efficiente è il primo.

A l t r e p

r o

p

r i e t à d

e g

l i s t i m a

t o

r i e s t i m e p

e r i

n

t e r v

a l l o (

1 . 3 )

A l t r e p

r o

p

r i e t à d

e g

l i s t i m a

t o

r i e s t i m e p

e r i

n

t e r v

a l l o (

1 . 3 )

Finora abbiamo parlato di efficienza di uno stimatore di un dato parametro in termini relativi. Cerchiamo

ora di trovare un’efficienza assoluta; ciò è possibile se esiste un valore minimo nell’errore medio che uno

stimatore può avere. Quest’ultimo è determinabile per la classe di stimatori corretti, e si traduce quindi nel

minimo di varianza. La disuguaglianza di Cramer‐Rao afferma che:

  2

'( )

  

var[ ( | )]

t X  

 

2 2

[ log( ( | )) / ]

E f X

dove f (X|θ) è la funzione di distribuzione del campione e τ’(θ) è la derivata prima rispetto a θ della

trasformazione τ(θ) che rende E[t(X|θ)] = τ(θ). Il minimo di varianza sarà dato dall’uguaglianza, e dunque:

 log( ( | ))

f X

  

 

( ) ( ) ( )

t X A 

dove A(θ) è una quantità che può dipendere da θ, ma non da X. Consideriamo ad esempio un campione

{x , x ,…,x } in cui x ~ bernoulliana. Vogliamo determinare il parametro ϕ. Per la verosimiglianza abbiamo:

n i

1 2    

   

x n x

     

(1 ) log( ) log ( ) log

i i

L L x n x

i i i i

i i

 

    

  

   / 

 

x n

log( ) x n x x n x

L f

i

     

i i i i 0

i

i i i i    

     

 / /

n n

Dunque f è lo stimatore di massima verosimiglianza. Per l’efficienza avremo:

 

 

log L f

   

    

( ) ( ) ( )

t x A f  

 

 /

n n

Risulta A(θ) = var(t), e perciò lo stimatore risulta efficiente. Una statistica si dice sufficiente se l’informazione

contenuta nel campione è tutta contenuta nella statistica stessa; ossia, una volta che dai dati campionari

abbiamo calcolato la statistica, questi non servono più per quanto riguarda la stima puntuale del parametro

cercato. Per capire quando una statistica è sufficiente ricorriamo ad una proprietà, detta di fattorizzazione: se

e solo se esiste una statistica sufficiente, la funzione di verosimiglianza si scompone nel prodotto di due

funzioni, dove la prima dipenderà dal parametro e non dai dati campionari se non attraverso la statistica,

mentre l’altra non dipenderà dal parametro. Finora abbiamo cercato una stima puntuale del parametro. La

varianza campionaria ci dà un’idea dell’ambito entro il quale il parametro può considerarsi ragionevolmente

compreso, ma se volessimo formalizzare meglio il concetto, occorre costruire quelli che chiameremo intervalli

di confidenza, che costituiscono una stima intervallare e non più puntuale del parametro. Date due funzioni

 

   

  

( ) ( )

campionarie e tali che , si dice intervallo di confidenza l’intervallo tale che:

( ), ( )

X X X X

 

   

   

( ) ( ) 1

P X X

È chiaro che la quantità a secondo membro è una probabilità solo finché gli estremi sono variabili casuali.

Quando si è in presenza di un dato intervallo riferito al campione estratto, gli estremi non sono più variabili

casuali e allora tale quantità prende il nome di grado di fiducia. Consideriamo lo stimatore M del parametro

).

di una i.i.d. N(, Estratto un campione { X , X ,…,X }, determiniamo un intervallo probabilistico entro il

1 2 n

quale vi è un’assegnata probabilità che venga a trovarsi una generica stima campionaria m:

    

     

( / / ) 1

P z n M z n

 

/ 2 1 /2 

ove z rappresenta il quantile che stacca alla propria sinistra un’area pari ad sulla normale standardizzata.

α

Noi non possiamo sapere se la stima prodotta sarà caduta all’interno dell’intervallo probabilistico o no; però

possiamo dire che, se la nostra stima è caduta all’interno dell’intervallo, allora l’intervallo di confidenza che

otterremo da essa conterrà il vero valore del parametro. La probabilità che una generica stima cada

all’interno dell’intervallo probabilistico può essere fissata da noi dimensionando opportunamente la

lunghezza dell’intervallo. Dall’intervallo probabilistico costruiamo l’intervallo di confidenza scambiando i

ruoli di e di m: R S – C S 3

R S – C S

II

CC

CC

AA

RR

DD

OO CC

II

M

E C A LL

AA

UU

DD

II

OO CC

II

M

E C

A

M

E C A M

E C

A

I C

C A

R D

O C

I M

E C A L A

U

D

I O C

I M

E C

A


ACQUISTATO

5 volte

PAGINE

48

PESO

1.73 MB

PUBBLICATO

+1 anno fa


DESCRIZIONE APPUNTO

Riassunto per l'esame del professor Lombardo di statistica inferenziale e calcolo delle probabilità, basato su appunti personali e studio autonomo del testo consigliato dal docente "MatMix - Probabilità e Statistica per ingegneri", Alberto Lombardo . Il file spiega in modo semplice ma efficace i concetti della visione probabilistica, e della statistica inferenziale. Con una buona lettura del seguente e con un pò di esercizio sarete in grado di affrontare la maggior parte delle tipologie di problemi probabilistici e di statistica inferenziale (ermquali detinazione degli intervalli di confidenza, verifiche d'ipotesi parametriche e non). il presente file ne costituisce un ottimo riassunto. Si assicurano ottime PROBABILITà di successo!


DETTAGLI
Corso di laurea: Corso di laurea in ingegneria gestionale (AGRIGENTO, PALERMO)
SSD:
Università: Palermo - Unipa
A.A.: 2014-2015

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher RiccardoScimeca di informazioni apprese con la frequenza delle lezioni di Statistica e calcolo della probabilità e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Palermo - Unipa o del prof Lombardo Alberto.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea in ingegneria gestionale (agrigento, palermo)

Marketing management
Appunto
Economia Aziendale
Appunto
Finanza aziendale
Appunto
Economia applicata all'ingegneria - Appunti
Appunto