Statistica Avanzata - Appunti

Name: Statistica Avanzata - Appunti
Brand: Skuola.net
Price: 4.99 EUR
Availability: InStock
Rating: 3.0 (2 reviews)
Author: gianluca.bezzy

Revisionato il 23/05/2026

di gianluca.bezzy

Publisher

Vota 3,0/5 (2)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti completi e interamente scritti al computer per il corso di Statistica avanzata del corso di Laurea Magistrale di Scienze Statistiche, Finanziarie e Attuariali dell'Università di …

Esame Statistica

Facoltà Scienze statistiche

Dal corso del Prof. Greco Fedele Pasquale

Università Università degli Studi di Bologna

A.A. 2017-2018

72 pagine

1 download

Appunto

Scarica

Estratto del documento

STATISTICA AVANZATA

1: INTRODUZIONE ALL’INFERENZA STATISTICA E FUNZIONE DI

VEROSIMIGLIANZA.

1.1: INTRODUZIONE.

La statistica descrittiva affronta un problema diretto, ovvero di deduzione,

perché si passa dalla popolazione alla raccolta di informazioni su di essa, quindi

all’esame della distribuzione osservata ed alla sintesi degli aspetti più rilevanti.

Queste analisi (descrittive) non richiedono la specificazione di modelli

probabilistici (le metodologie di statistica descrittiva vengono affrontate con

rigore nei capitoli I-VII del libro di testo).

Con l’inferenza statistica si affronta il problema inverso, ovvero di induzione

probabilistica, poiché dai dati osservati su di un campione si giunge ad

affermazioni circa la popolazione da cui è stato estratto. Le metodologie di

inferenza si basano quindi sull’assunzione di modelli probabilistici. In pratica,

l’idea alla base dell’inferenza statistica si concretizza nel descrivere la relazione

esistente tra la popolazione e il campione usando il calcolo delle probabilità. Ne

consegue che il contenuto dell’intero corso non può essere compreso senza

possedere una solida preparazione di base sul calcolo delle probabilità (il

calcolo delle probabilità è affrontato nei capitoli VIII-XIII del libro di testo).

1.2: RICHIAMI DI CALCOLO DELLE PROBABILITÀ.

Innanzitutto è necessario introdurre le seguenti definizioni:

Spazio campione: insieme (di numerosità finita o infinità) di tutti i

Ω=

• possibili esiti di un esperimento aleatorio.

Evento elementare: generico elemento di .

ω= Ω

• Evento: sottoinsieme di , ovvero .

E E

= Ω ⊆Ω

• i i

Possiamo quindi fornire la definizione frequentista di probabilità, che è la

più utilizzata nella teoria della probabilità: dato un esperimento perfettamente

ripetibile e dato un evento , indichiamo con:

E

Frequenza assoluta (dell’evento E): ovvero il numero di

fr E)=

• (

volte che si è verificato in una serie di prove ripetute nelle

E n

medesime condizioni.

fr E)

(

n Frequenza relativa (dell’evento E): rappresenta la

• n

percentuale di occorrenza dell’evento sul totale delle prove.

E n

La probabilità che si verifichi l’evento è data dal limite della frequenza

E

relativa al crescere del numero di prove:

fr E)

(

n .

Pr lim

(E)=

➢ n

n→+∞ σ-

Altra definizione fondamentale per la teoria della probabilità è quella di

σ-algebra

algebra. Una (o algebra di Boole) è una collezione di eventi

che soddisfa le seguenti proprietà:

E , E , ... , E , .. .

1 2 i

Se , allora .

E Ē

1) Α ∈Α

∈

i i

+∞

Se , allora .

E

2) E

∈ Α

∪ ∈

i i=1

Quindi l’algebra di Boole rappresenta una lista di eventi dei quali ci interessa

misurare il grado di incertezza.

Una misura di probabilità è una funzione definita sugli eventi di tale

P Α

che:

1) .

P( E , E Α

)≥0 ∀ ∈

i i

2) .

P(Ω)=1

3) Data una successione di eventi tale che

E , E , ... , E , .. . E , i≠ j

∩E =∅ ∀

i j

1 2 i

vale: +∞

+∞ ∑ .

P( E P( E

➢ ∪ )= )

i i

i=1 i=1

La terna viene detta spazio di probabilità.

, , P)

(Ω

Le variabili casuali costituiscono dei possibili modelli adatti a rappresentare il

comportamento aleatorio dei fenomeni oggetto di studio. Inoltre hanno un

ruolo fondamentale nella valutazione dell’informazione che possiamo trarre

dalle osservazioni campionarie per fare inferenza su alcune caratteristiche della

popolazione. Una variabile casuale è una funzione definita su uno

X (ω)

spazio di probabilità tale che:

, , P)

(Ω .

1) , X

∀ ω∈Ω (ω)=x ∈ℝ .

2) x , : X Α

∀ ∈ℝ {ω∈Ω (ω)≤x}∈

In particolare si distinguono:

Variabili casuali discrete: una variabile casuale è discreta se

X

• assume valori in un insieme finito o infinitamente

D , x ,... , x

={x }

X 1 2 k

numerabile . Definiamo quindi le due seguenti funzioni:

D , x ,...}

={x

X 1 2

Funzione di probabilità: la funzione di probabilità di una variabile

1. casuale discreta è definita come:

{

P se x

(X=x ), ∈D ∑

; .

p(x)= 0≤ p , p(x

➢ (x)≤1 )=1

0, se x∉ D x ∈D

x x

Funzione di ripartizione: la funzione di ripartizione di una variabile

2. casuale discreta è definita come: lim lim

; .

F x ; F

F( x)=P( X≤x

➢ ( )=0 (x)=1

) x x→+∞

→−∞

E soddisfa le seguenti proprietà:

è monotona non decrescente.

F( x)

• È continua a destra e i suoi punti di discontinuità coincidono

F( x)

• con gli elementi di .

D x

Definiamo infine:

Valore atteso: il valore atteso di una variabile casuale discreta è

1. definito come:

∑ .

E( X)= xp(x

➢ )

D

Varianza: la varianza di una variabile casuale discreta è definita come:

2. 2

∑ .

X)) p( x)

➢ (x−E(

D x

Variabili casuali continue: una variabile casuale è assolutamente

X

• continuo se assume valori in un insieme infinito e non numerabile

e se esiste la funzione di ripartizione .

F( x)=P( X≤x

D , b]⊆ℝ )

=[a

X

Definiamo come per il caso discreto, le due funzioni:

Funzione di ripartizione: la funzione di ripartizione di una variabile

1. casuale continua è definita come: lim lim

; .

F x ; F

F( x)=P( X≤x

➢ ( )=0 (x)=1

) x x→+∞

→−∞

E soddisfa le seguenti proprietà:

è monotona non decrescente.

F( x

• ) è continua.

F( x

• )

Funzione di densità (di probabilità): se è una funzione

2. F( x)

derivabile, allora la funzione di densità di probabilità della variabile

casuale continua (è l’equivalente nel caso continuo della funzione

X

di probabilità vista nel caso discreto) è definita come:

d ∫

; .

f , f x

f x)= F (x)≥0 ( )dx=1

( (x)

➢ dx D X

Si definisce la funzione di densità in questo modo poiché una

definizione equivalente a quella della funzione di probabilità discreta,

fornirebbe come risultato sempre zero, poiché la probabilità che si

verifichi un evento elementare appartenente ad un insieme infinito

non numerabile è sempre tendente a zero.

Definiamo infine:

Valore atteso: il valore atteso di una variabile casuale continua è

1. definito come:

∫ .

E( X)= xf x dx

( )

➢ D X

Varianza: la varianza di una variabile casuale continua è definita

1. come:

∫ 2 .

x−E( X)) f

➢ ( (x )dx

D x

Altro concetto molto importante da tenere a mente è quello di momento:

Momento r-esimo rispetto all’origine: è definito come:

• r .

➢ μ =E (X )

Ne consegue che il valore atteso di una variabile casuale non è altro che

il suo momento di ordine 1 rispetto all’origine.

Momento r-esimo rispetto al valore medio: è definito come:

• r .

X

➢ μ̄ =E [( −E(X )) ]

Ne consegue che la varianza di una variabile casuale non è altro che il

suo momento di ordine 2 rispetto al valore medio.

Supponiamo di avere una collezione di variabili casuali .

X , X ,... , X ,... , X

1 2 i n

Queste sono variabili stocasticamente indipendenti se e solo se la loro

funzione di probabilità (o la loro funzione di densità, a seconda del tipo di

variabili) congiunta è uguale al prodotto delle funzioni di probabilità (o di

densità) marginali delle singole variabili. Ovvero se vale la seguente

uguaglianza: n

∏ .

f x , x ,... , x , ... , x f

( )= (x )

➢ X , X ,..., X ,..., X 1 2 i n X i

1 2 i n i

i=1

Ora consideriamo una combinazione lineare di variabili casuali. Date n

variabili casuali tali che e , e una loro

X , i=1,... , n E( X V

)=μ (X )=σ

i i i i

i n

∑

combinazione lineare , otteniamo:

Y a X , a

= ∈ℝ

i i i

i=1

Valore atteso di una combinazione lineare di variabili casuali: è

• dato dalla seguente uguaglianza:

∑ .

E(Y a

➢ )= μ

i i

i=1

Varianza di una combinazione lineare di variabili casuali: è data

• da: n n

∑ ∑ ∑

2 2 .

V a a a Cov X , X

➢ (Y )= σ +2 ( )

i i i j i j

i=1 i=1 j<i

Consideriamo ora una famiglia ordinata di variabili casuali (o successione di

variabili casuali) . Capita spesso che queste successioni abbiano

(X ) ∼F (

n n

n∈ℕ

un limite finito (per o che tende ad infinito), ovvero che convergano a

particolari valori o funzioni. Vediamo qui di seguito le diverse tipologie di

convergenza:

Convergenza in probabilità: la successione di variabili casuali

• converge in probabilità alla variabile casuale X

(X ) ∼F (x) ∼F (x )

n n

n∈ℕ p

(ovvero ), se e solo se:

X X

→

lim .

P( X

| |

➢ −X <ε)=1; ∀ ε>0

n→+∞

Nel caso in cui sia una variabile casuale degenere che assume solo il

X

valore costante , allora la successione converge in probabilità alla

X

θ n

costante se e solo se:

lim .

P( X

| |

➢ −θ <ε)=1; ∀ ε>0

n→+∞

Convergenza in distribuzione: la successione di variabili casuali

• converge in distribuzione alla variabile casuale X

(X ) ∼F (x) ∼F (x )

n n

n∈ℕ d

(ovvero ), se per tutti i punti di continuità di si ha:

X X F( x

→ )

lim .

F x

➢ ( )=F (x)

n→+∞

Convergenza quasi certa: la successione di variabili casuali

• converge quasi certamente alla variabile casuale

(X ) ∼F (x)

n n

n∈ℕ qc

(ovvero ), se e solo se:

X X

X x →

∼F ( ) n

lim .

P( X

| |

➢ −X =0)=1

n →+∞

Nel caso in cui sia una variabile casuale degenere che assume solo il

X

valore costante , allora la successione converge in probabilità alla

X

θ n

costante se e solo se:

lim .

P( X

| |

➢ −θ =0)=1

n →+∞

Convergenza in media quadratica: la successione di variabili casuali

• converge in media quadratica alla variabile casuale

(X ) ∼F (x)

n n

n∈ℕ m

(ovvero ), se e solo se:

X X

X x →

∼F ( ) n

lim .

E( X

➢ −X ) =0

n→+∞

Nel caso in cui sia una variabile casuale degenere che assume solo il

X

valore costante , allora la successione converge in probabilità alla

X

θ n

costante se e solo se:

lim .

E(X

➢ −θ)=0

n→+∞

Tra i criteri di convergenza appena visti sussistono le seguenti relazioni:

X X

→ ⇒

n p d

➢ X X X X

→ ⇒ →

n n

X X

→ ⇒

Concludiamo introducendo due dei teoremi più importanti per la teoria della

probabilità:

Legge dei grandi numeri (di Kolmogorov): si consideri una

• successione di variabili casuali , indipendenti e identicamente

(X )

i i∈ℕ n

∑

distribuite (i.i.d.) con e , e sia , allora vale:

S X

E( X E( X

| | =

)=μ )<∞

i i n i

i=1

S qc

n .

➢ → μ

Teorema del limite centrale (di Lindeberg-Lévy): si consideri una

• successione di variabili casuali , indipendenti e identicamente

(X )

i i∈ℕ n

∑

distribuite (i.i.d.) con e , e sia , allora vale:

S X

E( X V =

)=μ (X )=σ

i i n i

i=1

S n −μ

n d .

Z N

➢ = → (0,1)

n √ n

σ/

1.3: INFERENZA STATISTICA CLASSICA.

L’inferenza statistica classica è basata sulla definizione frequentista di

probabilità. Le procedure inferenziali, dedotte dal campione osservato, vengono

costruite e valutate sulla base della distribuzione di probabilità dei possibili

campioni che avremmo potuto osservare (Principio del campionamento

ripetuto).

Ogni inferenza si basa sulla specificazione accurata dei seguenti elementi:

1) Determinazione della popolazione di riferimento: si definisce

popolazione l’insieme delle informazioni statistiche che esauriscono il

problema oggetto di studio. È compito dello statistico tradurre il problema

reale in un problema statistico grazie a una o più variabili casuali.

2) Procedura di raccolta delle informazioni: dalla popolazione viene

X

estratto un campione di unità statistiche. La procedura di selezione

genera una n-tupla di variabili casuali la cui

X X , X ,... , X , ..., X

=( )

1 2 i n

determinazione numerica specifica una n-tupla di numeri reali

detta campione osservato. La variabile casuale X

x=( x , x , ..., x ,... , x )

1 2 i n i

ha la stessa distribuzione di , quindi costituisce un insieme di

X X n

repliche di . Se tali repliche sono indipendenti, allora si definisce

X X

campione casuale semplice. Lo schema di campionamento appena

riportato è talvolta definito campionamento da popolazioni infinite. Nel

caso di campionamento da popolazioni finite, lo schema precedente è

valido nel caso che il campionamento avvenga con reintroduzione,

ovvero nel caso in cui le unità statistiche possono essere estratte dalla

popolazione con la stessa probabilità ad ogni estrazione, e ogni unità

statistica può essere estratta ripetutamente.

Se il campioamento è casuale semplice, allora le variabili casuali

saranno stocasticamente indipendenti e avranno

X , X ,... , X , ..., X

=(X )

1 2 i n

tutte la stessa distribuzione di probabilità, rappresentabile attraverso la

funzione di densità di probabilità . L’obiettivo dello statistico è di

X ∼f (⋅)

utilizzare per trarre conclusioni sulla distribuzione di di ,

x X

f (⋅)

ovvero di fare inferenza su . Si interpreta il campione osservato

f (⋅)

come la realizzazione di variabili casuali i.i.d., e si costruisce un

modello statistico, definendo la distribuzione congiunta del campione

come: n

∏

a) .

f x)=f x f x

( (x )×f (x )×...×f ( )= ( )

0 0 1 0 2 0 n 0 i

i =1

In generale non si può assumere che sia una funzione di densità

f (⋅)

qualsiasi. Molti vincoli sono imposti sulle possibili alternative dai seguenti

elementi:

(a) Natura del fenomeno a cui siamo interessati.

(b) Conoscenze acquisite sul fenomeno analizzato.

Genericamente, si può pensare che appartenga ad una famiglia di

f (⋅)

funzioni di densità , con definita in modo coerente con (a),

F

f F

(⋅)∈

(b) e (c).

Se tutti gli elementi di sono funzioni dello stesso tipo, distinte tra loro

F

unicamente dal valore di un vettore m-dimensionale di parametri ,

allora il modello statistico viene detto modello statistico parametrico, ed

può essere scritta come:

F m ; con: spazio parametrico

F={f

➢ (⋅, θ); θ ∈Ω (θ)⊆ℝ } Ω(θ)=

(ovvero l’insieme dei valori che i parametri possono assumere).

Lo spazio campionario (ovvero l’insieme di tutti i possibili campioni

compatibili con un dato modello statistico) viene invece indicato con .

Gli elementi di sono in corrispondenza con gli elementi di , e in

F Ω(θ)

particolare esiste un valore che è associato a e che

θ ∈Ω(θ) (⋅)

0 0

definiamo “valore vero” del parametro.

In particolare, l’oggetto dell’inferenza statistica sarà , costante di

popolazione non nota, ma considerata fissa nell’inferenza statistica

classica. Le conclusione delle analisi su saranno soggette ad

incertezza in quanto la natura casuale di che determina si

X x

ripercuote sulle nostre affermazioni. Il nostro compito è quindi di fare in

modo che:

(a) Sia possibile valutare il grado di incertezza a cui sono sottoposte le

nostre inferenze.

(b) Il grado di incertezza sia il più piccolo possibile, compatibilmente con

l’informazione campionaria.

3) Tecnica inferenziale per giungere dal risultato parziale alla

popolazione: le principali procedure inferenziali sono 3:

a) Stima puntuale.

b) Stima intervallare.

c) Verifica di ipotesi.

Tutte queste tecniche inferenziali hanno alcune caratteristiche in

comune:

L’inferenza avviene sempre sulla base di un campione estratto dalla

• popolazione .

X

Occorre sintetizzare per riformul

Anteprima

Vedrai una selezione di 10 pagine su 72