Statistica Avanzata - Appunti

Appunti completi e interamente scritti al computer per il corso di Statistica avanzata del corso di Laurea Magistrale di Scienze Statistiche, Finanziarie e Attuariali dell'Università di Bologna, ma validi per qualunque studente di statistica, in quanto riprendono numerosi concetti della statistica base normalmente studiata in triennale.

Includono: inferenza statistica e verosimiglianza - stima puntuale ed intervallare - test d'ipotesi - regressione multipla (anche in forma matriciale) - inferenza bayesiana.
E' inoltre presente anche un formulario eventualmente utilizzabile in sede di esame.

Esame Statistica

Facoltà Scienze statistiche

Dal corso del Prof. Greco Fedele Pasquale

Università Università degli Studi di Bologna

Publisher gianluca.bezzy

A.A. 2017-2018

72 pagine

1 download

Appunto

Vota 3,0 / 5 (2)

Scarica

Estratto del documento

P( X ; P( X

=1)=π =0)=1−π

media aritmetica campionaria è un buon stimatore del parametro . Tale

media non è altro che la proporzione campionaria che si distribuisce

P

secondo una distribuzione binomiale di parametri e . Per elevato, in

n n

virtù del teorema centrale, si ottiene:

P−π .

W = ∼N (0,1)

➢ √ π (1−π)/n

All’aumentare di , poiché è uno stimatore consistente di , anche lo

n P π

stimatore tenderà a . Quindi, fissato e ottenuta una

1−α

P(1−P) π (1−π)

stima di , l’intervallo di confidenza asintotico per sarà:

p π π

√ √ .

( )

p−z p(1−p)/n , p+z p(1− p)/n

➢ 2

α / α /2

4.5: INTERVALLO DI CONFIDENZA PER LA VARIANZA DI UNA

POPOLAZIONE NORMALE.

Consideriamo il caso di un carattere che in popolazione si distribuisce secondo

una distribuzione normale di parametri e ambedue ignoti. Vogliamo

μ σ X

X

costruire un intervallo di confidenza per .

Per farlo, abbiamo bisogno di una quantità pivot che possa essere invertita.

Scegliamo: 2

n−1) S

( X 2 .

Q= ∼Χ

➢ n−1

σ 2

Possiamo quindi scrivere l’intervallo di confidenza di livello per

1−α σ X

come segue: 2 2 2

( ) ( )

S n−1)S S

(n−1) ( (n−1)

2 X 2 X 2 X .

P Χ Χ

➢ (n−1)≤ ≤ (n−1) =P ≤σ ≤

1−α/2 2 X

α/

2 2 2

n−1)

Χ Χ

σ ( (n−1)

X 1−α/ 2

α /2

Tale intervallo individua due code equiprobabili ma, a differenza degli intervalli

costruiti per la media, non è ad ampiezza minima tra gli intervalli per cui vale

2 2 2 2

( ) . Ciò è dovuto all’asimmetrica della distribuzione .

P Χ Χ Χ Χ

≤ ≤ =1−α

a b

4.6: INTERVALLO DI CONFIDENZA PER LA DIFFERENZA TRA LE MEDIE DI

DUE POPOLAZIONI NORMALI E INDIPENDENTI (CASO CON VARIANZA

NON NOTA E OMOSCHEDASTICITÀ).

Usando le stesse ipotesi e la stessa notazione introdotta per il test d’ipotesi

sulla differenza tra le medie e di due popolazioni gaussiane, si ha che

μ μ

X Y

2 2

S

(n−1) +(m−1)S

2 X Y

se , allora la seguente quantità è una quantità pivot:

S =

pooled n+ m−2

X̄− Ȳ −(μ −μ )

X y .

∼

➢ n+m−2

√ 1 1

S ( + )

pooled n m

Quindi possiamo ottenere l’intervallo di confidenza di livello per

1−α

come segue:

μ −μ

X Y √ √

( )

1 1 1 1

( ) ( )

2 2 .

x̄− ȳ s , x̄ ȳ s

−t + − +t +

➢ 2 pooled 2 pooled

α/ α/

n m n m

Usando le stesse ipotesi e la stessa notazione introdotta per il test d’ipotesi sul

2 2

rapporto tra le varianze e di due popolazioni gaussiano, si può

σ σ

X Y 2

σ X

dimostrare che l’intervallo di confidenza di livello per è:

1−α 2

σ Y

2 2 2 2

( )

s s s

/s /

x y x y .

➢ F , m−1) F ,m−1)

(n−1 (n−1

2 1−α

α/ /2

5: IL MODELLO DI REGRESSIONE MULTIPLA.

5.1: INTRODUZIONE.

L’obiettivo dei modelli di regressione multipla è quello di investigare come

un certo gruppo di caratteri (variabili esplicative o variabili indipendenti o

regressori) influenzano un altro carattere oggetto di interesse (variabile

dipendente). Indichiamo la variabile dipendente con e, supponendo di

Y

disporre di variabili indipendenti, le indichiamo con .

m , X ,... , X

(X )

1 2 m

In termini formali, ci interessa studiare una relazione del tipo:

Y X , X ,... , X

➢ =f ( )

1 2 m

L’obiettivo è spesso inferenziale: a partire dallo studio delle relazioni

intercorrenti tra le variabili all’interno del campione, si cerca di ottenere

informazioni sulle relazioni esistenti all’interno di una popolazione più ampia.

Il modello di regressione multipla è un potente strumento per trattare questi

problemi inferenziali. Genericamente, la variabile dipendente viene

Y

espressa come funzione lineare dei regressori :

, X ,... , X

(X )

1 2 m

Y X X X

=β +β +β +...+β

➢ 0 1 1 2 2 m m

Questa relazione non può però essere espressa in termini deterministici come

appena visto. È infatti necessario tenere conto della inevitabile casualità

associata al fenomeno oggetto di interesse. Questo porta alla costruzione di un

modello statistico, composto da una componente sistematica e una

componente casuale (non osservabile) che ingloba la parte di variabilità di

non colta dalla relazione con i regressori. In pratica si aggiunge una

Y

componente di errore casuale al modello lineare sopra esposto:

ε ⏟

Y X X X

⏟

=β +β +β +...+β + ε

➢ 0 1 1 2 2 m m Componente casuale

Componente sistematica

Più formalmente, l’obiettivo è la stima del vettore dei parametri

sulla base di un campione di osservazioni delle variabili

,β ,... ,β , ... ,β

β=(β )

0 1 k m

Y , X , X , ..., X

1 2 m

Il coefficiente rappresenta l’intercetta del modello.

• 0

Gli altri coefficienti, detti coefficienti di pendenza, costituiscono le

• derivate parziali della variabile dipendente rispetto alle variabili

Y

esplicative , ovvero:

, X ,... , X

(X )

1 2 m

∂Y .

; k=1,. .. , m

=β

➢ k

X

∂ k

Di conseguenza il coefficiente esprime la variazione che subisce la

β k

variabile dipendente in seguito ad una variazione unitaria della variabile

esplicativa , quando le altre variabili esplicative rimangono costanti.

X k

5.2: SCHEMI DI CAMPIONAMENTO.

A seconda dello schema di campionamento utilizzato per costruire il dataset,

varierà l’impostazione alla base del modello di regressione e il modo con cui

tratteremo le variabili esplicative. Si distinguono due differenti schemi di

campionamento:

Schema di campionamento classico (S1) (è quello che seguiremo

• noi): con lo schema di campionamento classico, alla base della cosiddetta

impostazione classica del modello di regressione multipla, le variabili

esplicative sono fissate ad una loro particolare realizzazione (si pensi per

esempio ad un esperimento di laboratorio in cui i fattori sperimentali che

danno luogo ad un certo risultato sono fissati dal ricercatore. Questo

Y

schema di campionamento implica il determinismo dei regressori: in

altre parole le covariate dei regressori sono misurate senza errori e non

sono frutto dell’osservazione di una variabile casuale. Come già detto,

però, la vera relazione tra la variabile risposta e le variabili esplicative

Y

dipende da una serie di fattori non controllabili.

, X ,... , X

(X )

1 2 m

Conseguenza importante di questo fatto è che ad un valore fissato delle

diverse variabili esplicative corrispondono valori risposta diversi per la

variabile dipendente. Tali fattori possono essere ricondotti ad errori di

misura, effetti non osservabili, modificazioni delle condizioni in cui viene

condotto l’esperimento, ecc. È l’insieme di queste componenti a dar

luogo alla variabile stocastica . Secondo questa impostazione quindi

anche è una variabile stocastica, in quanto somma di una

Y

componente deterministica e una casuale.

Schema di campionamento alternativo (S2): consiste nel supporre

• che sia la variabile dipendente che i regressori siano stocastici. In questo

caso, il modello statistico di riferimento è dato dalla distribuzione

congiunta di dalla quale è estratto un campione casuale

, X , X , ... , X

(Y )

1 2 m

di numerosità . Secondo questo schema, si ottiene:

n .

E(Y X , ... , X X X

➢ )=β +β +...+β

| 1 m 0 1 1 m m

Quindi la variabile casuale misura le deviazione della variabile casuale

dalla sua speranza condizionale.

Y

5.3: FORMALIZZAZIONE DEL MODELLO IN TERMINI MATRICIALI.

Si consideri un campione di numerosità sul modello di regressione lineare

multipla, secondo lo schema S1: .

Y x x x ; i=1,... , n

=β +β +...+β +...+β +ε

➢ i 0 1 i 1 k ik m i m i

Dove rappresenta la variabile casuale associata alla componente i-esima

Y i

del campione; è il valore della k-esima variabile esplicativa per

x ; k , m

=1,...

la componente i-esima del campione (nello schema S1 non è una variabile

aleatoria e quindi la indichiamo con la lettera minuscola).

Questo generico campione può essere espresso in termini matriciali.

Indichiamo con:

il vettore dei valori della variabile dipendente per le unità

Y n×1 n

• campionarie: .

Y Y , Y ,... , Y

➢ =( )

1 2 n

la matrice dei valori degli regressori per le unità

X m n

n×(m+1)

• campionarie; la matrice contiene, oltre ai valori dei regressori, una

colonna supplementare composta da valori tutti pari ad in

n 1

corrispondenza dell’intercetta del modello. Quindi otterremo una matrice

di questo tipo:

x x x

( )

1 ... ...

11 1 k 1 m

... ... ... ... ... ...

X=

➢ 1 x ... x ... x

i 1 ik i m

... ... ...

1 ... ...

x x x

n 1 nk nm

il vettore dei parametri del modello:

• (m+1)×1

,β , ... ,β

➢ β=(β β )

0 1 2, m

il vettore delle componenti casuali:

n×1

• .

,ε , ... ,ε

➢ ε=(ε )

1 2 n

Il modello di regressione può quindi essere riscritto in forma matriciale come

segue: .

Y X

= × β +ε

n×1

n×1 n×(m +1) (m+1)×1

Una volta estratto un campione, si disporrà dei valori osservati

y , x , x , ..., x , ... , x ; i=1,... , n

{ }

i i1 i 2 ik i m

5.4: IPOTESI CLASSICHE DEL MODELLO DI REGRESSIONE MULTIPLA.

In questo paragrafo esporremo tutte le ipotesi alla base del modello di

regressione multipla, formalizzate secondo lo schema di campionamento

classico S1:

Anteprima

Vedrai una selezione di 10 pagine su 72