Che materia stai cercando?

Riassunti Statistica Appunti scolastici Premium

Dispensa approfondita con nozioni base di statistica, utili per l'esame con il prof Fabrizi basati su appunti personali del publisher presi alle lezioni del prof. dell’università degli Studi Cattolica del Sacro Cuore - Milano Unicatt, facoltà di economia. Scarica il file in formato PDF!

Esame di Statistica docente Prof. E. Fabrizi

Anteprima

ESTRATTO DOCUMENTO

Misura della probabilità approccio classico

A partire dai postulati definiti è possibile definire in maniera intuitiva una misura della probabilità che si adatta in cui

gli eventi elementari sono perfettamente noti, in numero finito e equipossibili

La probabilità è data dal rapporto tra il numero dei casi favorevoli all’evento e il numero di casi possibili purché essi

n. di casi favorevoli

siano tutti ugualmente possibili P(E) = n. di casi possibili

Probabilità condizionate e indipendenza

In alcune situazioni si vuole valutare la probabilità di un evento sapendo che si è già verificato un altro evento a esso

collegato (vedi esempio pag. 204). Per un caso di probabilità condizionata la formula è:

n. di casi favorevoli ad (A B)

P(A|B) = n. di casi possibili a B

P(A B)

P(A|B) = con P(B) > 0

P (B)

.

P(A B) = P(B) P(A|B)

∩ P(B A)

∩ .

Se P(A|B) = P(A) e P(B|A) = P(B) allora si ricava che P(B|A) = = P(B) P(B A) = P(B) P(A)

⇒ ∩

P (A)

Capitolo 9

Variabili casuali e distribuzione di probabilità

Variabili casuali (aleatorie)

La variabile casuale (aleatoria, stocastica) X è una funzione definita sullo spazio campionario ) che associa a ogni

risultato elementare in un unico numero reale. Si devono distinguere due tipi di variabili casuali:

ω i

- discreta può assumere un insieme discreto (numerabili) di numeri reali

- continua può assumere tutti i valori compresi in un intervallo reale.

Variabili casuali discrete

Con le variabili casuali discrete si trova facilmente la distribuzione di probabilità (vedi es. pag. 219). Cosi in generale si

può indicare con P(X = x ) la probabilità che la v. c. X assuma il valore x . Cosi si definisce la funzione di probabilità di

i i

una variabile casuale discreta X associa a ognuno dei possibili valori x la corrispondente probabilità P(X = x ). Dalla

i i

definizione discendono due evidenti proprietà:

n

∑P(x ) = 1 P(x ) ≥ 0

i i

i=1

Data una v. c. discreta X, la funzione che fa corrispondere ai valori x le probabilità cumulate P(X ≤ x)viene detta funzione

di ripartizione ed è indicata con: F(x) = P(X ≤ x) = ∑P(X = w) (vedi es. pag. 220)

w≤x

Variabili casuali continue

Si suppone per esempio che la v.c. X possa assumere tutti i valori dell’intervallo reale [0;1] e che assuma ciascun valore

con la stessa probabilità (diversa da 0): comunque si fissi tale probabilità si ha che la somma delle probabilità è infinita.

Piuttosto che assegnare una misura di probabilità ai singoli valori, possiamo assegnare una misura di probabilità a tutti i

possibili intervalli sull’asse reale. A tale scopo so introduce la funzione di densità (è la funzione matematica f(x) per cui

l’area sottesa alla funzione, corrispondente a un certo intervallo, è uguale alla probabilità che X assuma un valore in

b

quell’intervallo P(A ≤ X ≤ b) = f(x) dx

a 11

Proprietà delle funzioni di densità

1. una funzione di densità non può mai assumere valori negativi, ossia f(x) ≥ 0; ciò assicura che la probabilità che

X cada in un qualsiasi intervallo sia non negativa +∞

2. l’area totale sottesa alla funzione è uguale a 1 ossia f(x) dx = 1

-∞

3. la probabilità che la v.c. X assuma un particolare valore dell’intervallo è 0. Ciò è dovuto al fatto che un singolo

valore corrisponde a un in intervallo di ampiezza 0, quindi la corrispondente area è anch’essa 0. Questo per

esempio implica che non ha influenza l’inclusione, nel calcolo della probabilità degli estremi dell’intervallo,

ossia: P(a ≤ X ≤ b) = P(a < X <b)

Data una v.c. continua X, la funzione che fa corrispondere ai valori x le probabilità cumulate P(X ≤ x) viene detta

funzione di ripartizione e indicata con: x

F(x) = P(X ≤ x) = f(w) dw

-∞

Valore atteso e varianza di una variabile casuale

Spesso si è interessati a conoscere il valore medio che un variabile casuale può assumere in un gran numero di prove.

Tale valore viene chiamato valore atteso o speranza matematica:

E(X) = ∑x P(x ) se la v.c. è discreta

i i

i

+∞

E(X) = x f(x) dx se la v.c. è continua

-∞

Però la media fornisce solo la dimensione del fenomeno descritto dalla v.c. ma non fornisce nessuna informazione sulla

sua variabilità. Per la variabilità si usa la varianza, per spiegare la varianza di una v.c. X dobbiamo innanzitutto spiegare

come calcolare il valore atteso della funzione della v.c. X, Y = g(X), che per definizione è dato da E(Y) = ∑y P(y ) nel caso

i i

i

+∞

discreto e in quello continuo è data da E(Y) = y f(y) dy. Queste formule presumono la previa conoscenza di P(y ) e di

i

-∞

f(y), tuttavia questo diventa superfluo perché per il calcolo del valore atteso si può utilizzare direttamente la funzione di

probabilità o di densità infatti si dimostra che se la v.c. X è discreta E(Y) = ∑y P(y ) = ∑g(x )P(x ) mentre se è continua E(Y)

i i i i

i i

+∞ +∞

∫ ∫

= y f(y) dy = g(x) f(x) dx (vedi es pag 226)

-∞ -∞

La varianza V(X) di una v.c. X è definita da

V(X) = ∑ (x – E(X)) p(x )

2

i i

i

+∞

V(X) = (x – E(X)) f(x)dx

2

-∞

La radice quadrata della varianza di una v.c. X viene chiamata deviazione standard di X ed è indicata con:

SD(X) = V(X) 12

Variabili casuali standardizzate e teorema di Chebyshev

I valori standardizzati esprimono la distanza tra le osservazioni e la media in termini di deviazione standard. Se X è una

variabile casuale con valore atteso E(X) e deviazione standard SD(X), allora:

X - E(X)

Y = con E(Y) = 0 e V(Y) = 1

SD(X)

È una variabile casuale standardizzata.

Il teorema (o diseguaglianza) di Cebyshev (vedi cap 4)

Siano X una v.c. e k un valore reale positivo, allora vale la seguente diseguaglianza:

1

.

P(|X – E(X)|≥k SD(X))≤ k 2

Questo teorema previene la probabilità che che X assuma valori distanti dalla media più di k deviazioni standard e al più

1/k .

2

Distribuzione di Bernoulli e binomiale

Si consideri una prova nella quale ha interesse solo verificare se un certo evento si è meno verificato. Tale variabile

casuale viene detta v.c. di Bernoulli. Una v.c. di Bernoulli, indicata con X∼, può assumere il valore 1 con probabilità * e

il valore 0 con probabilità 1 – *; la sua funzione di probabilità può essere espressa come

P(X = x) = * (1 – *) per x = 0,1

x 1-x

La media e la varianza di tale distribuzione sono date da:

E(X) = * V(X) = * (1 – *)

Distribuzione uniforme continua e normale

Una v.c. uniforme continua X, indicata con X ≈ U(a;b) è una v.c. che assume valori reali in un intervallo limitato [a;b] con

a e b numeri reali. La funzione di densità uniforme è definita come:

1

f(x) se a ≤ x ≤ b

b-a

0 altrove

La media e la varianza di tale distribuzione sono date da

(a+b) (a-b) 2

E(X) = V(X) =

2 12

La v.c. normale X, indicata con X ≈ N(µ;σ ) è una v.c. continua che può assumere valori su tutto l’asse reale, con funzione

2

di densità: 1 x-µ

1 – ( ) 2

2

f(X) = e con i parametri -∞ ≤ µ ≤ +∞ e > 0

σ σ 2

σ

La media e la varianza della v.c. normale sono date da:

E(X) = µ V(X) = σ 2

Variabile casuale doppia

Fino adesso si è parlato di distribuzione della probabilità di una sola variabile casuale, derivata dall’associazione di un

unico numero reale a ogni evento dello spazio campionario. Tale operazione si può estendere al caso in cui a ogni evento

si possa associare un n-pla di numeri reali. Possiamo definire una variabile casuale doppia nel modo seguente:

si dice variabile casuale doppia una funzione (X,Y) definita sullo spazio campionario ), che associa a ogni risultato

elementare detto , una coppia di numeri reali x,y.

ω i

Anche in questo caso si possono distinguere le variabili casuali discrete e le variabili casuali continue.

Quando una v.c. doppia può assumere solo un insieme finito e numerato di valori, parleremo di una v.c. doppia discreta

a cui è associata una funzione di probabilità congiunta P(x,y).

P(x,y) ≥ 0 e ∑ ∑ P(x,y) = 1

x y

13

Quando invece la v.c. può assumere un insieme non numerabile di valori, parleremo di una v.c. doppia continua, a cui è

associata una funzione di densità congiunta f(x,y). +∞ +∞

∫ ∫

F(x,y) ≥ 0 e f(x,y) dx dy = 1

-∞ -∞

La funzione di ripartizione congiunta per la v.c. (X,Y) si definisce in modo simile a quanto visto per il caso univariato

ed è data da: ∑ ∑

v.c. doppia discreta F(x,y) = P(X ≤ x, Y ≤ y) = P(u,v)

u≤x v≤y

x y

∫ ∫

v.c. doppia continua F(x,y) = P(X ≤ x, Y ≤ y) = f(u,v)du dv

-∞ -∞

Sommando o integrando la distribuzione di probabilità congiunta rispetto a tutti i valori della Y, si ottiene la

distribuzione di probabilità della X, detta distribuzione di probabilità marginale.

v.c. doppia discreta P(x) = P(x,y) e uguale per P(y)

x

+∞

v.c. doppia continua f(x) = f(x,y) dy e uguale per f(y)

-∞

La relazione di dipendenza di una variabile rispetto all’altra può essere studiata attraverso la distribuzione di

probabilità condizionata:

data la variabile casuale doppia (X,Y), la distribuzione di probabilità condizionata di Y, data la X = x, è

P(x;y)

caso discreto P(y|x) = P(x)

f(x;y)

caso continuo f(y|x) = f(x)

vedi gli esempi a pag. 250-254

Considerata una v.c. doppia (X,Y), tra le due variabili casuali, c’è indipendenza se e solo se la distribuzione di

probabilità congiunta può essere espressa dal prodotto delle distribuzioni marginali.

.

caso discreto P (x,y) = P(x) P(y)

.

caso continuo f(x,y) = f(x) f(y)

Il valore atteso di una combinazione lineare di 2 variabili casuali (variabile casuale doppia: X = a X + a X ) è dato da:

1 1 2 2

E(X + Y) = E(X) + E(Y)

E(X – Y) = E(X) – E(Y)

Consideriamo ora la funzione prodotto degli scarti dai valori attesi, g(X,Y) = [X – E(X)] [Y- E(Y)]. Il suo valore atteso è

noto con il nome di covarianza, che si calcola nel seguente modo:

∑ ∑ ∑ ∑

.

v.c. doppia discreta = (x y)P(x,y) – xP(x) yP(y)

σ xy x y x y

+∞ +∞ +∞ +∞

∫ ∫ ∫ ∫

v.c. doppia continua = xy f(x,y) dx dy – x f(x)dx y f(y)dy

σ xy -∞ -∞ -∞ -∞

14

Teorema del limite centrale

Una successione di variabili casuali X , X , X …, con funzione di ripartizione F (x), F (x), F (x) …, converge in

1 2 3 1 2 3

distribuzione a una variabile casuale x se, per tutti i punti in cui F(x) è continua si ha

lim F (x) = F(x)

n

n→+∞

La convergenza di distribuzione è alla base del Teorema del limite centrale, che dice che:

siano X , X , X , variabili casuali indipendenti e identicamente distribuite (iid), con media µ e varianza finite

σ 2

1 2 3 1 n

posto che X̄ = X

n

n i

i=1

( X - µ) n

n

si ha che la v.c. è Z =

n σ Capitolo 10

Campionamento e distribuzioni campionarie

Popolazione e parametri della popolazione

Si deve distinguere tra popolazione finita e popolazione infinita. La popolazione finita è un insieme costituito da N

unità; dato un carattere X osservato su tutta la popolazione si possono calcolare i parametri della popolazione, ossia le

costanti che descrivono aspetti caratteristici della distribuzione del carattere della popolazione (vedi es pag. 272). La

popolazione infinita è composta da un numero elevato di unità, ossia da tutte le unità potenzialmente osservabili e non

necessariamente già esistenti fisicamente. Nelle popolazioni infinite il carattere d’interesse può essere rappresentato da

una variabile casuale X con una certa distribuzione di probabilità. In questo caso è quindi consuetudine indicare con

popolazione X la variabile casuale X

Media della popolazione (o valore atteso) di una popolazione infinita:

- discreta µ = E(X) = ∑

i

+∞

- continua µ = E(X) = x f(x)dx

-∞

Varianza della popolazione: k k

- discreta = Var(X) = ∑ (x – µ) p(x ) = ∑ x p(x ) – µ

σ 2

2 2 2

j j j

j

j=1 j=1

+∞ +∞

∫ ∫

- continua = Var(X) = (x – µ) f(x) dx = x f(x)dx – µ

σ 2 2 2 2

-∞ -∞

Il campionamento da popolazioni infinite

Quando la popolazione è infinita non è possibile svolgere indagini totali e bisogna necessariamente ricorrere al

campionamento. La caratteristica di interesse nelle popolazioni infinite può essere rappresentata da una variabile casuale

X che possiede una certa distribuzione di probabilità.

Dalla popolazione X viene quindi estratto un sottoinsieme di unità statistiche, e tale procedura genera una n-pla di v.c.,

la cui determinazione numerica corrisponde a un n-pla osservazioni x, che costituisce il campione osservato.

Le variabili casuali x sono indipendenti, e quindi la n-pla di v.c. è una collezione di v.c. indipendenti e identicamente

i

distribuite (iid). In tal caso si parla di campione casuale.

Una collezione di n variabili casuali X , X , …, X , ottenuta con un procedimento di estrazione dalla popolazione X, forma

1 2 n

un campione casuale di dimensioni n della popolazione X se:

- X variabili sono casuali indipendenti

n

- Ogni v.c. X possiede la stessa distribuzione di probabilità della popolazione X.

i 15

Statistiche, campionari e distribuzioni campionarie

Sia X , X , …, X un campione casuale di n osservazioni appartenenti a una popolazione finita o infinita, si indica come

1 2 n

statistica campionaria la funzione dei valori reali delle osservazioni campionarie X , X , … X .

1 2 n

Le statistiche campionarie di uso comune sono le seguenti:

1 K

- media campionaria: X̄ = ∑ X

n i

i=1

1 K

- varianza campionaria: = ∑ (X - X̄)

σ 2 2

n i

i=1

- deviazione standard campionaria: =

σ σ 2

- massimo campionario: X = max (X , X , …, X )

n 1 2 n

- minimo campionario: X = min (X , X , …, X )

n 1 2 n

- intervallo di variazione campionario: R = X – X

(n) (1)

Le statistiche non devono essere confuse con i parametri della popolazione, poiché questi ultimi si riferiscono all’intera

popolazione, mentre le statistiche dipendono solamente dalle osservazioni campionarie.

La distribuzione della media campionaria nelle popolazioni infinite

Tra le statistiche più frequentemente utilizzate, la media campionaria ricopre un ruolo particolare dovuto alle sue

proprietà campionarie. Il valore atteso e la varianza della media campionaria possono essere facilmente calcolati per le

popolazioni infinite. Sia X la variabile casuale d’interesse e siano µ e rispettivamente la media e la varianza della

σ 2

popolazione; in questo caso, µ = E(X) e = Var(X). Sia inoltre X un campione casuale di dimensioni n estratto dalla

σ 2 n

popolazione X; esso è formato da n variabili casuali indipendenti e identicamente distribuite (iid) con

E(X ) µ e Var (X,Y) = per ogni i appartenente a R

σ 2

i

Sotto tali condizioni si ha:

- Il valore della media campionaria è uguale alla media della popolazione, ossia E(X̄) = µ

- La varianza della media campionaria è uguale alla varianza della popolazione divisa per la dimensione

σ 2

campionaria, ossia Var(X̄) = n

Se la popolazione ha una distribuzione normale X ≈ N (µ; ), allora la distribuzione campionaria sarà ancora una

σ 2

σ 2

normale, cioè X̄ ≈ N (µ; )

n

Se la popolazione X possiede una distribuzione di Bernoulli con parametro *, allora la distribuzione della media

* (1- *)

( )

n

campionaria X̄ sarà data da P(X̄=x) = * (1 – *) con media * e varianza

nx n – nx n

nx 16

Capitolo 11

Stima puntuale

Stima puntuale e stimatori

Quando non è possibile osservare tutte le unità della popolazione, alcune caratteristiche della popolazione (come media,

varianza ecc.) restano incognite. In tal caso, si potranno ottenere informazioni circa il valore del parametro analizzando i

dati provenienti da un campione. Bisogna quindi trovare una funzione dei dati campionari che fornisca una buona

approssimazione del parametro ignoto; tale problema è noto come stima puntuale e il parametro che viene trovato è

chiamato stima puntuale del parametro.

Sia X una variabile casuale che rappresenta il carattere osservato sulla popolazione d’interesse. Se la variabile casuale X è

discreta, la sua funzione di probabilità sarà indicata da p(X,θ), se invece X è continua, la sua variabile di densità verrà

indicata da f(X,θ), dove è il parametro che si vuole stimare.

θ

Uno stimatore è una variabile casuale utilizzata per stimare una determinata caratteristica della popolazione e sarà

θ

indicato con T = T(X …X )

1 n

Il valore assunto da uno stimatore verrà detto stima e indicato con t = t(x …x )

1 n

Lo stimatore è una variabile casuale e quindi ha una sua distribuzione campionaria, la cui conoscenza permetterà di

capire se lo stimatore scelto produrrà con elevata probabilità stime vicine al valore vero del parametro.

Stimatori corretti

La proprietà più intuitiva di uno stimatore è la correttezza. T è uno stimatore corretto di se il suo valore atteso è uguale

θ

al valore vero del parametro, quindi: E(T) = per ogni

θ θ

Se E(T) ≠ per qualche valore di allora T sarà distorto.

θ θ,

La distorsione di uno stimatore è uguale a B(T) = E(T) – θ

Stimatori efficienti e minimo errore quadratico medio

Per dire che T si avvicini ai valori di possiamo affermare che |T – abbia valori piccoli e, di conseguenza, anche

θ θ|

(T – dovrà avere un piccolo valore. Questa quantità è chiamata errore quadratico medio, che ha come

θ) 2

formula: MSE (T) = E [(T – ]

θ) 2

A questo punto di introduce l’efficienza di uno stimatore: T è più efficiente di T se possiede un MSE più piccolo.

1 2

L’errore quadratico medio di uno stimatore T è uguale alla somma della varianza dello stimatore e della sua distorsione

al quadrato, quindi MSE (T) = Var (T) + B(T) dove Var (T) = E {[T – E(T)] }

2

Se lo stimatore T è corretto, allora MSE (T) = Var (T) per tutti i possibili valori di θ

Stimatori consistenti e asintoticamente corretti

È importante valutare anche le proprietà asintotiche degli stimatori. Una delle proprietà asintotiche è la consistenza.

Uno stimatore T di un parametro è consistente se il suo MSE tende a zero al tendere a + di n. Lo stimatore T è

θ ∞

n n

consistente in media quadratica se lim MSE(T ) = limE(T - = limVar (T ) = 0

θ) 2

n n n

n→+∞ n→+∞ n→+∞

Uno stimatore T di parametro è asintoticamente corretto se

θ

n lim E(T ) = per ogni possibile valore di

θ θ

n

n→+∞ 17

Stima puntuale della media di una popolazione

Tra i parametri di una popolazione, un ruolo centrale è svolto dalla media. Da questo si evince che:

- La media campionaria è uno stimatore corretto della media della popolazione; questo vale per qualunque tipo

di distribuzione della popolazione. Quindi si ha che l’errore quadratico medio coincide con la varianza, cioè

σ 2

MSE (X̄) = Var (X̄) = n

- La media campionaria è uno stimatore consistente della media della popolazione, cioè

σ 2

lim MSE (X̄) = lim Var (X̄) = lim = 0

n

n→+∞ n→+∞ n→+∞

Stima puntuale della proporzione in una popolazione

Una stima della proporzione di unità di una popolazione che presenta un certo attributo A può essere ottenuta in modo

simile a quanto mostrato per la media della popolazione.

Data una popolazione X, distribuita con distribuzione Bernoulli, con parametro *, la media campionaria X̄ è uno

stimatore corretto di *, ossia E(X) = * per ogni * tra 0 e 1

Stima puntuale della varianza di una popolazione

Un altro parametro di particolare interesse è la varianza di popolazione, da ciò si evince che = E[(X - µ) ]

σ 2 2

Dato un campione casuale di dimensioni n estratto da una popolazione X si definisce varianza campionaria corretta lo

stimatore: 1 n

S = ∑ (X – X̄)

2 2

n-1 i

i=1

Dato un campione casuale estratto da una popolazione con media µ e varianza ignote, allora S è uno stimatore

σ 2 2

corretto, ossia E(S ) = per ogni > 0

σ σ

2 2 2

Stima puntuale mediante il metodo della massima verosimiglianza

Il più importante metodo per la costruzione di stimatori puntuali si basa sulla funzione di verosimiglianza. Si consideri

una variabile X discreta, la cui distribuzione dipenda solo dal parametro incognito e sia dato un certo campione

θ

osservato, ci possiamo chiedere qual è la possibilità di osservare quel dato campione per ogni θ.

La funzione di verosimiglianza L(θ) indica la probabilità di osservare un campione fissato al variare del parametro θ,

ossia: n

se X è discreta L(θ) = P(dati osservati; = p(x ; (vedi esempio pag. 309)

θ) Π θ)

i

i=1

n

se X è continua L(θ) = f(x ;

Π θ)

i

i=1

Se sono due distinti valori del parametro ignoto, e se L(θ ) > L (θ ), diremmo che il valore è più verosimile di .

θ θ θ θ

1 2 1 2 1 2

^

La stima di massima verosimiglianza del parametro è il valore , che massimizza la funzione di verosimiglianza,

θ θ

ovvero: ^ ^

L( ) = max L(θ) e log L( ) = max log L(θ)

θ θ

Il modo più semplice di trovare il punto di massimo è quello basato sulla derivata prima della funzione log L (θ).

Gli stimatori di massima verosimiglianza per la media µ e la varianza di una popolazione normale sono

σ 2

rispettivamente: 1 1

n n

X̄ = ∑ X e = ∑ (X – X̄)

σ 2

n n

i i

i=1 i=1

18

Capitolo 12

Stima per intervallo

Stima per intervallo

In un intervallo casuale [L (X , …, X ), L (X , …, X )], si definisce intervallo di confidenza di livello 1 – per un parametro

α

1 1 n 2 1 n

se contiene, con probabilità 1 – il parametro ignoto per una popolazione. Quindi

θ α, θ

P[L (X , …, X ) ≤ ≤ L (X , …, X )] = 1 – vedi esempio pag. 323-324

θ α

1 1 n 2 1 n

L’intervallo numerico [l , l ] = [L (x , …, x ), L (x , …, x )] è una realizzazione dell’intervallo casuale [L ; L ], ottenuta in

1 2 1 1 n 2 1 n 1 2

corrispondenza del campione osservato, e viene quindi chiamato intervallo di confidenza stimato.

Analogie tra stima puntuale e stima intervallare

Stima puntuale Stima intervallare

Campione casuale X , …, X X , …, X

1 n 1 n

Obiettivo Stima puntuale del parametro Stima per intervallo del parametro

θ θ

Strumento Stimatore puntuale: Stimatore intervallo di confidenza:

T = T(X , …, X ) [L , L ] = [L (X , …, X ), L (X , …, X )]

1 n 1 2 1 1 n 2 1 n

Accuratezza Errore quadratico medio: Livello di confidenza:

MSE(T) = E[(T – ] P(L ≤ ≤ L ) = 1 –

θ) θ α

2 1 2

Dati campionari x , …, x x , …, x

1 n 1 n

Risultato Stima puntuale: Intervallo di confidenza stimato:

t = T(x , …, x ) [l , l ] = [L (x , …, x ), L (x , …, x )]

1 n 1 2 1 1 n 2 1 n

Intervallo di confidenza per la media (σ noto)

2

Nei problemi reali quando si vuole costruire un intervallo di confidenza per la media di una popolazione normale,

raramente si conosce la varianza della popolazione. Il procedimento per ottenere un intervallo di confidenza per µ a

partire da un campione casuale di dimensioni n, è tutto analogo a quello descritto nel paragrafo precedente. Tuttavia

quando è ignoto è necessario sostituirlo con una sua stima la varianza campionaria corretta:

σ 2 1 n

S = (X - X̄)

2 2

n - 1 i

i=1

se nella standardizzazione di X̄, viene sostituito da S = √S si ottiene la variabile casuale:

σ 2

- µ

T = S/√S 2

Naturalmente questa sostituzione non è priva di conseguenze.

La v.c. T è funzione delle due variabili casuali X̄ e S, si distribuisce secondo una distribuzione t-student con n – 1 gradi di

libertà.

Funzione pag 327

Intervallo di confidenza per una proporzione

Se si vuole studiare la presenza/assenza di un certo attributo A nella popolazione di interesse. La distribuzione del

carattere può essere perciò rappresentata tramite una variabile casuale bernoulliana X il cui parametro d’interesse è *.

Appellandosi al teorema del limite centrale, sappiamo che al crescere della dimensione campionaria la distribuzione

della X̄ può essere approssimata con quella di una normale con media * e varianza *(1 – *)/n di conseguenza al

crescere di n la variabile standardizzata: X – * tende a distribuirsi secondo una normale standardizzata

*(1 – *)/n 19

Osserviamo che in questo caso la varianza gli estremi dell’intervallo dipendono dal parametro incognito * infatti:

σ 2

X – *

( ) ( )

*(1 – *) *(1 – *)

1 – ≈ P –Z ≤ ≤ Z = P X̄ – Z ≤ * ≤ X̄ + Z

α α α α

α n n

2 2 2 2

*(1 – *)/n

tuttavia all’aumentare della dimensione campionaria, poiché X̄ è uno stimatore consistente di * anche lo stimatore

X̄(1 - X̄) tenderà alla quantità *(1 – *). Pertanto, la distribuzione della variabile casuale:

X – *

X (1 – X )/n

per una dimensione campionaria abbastanza elevata, uno stimatore sufficientemente accurato dell’intervallo di

confidenza per la proporzione * al livello 1 – è dato da:

α X (1 – X ) X (1 – X )

[ ]

X̄ – Z , X̄ + Z

α α

2 2

n n

Capitolo 13

Teoria dei test statistici

Formulazione delle ipotesi

Il primo importante passo nella costruzione di un test statistico consiste nella definizione delle due possibili ipotesi, tra

cui dobbiamo scegliere in base al risultato campionario (vedere es. pag. 343).

Per ipotesi statistica si intende una congettura riguardante un parametro della popolazione. Nell’approccio di

θ

Neyman-Pearson si distinguono due ipotesi contrapposte:

Ipotesi nulla, indicata con H : si intende l’ipotesi preesistente all’osservazione dei dati campionari, ossia quella

• 0

ritenuta vera fino a prova contraria.

Ipotesi alternativa, indicata con H : si contrappone a quella nulla e potrebbe essere considerata più verosimile

• 1

in base al risultato campionario.

Indichiamo con lo spazio parametrico, ossia l’insieme di tutti i possibili valori che può assumere

Θ θ.

In termini generali, possiamo indicare le due ipotesi tramite un sistema del tipo:

H : θ ∈ Θ

0 0

H : θ ∈ Θ

1 1

SISTEMI DI IPOTESI

Le ipotesi possono essere semplici o composte (vedi es. pag. 345).

Un’ipotesi è detta semplice quando specifica completamente la popolazione; altrimenti è detta composta.

Se l’ipotesi composta riguardante il parametro individua un intervallo di valori, come per esempio ≥ , questa si dirà

θ θ θ 0

unidirezionale, altrimenti, se è del tipo ≠ , si dirà bidirezionale.

θ θ 0

Regione di accettazione e regione di rifiuto

TEST STATISTICO

Il rifiuto o l’accettazione dell’ipotesi nulla dipende ovviamente dal campione osservato. Se l’informazione che si ricava

dal campione contrasta in maniera evidente con l’ipotesi nulla, si rifiuta tale ipotesi; in caso contrario, accetteremo

l’ipotesi nulla. Tale procedura è chiamata test statistico. 20

Un test statistico (o test di ipotesi) è una regola che permette di discriminare i campioni che portano all’accettazione

dell’ipotesi nulla da quelli che portano al suo rifiuto.

STATISTICA TEST

La media campionaria è la statistica utilizzata per decidere se un determinato campione porta all’accettazione o al rifiuto

dell’ipotesi nulla viene chiamata statistica test.

L’insieme dei valori della statistica test che portano all’accettazione dell’ipotesi nulla H è chiamata regione di

0

accettazione. L’insieme dei valori della statistica test che portano al rifiuto dell’ipotesi nulla H è chiamata regione di

0

rifiuto (vedere fig. pag. 347).

Si può osservare che la definizione di quali siano i valori appartenenti alla regione di accettazione dipende

essenzialmente dal valore scelto, detto anche livello di significatività del test: maggiore è il suo valore, più ampia sarà

α

la regione di rifiuto.

La statistica test viene calcolata con la seguente formula: X – µ 0

Z = /√n

σ

Test con ipotesi nulla semplice

In questo sistema di ipotesi (ipotesi alternativa bidirezionale o bilaterale)

H : =

θ θ

0 0

H : ≠

θ θ

1 1 α

Le regioni di rifiuto corrispondono alle due code della distribuzione, ciascuna pari a 2

Nel caso di ipotesi nulla o semplice, abbiamo altre due situazioni molto comuni:

H : =

θ θ

0 0

H : >

θ θ

1 1

(ipotesi alternative unidirezionali o unilaterali)

H : =

θ θ

0 0

H : <

θ θ

1 1

Il p-value

Abbiamo visto che la conclusione alla quale ci conduce un test è quella di rifiutare o meno H per un certo libello di

0

significatività prefissato. Tuttavia, poiché la scelta del valore è arbitraria, la conclusione potrebbe dipendere da tale

α α

scelta. Un altro modo per evidenziare il risultato del test è quella di riportare il p-value.

Il p-value è dato dalla probabilità di osservare un valore della statistica test uguale o più estremo del valore ottenuto dal

campione sotto l’ipotesi nulla.

Pertanto il p-value non è una quantità fissata come il livello di significatività, ma al contrario è una quantità che misura

l’evidenza fornita dai dati contro l’ipotesi H : minore è il valore p-value, più è forte l’evidenza contro H .

0 0

Viene anche chiamato livello di significatività osservato (vedi es. pag. 351 con figura).

21


PAGINE

26

PESO

454.52 KB

PUBBLICATO

6 mesi fa


DETTAGLI
Esame: Statistica
Corso di laurea: Corso di laurea in Economia
SSD:

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher elena3.manzoni di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Cattolica del Sacro Cuore - Milano Unicatt o del prof Fabrizi Elena.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea in economia

Lezioni,Tecnica Professionale
Appunto
Appunti di Scienza delle finanze, Primo parziale
Appunto
Appunti del corso di economia industriale (2015) - Enzo pontarollo
Appunto
Appunti di Scienza delle finanze, Secondo parziale
Appunto