Statistica

Esame Statistica

Facoltà Economia

Dal corso del Prof. Grassini Laura

Università Università degli Studi di Firenze

Appunto

5,0 / 5 (1)

Scarica

Appunti di statistica basati su appunti personali del publisher presi alle lezioni della prof. Grassini dell’università degli Studi di Firenze - Unifi, della facoltà di economia, Corso di laurea in economia aziendale. Scarica il file in formato PDF! voto preso: 25

…continua

Anteprima

Vedrai una selezione di 4 pagine su 14

Anteprima di 4 pagg. su 14.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 4 pagg. su 14.
Scarica il documento per vederlo tutto.

Scarica

Disdici quando
vuoi

Acquista con carta
o PayPal

Scarica i documenti
tutte le volte che vuoi

Estratto del documento

X Y

 2 2

la varianza della differenza, quando Cov(X,Y) = 0, è: Var(X – Y) = σ – σ – 2Cov(X,Y).

X Y

CAPITOLO VII – Campionamento e distribuzioni campionarie

La scelta di usare i campioni invece che l’intera popolazione, è subordinata ai vantaggi che si ottengono:

questo procedimento infatti comporta una minore spesa e un minor costo. Il campione casuale semplice è il

campione ideale per ottenere dei risultati che si avvicinino a quelli della popolazione. Esso è caratterizzato

dal fatto che le unità vengono estratte una ad una, rimuovendo dalla popolazione la singola unità estratta e

attribuendo la stessa probabilità di essere estratte alle unità rimanenti. Il modo più immediato per realizzare

un campionamento casuale semplice è quello dell’urna: alle unità della popolazione, numerate con gli interi

da 1 a N, si fanno corrispondere altrettante palline recanti detti numeri, si inseriscono le palline in un’urna e

si procede all’estrazione, senza reimmissione, di n palline; faranno parte del campione le n unità individuate

dai numeri delle palline estratte. Data una popolazione, si considera una sua caratteristica, ad esempio la

media μ. Estratto dalla popolazione un campione, per fare inferenza sulla caratteristica si dovrà scegliere una

statistica campionaria: la media campionaria X. L’inferenza è basata sul fatto che ogni campione casuale

determina un diverso valore x della media e quindi ognuno di essi può essere visto come una realizzazione

della variabile aleatoria X. La distribuzione campionaria di questa statistica è la distribuzione delle medie

campionarie ottenute su tutti i possibili campioni, della stessa ampiezza, estratti dalla popolazione. Date

invece, le variabili aleatorie, X , X , …, X , rappresentanti un campione casuale della popolazione, si

1 2 n

definisce la media campionaria di dette variabili come: X = 1/nΣX . La media della distribuzione delle

medie campionarie, coincide con la media della popolazione, infatti: E(X) = μ; man mano che il numero

degli elementi del campione aumenta, la media delle medie campionarie si avvicina alla vera media della

popolazione. Se invece la popolazione è molto grande in confronto alla dimensione del campione, le

distribuzioni delle singole componenti del campione casuale sono approssimativamente indipendenti tra

loro. In questo caso, la varianza della media campionaria è uguale a: Var(X) = σ /n, la quale diminuisce

all’aumentare dell’ampiezza n del campione, ciò significa che più grande è il campione, meno dispersa è la

distribuzione campionaria. Lo scarto quadratico medio, o standard error di X, della media campionaria è

invece: σ = σ/rad(n). Nel caso in cui, l’ampiezza del campione non sia così piccola rispetto alla dimensione

X

della popolazione, sappiamo che la probabilità che un particolare elemento del campione sia la seconda

osservazione dipende dalla prima osservazione (questo perché ogni unità della popolazione non può essere

inclusa più di una volta in un campione). In questo caso la varianza è: Var(X) = (σ /n)((N – n)/(N – 1)),

dove (N – n)/(N – 1) è chiamato fattore di correlazione per popolazioni finite. Se si considera il caso in

cui la popolazione sia distribuita normalmente, allora avremo che anche la media campionaria seguirà una

distribuzione normale, e dunque possiamo standardizzarla ed usare la distribuzione Z per calcolare le

probabilità relative alla media campionaria: Z = (X – μ)/(σ/rad(n)). In conclusione, la probabilità che la

media campionaria differisca dalla media della popolazione per almeno una quantità prefissata, diminuisce

al crescere della dimensione del campione.

Il teorema del limite centrale afferma che la somma di un campione casuale, estratto da una popolazione

con una distribuzione qualsiasi, è approssimativamente distribuita come una normale, con media μ e

varianza nσ , purché l’ampiezza del campione sia abbastanza grande. Quindi, dato un insieme di n variabili

aleatorie, X , X , …, X , indipendenti e identicamente distribuite e date X e X, ovvero la loro somma e la

1 2 n

loro media, avremo che per il teorema del limite centrale, la distribuzione Z è approssimativamente normale

standard, al crescere di n: Z = (X – nμ)/rad(nσ ).

Ora consideriamo X come il numero di successi in un campione di n osservazioni estratte da una

popolazione bernoulliana con parametro p, il quale rappresenta la proporzione delle unità della popolazione

che possiedono la caratteristica oggetto di studio. Si definisce perciò proporzione campionaria il rapporto:

P = X/n. P è la media di n variabili indipendenti e identicamente distribuite. In una distribuzione binomiale,

sia il numero sia la proporzione dei successi seguono una distribuzione molto ben approssimata dalla

distribuzione normale, quando np(1 – p) > 9. Inoltre, la media della distribuzione di P coincide con la media

della popolazione: E(P) = p. La varianza di P è invece la varianza della popolazione bernoulliana divisa per

n: σ = (p(1 – p)/n). Nel caso in cui il campione ha un’ampiezza elevata, la variabile aleatoria, Z

P

= (P – p)/σP, è approssimativamente distribuita come una normale standard (l’approssimazione è buona se

np(1 – p) > 9).

CAPITOLO VIII – Problemi di stima su una singola popolazione

Ogni inferenza relativa a una popolazione è basata su statistiche campionarie, le quali sono scelte in base al

parametro considerato, il cui valore è ignoto e per questo oggetto di stima. Per comprendere il concetto di

stima, si deve prima introdurre quello di stimatore, il quale, per un parametro di una popolazione,

corrisponde ad una variabile aleatoria, funzione delle variabili campionarie: i suoi valori forniscono

approssimazioni per il parametro non noto. Ogni singolo valore di questa variabile aleatoria viene detto

stima. Un esempio di stimatore della media, è la media campionaria. Una stimatore puntuale per un

parametro della popolazione è una funzione delle variabili campionarie che determina un unico valore,

chiamato stima puntuale. Riprendendo l’esempio di prima, la media campionaria X è uno stimatore

puntuale della media della popolazione μ, e il valore che X assume in corrispondenza a una particolare

realizzazione campionaria viene detto stima puntuale, x. Per valutare gli stimatori, esistono tre proprietà:

1. non distorsione, uno stimatore puntuale θ viene definito stimatore non distorto (o corretto) per il

parametro della popolazione θ se il suo valore coincide con il parametro stesso: E(θ) = θ. Uno

stimatore non distorto è non distorto in media. Ripetendo la procedura di campionamento molte

volte, si otterrà che, in media, lo stimatore non distorto sarà uguale al parametro della popolazione.

Se uno stimatore è distorto, la distorsione è misurata dalla differenza tra la media dello stimatore e il

parametro da stimare: D(θ) = E(θ) – θ (nel caso di uno stimatore non distorto vale 0);

2. non distorsione asintotica, uno stimatore puntuale θ viene definito stimatore asintoticamente non

distorto per il parametro θ della popolazione, se la differenza tra il valore atteso dello stimatore e il

parametro da stimare diminuisce al crescere dell’ampiezza del campione. Dunque, all’aumentare

dell’ampiezza del campione, la distorsione diventa sempre più piccola. Tutti gli stimatori non distorti

sono asintoticamente non distorti, non è invece detto il contrario;

3. efficienza, se ci sono più stimatori non distorti per uno stesso parametro, si definisce stimatore più

efficiente quello che ha la varianza più piccola. Essendo θ e θ due stimatori non distorti del

1 2

parametro θ, si avrà che: θ è più efficiente se Var(θ ) < Var(θ ). L’efficienza relativa di θ rispetto a

1 1 2 1

θ è il rapporto tra le loro varianze: ER = Var(θ )/Var(θ ).

2 1 2

Il nostro obiettivo ora, è quello di trovare un intervallo di valori per stimare la media della popolazione. La

maggior precisione delle nostre informazioni sul parametro della popolazione è tale nelle stime per

intervallo. In questi casi infatti, campioni più grandi, determinano stime per intervallo più precise, riflettendo

così la minor incertezza sull’effettivo valore del parametro considerato. Supponiamo quindi di estrarre un

campione casuale dalla popolazione e che A e B siano due variabili aleatorie. Se indichiamo con a e b i

valori assunti A e B, l’intervallo a-b contiene o non contiene il parametro stimato. Continuando ad estrarre

ripetutamente dei campioni casuali, troveremo sempre più intervalli e, alla fine, il 95% di questi intervalli (o

un’altra percentuale qualsiasi) conterrà il valore incognito. Quindi, uno stimatore per intervallo per un

parametro di una popolazione è una funzione delle variabili campionarie: determina gli estremi di un

intervallo di valori che verosimilmente contiene il parametro da stimare. La stima corrispondente è detta

stima per intervallo. Sia θ un parametro incognito, si ottiene lo stimatore per intervallo a livello 1 – α per θ

se si possono determinare due variabili aleatorie A e B, A < B, tali che: P(A < θ < B) = 1 – α, con 0 < α < 1.

L’intervallo a-b, valori osservati per A e B, viene definito intervallo di confidenza a livello 100(1 – α)% per

il parametro θ. La quantità 100(1 – α)% è detta livello di confidenza dell’intervallo, in essa sarà contenuto il

vero valore del parametro θ.

Se x è il valore osservato della media campionaria, un intervallo di confidenza della popolazione con

varianza nota, a livello 100(1 – α)%, è dato da: x + ME, dove ME è il margine d’errore, ed è:

ME = z σ/rad(n); z prende il nome di fattore di affidabilità. L’ampiezza, W, è invece il doppio del

α/2 α/2

margine d’errore. Se il numero dei campioni è molto elevato, il 100(1 – α)% di questi intervalli conterrà

l’effettivo valore della media della popolazione. Per ridurre il margine d’errore dell’intervallo di confidenza,

vi sono diversi modi: si può ridurre la deviazione standard della popolazione, σ; si può aumentare

l’ampiezza del campione, in quanto, così facendo, si riduce la deviazione standard (aumentare l’ampiezza

del campione comporta però un aumento d

Dettagli

Publisher

alessandro.dimattia

A.A. 2017-2018

14 pagine

SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher alessandro.dimattia di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Firenze o del prof Grassini Laura.