Estratto del documento

STATISTICA APPLICATA 2019-2020 1°SEMESTRE

STATISTICA APPLICATA

Campione casuale (o probabilistico)

Tutte le unità hanno una probabilità non nulla di entrare a far parte del campione.

In questo modo si ha la garanzia che le osservazioni riproducono il comportamento della

variabile x.

Ripasso →

Probabilità si occupa di fenomeni aleatori, ossia fenomeni per i quali il risultato

dell’esperimento non è sicuro. Condizione di incertezza → più modalità di realizzazione.

Esperimento aleatorio risultati casuali; manifestazioni di un esperimento = Eventi

Probabilità = misura del manifestarsi di un evento.

Eventi elementari = risultati del fenomeno aleatorio

Eventi generici = insieme o famiglie di eventi elementari

Classi di eventi = insiemi di eventi ottenuti con operazioni algebriche su altri eventi

l’evento certo o spazio degli eventi

Eventi particolari = evento impossibile (insieme vuoto) e

elementari (omega). →

Funzione di probabilità assiomi del calcolo (vd. Appunti statistica)

Regole: probabilità dell’unione; della differenza; del complementare; dell’evento impossibile.

0≤P(A)≤1. →

Legge di probabilità per ogni evento elementare: Pi = 1/n casi favorevoli / casi possibili

(∩)

(|) =

Evento condizionato; probabilità condizionata: ()

→ (|) = () (|) = ()

2 eventi stocasticamente indipendenti quando e

Se gli eventi sono disgiunti la probabilità della loro intersezione è nulla, mentre se sono

indipendenti è uguale al prodotto delle probabilità marginali. ‘con’ →

Estrazione con o senza reimmissione [con o senza reinserimento]: eventi

indipendenti; ‘senza’ → gli eventi dipendono dalla estrazione precedente.

Variabile casuale: X è una funzione che associa ad ogni evento elementare dello spazio

campionario omega uno ed uno solo numero reale.

Funzione di probabilità / funzione di densità domandine in esame (vd. Pacchetto slide 2.)

Funzione di ripartizione:

Proprietà: 1) monotona non decrescente; 2) continua da destra [nel caso discreto, a gradini,

significa prendere il valore più alto, perché si arriva da destra]; 3) limiti:

Talvolta si scrive E(X), ma è uguale a M(X).

STATISTICA APPLICATA 2019-2020 1°SEMESTRE

Variabili casuali discrete:

V.C. UNIFORME X~U(n)

1) V.C. BINOMIALE X~Bin(n,p)

2)

esperimento: soli 2 possibili risultati (dicotomico): - 1° tipo = successo (S) - 2° tipo

= insuccesso (I) dei quali si conosce la probabilità di realizzazione. P(successo) = p;

P(insuccesso) = 1-p=q. n estrazioni con reimmissione (indipendenti)

Il coefficiente binomiale conta ‘i casi diversi’. Se n è pari unimodale; n è dispari

→ →

bimodale. [supporto n+1 perché parte da 0]

V.C. IPERGEOMETRICA X~Ig(N,M,n)

3)

esperimento: stesse ipotesi della binomiale; N elementi di cui: M successi (N-M)

insuccessi. n estrazioni senza reimmissione (dipendenti). I parametri (N,M,n) della ipergeometrica

rappresentano rispettivamente il numero totale di palline nell’urna (N), il numero di palline del colore

che considero un successo (M) e il numero di estrazioni (n) che effettuo senza reimmissione.

N su n rappresenta tutti i casi possibili; i modi in cui possono uscire le palline. Il numeratore

rappresenta i casi favorevoli. La varianza nell’ipergeometrica è sempre più bassa della binomiale.

STATISTICA APPLICATA 2019-2020 1°SEMESTRE

Variabili Casuali continue:

V.C. RETTANGOLARE X~R(a,b)

1) V.C. NORMALE X~N(μ,σ )

2

2) TAVOLE DELLA N(0,1)

2

~(, ) ( − 3 ≤ ≤ + 3) = 0.997

Si dimostra che (−3 ≤ ≤ 3) = 0.997

tavole perché ‘non coprono’ le possibilità.

Solo nello 0.3% dei casi non si possono usare le

Variabili casuali continue ottenute da particolari trasformazioni della Normale:

1) Somma dei quadrati di n Normali standardizzate indipendenti:

STATISTICA APPLICATA 2019-2020 1°SEMESTRE

2) ; ;

;

3) ; ;

STATISTICA APPLICATA 2019-2020 1°SEMESTRE

TEOREMA DEL LIMITE CENTRALE

…,X

Siano X , X , n v.c.

1 2 n

- Indipendenti

- Identicamente distribuite (cioè caratterizzate dalla stessa distribuzione di probabilità) con

=…=µ σ σ σ σ

21 22 2n 2

stessa media µ =µ =µ e stessa varianza = =…= = .

1 2 n

+…+X σ 2

La loro somma T =X +X ha media M(T )=n µ e varianza var(T )=n .

n 1 2 n n n

( + ) = () + () + 2()

() = 0 ; .

→ →

Indipendenza stocastica indipendenza in media indipendenza lineare.

Se x e y sono v.c. indipendenti COV (XY) = 0

+…+X

T =X +X

n 1 2 n 2

) ) ) ) )

( = ( + + ⋯ + = ( + ( + ⋯ + ( = ×

1 2 1 2

- Per n sufficientemente grande, ad es. (n>100), la distribuzione Binomiale Bin(n,p) può

essere approssimata con N(np,npq). Perché?

Inferenza statistica

Insieme di metodi e tecniche per generalizzare i risultati ottenuti su un campione alla

l’incertezza insita nel

popolazione. Si utilizza il calcolo delle probabilità per quantificare

procedimento.

Esempi: Potremmo ad esempio voler conoscere (tra parentesi la popolazione di riferimento)

− reddito medio (abitanti della regione Lombardia)

− percentuale (%) di individui soddisfatti dei servizi offerti dalla Sanità (utilizzatori dei

servizi sanitari i Lombardia)

− percentuale (%) di utilizzatori di Internet (tra gli italiani > 20 anni)

− durata media delle vacanze dei giovani italiani (italiani tra 18-29 anni)

− peso medio dei fustini di detersivo prodotti da azienda (produzione giornaliera)

− percentuale (%) di italiani maggiorenni favorevoli alla stepchild adoption (italiani maggiori

di 18 anni).

Ciò che è oggetto di stima è generalmente un indicatore di sintesi (di posizione, di variabilità)

STATISTICA APPLICATA 2019-2020 1°SEMESTRE

Generalmente l’inferenza riguarda una caratteristica incognita di una popolazione chiamata

PARAMETRO.

Ad es. sono parametri: la media (del reddito); la percentuale di individui soddisfatti dei servizi

sanitari. (Il parametro può essere un vettore di dimensione finita) ϑ “teta”

Convenzionalmente il generico parametro viene indicato con la lettera greca (che

Θ).

può assumere valori in un insieme

Attraverso le procedure dell’inferenza statistica si può rispondere alle seguenti domande:

l’informazione presente nel

A queste domande cercheremo di rispondere utilizzando

,…,x

campione osservato: x = (x ,x ).

1 2 n

Stima dei parametri: è il procedimento attraverso il quale dal campione estratto si ricavano

ϑ.

informazioni per assegnare al parametro

• un solo valore (STIMA PUNTUALE)

• oppure un insieme di valori (STIMA INTERVALLARE).

l’attendibilità della stima (e più in generale dell’inferenza) occorre che le

Per quantificare ,…,x

osservazioni x = (x , x ) costituiscano una realizzazione di un CAMPIONE CASUALE

1 2 n

estratto dalla popolazione di riferimento.

Nel seguito faremo riferimento al campionamento da una variabile casuale, che quindi è

assimilabile a quello di una popolazione infinita. Vedremo più avanti le nozioni di base del

campionamento da popolazione finita.

Campione casuale:

➔ →

da popolazione finita shot; grappoli; due stadi; sistematica.

➔ da popolazione infinita = da var. casuale

STATISTICA APPLICATA 2019-2020 1°SEMESTRE

CAMPIONAMENTO CASUALE DA UNA VARIABILE CASUALE X

Questo significa che se io generassi k campioni di dimensione n dalla v.c. X, ad ogni

estrazione osserverei una realizzazione campionaria diversa da quella ottenuta

precedentemente, ma, per le modalità di estrazione casuale, posso assumere che, per ogni

realizzazione campionaria, la generica prima componente rappresenti una realizzazione

della v.c. X, la seconda componente rappresenti una realizzazione della v.c. X, e così via,

fino all’ultima componente del campione.

STATISTICA APPLICATA 2019-2020 1°SEMESTRE

un’ipotesi sulla v.c. (popolazione)

Per stimare i parametri della popolazione o per verificare

si usano i dati campionari: generalmente si usa una funzione del campione (medie,

percentuali, ecc.), detta STATISTICA CAMPIONARIA O STIMATORE.

Esempi:

− la media aritmetica calcolata sui dati del campione è una statistica campionaria (media

campionaria);

− una proporzione calcolata sui dati del campione è una statistica campionaria

(proporzione campionaria);

− la varianza calcolata sui dati del campione è una statistica campionaria (varianza

campionaria). casuali, è anch’essa una variabile

Una statistica campionaria, essendo funzione di variabili

casuale! Naturalmente, quando la statistica campionaria è calcolata sulla realizzazione

campionaria diventa un numero!

La statistica campionaria, essendo una v.c., ammette una distribuzione di probabilità,

chiamata Distribuzione Campionaria

• una statistica utilizzata per stimare un parametro di una popolazione è chiamata più

precisamente:

Proprio in virtù della casualità del campione, noi possiamo conoscere la distribuzione di

probabilità (o di densità di probabilità) della v.c. stimatore T e dunque, attraverso opportune

tecniche probabilistiche, siamo in grado di valutare il grado di precisione delle stime.

PRECISIONE: quanto il valore della «stima» dedotto sulla base della realizzazione

campionaria osservata si discosta dal valore del parametro nella popolazione (valore vero

incognito). Parametro popolazione = stima ± errore campionario

Quanto il valore stimato sarà preciso? Sarà distante dal vero ma incognito valore della

media µ? Siamo in grado di quantificare «la precisione» dello stimatore utilizzando la

distribuzione (di densità) campionaria della v.c. stimatore, nota a seguito del ccs.

STATISTICA APPLICATA 2019-2020 1°SEMESTRE

Stimatori particolarmente rilevanti sono:

Di questi ora vedremo la definizione e le proprietà.

STIMATORE MEDIA CAMPIONARIA

,…,X

Sia (X ,X ) un ccs di dimensione n dalla v.c. X che ha media M(X) e varianza V(X)

1 2 n

incognite. Lo stimatore MEDIA CAMPIONARIA è definito come:

La corrispondente stima si indica con:

Esempio:

Si consideri un’urna che contiene N=3 palline con i seguenti numeri

{3,5,7}. nell’urna sono: μ=5

Ne consegue che la media e la varianza dei valori riportati sulle palline

e σ 2 = 8/3 =2.67. dell’urna e di volerne

Consideriamo ora di non conoscere i numeri impressi sulle palline

stimare la media estraendo un campione CON REIMMISSIONE di dimensione n=2.

Se costruiamo la distribuzione di frequenza della media «campionaria» tenendo conto di

reimmissione dall’urna otteniamo:

tutti i possibili risultati di estrazione con

CONCLUSIONE: La media campionaria coincide solo per il 33,33% delle volte con la media

«vera» della popolazione. Nel restante 66,66% la media campionaria sovrastima (33.33%)

o sottostima (33.33%) il vero valore della media della popolazione. Ma allora cosa possiamo

dire osservando SOLO un campione? ̅

Dalla distribuzione dei possibili valori assumibile dalla possiamo calcolarne la sua media

e la sua varianza. STATISTICA APPLICATA 2019-2020 1°SEMESTRE

COSA POSSIAMO OSSERVARE?

Se si tiene conto di tutti i possibili risultati ottenibili estraendo campioni di numerosità 2

dall’urna, si verifica che la media dei valori riportati sulle palline ha una distribuzione che:

− In media è uguale al vero valore della media delle palline dell’urna

− Ha una varianza che è pari alla metà della varianza nella popolazione

Facciamo un altro esempio aiutandoci con Excel

Si consideri un’urna che contiene N=5 palline numerate da 1 a 5: {1, 2, 3, 4, 5}.

dell’urna sono: μ=3 e

In questo caso la media e la varianza dei valori riportati sulle palline

σ 2 = 2. Consideriamo ora di estrarre un campione CON REIMMISSIONE di dimensione n=3.

Non possiamo fare uno schema come prima, perché il numero di modi diversi in cui

n 3

possiamo estrarre il campione è molto alto: sono N =5 =125.

Cosa possiamo dedurre?

Estraendo CON REIMMISSIONE un unico campione dall’urna, noi osserviamo un valore

della media che non necessariamente coincide con il vero e incognito valore della media

Se l’estrazione però avviene in modo casuale si verifica che:

nella popolazione. della media μ e

1) «in media» il valore che stimiamo è uguale al vero e incognito valore

(PROPRIETA’ DI CORRETTEZZA o

NON sarà sistematicamente più alto o più basso

NON DISTORSIONE).

2) La variabilità intorno al vero e incognito valore risulta pari alla varianza nella popolazione

divisa per la numerosità del campione. Dunque, data la varianza, più numeroso è il

campione, minore sarà la variabilità e meglio potremo stimare il vero ma incognito valore.

STATISTICA APPLICATA 2019-2020 1°SEMESTRE

Se non si hanno informazioni sulla distribuzione della v.c. X della popolazione da cui il

campione è stato estratto, grazie al Teorema del Limite Centrale - che vale per la somma di

v.c. indipendenti e identicamente distribuite possiamo, almeno approssimativamente

̅

affermare che per n→ si distribuisce come una N(M(X), V(X)/n).

Di conseguenza la media campionaria standardizzata:

si distribuirà come una N(0,1).

Attenzione: il risultato vale solo asintoticamente. A parità di altre condizioni,

l’approssimazione è tanto migliore quanto più alto è n. È possibile approssimare alla

normale per valori di n>100. Se n < 100 si distribuisce come normale solo se la X da cui

campiono è una normale

AGGIUNGERE APPUNTO SUL FOGLIO: VARIANZA E MEDIA CAMPIONARIA

STATISTICA APPLICATA 2019-2020 1°SEMESTRE

STIMATORE VARIANZA CAMPIONARIA

GUARDO APPUNTO SUL FOGLIO

Un altro stimatore della varianza, il cui utilizzo vi sarà chiaro dopo che introdurremo le

proprietà degli stimatori, è il seguente:

STATISTICA APPLICATA 2019-2020 1°SEMESTRE

Stimatore FRAZIONE (O PROPORZIONE) CAMPIONARIA

Lo stimatore FRAZIONE CAMPIONARIA è definito come:

dove r è il numero di unità nel campione che possiede la caratteristica

oggetto di interesse. La n è la dimensione del campione.

La corrispondente stima si indica con p:

PROPRIETA’ DEGLI STIMATORI ,…,X ϑ.

Generalmente si danno più stimatori T= h(X ,X ) per lo stesso parametro

1 2 n

Come scegliere tra stimatori?

La scelta è resa più semplice se possiamo confrontare gli stimatori in base a buone

proprietà. Tra queste si segnalano:

➢ CORRETTEZZA o NON DISTORSIONE: La media dello stimatore coincide con il

parametro da stimare. (Se la proprietà vale sole asintoticamente, ossia per n→∞ , si

parla di correttezza asintotica) STATISTICA APPLICATA 2019-2020 1°SEMESTRE

➢ EFFICIENZA: Riguarda il confronto tra due stimatori T e T . Intuitivamente T è più

1 2 1

efficiente di T se, in un senso da precisare (vedi slides successive), T è più accurato

2 1

ϑ.

di T , per la stima del parametro

2

Per valutare l’accuratezza di T nello stimare θ possiamo usare l’errore quadratico medio

(mean square error) dato dalla quantità:

Nella figura sono riportate le distribuzioni campionarie di due stimatori corretti. Lo

stimatore T1 possiede un errore quadratico medio (ossia una varianza) più piccolo di T2.

STATISTICA APPLICATA 2019-2020 1°SEMESTRE

➢ CONSISTENZA: Aumentando la dimensione campionaria la distribuzione dello

ϑ; così che, per “n molto

stimatore tende a concentrarsi sempre più intorno al valore di

grande”, è praticamente “certo” che ϑ.

lo stimatore coincida con

θ, dove l’indice n indica la

Lo stimatore T di un parametro dipendenza dello stimatore

n

dalla numerosità campionaria, è uno stimatore consistente se:

cioè se, aumentando la dimensione campionaria la distribuzione di T tende a

n

ϑ, tanto che per “n molto grande” sarà

concentrarsi sempre più intorno al valore vero di

praticamente “certo” che la ϑ.

stima coincide con

Teorema

Condizione sufficiente per la consistenza è che valgano le due condizioni seguenti:

o equivalentemente che valga la seguente condizione:

SIGNIFICATO DELLE CONDIZIONI

1) T sia almeno asintoticamente corretto (a maggior ragione se corretto)

n tende a 0 al divergere di n (all’aumentare della numerosità

2) la varianza di T n

campionaria).

Attenzione

Il teorema dà solo una condizione sufficiente, non necessaria. Ciò significa che:

Se valgono le condizioni 1) +2) (o la 3)) si può affermare che lo stimatore è consistente.

Ma, se NON valgono le condizioni 1) +2) (o la 3)) NON si può concludere che lo stimatore

non è consistente.

Come fare in questo caso? mostrare che, all’aumentare

Bisogna ricorrere alla definizione

Anteprima
Vedrai una selezione di 10 pagine su 90
Appunti completi di Statistica Applicata Pag. 1 Appunti completi di Statistica Applicata Pag. 2
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti completi di Statistica Applicata Pag. 6
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti completi di Statistica Applicata Pag. 11
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti completi di Statistica Applicata Pag. 16
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti completi di Statistica Applicata Pag. 21
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti completi di Statistica Applicata Pag. 26
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti completi di Statistica Applicata Pag. 31
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti completi di Statistica Applicata Pag. 36
Anteprima di 10 pagg. su 90.
Scarica il documento per vederlo tutto.
Appunti completi di Statistica Applicata Pag. 41
1 su 90
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Gandalf_il_grigio di informazioni apprese con la frequenza delle lezioni di Statistica applicata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Cattolica del "Sacro Cuore" o del prof Deldossi Laura.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community