Anteprima
Vedrai una selezione di 4 pagine su 11
Statistica: Formule e definizioni sulla parte di inferenza Pag. 1 Statistica: Formule e definizioni sulla parte di inferenza Pag. 2
Anteprima di 4 pagg. su 11.
Scarica il documento per vederlo tutto.
Statistica: Formule e definizioni sulla parte di inferenza Pag. 6
Anteprima di 4 pagg. su 11.
Scarica il documento per vederlo tutto.
Statistica: Formule e definizioni sulla parte di inferenza Pag. 11
1 su 11
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

COEFFICIENTE BINOMIALE

Spiegazione coefficiente binomiale:

Valori caratteristici: E(X) = np Var(X) = npq

La convergenza ad una normale dipende dalla situazione di partenza delle variabili casuali di cui ignoriamo la distribuzione di probabilità.

TEOREMA DEL LIMITE CENTRALE: anche se non conosciamo la distribuzione di probabilità della popolazione di riferimento e quindi delle n variabili casuali, la somma o la media di queste n variabili casuali può essere ricondotta ad una normale, purché le variabili siano i.i.d (indipendenti e identicamente distribuite) e abbiano media e varianza finita μ e σ. Per n > 30 l'approssimazione è empiricamente accettabile.

Se la distribuzione binomiale è simmetrica (p = q 0,5) la convergenza ad una normale è molto più rapida, non è necessario avere n (numero di prove) tanto grande affinché essa avvenga.

Invece se abbiamo una distribuzione binomiale con p e q molto prossimi a 0

o ad 1, la convergenza è molto più lunga, quindi n dovrà essere molto grande.

Come far convergere una binomiale ad una normale? Con il TEOREMA DE MOIVRE-LAPLACE, il quale discende direttamente dal teorema del limite centrale.

Il teorema di De Moivre-Laplace può essere applicato effettuando una verifica di fattibilità, ossia quando nped nq sono entrambi maggiori o uguali a 5. Nell'applicazione di questo teorema, essendo la binomiale una distribuzione discreta (la probabilità in un punto esiste), mentre la normale una distribuzione continua (la probabilità in un punto non esiste), quando si approssima una binomiale ad una normale la probabilità si avrà in un intorno del punto. Quindi considereremo X non in valore unico ma come un intervallo intorno ad X (X - 0,5; X + 0,5). Es: Z1= (X-0,5)- μ/σ ; Z2= (X+0,5) - μ/σ

Applicando il fattore di correzione - 0,5 e +0,5

Stimatori

VARIANZA CAMPIONARIA CORRETTA Sommatoria

dei quadrati delle variabili casuali scarto dalla media aritmetica, diviso n-1. Stimatore corretto e sufficiente della varianza della popolazione. Il valore atteso di 2 è proprio uguale a σ. 2S˄ = al numeratore abbiamo la devianza campionaria 2 oppure 2 2S˄ Xi – n(x̅ ) Xi ni – n(x̅)=PROPORZIONE CAMPIONARIA (frazione di successi in n prove) Dato un campione casuale estratto da una distribuzione di Bernoulli con parametro p (che rappresenta la probabilità di successo), lo stimatore proporzione campionaria è uguale alla somma delle variabili casuali Xi le quali possono assumere solo due valori 1 o 0 (successo o insuccesso), diviso le prove che noi effettuiamo. Rappresenta quindi la percentuale dei successi diviso il n di prove. E(f)= p Il valore atteso dello stimatore è uguale al parametro p che caratterizza la distribuzione di Bernoulli, quindi è uno stimatore corretto. La varianza di una distribuzione di Bernoulli è p(1-p).

Per stimarla utilizzeremo f(1-f), poiché lo stimatore proporzione campionaria è uno stimatore distorto della varianza di una popolazione di Bernoulli.

Proprietà degli stimatori:

  • Sufficienza: uno stimatore è detto sufficiente se raccoglie ed esaurisce tutte le informazioni riguardanti il parametro che vogliamo stimare contenute nel campione.
  • Correttezza: Lo stimatore in media fornisce una stima corretta, uguale al parametro incognito che si vuole stimare.
  • Efficienza: Attraverso l'EQM (errore quadratico medio) misuriamo la dispersione e la precisione dello stimatore attorno al parametro incognito. Quanto meno i valori si disperdono attorno al parametro incognito, quanto più preciso sarà lo stimatore. Quindi confrontando due stimatori si valuta quale ha l'EQM più piccolo. Se gli stimatori non sono distorti, si può anche confrontare la varianza al posto dell'EQM poiché, in questo caso, coinciderà con.

La varianza degli stimatori.

CONSISTENZA: Uno stimatore è detto consistente se, al crescere della dimensione campionaria, la dispersione dei valori intorno al parametro incognito diventa sempre più piccola.

INTERVALLI DI CONFIDENZA:

Intervallo di confidenza per la media di una popolazione normale, σ nota:

P = 1 - α

Conf (x̅ ± zα/2 * σ/ √n̅) = 1 - α

Questo procedimento è valido per gli intervalli di confidenza estratti da una popolazione normale con varianza finita e nota, ma lo stesso procedimento è valido qualsiasi sia la distribuzione della popolazione, anche se non fosse nota, per n > 30. Questo per il teorema del limite centrale per il quale qualunque sia la distribuzione di probabilità della popolazione di riferimento, se n è sufficientemente grande lo stimatore media campionaria, comunque si distribuisce come una normale.

Una volta estratto il campione, la x̅ diventa una stima e quindi è un

valore fisso, perché prima che estraggo il campione, lo stimatore media campionaria è una variabile casuale. Nel momento in cui estraggo il campione i due estremi dell'intervallo sono fissi e quello che varia è la media che devo stimare, che a seconda del suo valore potrebbe trovarsi o meno all'interno dell'intervallo costruito.

Stima ad intervalli è un intervallo di valori all'interno del quale può cadere il parametro incognito. Il suo vantaggio è che possiamo scegliere l'errore che siamo disposti a commettere, mentre con una stima puntuale l'errore non è possibile controllarlo.

Intervallo di confidenza per la media di una popolazione normale, σ non nota, n < 30:

Conf = 1- α

Conf (f ± zα/2 * f(1-f)/n) = 1- α/2 (oppure la sua radice quadrata)

Poiché la varianza non è nota ed n < 30 utilizziamo la varianza campionaria corretta S̅

Lo stimatore media campionaria

si distribuisce come una t-di student perché questa distribuzione avendo più area sotto le code e quindi c'è più probabilità. Il fatto di avere più area sotto le code ci è utile in situazioni di incertezza come questa dove la varianza non è nota, quindi ci permette di cautelarci di più. Nel caso in cui n > 30 anche se la varianza non è nota, potrei usare sia la T di Student (per n molto grande e mano a mano che i gradi di libertà aumentano), sia la distribuzione normale standardizzata. Intervallo di confidenza per la proporzione p utilizzando la distribuzione normale: E(f) = p Var(f) = p(1-p) Per n molto grande lo stimatore f si distribuisce come una normale con media p e varianza p(1-p). Stimato con: • All'aumentare della numerosità campionaria l'intervallo di confidenza diminuisce, perché quanto più è grande il campione, tanto minore è l'incertezza che ho. Ciòè giustificato dal punto di vista statistico poiché con un campione più grande ho più informazioni e si riduce la mia condizione di incertezza.
  • All'aumentare della varianza della popolazione di riferimento e del livello di fiducia che desidero, l'intervallo di confidenza aumenta. Questo perché maggiore è la varianza, tanto più la curva della distribuzione normale è bassa e quindi i valori si disperdono attorno alla media della popolazione e c'è maggiore incertezza; quindi, per avere uno stesso livello di fiducia l'intervallo tende a crescere.
  • Se aumenta il livello di fiducia (1-α = livello di fiducia*) che voglio, diminuisce l'errore che sono disposto a commettere (α = margine di errore), che sarà quindi spostato sempre più lungo le code della distribuzione sui percentili più lontani della distribuzione. Quindi quanto minore è l'errore α che
voglio commettere tanto più ampio sarà l'intervallo di confidenza. * 1-α è la fiducia che ho che il parametro incognito cada all'interno dell'intervallo. Si preferisce un intervallo simmetrico perché questo ci permette di avere un intervallo di valori intorno al parametro incognito (che vogliamo stimare) quanto più piccolo possibile. La sua ampiezza è data dall'estremo inferiore e dall'estremo superiore dell'intervallo. L'ampiezza dell'intervallo dipende dall'estremo superiore e inferiore, i quali dipendono a loro volta dalla varianza della popolazione, dalla numerosità del campione e dal livello di fiducia che si vuole. Il vantaggio dell'intervallo di confidenza è che mi permette di avere un intervallo di valori che mi garantisce un livello di fiducia tale che il parametro incognito della popolazione si trovi effettivamente dentro questo intervallo e che l'errore.che posso commettere è uguale alla probabilità sulle code.

DETERMINAZIONE DELLA NUMEROSITA CAMPIONARIA PER LA STIMA DELLA MEDIA

CAMPIONE CON REIMISSIONE

2 2 2σ /Z En= α/2 *CAMPIONE SENZA REIMISSIONE2 2σZ N*n= α/2 *2 2 2σ(N-1)*E + Z α/2 *

DETERMINAZIONE DELLA NUMEROSITA CAMPIONARIA PER LA STIMA DELLA PROPORZIONE

Dal momento in cui non ho p, se devo fissare una numerosità tale che mi assicuri un determinato errore campionario e un certo livello di fiducia, mi vado a mettere nella situazione di max incertezza, che è la ¼-½=1 varianza massima p*q = p (1-p) ͢

CAMPIONE CON REIMISSIONE

2Z p*qN = 2E

CAMPIONE SENZA REIMISSIONE

2Z p * q Nα/2n = 2 2(N-1)*E + Z p*qα/2

(E) errore campionario: è la differenza tra la stima e il corrispondente valore che si sarebbe ottenuto esaminando la totalità delle unità statistiche. Diminuisce in valore all’aumentare della numerosità campionaria.

ed è nullo quando il campione è composto dalla totalità delle unità della popolazione.(α) errore non campionario: viene fissato dallo statistico in funzione della precisione ricercata nella stima dei caratteri.VERIFICA D'IPOTESIÈ una regola che ci permette di decidere, sulla base delle osservazioni campionarie (con un certo grado di probabilità), se rifiutare o non rifiutare l'ipotesi formulata.α = ͢probabilità di commettere l'errore di specie rifiuto H quando questa è veraI 0β = ͢probabilità di commettere l'errore di specie non rifiuto HII quando è falsa0α = ͢1- probabilità di prendere la decisione corretta non rifiuto H che di fatto è vera0β = ͢1- probabilità di pr
Dettagli
Publisher
A.A. 2021-2022
11 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher D4rkchoco di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi della Campania "Luigi Vanvitelli" o del prof Camminatiello Ida.