Appunti completi statistica inferenziale

Appunti presi durante le lezioni. In questo documento troverete:Statistica inferenziale: definizioni e concetti base, probabilità e variabili aleatorie ● distribuzione binomiale ● …

Esame statistica per la ricerca sperimentale e la tecnologia

Facoltà Medicina e chirurgia

Dal corso del Prof. Agosto Arianna

Università Università degli Studi di Pavia

Publisher g.mar01

A.A. 2020-2021

39 pagine

1 download

Appunto

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

La dimensione campionaria e la precisione delle stime

Xpopolazione (valore atteso o media di X, o μ) che vogliamo stimare.E( )= E(X)X 2σLa varianza della variabile aleatoria media campionaria è VAR( =X X) nDove σ è la deviazione standard della popolazione di partenza (quindi della variabilealeatoria X).La varianza è inversamente proporzionale alla dimensione campionaria (n), quindi, nelmomento in cui quest’ultima risulta molto ridotta, la varianza della media campionaria saràmolto alta, e di conseguenza, la stima molto variabile, e poco precisa.All’aumentare, invece della dimensione campionaria (n), la varianza della mediacampionaria si ridurrà, e la stima sarà poco variabile, e più precisa.Possiamo quindi dire che: LA DIMENSIONE CAMPIONARIA INCIDE SULLA PRECISIONEDELLE STIMEPer esprimere la precisione di uno stimatore, solitamente si utilizza la deviazione standard,σ .ovvero la radice quadrata della varianza, che sarà= n√Viene spesso

standard come segue: Errore standard è definito come la deviazione standard della media campionaria; fornisce una misura della precisione con cui stimiamo la media di popolazione, poiché se la variabilità della media campionaria è molto elevata, la stima sarà molto variabile, e quindi avremo una maggiore incertezza. Nella realtà, però, la formula sopracitata non sarebbe applicabile, in quanto non è noto il valore di sigma (e quindi di σ), in quanto è un parametro ignoto della popolazione; perciò si utilizza un altro stimatore, che è la sua versione campionaria, ovvero la varianza campionaria (s^2). Con questa formula stimiamo la varianza campionaria come segue: s^2 = (∑(x_i - x̄)^2) / (n - 1) A questo punto, si sostituisce s nella formula √(s^2/n), e in questo modo possiamo calcolare l'errore standard.standard della media campionaria .s(standard error) se= n√Quando si ha una dimensione campionaria sufficientemente grande**, la distribuzione dellamedia campionaria ha la forma di una distribuzione normale, che ha media( ) pari allaμmedia di popolazione, e varianza pari al rapporto tra varianza di popolazione e dimensionecampionaria (n).**non necessariamente la variabile di partenza x è una distribuzione continua normale, equindi la distribuzione normale che abbiamo citato sopra, diventa un approssimazione;quando la variabile x è parecchio lontana dalla distribuzione normale, affinchè questaapprossimazione funzioni bene, sarà necessario avere un campione di dimensioni maggiori.A livello operativo, viene fissata una soglia per distinguere piccoli e grandi campioni: quandoquesti hanno dimensione inferiore a 30 sono considerati piccoli.Quando n è maggiore o uguale a 30, si può applicare il teorema centrale del limite , equindi

Utilizzare la distribuzione normale sopracitata.

Secondo il teorema centrale del limite: si ha una distribuzione della media campionaria, che per grandi campioni è normale, anche quando stiamo considerando una popolazione non normale.

Nel momento in cui il campione è inferiore a 30, la distribuzione della media campionaria non sarà più normale.

In realtà si ha già una stima per la media di popolazione, in quanto la media campionaria è un corretto stimatore di questa; poiché in media, il valore che calcoliamo per la media campionaria sarà uguale alla media di popolazione, con una certa variabilità. Quindi, nel momento in cui si utilizza la media calcolata sul campione per stimare la media di popolazione, si sta effettuando una stima puntuale.

Generalmente, però, in statistica non si effettua, poiché la media campionaria è un valore che si avvicina alla media di popolazione, ma non è propriamente uguale.

E inoltre, perché nel momento in cui si effettua inferenza statistica, è buono saper quantificare l'incertezza delle nostre stime. Per questi motivi, si preferisce la stima intervallare, ovvero, anziché calcolare un unico valore puntuale per la media di popolazione, si calcola un intervallo entro il quale verosimilmente la media di popolazione sarà contenuta. L'errore standard viene utilizzato per misurare la lunghezza di tale intervallo, in quanto fornisce una misura dell'incertezza legata alla mia stima.

Definire un intervallo di confidenza per la media, significa definire 2 valori entro i quali ci si aspetta che si collochi una percentuale molto alta (in genere 95%) delle possibili medie campionarie. Per un campione sufficientemente grande, ci si aspetta che circa il 95% delle possibili medie campionarie si collochi entro un intervallo, che è definito entro 1.96 volte l'errore standard, della media di popolazione:

- 1.96 se e + 1.96 se sono i limiti di confidenza al 95%.x × x ×Ogni valore compreso in questi limiti, forma l'intervallo di confidenza al 95%, questo significa che, con un livello di confidenza del 95% la media della popolazione si collocherà entro questo intervallo, definito rispetto alla media campionaria che abbiamo calcolato.1.96 è il percentile della distribuzione normale standard che ci permette di associare ai valori più estremi di questo, una probabilità del 5%Viene utilizzato anche l'intervallo di confidenza al 99%, in cui i limiti sono:- 2.58 se e + 2.58 se sono i limiti di confidenza al 99%x × x ×Nella distribuzione normale standard il valore 2.58 è quello che ci permette di associare ai valori più estremi di questo, la probabilità dell'1%.In questo caso, la probabilità che la media di popolazione sia al di fuori di questo intervallo che abbiamo finito, è

dell'1%. Nel momento in cui si allarga l'intervallo di confidenza, la stima diventa più alta (e più imprecisa), in quanto si avranno due estremi più lontani. Quando si ha a che fare con campioni piccoli (n<30) non è possibile approssimare la distribuzione della media campionaria con una distribuzione normale standard.

Si può calcolare comunque un intervallo di confidenza per la media campionaria, ma in questo caso è necessario che sia verificata l'ipotesi che il fenomeno oggetto di analisi, nella popolazione, abbia distribuzione normale.

In questo caso, lo scostamento standardizzato della media campionaria NON ha una distribuzione normale standard, ma una distribuzione nota come "t di Student".

La variabile aleatoria t di Student è una variabile aleatoria continua, con distribuzione simile a quella normale, con la stessa forma a campana. La sua distribuzione ha valore atteso (media)=0= mediana, come la

La distribuzione normale standard; la differenza consiste nella presenza di un parametro aggiuntivo che la definisce, ovvero i gradi di libertà. Che possiamo interpretare come la quantità di informazioni a disposizione, in quanto aumentano all'aumentare del numero di osservazioni.

Lo scostamento standardizzato della media campionaria si distribuisce come una t di Student che ha n - 1 gradi di libertà (dove n è il numero di osservazioni).

Quindi la forma della campana varia in base ai gradi di libertà. All'aumentare dei gradi di libertà, via via, la t di Student è sempre più vicina a una normale standard, quindi la sua funzione di densità si approssima sempre più a quella della normale standard.

Per calcolare l'intervallo di confidenza, in questo caso, non potremo utilizzare il valore 1.96, in quanto ora dobbiamo trovare un percentile corrispondente in una variabile t(n-1) ovvero della t di Student con n-1 gradi di libertà.

Non esiste un valore unico, in quanto in base al numero di osservazioni n, quindi dei gradi di libertà, questo valore sarà diverso. La probabilità associata alle code (quindi ai numeri più estremi) è maggiore nella t di Student, rispetto alla distribuzione normale standard. Come calcolare il valore sostitutivo di 1.96, che ci sarà utile per calcolare l'intervallo di confidenza al 95% per la media campionaria. Esiste una tavola per la distribuzione t di Student, nella quale, per un certo valore di gradi di libertà, vengono indicati dei valori in corrispondenza dei quali andiamo a definire la probabilità di avere numeri superiori a quello (e quindi più estremi). Quando ci troviamo di fronte a campioni piccoli, e nell'ipotesi in cui la variabile di popolazione sia una normale (X ~ N(μ, σ)), per calcolare i limiti dell'intervallo di confidenza μ ± σ al 95%: st · Estremo inferiore: -X 2.5% n√st

Estremo superiore: +X 2.5% √s t
Dove è l'errore standard della media campionaria; e è il percentile 97.5 della distribuzione t di Student con n-1 gradi di libertà, che è quel valore della distribuzione t di Student con n-1 gradi di libertà tale per cui la probabilità di avere valori maggiori di o minori di - (valori più estremi) è il 5%; e quindi alla destra e alla sinistra di questo valore si avrà una probabilità del 2.5%.
La distribuzione della frequenza relativa campionaria.
Spesso in ambito medico, è utile lavorare con le proporzioni (o frequenze relative) di un fenomeno in una popolazione.
Per calcolare la frequenza relativa di una certa caratteristica nella popolazione, abbiamo bisogno dello stimatore che sia corretto, ovvero che la sua media si pari al valore della popolazione. Quando la dimensione campionaria n è sufficientemente grande ( ) la frequenza

100relativa campionaria R/n ha media (valore atteso)=frequenza relativa di popolazione ; ed è quindi uno stimatore corretto della frequenza relativa di popolazione .ρE=E(R/n)= ρLa precisione di questo stimatore (varianza) è calcolabile nel seguente modo:ρ(1-ρ)R( )VAR =n nCome abbiamo già visto, però si preferisce calcolare la precisione di uno stimatore facendoriferimento alla deviazione standard, che errore standard ( se) dello stimatore stesso, chesarà la radice quadrata della varianza indicata sopra. Ma siccome non è noto, poiché èρu

Anteprima

Vedrai una selezione di 9 pagine su 39