Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
CAMPIONAMENTO E DISTRIBUZIONE CAMPIONARIE .
Capitolo 7
Il campione in statistica viene usato innanzitutto perché impiega poco tempo rispetto ad un’analisi fatta sulla popolazione
intera, è meno costoso e infine si ha comunque una precisione sufficientemente alta. Le caratteristiche sono:
- ogni unità della popolazione ha la stessa opportunità di essere scelta
- le unità sono scelte indipendentemente
- il campione casuale semplice è un metodo di paragone ed è facile prendere numeri casuali dalla popolazione
sul campione calcolo delle statistiche campionarie per definire dei parametri della popolazione (questi ultimi non sono
noti ma possono essere dedotti).
statistica inferenziale = trarre conclusioni e/o prendere decisioni riguardanti una popolazione sulla base dei risultati del
campione [ avviene attraverso stime e verifiche delle ipotesi ]
distribuzione campionaria= distribuzione di tutti i possibili valori di una statistica ottenuti da campioni della stessa
ampiezza estratti dalla popolazione .
Abbiamo 3 tipi di distribuzioni campionarie:
1. della media campionaria
2. della proporzione campionaria
3. della varianza campionaria
DISTRIBUZIONE DELLA MEDIA CAMPIONARIA
Sia data la dimensione della popolazione “N” e la variabile aleatoria X le misure di sintesi della distribuzione sono
media scarto q.m.
esempio:
data una popolazione N di 4 individui dove X rappresenta l’età che è 18,20,22,24 anni; la distribuzione è uniforme, la
probabilità per ciascun individuo in relazione all’età è ¼ ovvero 0,25. Applicando le formule troveremo che µ = 21
e σ = 2. 236 scelgo un campione
di due individui a la distribuzione non è
caso fra le 16 possibili più uniforme; qui la
combinazioni e ci media coincide con
calcolo le medie quella della
popolazione
MEDIA CAMPIONARIA
a differenza della media lo scarto quadratico medio è più piccolo rispetto allo scarto
quadratico medio della popolazione
nel momento in cui il mio campione è abbastanza ampio la distribuzione che avrò sarà di tipo gaussiano
dato il campione avremo
+ +...
1 2
valore atteso media campionaria scarto quadratico medio della media campionaria
rappresenta l’errore standard, l’errore standard della
media diminuisce all'aumentare della popolazione;
se prendo campioni piccoli avrò alta variabilità delle
faccio la media delle medie medie calcolate
Se la popolazione è normale anche la distribuzione della media campionaria di è NORMALE, e quindi
e la distribuzione sarà normale anche se non si parte per forza da una popolazione
normale
come si comporta “Z” in questi casi? andiamo a standardizzare la distribuzione delle medie campionarie; rispetto alla
standardizzazione che conosciamo di già varia il denominatore, avremo dunque
CORREZIONE PER POPOLAZIONI FINITE
Ci troviamo nei casi in cui il campione è PICCOLO, si usa nei casi in cui non ho reintroduzione e quando il campione
“n” è superiore al 5%
2
σ − −
() = dove rappresenta la correzione; essendo “n” grande rispetto a N è
−1 −1
come se andassi a correggere un errore
oppure σ −
σ = −1
(−µ)
=
la standardizzazione “Z” viene calcolata σ −
−1
In questa distribuzione possiamo dire che non è distorto in quanto corrisponde alla media della popolazione
Possiamo dire che calcolata la media su un campione essa sarà uguale alla media calcolata sulla popolazione
se avessimo la reintroduzione
nel nostro campionamento
la curva avrebbe questo aspetto;
⬇
inoltre se n↑
Anche se la popolazione di partenza non è normale ( o non è conosciuta) la media campionaria della popolazione sarà
approssimativamente normale purché l’ampiezza del campione sia abbastanza grande ( TEOREMA DEL LIMITE
CENTRALE) al crescere della dimensione del campione la distribuzione campionaria
diventa quasi normale indipendentemente dalla distribuzione della
popolazione il campione piccolo ha la stessa
distribuzione della popolazione
iniziale; per far valere il
teorema le osservazioni devono
campione piccolo campione grande almeno 25/30
es:
popolazione =8 = =
=3 n=36
σ
INTERVALLI DI ACCETTAZIONE
è un intervallo entro il quale verosimilmente rientrano le medie campionarie essendo a conoscenza della media e del
sigma della popolazione; attraverso questi intervalli voglio trovare quel valore che posto sull’asse delle x mi lascia a
destra un’area di /2 dove è l’area centrale
α α da posso trovare quella “Z” definita come tale che utilizzando questo dato
α
α/2
nella formula trovo l’intervallo dentro al quale la mia esiste
µ ± σ
α/2
con probabilità pari a 1-α
DISTRIBUZIONE DELLA PROPORZIONE CAMPIONARIA
si riferisce a quante unità del mio campione hanno una determinata
caratteristica che voglio studiare; rappresenta la proporzione della popolazione
ρ
che possiede la caratteristica oggetto di studio ( la sua rappresentazione è a barre); ρ
⟶
è un valore compreso tra 0 e 1 ( 0 1)
≤ ≤
Vado , dunque , a stimare nel campione n ,ottenendo quindi
ρ
dove X rappresenta il numero di unità che fanno parte del campione con quella caratteristica; X ha una
distribuzione BINOMIALE che possiamo approssimare a normale nel momento in cui (1 − ) > 9
le proprietà legate a questa distribuzione sono :
anche questo è uno stimatore non distorto, il valore atteso coincide con il parametro della popolazione
() = ρ
2 (1−)
σ = ( ) =
− −
Z= =
di conseguenza la standardizzazione sarà pari a σ (1−)
esempio:
p=0.40 (40%) n=200 P(0.40 ≤ ≤ 0.45)
(1−) 0.40(1−0.40)
σ = = = 0. 3464
200
( )
0.40−0.40 0.45−0.40
P(0.40 ≤ ≤ 0.45) = P
≤≤ = (0 ≤ ≤ 1. 44) = 0. 4251
0.3464 0.3464
la probabilità tra 0 e meno infinito è per definizione 0,5
DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA
Se ho un campione ci posso calcolare oltre alla media anche la varianza così da poter vedere come si distribuisce la
distribuzione di tutte le varianze
2 2
1 la differenza con la varianza della popolazione è il denominatore, anziché avere al denominatore
= ∑ ( − )
−1
=1
n abbiamo n-1 [ slide 44 per la dimostrazione]
⎡ ⎤
2 2 io voglio che questo sia uguale al parametro della popolazione e per fare questo
⎢ ⎥
∑ ( − ) = ( − 1)σ
⎢ ⎥
⎣ ⎦
=1
devo dividere per (n-1) se dividessi solo per n i due valori non coinciderebbero
2 2 2 2 2
1
)= =
( ( − 1)σ σ ( )= σ
−1 4
2 2σ
)=
( −1
nel caso in cui la popolazione non ha distribuzione normale allora si distribuisce come una "chi quadrato"
che ha un parametro chiamato “grado di libertà” ed è pari a n-1
questa si muove in base a quanto è grande n
se n-1=1 avremo un ramo di iperbole, aumentano il grado di libertà questa assomiglierà sempre di più a una normale
g.d.l.=1 g.d.l.=5 g.d.l.=15
i gradi di libertà sono il numero di osservazioni che possono variare dopo che la media campionaria è stata
calcolata; fissata la media posso far variare n-1 fattori tale che troverò sempre un ultimo valore che sommato agli altri
valori variabili e diviso per n mi ridà la media. Sulle tavole avrò in riga i gradi libertà e le probabilità sulle colonne
α
es:
2 2 è il mio limite superiore
σ ≤ 16
n=14
K è quel valore che posto sull’asse delle x mi lascia dalla sua destra a + il 5%
∞
2
2 (−1) 2
χ = χ = 22. 36 ( = 0.05 e 14-1=13 g.d.l)
α
2 13
σ ( )
2
2 2
(−1) (22.36)(16)
>K)= P
( > χ = 0. 05 = = 27. 52
16 (14−1)
13
STIMA DI UNA SINGOLA POPOLAZIONE .
capitolo 8
stimatore = lo stimatore di un parametro è una variabile aleatoria che dipende dal campione, il cui valore mi restituisce
un’approssimazione del valore che è sconosciuta; uno specifico valore della variabile aleatoria prende il nome di
µ
STIMA PUNTUALE. Posso creare un intervallo di confidenza nell’intorno di questi valori, la mia stima puntuale starà
fra un limite inferiore e un limite superiore che saranno determinati dal nostro livello di confidenza ; l’ampiezza
dell’intervallo è la differenza tra il limite superiore e il limite inferiore .
quando il valore atteso di coincide con il valore atteso del parametro allora è uno stimatore non distorto
θ è uno stimatore non distorto mentre
è distorto perché la sua media non coincide con il
parametro
DISTORSIONE E CONSISTENZA
Sia uno stimatore per la DISTORSIONE di è definita come la differenza tra la sua media e
θ θ θ θ
(θ ) = (θ ) − θ
La distorsione di uno stimatore non distorto è uguale a 0 [ come detto prima uno stimatore non è distorto se il suo
valore atteso coincide con quello della popolazione]. Per campioni sufficientemente grandi la mia distorsione sarà minima
Sia uno stimatore per , è uno stimatore CONSISTENTE per se la differenza tra il valore atteso di e
θ θ θ θ θ θ
diminuisce al crescere dell’ampiezza del campione
La consistenza è desiderata quando non si possono ottenere stimatori non distorti
EFFICIENZA
supponiamo che ci siano vari stimatori non distorti andrò a scegliere quello più efficiente o quello con varianza minima
(quanto varia il valore di da campione e campione ); quindi quello stimatore che, calcolato su più campioni, mi
θ
restituisce varianza minima questo mi dice che il mio stimatore non cambia molto tra un campione e l’altro dandomi
risultati molto simili
è più efficiente di s