Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
FORMA DELLA DISTRIBUZIONE CAMPIONARIA di
Il fatto che la distribuzione abbia approssimativamente campanulare o gaussiana, non è un caso, infatti si
hanno due risultati:
se la distribuzione della quale è stratto il campione è gaussiana (popoalzione ha una distribuzione
→ ̅
normale) ha distribuzione gaussiana
se la popolazione non ha una distribuzione normale: si applica il TEOREMA DEL LIMITE CENTRALE: in
generale, anche se la distribuzione della relazione non è gaussiana (ma da una rettangolare), la
̅
distribuzione di è approssimativamente gaussiana, ed è tanto più prossima alla gaussiana quanto più
elevato è n, dimensione del campione →
̅
Valore pratico della distribuzione campionario di CALCOLO PROBABILISTICO SULL’ERRORE NELLA STIMA
= 220; = 2
es. polpette per hamburger n=10 ; (|̅ − | > 1) =?
errore di probabilità di sbagliarmi di più di 1g dalla media =
2
= 220 = = 0,63
,
̅ ̅ √10 +1−
(|̅ > + 1|) = 1 − (|̅ ≤ + 1|) = 1 − ( ≤ ) =1−
0,63
1
( ≤ ) = 1 − ( ≤ 1,58) = 1 − Φ(1,58) = 1 − 0,943 ≅ ,
0,63 → (|̅ − | > 1) = 2 ∗ 0,057 = 0,114
è la probabilità su una coda ,
nota: questo calcolo non dipende da ossia, la probabilità di errore dipende solo da e
RELAZIONE TRA DISTRIBUZIONE CAMPIONARIA E n
→
= se aumenta n (dimensione campione) la deviazione standard (“errore standard della media”)
̅
√
diminuisce (curva diventa più stretta e più alta)→un campione più
grande fornisce una maggiore probabilità che la media sia compresa
→
entro una specifica distanza dalla media di popolazione i flessi si
<
avvicinano a = (probabilità si addensa attorno alla media)
1 2
→ ̅
la probabilità che si allontani da più di diminuisce se n aumenta
2
(|̅ − | > 1)? = = 2,74
es. n= 30 ̅ √30 →
(|̅ − | > 1) = ⋯ = 1 − Φ(2,74) = 1 − 0,997 ≅ 0,003 (|̅ − | > 1) = 0,006
oss. siamo passati da 0,114 (n=10) a 0,006 (n=30)
8.1 DISTRIBUZIONE STIMA DI FREQUENZA
̅
DISTRIBUZIONE CAMPIONARIA DI
̅ = è la proporzione campionaria (o frequenza campionaria) della popolazione p
̅
:
distribuzione campionaria di è la distribuzione di probabilità di tutti i valori possibili della proporzione
̅
campionaria
es.: una con una %: p di palline rosse, p incognita. 3
̅ ̅ = = 0,3
si estraggano n=10 palline, di cui 3 rosse. stima p. In questo caso 10
̅ ̅.
̅
riconduciamo lo studio delle caratteristiche probabilistiche di , ai risultati ottenuti su (perché è un caso
̅
particolare di )
OSS. in questo contesto, ogni singolo elemento campionario può essere visto come successo/insuccesso:
pallina rossa/non rossa, in processo produttivo prodotto fallato/non fallato, in un sondaggio votante
→
X/votante non X in termini numerici, ogni elemento è 1/0: 1 successo; 0 insuccesso
∈ {, }, = …
allora: continuammo a definire con il generico elemento campionario, ove e
∑
=
=
∑ ̅=
= , =
quindi, da cui
. (è una media campionaria)
pertanto, valgono i risultati trovati in precedenza:
]
[̅ =
1) √(1−)
= =
2) (campionamento da punto % o da popolazioni infinite)
̅ √ √ ̅ ≥30)
3) forma distributiva di , approssimativamente gaussiana (si fa meglio quanto più n è elevato:
̅ ≥ 5
la distribuzione campionaria di può essere approssimata da una distribuzione normale quando
(1 − ) ≥ 5
e
es. urna, con % di palline rosse p=1/2. supponiamo di non conoscere p, e di estrarre, con rimessa, palline, e
̅ . (|̅ − | > 0,1)?
calcolare calcoliamo la probabilità di sbagliare, nella stima, di più di 0,1. ossia:
{0,
̅ ∈ 0.1, 0.2, … , 0.7, 0.8, 0.9, 1} (|̅ − | > 0,1) = (̅ < 0,4 ∪ ̅ > 0,6)
poiché n=10, e quindi
= (̅ ≤ 0,3 ∪ ̅ ≥ 0,7) … 4 + 4
= 1 − (0,4 ≤ ̅ ≤ 0,6)
10 →
∑
(4
= 1 − ≤ ≤ 6) somma successi indipendenti con rimessa e stessa probabilità soccessi può
1 1
~(10, )
essere vista come: 2
= 1 − ( = 4) − ( = 5) − ( = 6)
4 6 10 10
10 10 10
1 1 1 1
= 1 − ( ) ∗ − ( ) − ( )
4 5 6
2 2 2 2
10 10 10 10
1
= 1 − ( ) ) + ( ) + ( )]
[( 4 5 4
2 10
1 10∗9∗8∗7 10∗9∗8∗7∗6
=1−( ) ∗ +
[2 ]
2 4∗3∗2 5∗4∗3∗2
10∗3∗2∗7+3∗2∗7∗6 10∗3∗7+3∗7∗6
=1− =1−
10 9
2 2 4
210+126 336 21∗2 21
=1− = 1 − = 1 − = 1 − = 1 − 0,656 = 0,344
9 9 5 4
2 2 2 ∗2 92
oss: se aumenta n (aumenta la dimensione campionaria) la varianza si stringe e p barra andrà più vicino a p.
1
~(100, )
ora, ripetiamo il calcolo con n=100. 2 40−∗ 60−∗
(|̅ − | > 0,1) = ( < 40 ∪ > 60) = = ( < ) + ( > )
√∗(1−) √∗(1−)
40−50 60−50
= ( < ) + ( > )
5
1 1
√100∗ ∗
2 2
10 10
= ( < − )+ (> ) = ( < −2) + ( > 2)
5 5
= 2( > 2) = 2(1 − ( ≤ 2))
= 2(1 − (2)) = 2(1 − 0,9772) = 2(0,0228) = 0,0456
(|̅ − | > 0,1) = 0,344 = 10
infine, con p=1/2 si ha che: = 0,04556 = 100
9.1 METODI DI CAMPIONAMENTO
Altri metodi di campionamento:
[Campionamento casuale semplice (con e senza rimessa – es. n elementi estratti da un’urna)]
Campionamento stratificato (omogeneità tra elementi stesso strato): abbiamo k urne/strati in cui dividiamo
la popolazione in modo che ciascun elemento della popolazione appartenga a uno e uno solo strato,
→
campionando un certo numeri di elementi da ogni strato viene fatto per migliorare la precisione nella
stima in quanto si fanno strati in modo omogeneo (funziona meglio quando la varianza tra gli elementi di
ogni strato è relativamente piccola)
es. consumo di un certo bene con differenza tra maschi e femmine nel consumo, sapendo che c’è una
maggior propensione delle femmine al consumo di quel bene (disomogeneità tra i 2 gruppi, ma omogeneità
all’interno dei singoli gruppi) popolazione
strato 1 strato 2 strato 3 ... strato k
= ∑
=1
...
1 2 3 dimensione pop totale
→ , … ,
dividere n (dimensione campionaria) in , (in modo proporzionale alla dimensione strato)
1 2
➢ = = ⋯ = ⟹ = = ⋯ = ⟹ =
Se proporzionalità uguale della pop
1 2
➢ ≠ ≠ ⋯ ≠ ⟹
solitamente dimensione di ogni strato differente deve essere
⟹ = = 1,2, … , ⟹
proporzionale alla dimensione di popolazione in questo
∗
=1 =1
∑ ∑ ∑
= = = ∗ =
modo
=1
es.: campione di 10.000 soggetti per stimare la positività a COVID19. p= % di positivi nella popolazione (non
conosco). strati = fasce di età. Campionamento casuale semplice di elementi nello strato “i”
/
età
< 30 32 % 3200
30 – 50 30% 3000
50 – 70 20% 2000
> 70 18% 1800
100 % 1000 =n
Campionamento di Cluster (“a sottogruppi”): perdere degli strati a caso (chiamati cluster)
=1
∑
⟹ , , … , . . =
gli elementi della popolazione sono prima suddivisi in gruppi distinti
chiamati cluster. viene poi estratto un campione di H cluster (dai K), con
campionamento casuale semplice (senza rimessa), e si analizzano tutti i
dati dei cluster campionati. ( risultati migliori quando elementi entro
ciascun cluster non sono simili)
es.: Regione X – 100 = k comuni (cluster).
H = 7 comuni campionati casualmente (tra 1 - 100): 3°, 28°, 32°, 48°, 63°, 82°, 93° comune (studio in modo
→ = + + + ⋯ +
esaustivo) 3 28 32 93
oss.: il campionamento cluster è indicato quando il fenomeno è omogeneo tra cluster, ossia quando gli
elementi in ciascun cluster sono simili tra loro (= quando distribuzione della caratteristica in studio è molto
simili tra i vari cluster)
Campionamento sistematico: indicato per popolazioni molto grandi (es. per campionamento da processi
produttivi che non si ferma)
es.: abbiamo un processo produttivo con una sequenza di pezzi che vengono prodotti. prendo in modo
casuale il primo pezzo (3°) che andrà a far parte del campione, e successivamente in modo sistematico con
intervallo costante (4) = 3°, 7°, 11° … → ∀80
es.: in una giornata vengono prodotti 800 pezzi. n = 100
{1,2,
~ ∪ … ,80} "i" pezzo individuale
verrà campionato l’i-esimo, l’i-esimo +80, l’i-esimo +2*80 … l’i-esimo +99*80 = tot 100 pezzi
Campionamenti probabilist