vuoi
o PayPal
tutte le volte che vuoi
CAMPIONAMENTO A CLUSTER
- : se vogliamo sapere quanti ragazzi delle scuole medie che già
fumano. Ricavo l’elenco completo. Quindi invece di prendere
Studenti per ogni classe del piemonte, prenderò una sola classe con 30 ragazzi in 2, 3 scuole. Quindi
scelte casuali che rispetteranno il valore totale.
o C A 1 STADIO: quando includo tutti i soggetti del cluster: ex tutta una classe di scuola
superiore
o C A 2 STADI: quando campiono ulteriormente all’interno del cluster. Solo 5 ragazzi di
quella classe
BIAS DI SELEZIONE: (errore) è uno dei concetti fondamentali dell’epidemiologia. Spesso quando scelgo
il campionamento casuale non tutti partecipano e quindi avrò un errore nella scelta. Attenzione a scegliere i
campioni e i partecipanti.
CARATTERISTICHE DELLA CURVA NORMALE: non ci serve . All’interno della mia formula il valore di x
dipende da sigma (deviazione standard) X è il valore specifico che voglio calcolare in quel momento. Per
ogni media ho una specifica curva normale. MODA MEDIA è la stessa, è unimodale, la deviazione standard è
simmetrica.
CURVA NORMALE STANDARD
Più la curva è stretta e più i miei valori saranno vicini la media (deviazione standard) ; più è lunga e larga
vuol dire che i valori sono diversi e lontani dalla media. Questa curva si chiama Z.
POPOLAZIONE O CAMPIONE?
Formula nella POPOLAZIONE
Se ho a che fare con la popolazione Z= (x- μ)/σ -> x meno la media (μ = media) /deviazione standard
Z= è il valore nella curva Z che corrisponde al punto sulla curva. 80 100
Nel grafico se la media è 80 e io voglio sapere quanti sono i pz con pressione maggiore a 100 quindi devo
prendere in considerazione tutti i pz dalla retta verso destra. Ecco perché utilizzo quella formula: Z= (x- μ)/σ
5
Ex media PAO 80,1 deviazione standard 9 . prendo una persona a caso con 100 di PAO. Il valore sulla curva
Z (normale standard). Uso la formula-> Z= (100-80.1)/9=2.2 -> .
Formula per quanto riguarda il campione:
Z= (x-μ)/( σ/√n) n= numero del campione
Z= (x-u)/(o/
LEZIONE 4
Probabili domande di teoria per esame: Campionamento BIAS di selezione
TAVOLA DI Z
Una volta ottenuto il valore > è possibile utilizzare delle tavole standard per il calcolo della probabilità di
avere valori uguali o più estremi di quelli richiesti.
Ex Z è 0.34; come faccio a capire la probabilità rispetto a 0,34? Quindi sulla tavola scomponiamo nelle righe
le decimali cioè 0.3 invece nelle colonne i centesimi 0.04. incrociamo e avremo la probabilità (0.6368). se
voglio sapere la probabilità di trovare numeri > di 0.34 vedrò sulla tavola quindi 1- 0.6368. se ci esce un
valore negativo ex -0.34; siccome lo Z è simmetrico è uguale.
ESERCIZIO
Ex:
peso medio: 3200 g 500 g; μ= 3200; σ= 500 -1.4 1.4
1- Prob che nasce sottopeso <2500
2- Probabilità che un soggetto abbia un peso maggiore di 4000 g
1- Z= (x- μ)/σ= 2500-3200/500= -1.4-> 0.9192 (linea rossa)
Adesso che so tutto quello che va da 1,4 verso sinistra; ma se io voglio sapere quello che va da -1.4
verso sinistra cioè la parte verdegialla dovrò fare 1-0.9192= 0.08.
Z= (x- μ)/σ= 4000-3200/500= 1.6 -> 0,9452. (rosso) 1-0.9452= 0.06 (verde)
TEOREMA DEL LIMITE CENTRALE: la teoria: 6
1- Il valore medio della distribuzione campionaria è uguale alla media u della popolazione
2- La dev stand delle distribuzione campionaria è funzione della numerosità n del campione, sia della
dev stand s della popolazione.
3- La distribuzione campionaria è approssimativamente normale, indipendentemente dalla
distribuzione della popolazione, posto n sufficientemente grande
ES (ERRORE STANDARD) = σ/√n (qualunque sia la distribuzione di partenza. La distribuzione delle
medie campionarie si comporta in maniera normale)
LEZIONE 5
INTERVALLI DI CONFIDENZA: data una popolazione con distribuzione di probabilità caratterizzata dal
parametro u da estratti numerosi campioni casuali indipendenti, si verifica che ogni campione fornisce una
stima X diversa e quindi l’intervallo di fiducia è posizionato in modo diverso rispetto a u; nell’1-alfa% di
questi intervalli sarà contenuto il valore del parametro ignoto. È sostanzialmente è un intervallo di una
popolazione dove io potrei trovare quasi sicuramente la media, ma non sicuramente ma è una probabilità
molto alta.
Intervallo di confidenza = X (media) +- (Z (n.tabella)*ES (errore standard)) X+- (Z*ES)
probabilità che l’intervallo medio che si trova all’interno dell’area compresa. Si prende la % rimanente 5%
si divide per 2. Dato che non è una percentuale diventa ad esempio 0.025; si toglie da 1-0.025->0.9750
(questo lo trovo nella tabella Z ) quindi 1.9 sulle righe e 0.06 sulle colonne.
È l’intervallo all’interno del quale ho il 95% di probabilità di avere la media all’interno
ES= DS/radice di n.
Ex 1:
media= X = 134.42
Errore standard ES= 0.34
Z= 1.96 = in questo caso per arrivare a 100% ne mancano 5% di questi 5% diventano 2.5% a destra
e -2.5% a sx. tolgo le % -> 0.025 e -0.025. poi 1 (probabilità totale)-0.05= 0.97 e li trovo sulla tavola
z quindi 1.9 sulle righe e 0.06 sulle colonne.
Intervallo di confidenza al 95%= ?
134.42-(1.96*0.34) = 134.42- 0.6664 =133.75
134.42-(1.96*0.34) = 134.42+ 0.6664 =135.09
HO IL 95% DI PROBABILITA’ CHE IL VALORE MEDIO DELLA POPOLAZIONE STIA NELL’INVERVALLO
133.75, 135.09
Ex 2:
media= X = 134.42
Errore standard ES= 0.34
Z= 98% della curva mi mancano 2 per arrivare a 100 -> dopo tolgo la % -> 0.01 e -0.01. 1-0.01=
0.99 . adesso lo trovo nella tabella > e ho 2.3 sulle righe e 0.03 nelle colonne =2.33
Intervallo di confidenza al 98%= ?
134.42-(2.33*0.34) = 134.42- 0.6664 =
134.42-(2.33*0.34) = 134.42+ 0.6664 =
HO IL 98% DI PROBABILITA’ CHE IL VALORE MEDIO DELLA POPOLAZIONE STIA NELL’INVERVALLO
LEZIONE 5 Laboratorio statistica guarda fotocopia che ci sono le tracce
Campionamento casuale perché la popolazione sono tutti i bambini in ospedale X nel 2007.
1. Non è rappresentativo perché questa sotto popolazione è una sotto popolazione Toscana quindi
non è rappresentativo del caso italiano e perché non sono prese in evidenza le situazioni delle altre
stagioni.
In questo caso è rappresentativo per il Piemonte per quel gruppo di pz presi nella stagione estiva.
2. No non è normale perché c’è la deviazione standard che è più alta della media; anche perché la
mediana e la moda sono uguali ma la media è diversa. Una distribuzione è normale se media moda
e mediana sono le stesse. E se la deviazione standard è più piccola della media.
3. no, perché è il 3° punto del teorema del limite centrale dice: la distribuzione della media
campionaria è simile a quella della popolazione. In questo caso dato che è abbastanza specifico,
non è normale il campione però possiamo cmq calcolarlo perché la distribuzione della media
campionaria tende alla popolazione. 7
X=0.4
Z=1,96 (fisso xk 95%)
ES=(DS/√N)= (1.4/√52)=1.4/7.21= 0.19
INTERVALLO DI FREQUENZA= X+-(Z*ES)= 0.4+-(1.96* 0.19)=0,78 e 0.02
HO IL 95% DI PROBABILITA’ CHE IL VALORE MEDIO DELLA POPOLAZIONE STIA NELL’INVERVALLO
0.02e 0.78
4. non possiamo dare un valore la media ma possiamo stimare al 95% di probabilità il valore medio
della popolazione.
La media è di 0.66.
X=0.66
Z=1,96 (fisso xk 95%)
ES=(DS/√N)= (1.96/√45)=1.96/6.7= 0.29
INTERVALLO DI FREQUENZA= X+-(Z*ES)= 0.66+-(1.96* 0.29)= 0.1 e 1.22
HO IL 95% DI PROBABILITA’ CHE IL VALORE MEDIO DELLA POPOLAZIONE STIA NELL’INVERVALLO
0.01 e 1.22
5. N=3358
X media = 51.64
DS=6.99
μ= 45 limite max di persone interessate
Z= μ -X/ES= (45-51.64)/(6.99/√3358)= -55.04
Probabilità (Z<= -55,04) è 1-P (Z<= -55.04)
IN TUTTI I CASI CHE LA Z è maggiore a 3,90 mettiamo -0.001.
Quindi la probabilità di pescare una persona con età inferiore a 45 anni è minore di 0.001
6. N tot=3358
X media = 51.64
DS=6.99
μ= 52
Z= μ -X/ES= (52-51.64)/(6.99/√3358)= -2.99
P(z<= 2.99) = 0.9986
La probabilità di estrarre una persona di età > di 52 anni è uguale alla probabilità di Z>2.99. quindi
tutto questo è uguale a dire 1-P. P è <= a 2.99.
7. Z= (45-56)/9= -1.22
P (><= -1.22)= 1-P(Z<=1.22)= 1-0.8888= 0.12
8. Limite inferiore dell’IC= 51.64- (1.96*(6.99/√3358)= 51.40
Limite superiore dell’ IC= 51.64+ (1.96*(6.99/√3358)= 51.88
IC al 95%= (51.4; 51.88)
EX alla lavagna: quale è la probabilità che un soggetto estratto a caso dal campione EPIC abbia età
superiore a 38 anni?
Probabilità di X>38.
È come dire 1- la Probabilità di X <= 38
Che è come dire 1- la probabilità che <= a z-? ?=Z in grande
Quindi Z= (38-51.64)/(6.99/√3358) = 113.67
= 1- P (z <= -113.67)
=1-(1-P) P in questo caso è= z <= 113.67
=1 -1 + P P (z<= 113.67)
La probabilità è > a 0.999
LEZIONE 6
Vedere differenze fra 2 gruppi con 2 medie diverse. 8
Procedura logica dei test di ipotesi. L’ipotesi nulla o si rifiuta oppure non si accetta. L’IPOTESI NULLA NON SI
ACCETTA MAI. L’ipotesi nulla è l’ipotesi di non effetto.
Domande esame 1- CHE TIPO DI VARIABILE è UNA SECONDA VARIABILE?
Domande esame 2- QUALE TEST POSSIAMO AVVIARE?
Domande esame 3- QUALE TEST POSSIAMO CONDURRE.
Se io parto dall’ipotesi nulla è più facile negarla che accettarla. L’ipotesi nulla è minore uguale a un'altra
media. La mia ipotesi alternativa sarà quella di diversità e dovrò accettarla nel momento in cui rifiuto quella
nulla. L’ipotesi nulla si chiama H0 invece l’ipotesi alternativa H1 o Ha.
X è la media del campione, μ è la media della popolazione
Quindi μa= μb
Livello di significatività: per determinare il livello di significatività bisogna comprendere il concetto di errore
di primo tipo.
- Errore di primo tipo(errore α): Quindi è l’errore che commetto se rifiuto H0 se H0 è vera. Quindi H0
in realtà è 0. Può anche essere che H0 è falsa e io invece non la rifiuto. Creo un falso positivo
- Errore di secondo tipo (errore β): In questo caso io non ho rifiutato l’ipotesi nulla falsa. Qui creo un
falso negativo.
Io fisso nel te