Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Le distribuzioni campionarie e il dimensionamento di un campione
Un campione è una parte della popolazione su cui si fa uno studio e i risultati ottenuti vengono proiettati sulla popolazione, questo si chiama fare inferenza.
Quando si affronta una indagine statistica, una delle alternative da porsi riguarda la scelta tra:
- l'indagine completa (sull'intera popolazione) si chiamano censimenti
- l'indagine su un campione (su una parte della popolazione)
Naturalmente, quando si lavora su un campione, l'obiettivo è quello di proiettare sulla popolazione le informazioni che si ottengono dal campione.
A volte avere un campione è inevitabile...
- Nel caso di animali di piccole dimensioni, con forte velocità riproduttiva, a elevata mortalità e mobilità accentuata, è impossibile il conteggio censuario di tutti gli individui.
- Si lavora allora su un campione di porzioni di aree: possono essere quadrati di terreno, volumi di acqua,...
piante nel caso degli insetti erbivori, ecc. di campionamento
L'errore si ha nel momento in cui proietto il mio campione che potrebbe per fattori casuali non essere del tutto rappresentativo della popolazione.
Si tratta del margine di approssimazione dovuto al fatto di considerare una parte rispetto al tutto. E' "siologico" in ogni indagine su campione.
Nonostante ciò, non sempre la rilevazione sulla popolazione fornisce risultati più precisi: in un'indagine ci sono tanti rischi di errore (imprecisioni, omissioni, sbagli di ogni genere). Due problemi:
- Dimensionare il campione
- Come scegliere i soggetti che rientreranno nel campione?
Dimensionamento di un campione
Le principali informazioni che si possono ottenere da un'indagine sono di due tipi: l'obiettivo dell'indagine può essere la stima di una media, per esempio il costo medio di trattamento delle acque sotterranee nei progetti di recupero di siti industriali inquinati quando
Il fenomeno è di tipo qualitativo, l'obiettivo dell'indagine può essere la stima di una proporzione, ossia di una quota: per esempio, in un tratto stradale, la quota di veicoli diesel circolanti dotati di filtro antiparticolato.
La dimensione di un campione dipende da 4 fattori:
- La dimensione della popolazione (più è grande più è grande il campione). Per la legge dei grandi numeri della statistica se ho un campione piccolo su una popolazione piccola è un rischio, se ho un numero grande il rischio diventa minore e posso avere anche un campione piccolo. È la precisione.
- L'errore di campionamento, un margine di errore alto avrà un campione piccolo.
- Il livello di confidenza, sociologicamente quando si proietta il risultato sulla popolazione il livello non è al 100%. Se pretendo un livello alto devo lavorare su un campione alto se mi va bene un margine di certezze inferiore posso avere un campione basso.
È la certezza.
IV. Il grado di eterogeneità della popolazione, più stimo come omogenea la popolazione più posso prendere un campione piccolo. Devo stimare a priori l'omogeneità o l'eterogeneità della mia popolazione su cui devo indagare, si prende l'ipotesi pessimistica calcolando che c'è la massima eterogeneità.
Esercizio: N= 500000 ; errore= 4% ; livello d.=95% ; eterog. 25% e 75%.
Campione 1500 con 32% favorevoli. Sono sicuro al 95% che il dato sia favorevole tra il 28% e il 36%. Per arrivare al risultato finale si è fatto i casi favorevoli (32) più o meno 4%.
- procedimento da seguire: individuazione della dimensione della popolazione; scelta del livello di confidenza che si intende accettare; scelta dell'errore che si intende accettare; stima del grado di eterogeneità. L'intero procedimento presuppone che il metodo di campionamento sia probabilistico.
(casuale).All’aumentare di N tende a crescere anche n, e viceversa, in modo proporzionale
Come si misura l’eterogeneità? media proporzione.
A seconda che si stimi una o una
Nel primo caso: L’indicatore del grado di eterogeneità è la deviazione standard
Se non possiamo seguire altre vie, ci a diamo all'ipotesi di massima deviazione
standard possibile.... ossia il campo di variazione del fenomeno (di differenza tra il
valore più grande e il valore più piccolo possibile), diviso 2.
Nel secondo caso: è il prodotto
dove p è la percentuale attesa come risultato d’indagine
(rapportata non a 100, bensì all’unità: di conseguenza p varia da 0 a 1).
La massima eterogeneità nel caso di stima di una proporzione
Si ha forte omogeneità quando una proporzione preponderante di unità statistiche
si concentra su una modalità. Si ha invece forte eterogeneità quando il campione
èripartito in parti pressoché uguali tra le due modalità. L'ipotesi maggiormentepessimistica in termini di eterogeneità corrisponde quindi a p = 0,50(se il fenomeno presenta più di due modalità, è sempre possibile fare riferimento auna di esse o a una classe di esse, e considerare tutte le rimanenti come facentiparte di un'unica categoria) Z è valore standard corrispondente alvalore duciario. Per esempio, ad un’areasimmetrica del 95% corrisponde un’areacompresa tra 0 e Z del 47,5%. Sulletabelle il valore di Z è quindi 1,96.p è la stima di eterogeneità. (N-1) haincidenza rilevante se la popolazione èpiccola.
53fi fi ffi fi fi ff
Esercizio:
Popolazione 850. Obiettivo: proporzione di soggetti disponibili alla prova
Livello duciario accettato: 95%
Errore accettato: 6%
In indagini precedenti: 75%
Calcolare ampiezza campione —> usare la formula di prima
Per trovare Z fai 95/2 poi trovi
Sulle tabelle il corrispondente di 45,5 che è 1,96n= 850* 1,96^2* 0,75* 0,25/ 849* 0,06^2 + 1,96^2* 0,75* 0,25= 162
Sono 162 soggetti da coinvolgere nell'indagine non quelli disponibili alla prova
Ipotesi: su 162 soggetti del campione l'80% è disponibile
Il range è 74-86% con un 95% di p
Esercizio:
Popolazione 11 milioni Obiettivo: soggetti con risposta positiva a un vaccino
Livello duciario accettato: 95%
Errore accettato: 3%
In altri paesi risposta positiva per il 55%-65%
Calcolare ampiezza campione -> n=1056 soggetti
Come p prendo 55% quindi 0,55 per la teoria pessimistica della statistica.
Quando ci sono le condizioni di considerare una popolazione infinita come infinita (estrazione senza reimissione ma considerata con reimissione). Se la popolazione è molto grande si considera infinita. Es. se sup. a 1 milione. Limite convenzionale ma non ufficiale.
Esercizio:
Popolazione 190000 soggetti Obiettivo: quantità media consumata di frutta
(kg)Livello duciario accettato: 95% Errore accettato: 7,2 In indagini precedenti SD 31 Z=1,96 Calcolare ampiezza campione -> uso la formula sopra n=71 soggetti Ipotesi: 65,5 kg consumati ai quali sommo e sottraggo 7,2 Esercizio: Produzione giornaliera di 8000 pezzi, indagine con questi obiettivi: 1) Peso medio dei prodotti ottenuti 2)% di prodotti con lievi difetti Errori accettati: 3% della media per il primo obiettivo e anche per il secondo Livello duciario: 96% per il primo, 98% per il secondo SD 10-18 mg per il primo obiettivo con una media di 220 mg p: 15%- 24% per il secondo FORMULA PER CALCOLARE LA DIMENSIONE DEL CAMPIONE Se la popolazione supera il milione la si considera come infinita. Limite convenzionale ma non ufficiale. LIVELLO FIDUCIARIO E AMPIEZZA DEL CAMPIONE Il livello duciario si modifica al variare dell'ampiezza del campione: più grande è n, più alto è il grado di certezza. Come già affermato, nella maggiorParte delle indagini, il grado di certezza accettato è pari al 95%. Ciò significa che viene usata una tecnica che, a lungo andare, è in grado di fornire stime corrette 95 volte su 100. A parità degli altri fattori, si può decidere di aumentare il livello di fiducia, ma riducendo la precisione della stima, ossia aumentando l'errore.
LA DISTRIBUZIONE BINOMIALE
Questa distribuzione esprime la probabilità che si verifichino k successi (indipendentemente dall'ordine) che si alternano a n - k insuccessi, su un totale di n osservazioni tra loro indipendenti, estratte nell'ambito di variabili bernoulliane. Una variabile bernoulliana è una variabile dicotomica, ossia con due soli possibili valori, come 0 e 1. Ci si trova in questa situazione, per esempio, quando si compiono esperimenti che possono avere solamente due risultati possibili (come conforme - non conforme).
Con questa distribuzione è quindi possibile
calcolare la probabilità che un evento si verifichi esattamente un numero preciso (k) di volte, in un certo numero (n) di ripetizioni tra loro indipendenti: k è un numero intero non negativo (k=0,1,2,3,…,n); p è compreso tra 0 e 1 esclusi (0<p<1), ed è la probabilità che l'evento si verifichi nella singola ripetizione (tenere presente che ogni osservazione elevata a potenza 0 è pari a 1).
La formula per calcolare la probabilità è la seguente:
IL COEFFICIENTE BINOMIALE
La prima parte della formula è il coefficiente binomiale: che esprime le diverse maniere in cui possono essere ripartiti i k successi negli n tentativi, ossia, identifica il numero di modi in cui si possono ordinare n soggetti in una sequenza, con k soggetti di un tipo e n-k soggetti dell'altro tipo.
Trattamento terapeutico
Esso porta a un 75% di casi di successo e a un 25% di insuccessi. Sui prossimi 15 trattamenti, quale è la probabilità che esattamente 12 portino a un
risultatopositivo?La probabilità cercata è pari al 22,52%
InadempienzeSu 120 aziende analizzate, 108 sono risultate regolari in riferimento a undeterminato adempimento normativo relativo alla salvaguardia ambientale, 12 sonoinvece risultate inadempienti. Assumendo che queste proporzioni siano valideanche per l’intera popolazione delle aziende da cui è stato estratto il campione di120 unità, quale è la probabilità di ottenere esattamente 5 aziende inadempienti su20 esaminate?
La probabilità cercata è pari al 3,19%
ESERCIZI:
LA DISTRIBUZIONE DI POISSON
Questa distribuzione rappresenta il limite a cui