STATISTICA APPLICATA 2019-2020 1°SEMESTRE
STATISTICA APPLICATA
Campione casuale (o probabilistico)
Tutte le unità hanno una probabilità non nulla di entrare a far parte del campione.
In questo modo si ha la garanzia che le osservazioni riproducono il comportamento della
variabile x.
Ripasso →
Probabilità si occupa di fenomeni aleatori, ossia fenomeni per i quali il risultato
dell’esperimento non è sicuro. Condizione di incertezza → più modalità di realizzazione.
→
Esperimento aleatorio risultati casuali; manifestazioni di un esperimento = Eventi
Probabilità = misura del manifestarsi di un evento.
Eventi elementari = risultati del fenomeno aleatorio
Eventi generici = insieme o famiglie di eventi elementari
Classi di eventi = insiemi di eventi ottenuti con operazioni algebriche su altri eventi
l’evento certo o spazio degli eventi
Eventi particolari = evento impossibile (insieme vuoto) e
elementari (omega). →
Funzione di probabilità assiomi del calcolo (vd. Appunti statistica)
Regole: probabilità dell’unione; della differenza; del complementare; dell’evento impossibile.
0≤P(A)≤1. →
Legge di probabilità per ogni evento elementare: Pi = 1/n casi favorevoli / casi possibili
(∩)
(|) =
Evento condizionato; probabilità condizionata: ()
→ (|) = () (|) = ()
2 eventi stocasticamente indipendenti quando e
Se gli eventi sono disgiunti la probabilità della loro intersezione è nulla, mentre se sono
indipendenti è uguale al prodotto delle probabilità marginali. ‘con’ →
Estrazione con o senza reimmissione [con o senza reinserimento]: eventi
indipendenti; ‘senza’ → gli eventi dipendono dalla estrazione precedente.
Variabile casuale: X è una funzione che associa ad ogni evento elementare dello spazio
campionario omega uno ed uno solo numero reale.
→
Funzione di probabilità / funzione di densità domandine in esame (vd. Pacchetto slide 2.)
Funzione di ripartizione:
Proprietà: 1) monotona non decrescente; 2) continua da destra [nel caso discreto, a gradini,
significa prendere il valore più alto, perché si arriva da destra]; 3) limiti:
Talvolta si scrive E(X), ma è uguale a M(X).
STATISTICA APPLICATA 2019-2020 1°SEMESTRE
Variabili casuali discrete:
V.C. UNIFORME X~U(n)
1) V.C. BINOMIALE X~Bin(n,p)
2)
esperimento: soli 2 possibili risultati (dicotomico): - 1° tipo = successo (S) - 2° tipo
= insuccesso (I) dei quali si conosce la probabilità di realizzazione. P(successo) = p;
P(insuccesso) = 1-p=q. n estrazioni con reimmissione (indipendenti)
Il coefficiente binomiale conta ‘i casi diversi’. Se n è pari unimodale; n è dispari
→ →
bimodale. [supporto n+1 perché parte da 0]
V.C. IPERGEOMETRICA X~Ig(N,M,n)
3)
esperimento: stesse ipotesi della binomiale; N elementi di cui: M successi (N-M)
insuccessi. n estrazioni senza reimmissione (dipendenti). I parametri (N,M,n) della ipergeometrica
rappresentano rispettivamente il numero totale di palline nell’urna (N), il numero di palline del colore
che considero un successo (M) e il numero di estrazioni (n) che effettuo senza reimmissione.
N su n rappresenta tutti i casi possibili; i modi in cui possono uscire le palline. Il numeratore
rappresenta i casi favorevoli. La varianza nell’ipergeometrica è sempre più bassa della binomiale.
STATISTICA APPLICATA 2019-2020 1°SEMESTRE
Variabili Casuali continue:
V.C. RETTANGOLARE X~R(a,b)
1) V.C. NORMALE X~N(μ,σ )
2
2) TAVOLE DELLA N(0,1)
2
~(, ) ( − 3 ≤ ≤ + 3) = 0.997
Si dimostra che (−3 ≤ ≤ 3) = 0.997
tavole perché ‘non coprono’ le possibilità.
Solo nello 0.3% dei casi non si possono usare le
Variabili casuali continue ottenute da particolari trasformazioni della Normale:
1) Somma dei quadrati di n Normali standardizzate indipendenti:
STATISTICA APPLICATA 2019-2020 1°SEMESTRE
2) ; ;
;
3) ; ;
STATISTICA APPLICATA 2019-2020 1°SEMESTRE
TEOREMA DEL LIMITE CENTRALE
…,X
Siano X , X , n v.c.
1 2 n
- Indipendenti
- Identicamente distribuite (cioè caratterizzate dalla stessa distribuzione di probabilità) con
=…=µ σ σ σ σ
21 22 2n 2
stessa media µ =µ =µ e stessa varianza = =…= = .
1 2 n
+…+X σ 2
La loro somma T =X +X ha media M(T )=n µ e varianza var(T )=n .
n 1 2 n n n
( + ) = () + () + 2()
() = 0 ; .
→ →
Indipendenza stocastica indipendenza in media indipendenza lineare.
→
Se x e y sono v.c. indipendenti COV (XY) = 0
+…+X
T =X +X
n 1 2 n 2
) ) ) ) )
( = ( + + ⋯ + = ( + ( + ⋯ + ( = ×
1 2 1 2
- Per n sufficientemente grande, ad es. (n>100), la distribuzione Binomiale Bin(n,p) può
essere approssimata con N(np,npq). Perché?
Inferenza statistica
Insieme di metodi e tecniche per generalizzare i risultati ottenuti su un campione alla
l’incertezza insita nel
popolazione. Si utilizza il calcolo delle probabilità per quantificare
procedimento.
Esempi: Potremmo ad esempio voler conoscere (tra parentesi la popolazione di riferimento)
− reddito medio (abitanti della regione Lombardia)
− percentuale (%) di individui soddisfatti dei servizi offerti dalla Sanità (utilizzatori dei
servizi sanitari i Lombardia)
− percentuale (%) di utilizzatori di Internet (tra gli italiani > 20 anni)
− durata media delle vacanze dei giovani italiani (italiani tra 18-29 anni)
− peso medio dei fustini di detersivo prodotti da azienda (produzione giornaliera)
− percentuale (%) di italiani maggiorenni favorevoli alla stepchild adoption (italiani maggiori
di 18 anni).
Ciò che è oggetto di stima è generalmente un indicatore di sintesi (di posizione, di variabilità)
STATISTICA APPLICATA 2019-2020 1°SEMESTRE
Generalmente l’inferenza riguarda una caratteristica incognita di una popolazione chiamata
PARAMETRO.
Ad es. sono parametri: la media (del reddito); la percentuale di individui soddisfatti dei servizi
sanitari. (Il parametro può essere un vettore di dimensione finita) ϑ “teta”
Convenzionalmente il generico parametro viene indicato con la lettera greca (che
Θ).
può assumere valori in un insieme
Attraverso le procedure dell’inferenza statistica si può rispondere alle seguenti domande:
l’informazione presente nel
A queste domande cercheremo di rispondere utilizzando
,…,x
campione osservato: x = (x ,x ).
1 2 n
Stima dei parametri: è il procedimento attraverso il quale dal campione estratto si ricavano
ϑ.
informazioni per assegnare al parametro
• un solo valore (STIMA PUNTUALE)
• oppure un insieme di valori (STIMA INTERVALLARE).
l’attendibilità della stima (e più in generale dell’inferenza) occorre che le
Per quantificare ,…,x
osservazioni x = (x , x ) costituiscano una realizzazione di un CAMPIONE CASUALE
1 2 n
estratto dalla popolazione di riferimento.
Nel seguito faremo riferimento al campionamento da una variabile casuale, che quindi è
assimilabile a quello di una popolazione infinita. Vedremo più avanti le nozioni di base del
campionamento da popolazione finita.
Campione casuale:
➔ →
da popolazione finita shot; grappoli; due stadi; sistematica.
➔ da popolazione infinita = da var. casuale
STATISTICA APPLICATA 2019-2020 1°SEMESTRE
CAMPIONAMENTO CASUALE DA UNA VARIABILE CASUALE X
Questo significa che se io generassi k campioni di dimensione n dalla v.c. X, ad ogni
estrazione osserverei una realizzazione campionaria diversa da quella ottenuta
precedentemente, ma, per le modalità di estrazione casuale, posso assumere che, per ogni
realizzazione campionaria, la generica prima componente rappresenti una realizzazione
della v.c. X, la seconda componente rappresenti una realizzazione della v.c. X, e così via,
fino all’ultima componente del campione.
STATISTICA APPLICATA 2019-2020 1°SEMESTRE
un’ipotesi sulla v.c. (popolazione)
Per stimare i parametri della popolazione o per verificare
si usano i dati campionari: generalmente si usa una funzione del campione (medie,
percentuali, ecc.), detta STATISTICA CAMPIONARIA O STIMATORE.
Esempi:
− la media aritmetica calcolata sui dati del campione è una statistica campionaria (media
campionaria);
− una proporzione calcolata sui dati del campione è una statistica campionaria
(proporzione campionaria);
− la varianza calcolata sui dati del campione è una statistica campionaria (varianza
campionaria). casuali, è anch’essa una variabile
Una statistica campionaria, essendo funzione di variabili
casuale! Naturalmente, quando la statistica campionaria è calcolata sulla realizzazione
campionaria diventa un numero!
La statistica campionaria, essendo una v.c., ammette una distribuzione di probabilità,
chiamata Distribuzione Campionaria
• una statistica utilizzata per stimare un parametro di una popolazione è chiamata più
precisamente:
Proprio in virtù della casualità del campione, noi possiamo conoscere la distribuzione di
probabilità (o di densità di probabilità) della v.c. stimatore T e dunque, attraverso opportune
tecniche probabilistiche, siamo in grado di valutare il grado di precisione delle stime.
PRECISIONE: quanto il valore della «stima» dedotto sulla base della realizzazione
campionaria osservata si discosta dal valore del parametro nella popolazione (valore vero
incognito). Parametro popolazione = stima ± errore campionario
Quanto il valore stimato sarà preciso? Sarà distante dal vero ma incognito valore della
media µ? Siamo in grado di quantificare «la precisione» dello stimatore utilizzando la
distribuzione (di densità) campionaria della v.c. stimatore, nota a seguito del ccs.
STATISTICA APPLICATA 2019-2020 1°SEMESTRE
Stimatori particolarmente rilevanti sono:
Di questi ora vedremo la definizione e le proprietà.
STIMATORE MEDIA CAMPIONARIA
,…,X
Sia (X ,X ) un ccs di dimensione n dalla v.c. X che ha media M(X) e varianza V(X)
1 2 n
incognite. Lo stimatore MEDIA CAMPIONARIA è definito come:
La corrispondente stima si indica con:
Esempio:
Si consideri un’urna che contiene N=3 palline con i seguenti numeri
{3,5,7}. nell’urna sono: μ=5
Ne consegue che la media e la varianza dei valori riportati sulle palline
e σ 2 = 8/3 =2.67. dell’urna e di volerne
Consideriamo ora di non conoscere i numeri impressi sulle palline
stimare la media estraendo un campione CON REIMMISSIONE di dimensione n=2.
Se costruiamo la distribuzione di frequenza della media «campionaria» tenendo conto di
reimmissione dall’urna otteniamo:
tutti i possibili risultati di estrazione con
CONCLUSIONE: La media campionaria coincide solo per il 33,33% delle volte con la media
«vera» della popolazione. Nel restante 66,66% la media campionaria sovrastima (33.33%)
o sottostima (33.33%) il vero valore della media della popolazione. Ma allora cosa possiamo
dire osservando SOLO un campione? ̅
Dalla distribuzione dei possibili valori assumibile dalla possiamo calcolarne la sua media
e la sua varianza. STATISTICA APPLICATA 2019-2020 1°SEMESTRE
COSA POSSIAMO OSSERVARE?
Se si tiene conto di tutti i possibili risultati ottenibili estraendo campioni di numerosità 2
dall’urna, si verifica che la media dei valori riportati sulle palline ha una distribuzione che:
− In media è uguale al vero valore della media delle palline dell’urna
− Ha una varianza che è pari alla metà della varianza nella popolazione
Facciamo un altro esempio aiutandoci con Excel
Si consideri un’urna che contiene N=5 palline numerate da 1 a 5: {1, 2, 3, 4, 5}.
dell’urna sono: μ=3 e
In questo caso la media e la varianza dei valori riportati sulle palline
σ 2 = 2. Consideriamo ora di estrarre un campione CON REIMMISSIONE di dimensione n=3.
Non possiamo fare uno schema come prima, perché il numero di modi diversi in cui
n 3
possiamo estrarre il campione è molto alto: sono N =5 =125.
Cosa possiamo dedurre?
Estraendo CON REIMMISSIONE un unico campione dall’urna, noi osserviamo un valore
della media che non necessariamente coincide con il vero e incognito valore della media
Se l’estrazione però avviene in modo casuale si verifica che:
nella popolazione. della media μ e
1) «in media» il valore che stimiamo è uguale al vero e incognito valore
(PROPRIETA’ DI CORRETTEZZA o
NON sarà sistematicamente più alto o più basso
NON DISTORSIONE).
2) La variabilità intorno al vero e incognito valore risulta pari alla varianza nella popolazione
divisa per la numerosità del campione. Dunque, data la varianza, più numeroso è il
campione, minore sarà la variabilità e meglio potremo stimare il vero ma incognito valore.
STATISTICA APPLICATA 2019-2020 1°SEMESTRE
Se non si hanno informazioni sulla distribuzione della v.c. X della popolazione da cui il
campione è stato estratto, grazie al Teorema del Limite Centrale - che vale per la somma di
–
v.c. indipendenti e identicamente distribuite possiamo, almeno approssimativamente
̅
∞
affermare che per n→ si distribuisce come una N(M(X), V(X)/n).
Di conseguenza la media campionaria standardizzata:
si distribuirà come una N(0,1).
Attenzione: il risultato vale solo asintoticamente. A parità di altre condizioni,
l’approssimazione è tanto migliore quanto più alto è n. È possibile approssimare alla
normale per valori di n>100. Se n < 100 si distribuisce come normale solo se la X da cui
campiono è una normale
AGGIUNGERE APPUNTO SUL FOGLIO: VARIANZA E MEDIA CAMPIONARIA
STATISTICA APPLICATA 2019-2020 1°SEMESTRE
STIMATORE VARIANZA CAMPIONARIA
GUARDO APPUNTO SUL FOGLIO
Un altro stimatore della varianza, il cui utilizzo vi sarà chiaro dopo che introdurremo le
proprietà degli stimatori, è il seguente:
STATISTICA APPLICATA 2019-2020 1°SEMESTRE
Stimatore FRAZIONE (O PROPORZIONE) CAMPIONARIA
Lo stimatore FRAZIONE CAMPIONARIA è definito come:
dove r è il numero di unità nel campione che possiede la caratteristica
oggetto di interesse. La n è la dimensione del campione.
La corrispondente stima si indica con p:
PROPRIETA’ DEGLI STIMATORI ,…,X ϑ.
Generalmente si danno più stimatori T= h(X ,X ) per lo stesso parametro
1 2 n
Come scegliere tra stimatori?
La scelta è resa più semplice se possiamo confrontare gli stimatori in base a buone
proprietà. Tra queste si segnalano:
➢ CORRETTEZZA o NON DISTORSIONE: La media dello stimatore coincide con il
parametro da stimare. (Se la proprietà vale sole asintoticamente, ossia per n→∞ , si
parla di correttezza asintotica) STATISTICA APPLICATA 2019-2020 1°SEMESTRE
➢ EFFICIENZA: Riguarda il confronto tra due stimatori T e T . Intuitivamente T è più
1 2 1
efficiente di T se, in un senso da precisare (vedi slides successive), T è più accurato
2 1
ϑ.
di T , per la stima del parametro
2
Per valutare l’accuratezza di T nello stimare θ possiamo usare l’errore quadratico medio
(mean square error) dato dalla quantità:
Nella figura sono riportate le distribuzioni campionarie di due stimatori corretti. Lo
stimatore T1 possiede un errore quadratico medio (ossia una varianza) più piccolo di T2.
STATISTICA APPLICATA 2019-2020 1°SEMESTRE
➢ CONSISTENZA: Aumentando la dimensione campionaria la distribuzione dello
ϑ; così che, per “n molto
stimatore tende a concentrarsi sempre più intorno al valore di
grande”, è praticamente “certo” che ϑ.
lo stimatore coincida con
θ, dove l’indice n indica la
Lo stimatore T di un parametro dipendenza dello stimatore
n
dalla numerosità campionaria, è uno stimatore consistente se:
cioè se, aumentando la dimensione campionaria la distribuzione di T tende a
n
ϑ, tanto che per “n molto grande” sarà
concentrarsi sempre più intorno al valore vero di
praticamente “certo” che la ϑ.
stima coincide con
Teorema
Condizione sufficiente per la consistenza è che valgano le due condizioni seguenti:
o equivalentemente che valga la seguente condizione:
SIGNIFICATO DELLE CONDIZIONI
1) T sia almeno asintoticamente corretto (a maggior ragione se corretto)
n tende a 0 al divergere di n (all’aumentare della numerosità
2) la varianza di T n
campionaria).
Attenzione
Il teorema dà solo una condizione sufficiente, non necessaria. Ciò significa che:
Se valgono le condizioni 1) +2) (o la 3)) si può affermare che lo stimatore è consistente.
Ma, se NON valgono le condizioni 1) +2) (o la 3)) NON si può concludere che lo stimatore
non è consistente.
Come fare in questo caso? mostrare che, all’aumentare
Bisogna ricorrere alla definizione
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Appunti completi del corso di Matematica applicata e statistica
-
Appunti Statistica
-
Statistica - Appunti completi
-
Appunti teoria Matematica e statistica applicata