Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Statistica Induttiva
L'inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione in base a informazioni ricavate da un campione.
- Stima Puntuale di Valori Medie e Varianza
- Stima di Intervallo
- Test di Confronto
- Programmazione degli Esperimenti
1. Stima puntuale di valori medio e varianza
Non potendo analizzare l'insieme Ω della popolazione e quindi non potendo raccordare μ e σ2 della popolazione, si estrae dallo stesso insieme Ω un campione casuale di n < N elementi. Si possono calcolare allora:
- Media campionaria:
^μm = 1/m Σ Xi
Affinché la stima sia buona si richiede che la stima di valor medio coincida con il valore vero μ e che la varianza della stima sia piccola.
E[^μm] = μ
σ2^μm = E[ (^μm - μ)2] piccola
2 se campione indipendente:
σ2^μm = σ2/m
se campione dipendente:
σ2^μm = (1 - m - 1/N - 1) σ2/m
- Varianza campionaria:
S2m = 1/m Σ (Xi - ^μm)2
Dal momento che S2m restituisce una stima distorìa, per eliminare la distorsione si modifica l'espressione della stima:
se campione indipendente:
2 m/(m - 1) S2m
se campione dipendente:
G2m = (m - 1)/(m - 1) m, N - 1/1,/ N S2m
Andando a sostituire le formule 1.2 alle espressioni 1.1, si ottiene.
2^ = STIMA NON DISTORTA 2μ DELLA VARIANZA 2μ = { S2m m - 1 m/1 - m/N se camp. indipendente se camp. dipendente
Utilizzando ora la varianza della stima di varianza un campione indipendente si fa:
σ2^μm = E[ (x - μ)2 -(E[ (σ2μm)] E[(x - μ)4]/σ4 - (m - 3)/1 - 1/
nel caso in cui la distribuzione della X (della popolazione) è gaussiana,
In tal caso, il coefficiente di variazione della ms distribuzione campionaria è:
Se si vuole che il cv non superi il 20%, nel caso di c ≈ 0, si avrebbe:
Se invece:
- c ∈ [0,2] ⇒ m ≥ 100
- c ∈ [2,20] ⇒ m ≥ 500
- c < 0 ⇒ m ≥ 50
Le stesse conclusioni si ottengono anche nel caso di non indipendenza del campione.
2) Stima di intervallo
Per rappresentare la stima della media e la sua variabilità è possibile fornire un intervallo Iy,m di possibili valori tale che si possa ritenere con una certa confidenza che il valore incognito μ appartenga a tale intervallo.
Dal teorema del limite centrale è noto che per m → ∞ la v.a. standardizzata
Supponiamo dunque che con una confidenza dell'1-ε%, il valore ξm sarà compreso nel seguente intervallo:
−λε ≤ ξm ≤ λε
Se
- H0: E[m 2] = 0
- H1: E[m 2] ≠ 0
Allora, in base all'ipotesi alternativa si definiscono differenti intervalli:
- H0: E[m 2] = 0
- H1: E[m 2] ≠ 0
Misure NON appaiate, varianza nota.
Nel caso in cui si hanno a disposizione misure non appaiate e la varianza della popolazione σ2 è nota. Stabile se la differenza tra le misure è significativa oppure se da relazioni dovuta alla naturale variabilità del prodotto si procede nel seguente modo:
dai dati si conosce che:
per la misurazione 1,
E[m 2] ≠ μ2
E[m 2] = μ2
per la misurazione 2,
in cui μ e σ2 sono media e varianza della popolazione.
Con le tesi di partenza si vede effettivamente che la differenza tra le valutazioni sia dovuta al caso o meno. Pertanto:
H0: E[m 2] = 0
H1: E[m 2] ≠ 0
in cui è la differenza tra i valori medi rilevati sui due campioni indipendenti:
d = m2 - m1
Allora, Ho corrisponde al caso in cui la differenza osservata sia da attribuire al caso mentre H1 corrisponde al fatto che i due campioni hanno una differenza sistematica.
Se è possibile validare un'assunzione di gaussianità dei dati, la statistica del test risulta essere:
Z = (ì - E[m 2]) / √(σm2 + σm1) ~ N(0,1)
allora, in base all'ipotesi alternativa si definiscono differenti scenari:
- H0: E[m 2] = 0
- H1: E[m 2] ≠ 0
Nell'ipotesi che la popolazione dei dati sia omoschedastica con distribuzione
gaussiana, il generico Xij può essere rappresentato nel seguente modo:
Xij = μ + Ai + Yij
in cui: μ è la media dell'intero insieme di dati
Ai è la colonna dei dati che differenzia la media del gruppo i da quella
della popolazione
Yij è una grandezza stocastica che viene modellata come
una gaussiana con media nulla e varianza σ2 costante per
tutte le classi → Yij ~ N(0, σ2)
Allora il test dei f-s si traduce nel nucleo seguente:
H0: Xij = 0 per almeno un i
H1: Xij ≠ 0 per almeno un i
Per tracciare la statistica del test considerando che la varianza campionaria totale
e sua somma ai seguenti termini:
γ - = 1/M K Σi=1 ( ni Σj=1 (Xij - μi∧) 2) = 1/M ( K Σi=1 mi (Xi∧ - μ∧) 2)
Se H0 è vera, si ha che:
T / σ2 ~ χ2m-1
e in base al teorema di Cochran si può dimostrare
che:
V / σ2 ~ χ2m-k
→ V e W indipendenti
Allora la statistica del test è:
F = W / (K-1) e tra F ~ Fk-1,m-k
Concludiamo la sezione dell'ANOVA riassumendo e discutendo le ipotesi che devono essere soddisfatte dall'insieme dei dati affinché l'F-test dia risultati attendibili:
- ciascun gruppo dell'insieme deve essere un campione di dati casuale, e i dati relativi a gruppi diversi devono essere indipendenti
- i gruppi devono avere grosso modo lo stesso numero di dati
- la scala di variazione dei dati deve essere comparabile tra i diversi gruppi
- la distribuzione dei dati deve essere gaussiana
- la varianza deve essere costante
Diciamo subito che l'F-test è robusto rispetto a violazioni delle condizione 4) e 5) se ogni gruppo ha un numero di dati sufficientemente grande e più o meno uguale tra loro. In caso di numero di dati basso, le differenze tra le varianze può risultare determinante.
L'algoritmo di Kruskal-Wallis è un test ANOVA non parametrico che si può applicare tutte le volte che la distribuzione dei dati differisca significativamente dalla gaussiana, pur tenendo la stessa per tutta la popolazione, per cui deve sempre valere l'omoseclasticità. Per meglio illustrare l'algoritmo consideriamo un esempio.
Un'azienda vinicola chiede a degli intenditori di testare tre dei loro vini, indichiamoli per semplicità A, B e C, con un punteggio da uno a dieci. Ecco quanto ottenuto dopo i vari assaggi (tabella di sinistra)
Raw Measures Ranked Measures ABC ABC 6.42.51.3 1121 6.83.74.1 1243 7.34.94.9 157.55.5 7.65.45.5 1798.5 8.15.85.9 19109 8.45.96.0 2010.59.5 8.78.16.5 211411 9.48.27.5 191312 9.78.28.2 2115.515.5Per prima cosa si devono ordinare i dati in ordine crescente. Nella tabella quindi ad ogni dato viene sostituito il suo numero d'ordine nella lista (rank). Se due o più dati dovessero avere lo stesso valore e quindi occupare lo stesso rank, questo viene ripartito in parti uguali in modo da non privilegiare nessun gruppo (adjusted ranks). Nel caso in esame si ottiene la tabella di destra.
Ora l'ipotesi nulla consiste nel testare che i valori medi dei ranghi dei tre gruppi siano uguali, contro l'ipotesi alternativa che almeno due di essi differiscano. Siano al solito n1, n2, n3 il numero di dati per ciascun gruppo, e si indichino con μ1, μ2, μ3 i valori medi dei ranghi nei tre gruppi, mentre con μr la media dei ranghi per tutto l'insieme di dati. La statistica del test è data dalla seguente variabile
H = 3∑i=1ni(μi-μr)2 i = ∑ni(μi-μr)2 1 N(N+1) − 12dove al solito N è il numero totali di dati. Questa risulta essere distribuita approssimativamente come una χ23 = χ22 (chi-quadro a 2 gradi di libertà ). Il percentile del 5% di tale distribuzione è pari a 5.991. Per cui il set critico del test di livello 5% è data da