vuoi
o PayPal
tutte le volte che vuoi
INTRODUZIONE
Un esperimento è un test o una serie di test, che si conducono con una logica probabilistica, cioè per
verificare ipotesi, in modo da fare inferenza. Un esperimento è formato da prove ripetute indipendenti
fatte nelle stesse condizioni.
Nel processo produttivo ci sono:
- Una variabile target y (output) da controllare
- Input
- Delle variabili controllabili x (fattori)
- Delle variabili non controllabili z
Lo scopo degli esperimenti è verificare come i diversi fattori (variabili) e i loro livelli (modalità) influiscono
sulla variabile risposta del processo. Si cerca la combinazione ottima di fattori che minimizza la variabilità
dovuta al rumore, cioè a fattori non controllabili.
I valori dei fattori a cui si svolgono le prove del piano sperimentale sono chiamati livelli. Si costruisce così un
k
piano fattoriale, che si dice, per esempio 2 , se ognuno dei k fattori (variabili) presenta 2 livelli (modalità). Si
svolge una prova sperimentale per ognuna delle combinazioni dei livelli dei fattori.
La pianificazione statistica degli esperimenti, cioè la progettazione dell’esperimento è il processo di raccolta
dei dati necessari all’analisi statistica (ANOVA).
PRINCIPI DEI DISEGNI SPERIMENTALI
• Replicazione dell’esperimento: ripetizione dell’esperimento su unità diverse. Consente di stimare
l’errore sperimentale (si deduce se l’errore è causale o meno) e di capire se le differenze osservate
→
nei dati sono statisticamente significative. Consente di stimare in modo preciso l’effetto di un
certo fattore, attraverso una scomposizione della varianza della y rispetto a ogni fattore che l’ha
provocata.
• Casualizzazione: le prove si effettuano in modo casualizzato / randomizzato, cioè senza seguire un
ordine prestabilito (la variabilità che si aggiunge seguendo un preciso ordine è deterministica,
mentre procedendo in ordine casuale si aggiunge della variabilità casuale, che si può considerare
parte dell’errore del modello).
• Blocchi: insieme di unità omogenee tra loro. La presenza dei blocchi migliora la precisione delle
stime e la precisione con cui vengono effettuati i confronti tra i fattori di interesse, perché
permette di non introdurre fonti di variabilità non controllabili.
PROCEDIMENTO DA SEGUIRE
• Identificazione del problema da analizzare
• Scelta dei fattori e dei livelli su cui si vuole indagare
• Scelta della variabile risposta
• Scelta del piano sperimentale
• Esecuzione dell’esperimento
• Analisi statistica dei dati
I fattori possono essere:
- tenuti costanti perché potrebbero influire sull’esperimento, ma non sono di specifico interesse per
l’esperimento e, quindi, si fissano a un determinato livello
- lasciati variare se non possono essere omogenei
- fattori di disturbo controllabile dallo sperimentatore
- fattori di disturbo non controllabile / rumore, specialmente nel processo produttivo
ANOVA
È una procedura inferenziale che si effettua quando si vuole esaminare l’effetto di uno o più fattori sulla
variabile risposta Y. I fattori possono avere un numero variabile di livelli, o trattamenti.
Ogni combinazione di livelli rappresenta una diversa condizione sperimentale. Per ogni combinazione posso
effettuare una o più replicazione (osservazione) di Y.
L’obiettivo è verificare se al variare dei livelli del fattore corrispondono differenze sistematiche della
variabile risposta, in modo da capire se queste differenze sono dovute ai diversi trattamenti o sono
accidentali.
L’ANOVA ha tre assunti fondamentali:
- la normalità degli errori
- l’indipendenza delle prove e l’additività degli effetti
→
- l’omogeneità della varianza tra i gruppi è opportuno che la numerosità dei gruppi sia simile
In analogia al test t, il test F, che si usa nell’ANOVA, nel caso di assunzione di normalità, può essere
utilizzato anche in assenza di tale assunzione, in quanto ben approssima la distribuzione di casualizzazione.
Il piano fattoriale può essere:
• Completo: per ogni combinazione di livelli si fa almeno una replicazione
• Frazionato: per ragioni di costo si eliminano alcune combinazioni di trattamenti.
I criteri di scelta delle combinazioni di trattamenti e le relative procedure inferenziali costituiscono il piano
sperimentale.
ANOVA A UNA VIA
Anova con un solo fattore a k livelli.
- ni è il numero di replicazioni fatte per il trattamento i-esimo
- yij è il valore assunto dalla variabile y sulla j-esima osservazione sotto l’i-esimo trattamento (livello
del fattore)
Modello = + = + +
L’osservazione è descritta come la somma della media delle osservazioni effettuate con l’i-esimo
trattamento e della componente casuale (errore casuale), in cui confluiscono tutte le possibili fonti di
variabilità dell’esperimento (errori di misura, variabilità dovuta a fattori non controllabili, variabilità nel
tempo…).
Dove: 2 2
~(0; )
- , cioè gli errori sono normo-distribuiti, a media nulla e omoschedastici a varianza .
Inoltre gli errori sperimentali sono tutti indipendenti tra loro:
( , = 0 ∀ ≠ , ≠
)
- è l’effetto comune a tutti i livelli del fattore, cioè la media generale di tutte le osservazioni:
1
= ∗ ∑ ∗
=1
∑
=
Con
= −
- è l’effetto del trattamento i-esimo, cioè lo scostamento dalla media generale causato
dall’i-esimo trattamento.
Modello a effetti fissi e modello a effetti casuali
Nel modello a effetti fissi i trattamenti vengono scelti dallo sperimentatore. I risultati sono validi solo per i
casi considerati nell’esperimento e non si possono generalizzare.
Nel modello a effetti casuali i trattamenti considerati nell’esperimento sono un campione casuale estratto
da un insieme più ampio dei possibili trattamenti della popolazione. è una variabile casuale, di cui è più
interessante studiare la variabilità che il valore.
,
Stimatori corretti e consistenti di ,
La media campionaria della popolazione con trattamento i-esimo è:
1
̅ = ∗ ∑
=1
2
(̅ ) =
E la sua varianza è:
La media campionaria generale, invece, è:
1
̅ ̅
= ∗ ∑ ∗
=1
2
(̅) =
E la sua varianza è:
L’effetto del trattamento , sotto le condizioni poste, si può calcolare con lo stimatore corretto:
̅ ̅
̂ = −
1 1
2
)
(
̂ = ∗ ( − )
Che ha varianza: ̅ ̅
Siccome le variabili casuali , presenti in e in , sono sempre indipendenti, eccetto quando i coincide,
2
̅ ̅ (̅ ̅)
, =
allora la covarianza tra e è: .
Decomposizione della devianza
L’ANOVA si basa sulla scomposizione della devianza totale (misura della dispersione complessiva con N-1
g.d.l) in:
- Devianza tra gruppi, che misura la dispersione delle medie campionarie dei singoli trattamenti
rispetto a quella generale (devianza spiegata). Ha K-1 g.d.l.
- Devianza entro gruppi, che misura la dispersione delle osservazioni in ogni gruppo dalla loro
media. È una misura della dispersione residua, dovuta all’errore casuale. Ha N-K g.d.l.
2 2
̅) ∑(̅ ̅) ̅
2
∑ ∑( − = − + ∑ ∑( − )
=1 =1 =1 =1 =1 = ∀ ,
Lo stimatore della varianza fra gruppi è corretto solo sotto l’ipotesi nulla, cioè quando mentre
lo stimatore della varianza entro gruppi è sempre corretto, indipendentemente dai valori assunti dalle
medie dei trattamenti, sia sotto H0, che sotto H1. Sono rispettivamente:
2 2
2 2 2
∑ (
= + ∗ − ) =
e
=1 −1
La verifica di ipotesi : = = ⋯ =
0 1 2
{
: ≠ ,
1
Cioè: : = 0
0
{ : ≠ 0
1
L’ipotesi nulla prevede, quindi, che non ci sia effetto del trattamento e, cioè che le differenze osservate tra
le medie di gruppo siano tutte dovute al caso.
2
=
Data la statistica test F: , si rifiuta l’ipotesi nulla per valori alti di F. F sotto l’ipotesi nulla si
2
distribuisce come F~F , in quanto è il rapporto di due chi-quadrato:
K-1,N-K
2
(−1)∗ 2
~
- sotto H 0
−1
2
2
(−)∗ 2
~
- sotto H e H
0 1
−
2
Formule operative
1. Devianza tra gruppi: 2
̅ ̅) ̅ ̅
2 2
(
∑ ∗ − = ∑ ∗ − ∗
=1 =1
2. Devianza totale:
2 2
̅) 2
∑ ∑( − = ∑ ∑ − ∗
=1 =1 =1 =1
3. Devianza entro gruppi:
2 2
2
̅ ̅
∑ ∑( − = ∑ ∑ − ∑ ∗
)
=1 =1 =1 =1 =1
ANOVA A DUE VIE
Si suppone di studiare l’effetto di due fattori sulla variabile risposta Y.
- A è un fattore con r livelli (A1, A2,…, Ar)
- B è un fattore con c livelli (B1, B2,…, Bc)
- Yijk il k-esimo elemento campionario (k=1,2,…, n) relativo