METODI STATISTICI PER LA
GESTIONE DEL RISCHIO E
DELL’INNOVAZIONE
LAUREA MAGISTRALE IN INGEGNERIA GESTIONALE
C. Scimeca, R. Scimeca
UNIVERSITÀ DEGLI STUDI DI PALERMO | SCUOLA POLITECNICA
Prefazione
Il presente file costituisce una sintesi completa del corso di Metodi Statistici per la gestione
del rischio e dell’innovazione, di A. Lombardo, ed è divisa in tre sezioni distinte: “Elementi di
statistica inferenziale”, “Progettazione degli esperimenti” e “Processi stocastici”. Le fonti sono
appunti presi a lezione, slide, sbobinature e altro materiale didattico fornito dal professore
e, dove necessario, approfondimenti sul web.
La prima sezione è puramente introduttiva e richiama i fondamenti della statistica
inferenziale attraverso due capitoli, dei quali il primo riprende i concetti di stima di un
parametro e analisi della varianza, il secondo espone le tecniche principali di regressione
statistica e analisi dei residui, concludendosi con l'esposizione del modello lineare
generalizzato.
Conclusa la prima sezione, inizia lo studio vero e proprio della progettazione degli
esperimenti. Il testo costituisce una dispensa completa per lo studio della progettazione
ottimale degli esperimenti. Il file è stato redatto grazie ad una rielaborazione personale della
parte del libro di testo dedicata al design sperimentale (Matmix-Probabilità e Statistica per
Ingegneri), con l'aiuto di appunti e registrazioni delle lezioni. I primi capitoli sono dedicati
all'esposizione del design fattoriale (a 2 o più livelli, omogenei, misti, etc.) e frazionario,
enunciando di volta in volta le particolari tecniche (vedi split-plot, quadrati latini) che
consentono di ottenere ottimi risultati con un utilizzo parsimonioso del materiale
sperimentale. Poi, il capitolo 4 passa ai metodi della superficie di risposta: in particolare ci si
concentra sullo steepest ascendet method e sul Central Composite Design. L'ultimo capitolo
C S – R S
LAUDIO CIMECA ICCARDO CIMECA
è dedicato alla progettazione robusta, fondata sul metodo dell'ingegnere Taguchi.
Con lo studio di questa dispensa è pertanto possibile ottenere profonda conoscenza
riguardo le varie tecniche per progettare in maniera ottimale svariate tipologie di
esperimenti e indagini scientifiche, oltre che apprendere tecniche di design sperimentale
mirate a ottenere specifici risultati sulla variabile di risposta.
La terza sezione costituisce una dispensa completa per lo studio dei processi stocastici, in
particolare per quanto riguarda lo studio dell'analisi di sopravvivenza (survival analysis) e
delle serie temporali. Si tratta di una rielaborazione propria basata sulla parte del libro di
testo consigliato dal docente (MatMix - Probabilità e statistica per ingegneri) dedicata ai
processi stocastici, con l'aiuto di appunti e registrazioni delle lezioni. Il testo è diviso in due
capitoli. Il primo è dedicato all'analisi di sopravvivenza, descrivendo pienamente i processi
di arrivo (minimal repair, sostituzione o rinnovo, etc.) e come fare inferenza statistica su di
essi, attraverso le tecniche grafiche e analitiche più conosciute (i.e. test di Laplace, stimatore
di Kaplan-Meier, Cox, etc.). Il secondo approfondisce lo studio delle serie temporali,
cominciando dalla descrizione formale dei processi stocastici fino alla esposizione dei
modelli (ARMA, ARIMA, Box-Jenkins methodology) che permettono di fare inferenza sui dati
time-series.
Si augura una buona lettura,
I Dottori, R S – C S
ICCARDO CIMECA LAUDIO CIMECA
Università degli studi di Palermo – Corso di Laurea Magistrale in
Ingegneria Gestionale
Sintesi del corso di Metodi Statistici per la gestione del rischio e
dell’innovazione (del Professore A.Lombardo)
Capitolo 1.
In questo paragrafo presentiamo un ripasso veloce delle principali variabili casuali che verrano utilizzate in
tutto il corso. Naturalmente iniziamo dalla variabile casuale normale o gaussiana. Questa è una variabile che
soddisfa l’equazione: 2
1 x
1
2
( )
f x e
2
b
Tale funzione risulta simmetrica rispetto all’asse x = μ, punto che è anche massimo di essa; μ è detto parametro
di posizione, b di scala: al variare del primo varia il centro della curva, al variare del secondo aumenta la
dispersione o variabilità della curva. Per essa vale E(x)=μ e var(x)=σ . La trasformazione z=(x – μ)/σ coincide
2
con la standardizzazione e pertanto la variabile casuale che si ottiene con μ = 0 e σ = 1 è la variabile normale
standardizzata, che indichiamo con N(0, 1). Si abbia ora una combinazione lineare di variabili casuali normali
indipendenti: una variabile così formata risulta distribuita secondo una normale con valore atteso e varianza:
2 2 2 2 2 2
( ) ... ; var( ) ...
E Y a a a Y a a a
1 1 2 2 1 1 2 2
n n n n
è il coefficiente dell’i‐esimo addendo che forma la variabile Y.
dove a
i
Accenniamo ad una variabile detta lognormale, definita come:
log( ) ( , )
X Y N
Tale variabile è molto utile nel caso in cui Y sia una variabile continua esprimibile tramite variabili continue
che si cumulano moltiplicativamente, infatti, tramite la trasformazione logaritmica, si ottiene:
... ... lo g ( ) lo g ( ) lo g ( ) ... lo g ( )...
Y X X X Y X X X
1 2 1 2
n n
Sapendo che la variabile lognormale si distribuisce come una N (μ,σ), E(Y) e var(Y) risultano essere:
2 2 2
( / 2) 2
( ) ; var( ) 1
E Y e Y e e
Si chiama variabile casuale chi‐quadrato la variabile casuale formata dalla somma di variabili normali
standardizzate indipendenti elevate al quadrato:
2 2 2 2
...
Z Z Z
1 2
v v
Il numero delle Z (v), unico parametro che caratterizza la variabile, prende il nome di gradi di libertà. Si ha:
2
2 2
( ) ; v a r( ) 2
E v v
v v
Questa variabile gode dell’additività; in particolare, sommando chi‐quadrato indipendenti si ottiene una chi‐
quadrato avente gradi di libertà pari alla somma dei gradi degli addendi.
Un’altra variabile importante è la variabile casuale t‐Student, definita come il rapporto tra due variabili casuali
indipendenti, rispettivamente una normale standardizzata a numeratore e la radice di una chi‐quadrato divisa
per i propri gradi di libertà a denominatore. Cioè: Z
t 2 / v
v
La distribuzione della t‐Student è simmetrica intorno a t = 0. Per v abbastanza grande la t tende alla N(0, 1).
Viene chiamata variabile casuale F‐Fisher il rapporto tra due chi‐quadrato indipendenti, ciascuna divisa per i
propri gradi di libertà.
La formula generale di una variabile casuale normale multivariata risulta:
1 1
1
x x μ Σ x μ
( ) exp ( ) ( )
T
f
1/ 2 /2
Σ
| | (2 ) 2
n
avente E(X)=μ e var(X)=Σ, dove μ e Σ sono rispettivamente il vettore delle medie delle singole normali e la
matrice di covarianza (che avrà le singole varianze nella diagonale principale). Si vede che l’argomento
dell’esponenziale è una chi‐quadrato con gradi pari a n. Solo per la normale multivariata vale che
l’indipendenza in senso debole implica quella in senso forte. 1
La statistica inferenziale è una metodologia che, a partire da dati sperimentali (campioni), consente di stimare
alcune quantità incognite della popolazione o di un processo che ha generato quel campione. Per il fatto che il
campione è considerato come un insieme di estrazioni indipendenti dalla stessa popolazione, possiamo
trattarlo come le realizzazioni {x , x ,…,x } di una stessa variabile casuale X. Definiamo statistica una quantità
n
1 2
sintetica dei dati campionari. Definiamo stimatore una procedura che, sulla base di una statistica, produce una
stima. La stima è dunque il risultato di un certo algoritmo applicato ad uno specifico campione. Uno stimatore
è una variabile casuale che ha una distribuzione di probabilità che fa riferimento ad una “popolazione di
campioni” e per questo è detta distribuzione campionaria. Uno stimatore T che stima un certo parametro θ si
dice corretto se e solo se E(T) = θ. Altrimenti lo stimatore si dice distorto, con distorsione Bias(T) = E(T) – θ. Si
badi bene al fatto che la correttezza di uno stimatore non garantisce affatto che la sua singola realizzazione sia
proprio θ. Possiamo fissare un intervallo intorno a θ, e stabilire quale sia la probabilità che la stima cada
all’interno dello stesso:
1
P T
Naturalmente preferiremo uno stimatore di θ che abbia elevata probabilità di produrre stime che cadano
all’interno dell’intervallo: a parità di probabilità, si definisce precisione l’inverso della larghezza di questo
intervallo. Tuttavia uno stimatore più preciso rispetto ad un altro ad un certo livello di probabilità potrebbe
esserlo meno rispetto ad un altro livello. Serve dunque un indice sintetico di variabilità. A tale scopo usiamo
var(T). Si consideri una successione {T , T ,…, T ,…} di stimatori di campioni della stessa X, ma con
n
1 2
dimensione campionaria crescente. Se questa successione converge in probabilità a θ allora lo stimatore si dirà
consistente. In altre parole ci si deve accertare che, per ξ > 0 comunque piccolo:
lim 0
P T n
n
Come si è capito, la prospettiva statistica è speculare rispetto a quella probabilistica: il campione è già stato
estratto mentre uno o più elementi della funzione di probabilità sono incogniti. Se allora scriviamo una
funzione di probabilità con tali accorgimenti otteniamo una funzione non più probabilistica, ma dipendente
dai parametri della stessa, che chiamiamo funzione di verosimiglianza L. È logico pensare che, visto che ci si
attende di estrarre campioni che hanno un valore di f elevato, si ritengono più verosimili valori dei parametri
incogniti che rendano la verosimiglianza più elevata. Per questo motivo è spontaneo determinare la stima dei
parametri incogniti come quelli che massimizzano la funzione di verosimiglianza. Essendo L una quantità
sempre positiva, è possibile effettuare la trasformazione logaritmica; se un punto sarà massimo della log(L)
(detta logverosimiglianza) lo sarà anche della verosimiglianza stessa. Una statistica si dice sufficiente se
l’informazione contenuta nel campione è tutta contenuta nella statistica stessa; ossia, una volta che dai dati
campionari abbiamo calcolato la statistica, questi non servono più per quanto riguarda la stima puntuale del
parametro cercato.
La varianza di uno stimatore è un valore che può dare un’idea dell’ambito entro il quale un dato parametro
può considerarsi ragionevolmente compreso. Tuttavia questo scopo può essere meglio formalizzato attraverso
gli intervalli di confidenza, che costituiscono una stima intervallare del parametro. Date due funzioni
( )
( )
campionarie e tali che , si dice intervallo di confidenza l’intervallo tale che:
X X
( ), ( )
X X
( ) ( ) 1
P X X
È chiaro che la quantità a secondo membro è una probabilità solo finché gli estremi sono variabili casuali.
Quando si è in presenza di un dato intervallo riferito al campione estratto, gli estremi non sono più variabili
casuali e allora tale quantità prende il nome di grado di fiducia. La probabilità che una generica stima cada
all’interno dell’intervallo probabilistico può essere fissata da noi dimensionando opportunamente la
lunghezza dell’intervallo. È necessario dunque contemperare le esigenze di un grado di fiducia elevato, con
una “precisione” della stima intervallare, definita come l’inverso della lunghezza dell’intervallo.
Quando analizzeremo gli esperimenti nei capitoli successivi faremo riferimento ad un campione illimitato
(non infinito), distribuito secondo una distribuzione di probabilità (solitamente normale). Le nostre
osservazioni dovranno essere dei campioni, che diremo casuali se le osservazioni sono prese a caso. Nei nostri
campioni avremo due fonti di aleatorietà: la prima viene dal fatto che la singola osservazione può essere più
grande o più piccola rispetto a quella che si avrebbe senza variabilità, la seconda riguarda l’estrazione random
2
delle osservazioni (se non è garantito il modello di randomizzazione non potremo applicare le varie tecniche
che vedremo). L’obiettivo è estrarre il numero massimo di informazioni dal numero minimo di prove.
In statistica inferenziale distinguiamo la distribuzione della popolazione dalla distribuzione campionaria. Come
detto, per stimare un parametro della popolazione estraiamo un campione da quest’ultima e ne facciamo ad
esempio la media aritmetica; se noi potessimo ripetere il campione, ovvero il campione diventa osservazione,
e potessimo ottenere tutte le medie che si possono ottenere da questa procedura, otterremmo la distribuzione
di campionamento delle medie campionarie, che risulta una normale. Mentre la variabilità della popolazione
nasce da cause sconosciute che rendono il fenomeno variabile, la variabilità della distribuzione di
campionamento è dovuta anche alla variabilità di campionamento. Pertanto si ha che i valori attesi delle due
distribuzioni coincidono, mentre la varianza del campionamento sarà pari a σ /n, con n numero di osservazioni
2
per ciascun campione indipendente; ciò significa che più grande è il campione, più riduciamo la variabilità
della stima. Infatti, per ottenere intervalli di confidenza più stretti e con alte probabilità di includere in essi il
vero valore da stimare, dobbiamo aumentare la dimensione campionaria, ma tutto ciò ha costi associati. In
particolare, la lunghezza dell’intervallo è proporzionale alla radice della varianza della distribuzione
campionaria.
Prima di richiamare l’analisi della varianza facciamo un breve ripasso necessario. La verifica d’ipotesi consiste
nel formulare un’ipotesi e controllare, utilizzando un campione, se quest’ultimo smentisce l’ipotesi o meno.
Questa metodologia si basa sui seguenti elementi:
aa
))
a ) Un’ipotesi di base H (per sottolineare il fatto che è l’ipotesi che conduce ad una non azione)
0
bb
))
b ) Un’ipotesi alternativa H , che rappresenta lo stato alternativo e che può essere puntuale o un insieme.
1
cc
))
c
) Un test statistico basato sui dati campionari sulla base del quale prendiamo la decisione.
dd
))
d ) Una regione entro cui il risultato del test può trovarsi, divisa in regione di accettazione o di rifiuto, tale che
se il test cade nella prima si accetta (o non si rifiuta) H , altrimenti si rifiuta.
0 Chiameremo α la probabilità che l’ipotesi di
base sia vera ma il test cade nella regione di
rifiuto, mentre chiameremo β il caso in cui
l’ipotesi di base è falsa ma il test cade nella
regione di accettazione. Per determinare questi
due rischi si dovrà ipotizzare la funzione di
distribuzione del test statistico quando H è
0
è vera avremo
vera e quando è falsa. Se H
0
probabilità 1–α di agire correttamente, se
invece è falsa avremo probabilità 1–β.
Per trovare la statistica utilizziamo un metodo generale che, per fissata dimensione campionaria e a parità di
rischio di prima specie, assicuri la possibilità di determinare test e relative regioni di rifiuto che minimizzano
il rischio di seconda specie. Sia H : θ = θ e H :θ = θ :
0 0 1 1
( | )
L x
0
( | )
L x
1
Più λ è piccolo più la verosimiglianza dell’ipotesi alternativa sovrasta quella di base, viceversa non vi sono
ragioni per rifiutare quest’ultima. Secondo il lemma di Neyman‐Pearson, per massimizzare la potenza del test
(1 – β), la regione che identifica l’errore α deve accumularsi nelle code.
Vediamo ora come si applica la verifica d’ipotesi per il confronto tra due campioni. Iniziamo dal caso in cui si
vogliano confrontare due medie e le due varianze siano note. Ammettendo che le due osservazioni sono i.i.d.N
(i due campioni sono indipendenti non solo al loro interno, ma anche uno rispetto all’altro), non è necessario
che le due dimensioni campionarie siano uguali, ma tuttavia ciò risulta opportuno in quanto i test che ne
derivano risultano più potenti. Vogliamo dunque saggiare l’ipotesi: H : μ =μ , H :μ ≠μ . In questo caso non
0 A B 1 A B
siamo interessati ai valori delle medie, anzi questi sono parametri di disturbo; il parametro di interesse è invece
Δ= μ – μ e dunque l’ipotesi di base potrà scriversi Δ=0. Nell’ipotesi di varianze note, dal rapporto tra le
A B ∞,
2
–m ) corrispondente a λ0;
verosimiglianze, si perviene al fatto che la regione di rifiuto è data da (m
A B
ciò è logico: più le medie dei due campioni so
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.