Estratto del documento

METODI STATISTICI PER LA

GESTIONE DEL RISCHIO E

DELL’INNOVAZIONE

LAUREA MAGISTRALE IN INGEGNERIA GESTIONALE

C. Scimeca, R. Scimeca

UNIVERSITÀ DEGLI STUDI DI PALERMO | SCUOLA POLITECNICA

Prefazione

Il presente file costituisce una sintesi completa del corso di Metodi Statistici per la gestione

del rischio e dell’innovazione, di A. Lombardo, ed è divisa in tre sezioni distinte: “Elementi di

statistica inferenziale”, “Progettazione degli esperimenti” e “Processi stocastici”. Le fonti sono

appunti presi a lezione, slide, sbobinature e altro materiale didattico fornito dal professore

e, dove necessario, approfondimenti sul web.

La prima sezione è puramente introduttiva e richiama i fondamenti della statistica

inferenziale attraverso due capitoli, dei quali il primo riprende i concetti di stima di un

parametro e analisi della varianza, il secondo espone le tecniche principali di regressione

statistica e analisi dei residui, concludendosi con l'esposizione del modello lineare

generalizzato.

Conclusa la prima sezione, inizia lo studio vero e proprio della progettazione degli

esperimenti. Il testo costituisce una dispensa completa per lo studio della progettazione

ottimale degli esperimenti. Il file è stato redatto grazie ad una rielaborazione personale della

parte del libro di testo dedicata al design sperimentale (Matmix-Probabilità e Statistica per

Ingegneri), con l'aiuto di appunti e registrazioni delle lezioni. I primi capitoli sono dedicati

all'esposizione del design fattoriale (a 2 o più livelli, omogenei, misti, etc.) e frazionario,

enunciando di volta in volta le particolari tecniche (vedi split-plot, quadrati latini) che

consentono di ottenere ottimi risultati con un utilizzo parsimonioso del materiale

sperimentale. Poi, il capitolo 4 passa ai metodi della superficie di risposta: in particolare ci si

concentra sullo steepest ascendet method e sul Central Composite Design. L'ultimo capitolo

C S – R S

LAUDIO CIMECA ICCARDO CIMECA

è dedicato alla progettazione robusta, fondata sul metodo dell'ingegnere Taguchi.

Con lo studio di questa dispensa è pertanto possibile ottenere profonda conoscenza

riguardo le varie tecniche per progettare in maniera ottimale svariate tipologie di

esperimenti e indagini scientifiche, oltre che apprendere tecniche di design sperimentale

mirate a ottenere specifici risultati sulla variabile di risposta.

La terza sezione costituisce una dispensa completa per lo studio dei processi stocastici, in

particolare per quanto riguarda lo studio dell'analisi di sopravvivenza (survival analysis) e

delle serie temporali. Si tratta di una rielaborazione propria basata sulla parte del libro di

testo consigliato dal docente (MatMix - Probabilità e statistica per ingegneri) dedicata ai

processi stocastici, con l'aiuto di appunti e registrazioni delle lezioni. Il testo è diviso in due

capitoli. Il primo è dedicato all'analisi di sopravvivenza, descrivendo pienamente i processi

di arrivo (minimal repair, sostituzione o rinnovo, etc.) e come fare inferenza statistica su di

essi, attraverso le tecniche grafiche e analitiche più conosciute (i.e. test di Laplace, stimatore

di Kaplan-Meier, Cox, etc.). Il secondo approfondisce lo studio delle serie temporali,

cominciando dalla descrizione formale dei processi stocastici fino alla esposizione dei

modelli (ARMA, ARIMA, Box-Jenkins methodology) che permettono di fare inferenza sui dati

time-series.

Si augura una buona lettura,

I Dottori, R S – C S

ICCARDO CIMECA LAUDIO CIMECA

Università degli studi di Palermo – Corso di Laurea Magistrale in

Ingegneria Gestionale

Sintesi del corso di Metodi Statistici per la gestione del rischio e

dell’innovazione (del Professore A.Lombardo)

Capitolo 1.

In questo paragrafo presentiamo un ripasso veloce delle principali variabili casuali che verrano utilizzate in

tutto il corso. Naturalmente iniziamo dalla variabile casuale normale o gaussiana. Questa è una variabile che

soddisfa l’equazione: 2

 

1 x

1   

  

2

( )

f x e

2

b

Tale funzione risulta simmetrica rispetto all’asse x = μ, punto che è anche massimo di essa; μ è detto parametro

di posizione, b di scala: al variare del primo varia il centro della curva, al variare del secondo aumenta la

dispersione o variabilità della curva. Per essa vale E(x)=μ e var(x)=σ . La trasformazione z=(x – μ)/σ coincide

2

con la standardizzazione e pertanto la variabile casuale che si ottiene con μ = 0 e σ = 1 è la variabile normale

standardizzata, che indichiamo con N(0, 1). Si abbia ora una combinazione lineare di variabili casuali normali

indipendenti: una variabile così formata risulta distribuita secondo una normale con valore atteso e varianza:

     

       

2 2 2 2 2 2

( ) ... ; var( ) ...

E Y a a a Y a a a

1 1 2 2 1 1 2 2

n n n n

è il coefficiente dell’i‐esimo addendo che forma la variabile Y.

dove a

i

Accenniamo ad una variabile detta lognormale, definita come:

 

 

log( ) ( , )

X Y N

Tale variabile è molto utile nel caso in cui Y sia una variabile continua esprimibile tramite variabili continue

che si cumulano moltiplicativamente, infatti, tramite la trasformazione logaritmica, si ottiene:

        

... ... lo g ( ) lo g ( ) lo g ( ) ... lo g ( )...

Y X X X Y X X X

1 2 1 2

n n

Sapendo che la variabile lognormale si distribuisce come una N (μ,σ), E(Y) e var(Y) risultano essere:

 

2 2 2

    

 

  

( / 2) 2

( ) ; var( ) 1

E Y e Y e e

Si chiama variabile casuale chi‐quadrato la variabile casuale formata dalla somma di variabili normali

standardizzate indipendenti elevate al quadrato:

    

2 2 2 2

...

Z Z Z

1 2

v v

Il numero delle Z (v), unico parametro che caratterizza la variabile, prende il nome di gradi di libertà. Si ha:

2  

 

2 2

( ) ; v a r( ) 2

E v v

v v

Questa variabile gode dell’additività; in particolare, sommando chi‐quadrato indipendenti si ottiene una chi‐

quadrato avente gradi di libertà pari alla somma dei gradi degli addendi.

Un’altra variabile importante è la variabile casuale t‐Student, definita come il rapporto tra due variabili casuali

indipendenti, rispettivamente una normale standardizzata a numeratore e la radice di una chi‐quadrato divisa

per i propri gradi di libertà a denominatore. Cioè: Z

t  2 / v

v

La distribuzione della t‐Student è simmetrica intorno a t = 0. Per v abbastanza grande la t tende alla N(0, 1).

Viene chiamata variabile casuale F‐Fisher il rapporto tra due chi‐quadrato indipendenti, ciascuna divisa per i

propri gradi di libertà.

La formula generale di una variabile casuale normale multivariata risulta:

 

1 1 

   

1

x x μ Σ x μ

( ) exp ( ) ( )

T

 

f 

1/ 2 /2

Σ

| | (2 ) 2

 

n

avente E(X)=μ e var(X)=Σ, dove μ e Σ sono rispettivamente il vettore delle medie delle singole normali e la

matrice di covarianza (che avrà le singole varianze nella diagonale principale). Si vede che l’argomento

dell’esponenziale è una chi‐quadrato con gradi pari a n. Solo per la normale multivariata vale che

l’indipendenza in senso debole implica quella in senso forte. 1

La statistica inferenziale è una metodologia che, a partire da dati sperimentali (campioni), consente di stimare

alcune quantità incognite della popolazione o di un processo che ha generato quel campione. Per il fatto che il

campione è considerato come un insieme di estrazioni indipendenti dalla stessa popolazione, possiamo

trattarlo come le realizzazioni {x , x ,…,x } di una stessa variabile casuale X. Definiamo statistica una quantità

n

1 2

sintetica dei dati campionari. Definiamo stimatore una procedura che, sulla base di una statistica, produce una

stima. La stima è dunque il risultato di un certo algoritmo applicato ad uno specifico campione. Uno stimatore

è una variabile casuale che ha una distribuzione di probabilità che fa riferimento ad una “popolazione di

campioni” e per questo è detta distribuzione campionaria. Uno stimatore T che stima un certo parametro θ si

dice corretto se e solo se E(T) = θ. Altrimenti lo stimatore si dice distorto, con distorsione Bias(T) = E(T) – θ. Si

badi bene al fatto che la correttezza di uno stimatore non garantisce affatto che la sua singola realizzazione sia

proprio θ. Possiamo fissare un intervallo intorno a θ, e stabilire quale sia la probabilità che la stima cada

all’interno dello stesso:  

  

   

1

P T

Naturalmente preferiremo uno stimatore di θ che abbia elevata probabilità di produrre stime che cadano

all’interno dell’intervallo: a parità di probabilità, si definisce precisione l’inverso della larghezza di questo

intervallo. Tuttavia uno stimatore più preciso rispetto ad un altro ad un certo livello di probabilità potrebbe

esserlo meno rispetto ad un altro livello. Serve dunque un indice sintetico di variabilità. A tale scopo usiamo

var(T). Si consideri una successione {T , T ,…, T ,…} di stimatori di campioni della stessa X, ma con

n

1 2

dimensione campionaria crescente. Se questa successione converge in probabilità a θ allora lo stimatore si dirà

consistente. In altre parole ci si deve accertare che, per ξ > 0 comunque piccolo:

 

 

  

lim 0

P T n

 

n

Come si è capito, la prospettiva statistica è speculare rispetto a quella probabilistica: il campione è già stato

estratto mentre uno o più elementi della funzione di probabilità sono incogniti. Se allora scriviamo una

funzione di probabilità con tali accorgimenti otteniamo una funzione non più probabilistica, ma dipendente

dai parametri della stessa, che chiamiamo funzione di verosimiglianza L. È logico pensare che, visto che ci si

attende di estrarre campioni che hanno un valore di f elevato, si ritengono più verosimili valori dei parametri

incogniti che rendano la verosimiglianza più elevata. Per questo motivo è spontaneo determinare la stima dei

parametri incogniti come quelli che massimizzano la funzione di verosimiglianza. Essendo L una quantità

sempre positiva, è possibile effettuare la trasformazione logaritmica; se un punto sarà massimo della log(L)

(detta logverosimiglianza) lo sarà anche della verosimiglianza stessa. Una statistica si dice sufficiente se

l’informazione contenuta nel campione è tutta contenuta nella statistica stessa; ossia, una volta che dai dati

campionari abbiamo calcolato la statistica, questi non servono più per quanto riguarda la stima puntuale del

parametro cercato.

La varianza di uno stimatore è un valore che può dare un’idea dell’ambito entro il quale un dato parametro

può considerarsi ragionevolmente compreso. Tuttavia questo scopo può essere meglio formalizzato attraverso

gli intervalli di confidenza, che costituiscono una stima intervallare del parametro. Date due funzioni

   

( )   

( )

campionarie e tali che , si dice intervallo di confidenza l’intervallo tale che:

X X  

( ), ( )

X X

 

   

   

( ) ( ) 1

P X X

È chiaro che la quantità a secondo membro è una probabilità solo finché gli estremi sono variabili casuali.

Quando si è in presenza di un dato intervallo riferito al campione estratto, gli estremi non sono più variabili

casuali e allora tale quantità prende il nome di grado di fiducia. La probabilità che una generica stima cada

all’interno dell’intervallo probabilistico può essere fissata da noi dimensionando opportunamente la

lunghezza dell’intervallo. È necessario dunque contemperare le esigenze di un grado di fiducia elevato, con

una “precisione” della stima intervallare, definita come l’inverso della lunghezza dell’intervallo.

Quando analizzeremo gli esperimenti nei capitoli successivi faremo riferimento ad un campione illimitato

(non infinito), distribuito secondo una distribuzione di probabilità (solitamente normale). Le nostre

osservazioni dovranno essere dei campioni, che diremo casuali se le osservazioni sono prese a caso. Nei nostri

campioni avremo due fonti di aleatorietà: la prima viene dal fatto che la singola osservazione può essere più

grande o più piccola rispetto a quella che si avrebbe senza variabilità, la seconda riguarda l’estrazione random

2

delle osservazioni (se non è garantito il modello di randomizzazione non potremo applicare le varie tecniche

che vedremo). L’obiettivo è estrarre il numero massimo di informazioni dal numero minimo di prove.

In statistica inferenziale distinguiamo la distribuzione della popolazione dalla distribuzione campionaria. Come

detto, per stimare un parametro della popolazione estraiamo un campione da quest’ultima e ne facciamo ad

esempio la media aritmetica; se noi potessimo ripetere il campione, ovvero il campione diventa osservazione,

e potessimo ottenere tutte le medie che si possono ottenere da questa procedura, otterremmo la distribuzione

di campionamento delle medie campionarie, che risulta una normale. Mentre la variabilità della popolazione

nasce da cause sconosciute che rendono il fenomeno variabile, la variabilità della distribuzione di

campionamento è dovuta anche alla variabilità di campionamento. Pertanto si ha che i valori attesi delle due

distribuzioni coincidono, mentre la varianza del campionamento sarà pari a σ /n, con n numero di osservazioni

2

per ciascun campione indipendente; ciò significa che più grande è il campione, più riduciamo la variabilità

della stima. Infatti, per ottenere intervalli di confidenza più stretti e con alte probabilità di includere in essi il

vero valore da stimare, dobbiamo aumentare la dimensione campionaria, ma tutto ciò ha costi associati. In

particolare, la lunghezza dell’intervallo è proporzionale alla radice della varianza della distribuzione

campionaria.

Prima di richiamare l’analisi della varianza facciamo un breve ripasso necessario. La verifica d’ipotesi consiste

nel formulare un’ipotesi e controllare, utilizzando un campione, se quest’ultimo smentisce l’ipotesi o meno.

Questa metodologia si basa sui seguenti elementi:

aa

))

a ) Un’ipotesi di base H (per sottolineare il fatto che è l’ipotesi che conduce ad una non azione)

0

bb

))

b ) Un’ipotesi alternativa H , che rappresenta lo stato alternativo e che può essere puntuale o un insieme.

1

cc

))

c

) Un test statistico basato sui dati campionari sulla base del quale prendiamo la decisione.

dd

))

d ) Una regione entro cui il risultato del test può trovarsi, divisa in regione di accettazione o di rifiuto, tale che

se il test cade nella prima si accetta (o non si rifiuta) H , altrimenti si rifiuta.

0 Chiameremo α la probabilità che l’ipotesi di

base sia vera ma il test cade nella regione di

rifiuto, mentre chiameremo β il caso in cui

l’ipotesi di base è falsa ma il test cade nella

regione di accettazione. Per determinare questi

due rischi si dovrà ipotizzare la funzione di

distribuzione del test statistico quando H è

0

è vera avremo

vera e quando è falsa. Se H

0

probabilità 1–α di agire correttamente, se

invece è falsa avremo probabilità 1–β.

Per trovare la statistica utilizziamo un metodo generale che, per fissata dimensione campionaria e a parità di

rischio di prima specie, assicuri la possibilità di determinare test e relative regioni di rifiuto che minimizzano

il rischio di seconda specie. Sia H : θ = θ e H :θ = θ :

0 0 1 1 

( | )

L x

  0

( | )

L x

1

Più λ è piccolo più la verosimiglianza dell’ipotesi alternativa sovrasta quella di base, viceversa non vi sono

ragioni per rifiutare quest’ultima. Secondo il lemma di Neyman‐Pearson, per massimizzare la potenza del test

(1 – β), la regione che identifica l’errore α deve accumularsi nelle code.

Vediamo ora come si applica la verifica d’ipotesi per il confronto tra due campioni. Iniziamo dal caso in cui si

vogliano confrontare due medie e le due varianze siano note. Ammettendo che le due osservazioni sono i.i.d.N

(i due campioni sono indipendenti non solo al loro interno, ma anche uno rispetto all’altro), non è necessario

che le due dimensioni campionarie siano uguali, ma tuttavia ciò risulta opportuno in quanto i test che ne

derivano risultano più potenti. Vogliamo dunque saggiare l’ipotesi: H : μ =μ , H :μ ≠μ . In questo caso non

0 A B 1 A B

siamo interessati ai valori delle medie, anzi questi sono parametri di disturbo; il parametro di interesse è invece

Δ= μ – μ e dunque l’ipotesi di base potrà scriversi Δ=0. Nell’ipotesi di varianze note, dal rapporto tra le

A B ∞,

2

–m ) corrispondente a λ0;

verosimiglianze, si perviene al fatto che la regione di rifiuto è data da (m

A B

ciò è logico: più le medie dei due campioni so

Anteprima
Vedrai una selezione di 15 pagine su 67
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 1 Metodi statistici per la gestione del rischio e dell'innovazione Pag. 2
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 6
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 11
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 16
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 21
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 26
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 31
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 36
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 41
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 46
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 51
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 56
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 61
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Metodi statistici per la gestione del rischio e dell'innovazione Pag. 66
1 su 67
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/02 Statistica per la ricerca sperimentale e tecnologica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher RiccardoScimeca di informazioni apprese con la frequenza delle lezioni di Metodi statistici per la gestione del rischio e dell'innovazione e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Palermo o del prof Lombardo Alberto.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community