Studio della dipendenza dei raggi cosmici dai parametri atmosferici mediante l'utilizzo di reti neurali, Tesi

Tesi di fisica sperimentale: analisi della correlazione tra i dati sperimentali di raggi cosmici (muoni) e temperatura tramite boxplot, Fourier e regressione lineare. Utilizzo di reti neurali …

Esame Fisica sperimentale

Facoltà Ingegneria

Dal corso del Prof. Pagano Davide

Università Università degli Studi di Brescia

Publisher SofiaTos

A.A. 2020-2021

91 pagine

Tesi

Vota

Scarica

Estratto del documento

Formattazione del testo

∂E−γ∆ w = (2.7)p jk ∂wjkpdove E è l’errore, definito come l’errore quadratico totale sul pattern pmisurato sulle unità di output: No1 X p p 2p −(d y ) . (2.8)E = o o2 o=1 pPer la regola della catena, la derivata di E rispetto ad un generico peso w jkpuò essere scritta come: pp p ∂s∂E ∂E k= . (2.9)pk∂w ∂w∂sjk jkpkInoltre, derivando s nell’equazione 2.6, si ottiene:pk∂s p= y . (2.10)j∂wjkp comeDefinendo δk p∂Ep −δ = (2.11)pkk ∂se sostituendo le equazioni 2.10 e 2.11 nella 2.9, si ricava dalla 2.7 chep p∆ w = γδ y , (2.12)p jk jkequivalente alla delta rule non generalizzata.pPer calcolare δ , si può applicare nuovamente la regola della catena, ekdunque: ppp ∂y∂E ∂Ep k−− = . (2.13)δ = p p pk ∂s ∂y ∂sk k k39Per quanto riguarda il calcolo del secondo fattore del prodotto, dalla

derivatadell’equazione 2.6 si ottiene: p∂y p0k ). (2.14)= F (sp k∂sk

Per quanto riguarda invece il calcolo del primo fattore, bisogna distingueredue casi. p1. Se k è un’unità di output (k = o), dalla definizione di E (equazione2.8) segue che: p∂E po p−−(d y ), (2.15)=p o∂yorisultato analogo a quello ottenuto con la delta rule standard. So-stituendo quest’espressione e l’equazione 2.14 nella 2.13, si ricava:0p po p po−δ = (d y )F (s ) (2.16)o o oper ogni unità di output o. Considerando come funzione di attivazioneF una sigmoide, si ottiene:p po p p p− −δ = (d y )y (1 y ). (2.17)o o o o2. Se invece k è un’unità nascosta (k = h), non è possibile sapere il con-tributo del neurone all’errore sull’output. Tuttavia, mediante diversesostituzioni e derivazioni, è possibile esprimere la misura dell’errore infunzione degli input della rete, ottenendo:Nophp X0 p) δ w .

(2.18) = F (sδ hooh o=1

Considerando come funzione di attivazione F una sigmoide, si ha che:

Nop p p X p−δ = y (1 y ) δ w . (2.19)hooh h h o=1

Le equazioni 2.17 e 2.19 forniscono una procedura ricorsiva per il calcolo delleδ per ogni neurone della rete, poi utilizzate per calcolare l’aggiustamento deipesi secondo l’equazione 2.12.

In parole semplici, dunque, quando è fornito un pattern p e gli stati diattivazione sono propagati alle unità di output, l’uscita effettiva della rete40viene confrontata con il valore desiderato, fornendo un errore E in ogni unitàdi output. Questo errore deve essere minimizzato; per fare ciò, al terminedi ogni ciclo, i pesi vengono modificati di una quantità ∆ w , calcolatap jkin maniera tale da attenuare la discrepanza fra risultato noto e risultatoeffettivo.

Figura 2.9: Esempio di superficie dell’errore di un neurone con due pesi in input.

In accordo con l’equazione 2.7, la modifica dei pesi

deve dipendere dap∂E /∂w secondo una costante di proporzionalità γ, pari al tasso di apprendimento (LR). Il valore di LR deve essere scelto in maniera adeguata, inquanto un valore troppo piccolo può aumentare in maniera eccessiva il tempo di ricerca del minimo, mentre un valore troppo grande può portare ad oscillazioni e, dunque, all'instabilità. Un modo di evitare tali oscillazioni consiste nel rendere la modifica dei pesi dipendente dalla modifica apportata nell'epoca precedente, aggiungendo un ulteriore termine all'equazione 2.12:

∆w (t + 1) = γδy + μ∆w (t). (2.20)

La costante μ è detta momento e determina l'entità dell'effetto delle precedenti modifiche. La Figura 2.10 rappresenta la discesa del gradiente di errore al variare dei valori di learning rate e momento. Quando quest'ultimo è assente e il LR è molto basso, il sistema impiega molto tempo per raggiungere il minimo.(situazione a); quando è assente e il LR è troppo alto, il sistema non raggiunge affatto il minimo per via delle oscillazioni (situa-41Learning rate and momentum. The learning procedure requires that the change in weight

E = w_i

is proportional to δ. True gradient descent requires that infinitesimal steps are taken. The constant of proportionality is the learning rate η. For practical purposes we choose a learning rate that is as large as possible without leading to oscillation. One way to avoid oscillation at large η, is to make the change in weight dependent on the past weight change by adding a momentum term:

p_w^t+1 = p_w^t + η (δw_t) (4.22)

where j indexes the presentation number and α is a constant which determines the effect of the previous weight change. (situazione b); invece, in presenza del momento, il minimo verrà raggiunto molto più velocemente (situazione c). Le curve circolari sono le curve di livello, The role of the momentum term is shown in figure 4.2. When no momentum term is

used, ovvero l'insieme dei punti in cui la funzione d'errore assume il medesimo valore; per chiarezza, sono state rappresentate anche sul piano (w1, w2) della Figura 2.9.

It takes a long time before the minimum has been reached with a low learning rate, whereas for high learning rates the minimum is never reached because of the oscillations. When adding the momentum term, the minimum will be reached faster. (See Figure 4.2)

Figura 2.10: Discesa del gradiente al variare del learning rate e del momento sul piano dei pesi [35].

Valutazione delle prestazioni di una rete MLP Learning per pattern. Although, theoretically, the back-propagation algorithm performs gradient descent on the total error only if the weights are adjusted after the full set of patterns.

learningpie (input, target) viene solitamente diviso in due parti: i set di training e di test. Il set di training contiene buona parte dei dati e viene utilizzato per l'addestramento vero e proprio della rete neurale; una volta terminato l'addestramento, la bontà della rete viene verificata su un set di test, ovvero un insieme di dati sconosciuti alla rete.

Il set di training viene presentato, più spesso che non, separatamente, cioè un pattern viene applicato, calcolato e i pesi vengono adattati. Esiste un'indicazione empirica che questo porta a una convergenza più rapida. Tuttavia, bisogna fare attenzione all'ordine in cui vengono insegnati i pattern. Ad esempio, utilizzando la stessa sequenza più volte, la rete potrebbe concentrarsi sui primi pattern. Questo problema può essere superato utilizzando un set di training permutato.

Il numero di campioni in input, in quanto determina la qualità delle informazioni che la rete sarà in grado di estrapolare dai dati. Infatti, se vengono forniti pochi campioni in input, la rete li imparerà facilmente (l'errore sul set di training sarà molto basso), ma l'errore sul set di test aumenterà molto, in quanto la rete non sarà sufficientemente rappresentativa della funzione da approssimare. Dunque, è fondamentale ricordare che un basso errore sul set di training non è una garanzia della bontà della rete.
Il numero di iterazioni, i quali determinano l'errore sul set di training.

A feed-forward network can be used to approximate a function from examples. Suppose we have a system (for example a chemical process or a financial market) of which we want to know the function, the learning samples are depicted as circles and the approximation by the network is shown by 42.

the drawn line. 5 hidden units are used. a) 4 learning samples. b) 20 learning samples. learning error on the (small) learning set is no guarantee for a good network performance! With increasing number of learning samples the two error rates converge to the same value. This value depends on the representational power of the network: given the optimal weights, how good is the approximation. This error depends on the number of hidden units and the activation function. If the learning error rate does not converge to the test error rate the learning procedure has not found a global minimum. error rate test set learning set number of learning samples Figure 4.8: Effect of the learning set size on the error rate. The average error rate and the average test error rate as a function of the number of learning samples. Figura 2.11: Grafico dell'errore sui set di training e di test in funzione del numero di dati in input [35]. Come si può osservare nella Figura 2.11, con un numero alto di campioni di apprendimento, i tassi di errore sui set di training e di test convergono allo stesso valore.

ect of the number of hidden unitspioni in ingresso, gli errori convergono ad un certo valore, tanto bas-The same function as in the previous subsection is used, but now the number of hidden units isso quanto più la rete è rappresentativa del sistema; ciò dipende dalvaried. The original (desired) function, learning samples and network approximation is shownnumero di unità nascoste e dalla funzione di attivazione implementata.in gure 4.9A for 5 hidden units and in gure 4.9B for 20 hidden units. The eect visible• Il numero di neuroni nascosti, il quale determina l’affidabilità dellain gure 4.9B is called overtraining. The network ts exactly with the learning samples, butrete e la sua capacità di catturare la tendenza dei dati di training.because of the large number of hidden units the function which is actually represented by theInfatti, un numero troppo basso di unità nascoste può portare al fe-network is far more wild than the original one. Particularly in

Underfitting is a condition in which the model is unable to capture the underlying pattern of the data due to the presence of noise. This can result in the network fitting the noise instead of making a smooth approximation of the learning samples.

Anteprima

Vedrai una selezione di 20 pagine su 91