vuoi
o PayPal
tutte le volte che vuoi
Dimostrazione Adjoint.
Ip. divw(gi) = 1/2 ∑ √wij (gi - gj)
(∇wg)ii = √wij ⋅ (gi - gj)
(Δwg)i = ∑ wi,j∈E ⋅ (gi - gj)
Th. (divw (∇wg))(xi) = (Δwg)(xi)
Sostituiamo le formule della divergenza:
(divw (∇wg)) (xi) =
= 1/2 ∑ √w(xi,xj) (∇wg(xi,xj) - ∇wg(xj,xi))
Sostituiamo le formule del gradiente:
= 1/2 ∑ (i,j)∈E √w(xi,xj) (√w(xi,xj) (g(xi) - g(xj)) - w(xi,xj) (g(xj) - g(xi)))
Allora:
Con:
Tesi Dimostrata
Esempio Gradient Descent DNN
Consideriamo una rete neurale a tre strati. Semplifichiamo ogni strato con un singolo neurone, tenendo presente che ragioneremo con una matrice W di parametri piuttosto che con un singolo vettore.
- x: INPUT;
- wi: matrice parametri i-esimo layer;
- hi: OUTPUT i-esimo layer;
- o: OUTPUT FINALE.
Per la risoluzione del problema di ottimizzazione:
argminθ (L(θ; x; y) + λ Ω(θ))
DATA TERM (Loss) REGULARIZATION TERM
Supponiamo non ci sia Regolarizzazione ed utilizziamo il metodo del GRADIENT DESCENT per il calcolo del minimi:
θnew = θold - μ ∂L(θ; x; y) / ∂θold
Dobbiamo saper calcolare queste derivate per ogni set di parametri
Essendo θ composto da più set di parametri, uno per ogni layer, per il calcolo della derivata...