Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
ALGORITMI DI APPRENDIMENTO
back-propagation quando c'è errore, cioè quando il neurone si è attivato quando non doveva o non si è attivato quando doveva
Se E è una funzione lineare:
METODO DELLA Regola delta DISCESA DEL GRADIENTE
Se E è sigmoide:
deep learning supervisionato (reti multistrato)
L'apprendimento supervisionato CORREZIONE DELL'ERRORE
- Fase di training: la rete impara ad associare un input ad un output, dal momento che vengono forniti
- Fase di addestramento: sia lo stimolo da analizzare che la risposta desiderata
- Fase di test: generalizzazione. Il sistema si basa sugli esempi già visti in fase di apprendimento per associare i dati di input ad una categoria discreta specifica
APPLICAZIONI
Generalizzazione: Il sistema si basa sugli esempi già visti in fase di apprendimento per associare i dati di input a valori
E = t - y (target - output del sistema)
Overfitting: La rete apprende in modo troppo dettagliato e specifico un particolare set di dati e peggiora la prestazione in termini di generalizzazione.
Se c'è rumore (la rete apprende anche il rumore): Compiti di classificazione.
Se la relazione input-output non è regolare: Compiti di regressione.
PROBLEMATICHE soluzioni L'apprendimento:
- Utilizzare un sistema semplificato (minor numero di supervisione, neuroni e di connessioni).
- METODO DEL WEIGHTà DECAY (training set): Fermare l'apprendimento quando ha raggiunto l'errore minimo nel validation set.
- Cross-validazione o k-fold: dividere il data set in k parti di uguale numerosità. Per ogni gruppo, estrarre il k-esimo esempio e tenerlo da parte per la fase di test.
VALUTAZIONE DEL MODELLO sul test set:
- Compiti di classificazione: Matrice di confusione.
- Compiti di regressione: Distanza t-y.
k-1 elementi = training set (accuratezza)
STRATEGIA EARLY STOPPING (validation set) • ROC (receiving operating characteristic) • k-esimo elemento di ogni AUC soglia) à gruppo = test set
Funzione kernel:
Deep learning supervisionato
ELABORAZIONE OTTENERE GERARCHICA SEPARABILITÀ LINEARE ATTRA-VERSO TRASFORMAZIONI NON LINEARI
rete con un numero di strati di neuroni nascosti > 1, che risolve problemi di classificazione e di regressione
PROBLEMATICHE SOLUZIONI
• Big data • Miglioramento degli algoritmi (inizializzazione dei pesi, learning rate adattivo, regolarizzatori, ReLU…)
• GPU computing MACHINE LEARNING DEEP LEARNING dei pesi, learning rate2 dati pre-processati x dati grezzi x risoluzione autonomaà adattivo, regolarizzatori, ReLU…)
• Error back- propagation
molto lungo a causa del numero elevato di strati nascosti
• Disponibilità di big data
• Aumento delle prestazioni di calcolo (in parallelo)
vanishingà
• Reti convoluzionali (CNN)
gradient problem
Strato
convoluzionale: Filtro (kernel o matrice di convoluzione):i neuroni nascosti che ne fanno parte non sono campo recettivo del neurone nascosto, cioèinteramente connessi con tutti i neuroni degli strati quella parte di spazio fisico che contiene laprecedenti ma hanno dei campi recettivi locali feature da analizzare Strato di pooling: valori dentro la matrice di convoluzione =strato di neuroni nascosti che segue lo strato pesi delle connessioniconvoluzionale, che serve per ridurre la dimensionalità ELEMENTI i neuroni hanno determinati pesi e ricevono inputed enfatizzare le caratteristiche più salienti dello stimolo solo da un determinato gruppo di neuroni(downsampling) Max pooling(non lineare) ßà Matrice di output: Strato fully connected: inibizione laterale: risultato dell’operazione di convoluzione tra lastrato di neuroni interamente connessi con lo strato matrice di pixel (input) e la matrice diprecedente che si trova in fondo alla rete, e checonvoluzione (filtro)attiva lo strato di output (categorie) Reti convoluzionali
ARCHITETTURA FUNZIONAMENTO
OPERAZIONE DI CONVOLUZIONE:
operazione matematica tra 2 matrici,
IPERPARAMETRI quella di input e il filtro
allineare
1. il filtro con una parte dimatrice (cioè il neurone ha il suo
Dimensione kernel
Numero di campo recettivo fissato su quella
Grandezza del crneuroni parte della matrice di input) e
nascosti spostarlo poco alla volta sulla
matrice di input
Stride Padding moltiplicare
2. i valori nella matrice di
Sovrapposizione Impostazione di un input con quelli corrispondenti nella
solo parziale dei bordo aggiuntivo per matrice filtro
campi recettivi mantenere costante la
dimensione dell'immagine
RICONOSCIMENTO DELL'INGUAGGIO PARLATO CLASSIFICAZIONE DI
IMMAGINI
BAIDU à quando attivazioni per il
neurone = 1 (P max)
CODIFICA DEL COLORE
canali RGB
IMAGING CLINICO
rete "inception V3" Applicazioni del deeplearning supervisionato
LeNet-5 GoogLeNet
AlexNet •• 22 strati
architettura “inception”
8 strati (5 convoluzionali, 3 fully-connected)
à• 7 strati (5 convoluzionali, 3 fully-connected) •
•immagini in dimensione reale accuratezza comparabile a quella umana•
immagini in bianco e nero • accuratezza +10%
32x32 pixel RETE DI JORDAN LONG SHORT-TERM MEMORY (LSTM)
RETE DI ELMAN
Reti parzialmente ricorrenti l’input e il target
reti che possiedono sia connessioni SELF-SUPERVISED
provengono dallafeed-forward che a feedback LEARNING
stessa sorgente(training set)
la rete scopre autonomamente regolarità statistiche nei dati e le organizza
Reti interamente gerarchicamente in categorie, pronte per essere utilizzate in base al contesto
ricorrenti punto di unicità: errore tendente a 0à
perché la risposta giusta è evidente
reti che possiedono sia connessioni intra-strato che a feedback
reti che possiedono connessioni a feedback
Reti ricorrenti che le rendono in grado di elaborare in parallelo
Le informazioni presentate in una sequenza temporale:
APPLICAZIONI
- Reti transformers: presentazione di alcuni elementi
- Trasformazione del riconoscimento del parlato da uno spettrogramma della sequenza S entro una finestra temporale T in spazio audio strutturato a sequenza di fonemi o parole Ttemporale W (t)
- Riconoscimento di azioni FUNZIONA- Informazioni dal contesto TW (t) = MENTO
- Predizione della dinamica di oggetti in movimento [ S , S , …, S ]t t+1 t+T
- Generazione di testo o di musica Esperienze di regolarità precedentemente apprese
- Predizione di serie storiche
- L'introverso, il disinibito Modelli Clustering: associativi “Riprodurre scoprire autonomamente l’immagine utilizzando solo mente raggruppamenti dei 4 dei 6 pixel”
- Algoritmi di apprendimento
- Estrazione delle features: ridurre il numero di descrittori creandone autoencoders ReLU
generali/astratti Modelli Five o mantenendo solo generativi quelli più informativi NON LINEARE sigmoide Apprendimento nonmanifolds: variabilità geometri- à Riduzione della dimensionalità che (features) che si trovano su diverse dimensioni di un piano supervisionato LINEARE NON sono linearmente separabili PCA VANTAGGI SVANTAGGI per renderle linearmente separabili è necessario il processo di estrazione trovare la direzione di massima variabilità • • dataset non etichettati rischio di overfitting e delle features cioè sovraccarico spazio delle • utile come base per un descrivere la varianza di un insieme di features • non è chiaro cosa successivo task dati con un numero finito di dimensioni o supervisionato (transfer costituisca una "buona componenti tra loro linearmente scorrelate learning) rappresentazione" (cioè ortogonali) • • biologicamente plausibile dispendioso impossibile inferire relazionicausalisistema visivo umano è Riferito ad un singolo neurone appartenente ad i(strato di input):differenza tra la ricostruzione dei dati (y) operata daloutputinput neurone di output e il target, che è l'informazione(ricostru-(training contenuta nel neurone di input corrispondente (t)zione)pattern) åpoi devo fare la di questo risultato per tutti i neuroni di i e poi diå µnuovo di questi risultati per tutti i patternsono i neuroni diinput stessipiù neuroni nascosti = più features estraibili Autoencodersmetodo di riduzione non lineare della dimensionalità in apprendimento non supervisionatorete neurale feed-forward che codifica (encoding) il suo stesso inputDenoising autoencoders VARIANTI Autoencoders variazionaliStacked (deep) autoencodersè convoluzionaliweightdecay più accuratoCambio dei pesi w e assestamentoFASE DI assegnare alta probabilità (bassadegli attrattori nei punti di
minimoMEMORIZZAZIONE energia) alle configurazioniAttrattori: locale della funzione osservate durante il training setpunti di minimo locale della funzione dienergia E, sono stati stabili in cui i neuroni Lasciando stabili i pesi w, cambio assegnare bassa probabilità (altapresentano una certa configurazione dell’attivazione x dei neuroni al fineFASE DI RECUPERO energia) alle configurazioni nondi individuare il migliore tra i minimi osservate durante il training set= pattern da memorizzare (in corrisponden- localiza dei quali l’energia deve essere minima) RETI DI HOPFIELD• Grafo interamenteconnesso modelli associativi• Rete ricorrente(bidirezionale) (sono sempre algoritmi di apprendimento)• Assenza di neuroninascosti (sono tutti BASI TEORICHEneuroni di input) + Frustrazione geometricaModello di Ising il sistema non diventa mai omogeneoper la meccanica statistica: globalmente per quanto riguardaSIMULATED l’energia (ferromagnetico), ma si
Il ricottura simulata è una tecnica utilizzata nella meccanica statistica per esplorare configurazioni che consentono di avere dei minimi energetici locali. Questo processo è ispirato al raffreddamento graduale di un materiale per ottenere una struttura cristallina ottimale.
La procedura di ricottura simulata prevede una serie di passaggi in cui la temperatura del sistema viene gradualmente ridotta. Durante ogni passaggio, gli atomi o le neuroni nel sistema si muovono in modo casuale, consentendo al sistema di esplorare diverse configurazioni. Questo processo aiuta a trovare i minimi energetici locali, che corrispondono a configurazioni stabili e a bassa energia.
Le relazioni locali tra gli atomi o i neuroni sono importanti per determinare l'energia del sistema. Ad esempio, nella regola di Hebb, si considera che l'energia di un sistema dipenda dalle connessioni sinaptiche tra i neuroni. Questa regola suggerisce che la forza di una connessione sinaptica aumenta se i neuroni coinvolti si attivano contemporaneamente.