Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
APPLICAZIONI:
- sentiment analysis
- classificazione di testo (riconoscere quali sono le persone...)
- risposta a domande
- produrre un testo a tema
80Apprendimento non supervisionato
1 concetto principale: Clustering
CLUSTERING
Clustering: il sistema scopre autonomamente raggruppamenti nei dati di input in base a ridondanze nei dati
CONCETTI PRINCIPALI
- Riduzione della dimensionalità
- Reti di Hopfield
- Apprendimento associativo
- Modelli generativi
- Autoencoders
- Macchine di Boltzmann
- Generative Adversarial Networks
- Riduzione non lineare della dimensionalità
- Transformers
VANTAGGI
- il sistema tende a estrarre il maggior utilizzo di dataset non etichettati
- l'informazione grezza proveniente dall'ambiente è direttamente utilizzabile
SVANTAGGI
- numero di features possibili: analizzati anche elementi dell'ambiente non rilevanti per la sopravvivenza
- dispendio di energia
utile come base per un successivo task supervisionato (transfer)
Il tuo compito è formattare il testo fornito utilizzando tag html.
ATTENZIONE: non modificare il testo in altro modo, NON aggiungere commenti, NON utilizzare tag h1;
learning) • non è chiaro cosa costituisca una• utilizzato massivamente dagli animali “buona rappresentazione” dello stimolo(compreso l’uomo) in fase di sviluppo in base al compito da svolgere ànecessaria supervisione• implementabile usando meccanismi diapprendimento biologicamente • richiede molte risorse computazionaliplausibili • impossibile inferire relazioni causali ànecessaria manipolazione dello stimolo81EsempiLe “buone rappresentazioni”: classe 1utile estrarre fin dall’inizio il maggior numero possibile di caratteristiche, prima ancora disapere quale sarà il task (facilitazione della successiva classificazione)classe 2 (figure concave)82In biologico: il sistema visivo retinastimoli (intricati) dallacorteccia visivaaree associative (estrazione delle features)In IA:Manifolds = variabilità geometriche,superficie in un piano a diverse dimensioninella realtà, i manifolds sono
Intricati tra di loro, i pattern sensoriali non sono solitamente linearmente separabili. Un sistema di apprendimento non supervisionato si occupa dell'estrazione delle features, scoprendo i manifold e mappando le immagini in uno spazio in cui le diverse classi sono linearmente separabili (spazio delle features).
I modelli di apprendimento non supervisionato delle rappresentazioni hanno come obiettivo la rimozione dell'informazione non necessaria. Ad esempio, "questo è un triangolo rosso". L'outcome di questo processo è la riduzione della dimensionalità.
Prendiamo ad esempio un esperimento di psicologia sulla personalità. I macro-tratti che descrivono un tipo, come l'introverso, l'ingegnere, il disinibito, possono essere utilizzati simultaneamente. Questi macro-tratti rappresentano caratteristiche globali che sono una serie di attributi simili.
La PCA (principal component analysis) è un metodo per catturare la varianza di un insieme di dati di input, trovando la direzione di massima variabilità. Questo permette di descrivere la varianza di una nuvola di punti utilizzando n
(n < 5) dimensioni principalitra loro scorrelateCONDIZIONE:SE dimensioni ortogonali ALLORA linearmente scorrelate
àßà regola di Hebb85
AUTOENCODERS
Autoencoder:rete neurale feed-forward che codifica (encoding) il suo stesso input
Come riduce la dimensionalità?
Riproducendo in output lo stesso pattern presentato in input
à10 neuroni in input 10 neuroni in output
à784 neuroni in input 784 neuroni in output
FUNZIONE DI ERRORE
Indice i = la differenza deve essere fatta tra tuttele coppie di neuroni di inputµ
Indice = numero di pattern del dataset(varia da 1 a m) input output
differenza tral’output del modello (training pattern) (ricostruzione)
e il target
SE t = y (vettori uguali) ¹SE t y (vettori diversi)
non c’è errore faccio la differenza, la elevo al quadrato
(non devo cambiare i pesi) (scarto quadratico medio) indice di erroreà
Per apprendimento non supervisionato:
Il target (t) sono gli stessi neuroni di i
apprendimento supervisionato:Il target (t) è una classe di elementi
OBIETTIVO: commettere il minore errore possibile su ciascun pixel e su ciascuna immagine di training
DEEP LEARNING SUPERVISIONATO: 1 SOLO STRATO NASCOSTO
Richiesta: data un'immagine a 6 pixel, voglio che il sistema riproduca la stessa immagine a 6 pixel in output usando solo 4 variabili (variabili = neuroni dello strato nascosto) l'autoencoder
Istruire a ricostruire in maniera corretta l'immagine utilizzando il minor numero di informazioni (pixel) possibile
All'aumentare del numero di neuroni nascosti, aumenta il numero di caratteristiche dello stimolo che è possibile estrarre
funzione non lineare
CONFRONTO: FUNZIONE DI ATTIVAZIONE DEGLI STRATI NASCOSTI
NEURONI NASCOSTI CON FUNZIONE DI ATTIVAZIONE LINEARE
NEURONI NASCOSTI CON FUNZIONE DI ATTIVAZIONE NON LINEARE
PCA Riduzione non lineare della dimensionalità
VARIANTI DEGLI AUTOENCODERS
Denoising
autoencoders ~ weight decay)Rumore regolarizzatore (ßà87)
Convoluzionale:Stacked (deep) autoencoders
Estrarre le caratteristiche, crearsi una rappre-sentazione, comprimere e poi decomprimerel’immagine
Analisi dello spazio latente: tridimensionale 2D tridimensionaleà àà à784 variabili 2 variabili 784 variabili
mappare un vettore di input molto grande (con possibile perdita di qualità)in uno spazio in cui immagini simili (con unvettore simile) ricevono attivazione simile,sono cioè posizionate vicine attivazione finale di ciascun elemento (il numero 1, 2, 3, …) =attivazione del neurone 1 + attivazione del neurone 2
Autoencoders variazionali
Continuità si passa da una categoriaàall’altra attraverso degli stati intermedi cherappresentano una combinazione a divereintensità delle caratteristiche
88
RETI DI HOPFIELD
Si basano sull’apprendimento "Neurons wire together if they fire"together”hebbiano: scoprire correlazioni nei dati
PREMESSE TEORICHE
Meccanica statistica
mettere in relazione:
proprietà microscopiche proprietà macroscopiche
ßàspin, massa, carica degli atomi temperatura, proprietà magnetiche…
Modello di Ising:
componenti elementari (atomi) che interagiscono con i loro vicini in uno spazio bi-dimensionale
Spin:
stati discreti in cui è possibile che l’atomo si troviàspin solo verso l’alto o verso il basso (atomi binari)
Frustrazione
Frustrazione geometrica: il sistema non diventa mai omogeneo globalmente per quanto riguarda l’energia (ferromagnetico), ma si assesta su configurazioni che consentono di avere dei minimi energetici locali se tutti i neuroni fossero attivati nello stesso momento, il sistema non resisterebbe è necessario che qualcuno sia a 1, qualcun altro su 0
IMPORTANZA DELLA FRUSTRAZIONE OD ETEROGENEITÀ
più stati stabili consente di avere con
funzioni diverse all'interno del sistema (codificare memorie...)
Esempio di sistema che diventa omogeneo: il metronomo random spin allineati
OBIETTIVO: assegnare alta probabilità (cioè bassa energia) alle configurazioni osservate durante il training set
creare tanti punti di equilibrio quanti sono i pattern da memorizzare
Modello di Ising applicato all'IA:
- neuroni atomi = legge di Hebb
- relazioni locali tra atomi = 90
ENERGIA E ATTRATTORI FEATURES:
- grafo completamente connesso à connessioni simmetriche (i pixel si influenzano a vicenda, i pesi sono simmetrici) rete ricorrente
- tutti i neuroni sono neuroni di input (non ci sono neuroni nascosti)
- senza auto-connessioni inversamente proporzionale
Il valore dell'energia è dalla regola di Hebb: al valore dei pesi e dell'attivazione del neurone (il prodotto wx)
funzione di energia: sono stati stabili, cioè specifiche configurazioni delle attività dei neuroni
Attrattori: punti di minimo locale
della funzione di energia in questi punti le attivazioni dei neuroni non cambiano più equilibrioà funzione di attivazione del neurone: percettroneßà91
APPRENDIMENTO NELLE RETI DI HOPFIELD attrattori
FASE DI cambio w (pesi) assesto gli nei punti corrispondenti aià
MEMORIZZAZIONE pattern desideratiw fisso cambio x (attivazioni dei neuroni) attraverso la funzioneà
a scalino o la sigmoide in modo tale da stabilizzarmi su uno dei
migliori tra i minimi locali memorizzati
Esempio di quando un’immagine è corrotta o rumorosa:
FASE DIRECUPERO(y) Al termine dell’apprendimento,
Energia l’energia di configurazioni
improbabili aumentata,
verrà mentre quella di configurazioni
probabili abbassata verrà92
CAPACITÀ DI MEMORIZZAZIONE k * 0,138 pattern
numero limitato di pattern (k = numero di neuroni)
DINAMICA STOCASTICA il neurone non è solo attivo o spento, ma è probabilmente attivo o probabilmente spento
ENERGIA
PROBABILITÀConfigurazioni indesiderate alzare l’energia (instabilità) diminuire la probabilità
Configurazioni pattern diminuire l’energia (stabilità) aumentare la probabilità(da apprendere)
TUTTAVIAaumentando il numero di pattern da memorizzare (attrattori), aumenta anche la probabilità chela rete individui altri punti di stabilità che però non corrispondono al minimo locale (e che quindisono risposte indesiderate)attrattori attrattori spuri
Pattern da apprendere, che corrispondono ai Altri punti di stabilità dell’attivazione deipunti di minimo locale (punti di stabilità) della neuroni che non corrispondono al patternfunzione di energia corretto e che possono interferire con il suorecupero93
HOW?Sigmoide VALORI VICINI ALLO 0 VALORI LONTANI DALLO 0neurone probabilmente spento neurone probabilmente attivodiventa
PARAMETRO TEMPERATURA (RUMORE) ITER DI APPRENDIMENTOtemperatura elevata temperatura bassa
temperature elevate
A temperature basse
A temperatura = 0
Funzione ad elevata stocasticità: la si ha una funzione a scalino, sistema diventa deterministico e probabilità di attivazione x si aggira deterministica attivazione x = 0 o 1 si fermerà