Appunti di intelligenza artificiale

Appunti completi del corso, a colori e integrati con le slides e con immagini esplicative basati su appunti personali del publisher presi alle lezioni del professore Zorzi dell’università degli Studi di Padova - Unipd. Scarica il file in formato PDF!

Esame intelligenza artificiale

Facoltà Psicologia

Dal corso del Prof. Zorzi Marco

Università Università degli Studi di Padova

Publisher Gaiadancer00

A.A. 2021-2022

147 pagine

Appunto

Vota 4,0 / 5 (1)

Scarica

Estratto del documento

APPLICAZIONI:

sentiment analysis
classificazione di testo (riconoscere quali sono le persone...)
risposta a domande
produrre un testo a tema

80Apprendimento non supervisionato

1 concetto principale: Clustering

CLUSTERING

Clustering: il sistema scopre autonomamente raggruppamenti nei dati di input in base a ridondanze nei dati

CONCETTI PRINCIPALI

Riduzione della dimensionalità
Reti di Hopfield
Apprendimento associativo
Modelli generativi
Autoencoders
Macchine di Boltzmann
Generative Adversarial Networks
Riduzione non lineare della dimensionalità
Transformers

VANTAGGI

il sistema tende a estrarre il maggior utilizzo di dataset non etichettati
l'informazione grezza proveniente dall'ambiente è direttamente utilizzabile

SVANTAGGI

numero di features possibili: analizzati anche elementi dell'ambiente non rilevanti per la sopravvivenza
dispendio di energia

utile come base per un successivo task supervisionato (transfer)

Il tuo compito è formattare il testo fornito utilizzando tag html.

ATTENZIONE: non modificare il testo in altro modo, NON aggiungere commenti, NON utilizzare tag h1;

learning) • non è chiaro cosa costituisca una• utilizzato massivamente dagli animali “buona rappresentazione” dello stimolo(compreso l’uomo) in fase di sviluppo in base al compito da svolgere ànecessaria supervisione• implementabile usando meccanismi diapprendimento biologicamente • richiede molte risorse computazionaliplausibili • impossibile inferire relazioni causali ànecessaria manipolazione dello stimolo81EsempiLe “buone rappresentazioni”: classe 1utile estrarre fin dall’inizio il maggior numero possibile di caratteristiche, prima ancora disapere quale sarà il task (facilitazione della successiva classificazione)classe 2 (figure concave)82In biologico: il sistema visivo retinastimoli (intricati) dallacorteccia visivaaree associative (estrazione delle features)In IA:Manifolds = variabilità geometriche,superficie in un piano a diverse dimensioninella realtà, i manifolds sono

Intricati tra di loro, i pattern sensoriali non sono solitamente linearmente separabili. Un sistema di apprendimento non supervisionato si occupa dell'estrazione delle features, scoprendo i manifold e mappando le immagini in uno spazio in cui le diverse classi sono linearmente separabili (spazio delle features).

I modelli di apprendimento non supervisionato delle rappresentazioni hanno come obiettivo la rimozione dell'informazione non necessaria. Ad esempio, "questo è un triangolo rosso". L'outcome di questo processo è la riduzione della dimensionalità.

Prendiamo ad esempio un esperimento di psicologia sulla personalità. I macro-tratti che descrivono un tipo, come l'introverso, l'ingegnere, il disinibito, possono essere utilizzati simultaneamente. Questi macro-tratti rappresentano caratteristiche globali che sono una serie di attributi simili.

La PCA (principal component analysis) è un metodo per catturare la varianza di un insieme di dati di input, trovando la direzione di massima variabilità. Questo permette di descrivere la varianza di una nuvola di punti utilizzando n

(n < 5) dimensioni principalitra loro scorrelate
CONDIZIONE:SE dimensioni ortogonali ALLORA linearmente scorrelate
àßà regola di Hebb85
AUTOENCODERS
Autoencoder:rete neurale feed-forward che codifica (encoding) il suo stesso input
Come riduce la dimensionalità?
Riproducendo in output lo stesso pattern presentato in input
à10 neuroni in input 10 neuroni in output
à784 neuroni in input 784 neuroni in output
FUNZIONE DI ERRORE
Indice i = la differenza deve essere fatta tra tuttele coppie di neuroni di inputµ
Indice = numero di pattern del dataset(varia da 1 a m) input output
differenza tral’output del modello (training pattern) (ricostruzione)
e il target
SE t = y (vettori uguali) ¹SE t y (vettori diversi)
non c’è errore faccio la differenza, la elevo al quadrato
(non devo cambiare i pesi) (scarto quadratico medio) indice di erroreà
Per apprendimento non supervisionato:
Il target (t) sono gli stessi neuroni di i

apprendimento supervisionato:Il target (t) è una classe di elementi

OBIETTIVO: commettere il minore errore possibile su ciascun pixel e su ciascuna immagine di training

DEEP LEARNING SUPERVISIONATO: 1 SOLO STRATO NASCOSTO

Richiesta: data un'immagine a 6 pixel, voglio che il sistema riproduca la stessa immagine a 6 pixel in output usando solo 4 variabili (variabili = neuroni dello strato nascosto) l'autoencoder

Istruire a ricostruire in maniera corretta l'immagine utilizzando il minor numero di informazioni (pixel) possibile

All'aumentare del numero di neuroni nascosti, aumenta il numero di caratteristiche dello stimolo che è possibile estrarre

funzione non lineare

CONFRONTO: FUNZIONE DI ATTIVAZIONE DEGLI STRATI NASCOSTI

NEURONI NASCOSTI CON FUNZIONE DI ATTIVAZIONE LINEARE

NEURONI NASCOSTI CON FUNZIONE DI ATTIVAZIONE NON LINEARE

PCA Riduzione non lineare della dimensionalità

VARIANTI DEGLI AUTOENCODERS

Denoising

autoencoders ~ weight decay)
Rumore regolarizzatore (ßà87)
Convoluzionale:Stacked (deep) autoencoders
Estrarre le caratteristiche, crearsi una rappre-sentazione, comprimere e poi decomprimerel’immagine
Analisi dello spazio latente: tridimensionale 2D tridimensionaleà àà à784 variabili 2 variabili 784 variabili
mappare un vettore di input molto grande (con possibile perdita di qualità)in uno spazio in cui immagini simili (con unvettore simile) ricevono attivazione simile,sono cioè posizionate vicine attivazione finale di ciascun elemento (il numero 1, 2, 3, …) =attivazione del neurone 1 + attivazione del neurone 2
Autoencoders variazionali
Continuità si passa da una categoriaàall’altra attraverso degli stati intermedi cherappresentano una combinazione a divereintensità delle caratteristiche
88
RETI DI HOPFIELD
Si basano sull’apprendimento "Neurons wire together if they fire"together”hebbiano: scoprire correlazioni nei dati

PREMESSE TEORICHE

Meccanica statistica

mettere in relazione:

proprietà microscopiche proprietà macroscopiche

ßàspin, massa, carica degli atomi temperatura, proprietà magnetiche…

Modello di Ising:

componenti elementari (atomi) che interagiscono con i loro vicini in uno spazio bi-dimensionale

Spin:

stati discreti in cui è possibile che l’atomo si troviàspin solo verso l’alto o verso il basso (atomi binari)

Frustrazione

Frustrazione geometrica: il sistema non diventa mai omogeneo globalmente per quanto riguarda l’energia (ferromagnetico), ma si assesta su configurazioni che consentono di avere dei minimi energetici locali se tutti i neuroni fossero attivati nello stesso momento, il sistema non resisterebbe è necessario che qualcuno sia a 1, qualcun altro su 0

IMPORTANZA DELLA FRUSTRAZIONE OD ETEROGENEITÀ

più stati stabili consente di avere con

funzioni diverse all'interno del sistema (codificare memorie...)

Esempio di sistema che diventa omogeneo: il metronomo random spin allineati

OBIETTIVO: assegnare alta probabilità (cioè bassa energia) alle configurazioni osservate durante il training set

creare tanti punti di equilibrio quanti sono i pattern da memorizzare

Modello di Ising applicato all'IA:

neuroni atomi = legge di Hebb
relazioni locali tra atomi = 90

ENERGIA E ATTRATTORI FEATURES:

grafo completamente connesso à connessioni simmetriche (i pixel si influenzano a vicenda, i pesi sono simmetrici) rete ricorrente
tutti i neuroni sono neuroni di input (non ci sono neuroni nascosti)
senza auto-connessioni inversamente proporzionale

Il valore dell'energia è dalla regola di Hebb: al valore dei pesi e dell'attivazione del neurone (il prodotto wx)

funzione di energia: sono stati stabili, cioè specifiche configurazioni delle attività dei neuroni

Attrattori: punti di minimo locale

della funzione di energia in questi punti le attivazioni dei neuroni non cambiano più equilibrioà funzione di attivazione del neurone: percettroneßà91

APPRENDIMENTO NELLE RETI DI HOPFIELD attrattori

FASE DI cambio w (pesi) assesto gli nei punti corrispondenti aià

MEMORIZZAZIONE pattern desideratiw fisso cambio x (attivazioni dei neuroni) attraverso la funzioneà

a scalino o la sigmoide in modo tale da stabilizzarmi su uno dei

migliori tra i minimi locali memorizzati

Esempio di quando un’immagine è corrotta o rumorosa:

FASE DIRECUPERO(y) Al termine dell’apprendimento,

Energia l’energia di configurazioni

improbabili aumentata,

verrà mentre quella di configurazioni

probabili abbassata verrà92

CAPACITÀ DI MEMORIZZAZIONE k * 0,138 pattern

numero limitato di pattern (k = numero di neuroni)

DINAMICA STOCASTICA il neurone non è solo attivo o spento, ma è probabilmente attivo o probabilmente spento

ENERGIA

PROBABILITÀConfigurazioni indesiderate alzare l’energia (instabilità) diminuire la probabilità

Configurazioni pattern diminuire l’energia (stabilità) aumentare la probabilità(da apprendere)

TUTTAVIAaumentando il numero di pattern da memorizzare (attrattori), aumenta anche la probabilità chela rete individui altri punti di stabilità che però non corrispondono al minimo locale (e che quindisono risposte indesiderate)attrattori attrattori spuri

Pattern da apprendere, che corrispondono ai Altri punti di stabilità dell’attivazione deipunti di minimo locale (punti di stabilità) della neuroni che non corrispondono al patternfunzione di energia corretto e che possono interferire con il suorecupero93

HOW?Sigmoide VALORI VICINI ALLO 0 VALORI LONTANI DALLO 0neurone probabilmente spento neurone probabilmente attivodiventa

PARAMETRO TEMPERATURA (RUMORE) ITER DI APPRENDIMENTOtemperatura elevata temperatura bassa

temperature elevate

A temperature basse

A temperatura = 0

Funzione ad elevata stocasticità: la si ha una funzione a scalino, sistema diventa deterministico e probabilità di attivazione x si aggira deterministica attivazione x = 0 o 1 si fermerà

Anteprima

Vedrai una selezione di 21 pagine su 147