Mappe concettuali di intelligenza artificiale

Mappe concettuali riassuntive dell'intero corso, utili per comprendere meglio la materia creando collegamenti tra i vari argomenti basate su appunti personali del publisher presi alle lezioni …

Esame intelligenza artificiale

Facoltà Psicologia

Dal corso del Prof. Zorzi Marco

Università Università degli Studi di Padova

Publisher Gaiadancer00

A.A. 2021-2022

26 pagine

1 download

Appunto

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

ALGORITMI DI APPRENDIMENTO

back-propagation quando c'è errore, cioè quando il neurone si è attivato quando non doveva o non si è attivato quando doveva

Se E è una funzione lineare:

METODO DELLA Regola delta DISCESA DEL GRADIENTE

Se E è sigmoide:

deep learning supervisionato (reti multistrato)

L'apprendimento supervisionato CORREZIONE DELL'ERRORE

Fase di training: la rete impara ad associare un input ad un output, dal momento che vengono forniti
Fase di addestramento: sia lo stimolo da analizzare che la risposta desiderata
Fase di test: generalizzazione. Il sistema si basa sugli esempi già visti in fase di apprendimento per associare i dati di input ad una categoria discreta specifica

APPLICAZIONI

Generalizzazione: Il sistema si basa sugli esempi già visti in fase di apprendimento per associare i dati di input a valori

E = t - y (target - output del sistema)

Overfitting: La rete apprende in modo troppo dettagliato e specifico un particolare set di dati e peggiora la prestazione in termini di generalizzazione.

Se c'è rumore (la rete apprende anche il rumore): Compiti di classificazione.

Se la relazione input-output non è regolare: Compiti di regressione.

PROBLEMATICHE soluzioni L'apprendimento:

Utilizzare un sistema semplificato (minor numero di supervisione, neuroni e di connessioni).
METODO DEL WEIGHTà DECAY (training set): Fermare l'apprendimento quando ha raggiunto l'errore minimo nel validation set.
Cross-validazione o k-fold: dividere il data set in k parti di uguale numerosità. Per ogni gruppo, estrarre il k-esimo esempio e tenerlo da parte per la fase di test.

VALUTAZIONE DEL MODELLO sul test set:

Compiti di classificazione: Matrice di confusione.
Compiti di regressione: Distanza t-y.

k-1 elementi = training set (accuratezza)

STRATEGIA EARLY STOPPING (validation set) • ROC (receiving operating characteristic) • k-esimo elemento di ogni AUC soglia) à gruppo = test set

Funzione kernel:

Deep learning supervisionato

ELABORAZIONE OTTENERE GERARCHICA SEPARABILITÀ LINEARE ATTRA-VERSO TRASFORMAZIONI NON LINEARI

rete con un numero di strati di neuroni nascosti > 1, che risolve problemi di classificazione e di regressione

PROBLEMATICHE SOLUZIONI

• Big data • Miglioramento degli algoritmi (inizializzazione dei pesi, learning rate adattivo, regolarizzatori, ReLU…)

• GPU computing MACHINE LEARNING DEEP LEARNING dei pesi, learning rate2 dati pre-processati x dati grezzi x risoluzione autonomaà adattivo, regolarizzatori, ReLU…)

• Error back- propagation

molto lungo a causa del numero elevato di strati nascosti

• Disponibilità di big data

• Aumento delle prestazioni di calcolo (in parallelo)

vanishingà

• Reti convoluzionali (CNN)

gradient problem

Strato

convoluzionale: Filtro (kernel o matrice di convoluzione):i neuroni nascosti che ne fanno parte non sono campo recettivo del neurone nascosto, cioèinteramente connessi con tutti i neuroni degli strati quella parte di spazio fisico che contiene laprecedenti ma hanno dei campi recettivi locali feature da analizzare Strato di pooling: valori dentro la matrice di convoluzione =strato di neuroni nascosti che segue lo strato pesi delle connessioniconvoluzionale, che serve per ridurre la dimensionalità ELEMENTI i neuroni hanno determinati pesi e ricevono inputed enfatizzare le caratteristiche più salienti dello stimolo solo da un determinato gruppo di neuroni(downsampling) Max pooling(non lineare) ßà Matrice di output: Strato fully connected: inibizione laterale: risultato dell’operazione di convoluzione tra lastrato di neuroni interamente connessi con lo strato matrice di pixel (input) e la matrice diprecedente che si trova in fondo alla rete, e che

convoluzione (filtro)attiva lo strato di output (categorie) Reti convoluzionali

ARCHITETTURA FUNZIONAMENTO

OPERAZIONE DI CONVOLUZIONE:

operazione matematica tra 2 matrici,

IPERPARAMETRI quella di input e il filtro

allineare

1. il filtro con una parte dimatrice (cioè il neurone ha il suo

Dimensione kernel

Numero di campo recettivo fissato su quella

Grandezza del crneuroni parte della matrice di input) e

nascosti spostarlo poco alla volta sulla

matrice di input

Stride Padding moltiplicare

2. i valori nella matrice di

Sovrapposizione Impostazione di un input con quelli corrispondenti nella

solo parziale dei bordo aggiuntivo per matrice filtro

campi recettivi mantenere costante la

dimensione dell'immagine

RICONOSCIMENTO DELL'INGUAGGIO PARLATO CLASSIFICAZIONE DI

IMMAGINI

BAIDU à quando attivazioni per il

neurone = 1 (P max)

CODIFICA DEL COLORE

canali RGB

IMAGING CLINICO

rete "inception V3" Applicazioni del deeplearning supervisionato

LeNet-5 GoogLeNet

AlexNet •• 22 strati

architettura “inception”

8 strati (5 convoluzionali, 3 fully-connected)

à• 7 strati (5 convoluzionali, 3 fully-connected) •

•immagini in dimensione reale accuratezza comparabile a quella umana•

immagini in bianco e nero • accuratezza +10%

32x32 pixel RETE DI JORDAN LONG SHORT-TERM MEMORY (LSTM)

RETE DI ELMAN

Reti parzialmente ricorrenti l’input e il target

reti che possiedono sia connessioni SELF-SUPERVISED

provengono dallafeed-forward che a feedback LEARNING

stessa sorgente(training set)

la rete scopre autonomamente regolarità statistiche nei dati e le organizza

Reti interamente gerarchicamente in categorie, pronte per essere utilizzate in base al contesto

ricorrenti punto di unicità: errore tendente a 0à

perché la risposta giusta è evidente

reti che possiedono sia connessioni intra-strato che a feedback

reti che possiedono connessioni a feedback

Reti ricorrenti che le rendono in grado di elaborare in parallelo

Le informazioni presentate in una sequenza temporale:

APPLICAZIONI

- Reti transformers: presentazione di alcuni elementi

- Trasformazione del riconoscimento del parlato da uno spettrogramma della sequenza S entro una finestra temporale T in spazio audio strutturato a sequenza di fonemi o parole Ttemporale W (t)

- Riconoscimento di azioni FUNZIONA- Informazioni dal contesto TW (t) = MENTO

- Predizione della dinamica di oggetti in movimento [ S , S , …, S ]t t+1 t+T

- Generazione di testo o di musica Esperienze di regolarità precedentemente apprese

- Predizione di serie storiche

- L'introverso, il disinibito Modelli Clustering: associativi “Riprodurre scoprire autonomamente l’immagine utilizzando solo mente raggruppamenti dei 4 dei 6 pixel”

- Algoritmi di apprendimento

- Estrazione delle features: ridurre il numero di descrittori creandone autoencoders ReLU

generali/astratti Modelli Five o mantenendo solo generativi quelli più informativi NON LINEARE sigmoide Apprendimento nonmanifolds: variabilità geometri- à Riduzione della dimensionalità che (features) che si trovano su diverse dimensioni di un piano supervisionato LINEARE NON sono linearmente separabili PCA VANTAGGI SVANTAGGI per renderle linearmente separabili è necessario il processo di estrazione trovare la direzione di massima variabilità • • dataset non etichettati rischio di overfitting e delle features cioè sovraccarico spazio delle • utile come base per un descrivere la varianza di un insieme di features • non è chiaro cosa successivo task dati con un numero finito di dimensioni o supervisionato (transfer costituisca una "buona componenti tra loro linearmente scorrelate learning) rappresentazione" (cioè ortogonali) • • biologicamente plausibile dispendioso impossibile inferire relazioni

causalisistema visivo umano è Riferito ad un singolo neurone appartenente ad i(strato di input):differenza tra la ricostruzione dei dati (y) operata daloutputinput neurone di output e il target, che è l'informazione(ricostru-(training contenuta nel neurone di input corrispondente (t)zione)pattern) åpoi devo fare la di questo risultato per tutti i neuroni di i e poi diå µnuovo di questi risultati per tutti i patternsono i neuroni diinput stessipiù neuroni nascosti = più features estraibili Autoencodersmetodo di riduzione non lineare della dimensionalità in apprendimento non supervisionatorete neurale feed-forward che codifica (encoding) il suo stesso inputDenoising autoencoders VARIANTI Autoencoders variazionaliStacked (deep) autoencodersè convoluzionaliweightdecay più accuratoCambio dei pesi w e assestamentoFASE DI assegnare alta probabilità (bassadegli attrattori nei punti di

minimoMEMORIZZAZIONE energia) alle configurazioniAttrattori: locale della funzione osservate durante il training setpunti di minimo locale della funzione dienergia E, sono stati stabili in cui i neuroni Lasciando stabili i pesi w, cambio assegnare bassa probabilità (altapresentano una certa configurazione dell’attivazione x dei neuroni al fineFASE DI RECUPERO energia) alle configurazioni nondi individuare il migliore tra i minimi osservate durante il training set= pattern da memorizzare (in corrisponden- localiza dei quali l’energia deve essere minima) RETI DI HOPFIELD• Grafo interamenteconnesso modelli associativi• Rete ricorrente(bidirezionale) (sono sempre algoritmi di apprendimento)• Assenza di neuroninascosti (sono tutti BASI TEORICHEneuroni di input) + Frustrazione geometricaModello di Ising il sistema non diventa mai omogeneoper la meccanica statistica: globalmente per quanto riguardaSIMULATED l’energia (ferromagnetico), ma si

Il ricottura simulata è una tecnica utilizzata nella meccanica statistica per esplorare configurazioni che consentono di avere dei minimi energetici locali. Questo processo è ispirato al raffreddamento graduale di un materiale per ottenere una struttura cristallina ottimale.

La procedura di ricottura simulata prevede una serie di passaggi in cui la temperatura del sistema viene gradualmente ridotta. Durante ogni passaggio, gli atomi o le neuroni nel sistema si muovono in modo casuale, consentendo al sistema di esplorare diverse configurazioni. Questo processo aiuta a trovare i minimi energetici locali, che corrispondono a configurazioni stabili e a bassa energia.

Le relazioni locali tra gli atomi o i neuroni sono importanti per determinare l'energia del sistema. Ad esempio, nella regola di Hebb, si considera che l'energia di un sistema dipenda dalle connessioni sinaptiche tra i neuroni. Questa regola suggerisce che la forza di una connessione sinaptica aumenta se i neuroni coinvolti si attivano contemporaneamente.

Anteprima

Vedrai una selezione di 7 pagine su 26