Che materia stai cercando?

Barto, Andrew G. Appunti scolastici Premium

Questa dispensa si riferisce alle lezioni di Filosofia della scienza, tenute dal Prof. Roberto Cordeschi nell'anno accademico 2011 e tratta i seguenti argomenti:
[list]
Problema della flessibilità;
Motivazioni estrinseche;
Motivazioni intrinseche;
Apprendimento per... Vedi di più

Esame di Filosofia della scienza docente Prof. R. Cordeschi

Anteprima

ESTRATTO DOCUMENTO

Intrinsic Motivations (IM)

An agent’s activity is said to be intrinsically motivated if the agent

engages in it for its own sake rather than as a step toward solving a

specific problem.

Intrinsically motivated behaviour is essential for an organism to gain

competence necessary for autonomy

- Le motivazioni intrinseche sono motivazioni inversamente

proporzionali alla conoscenza che un agente ha del mondo

- I segnali di rinforzo generati dalle motivazioni intrinseche

persistono solo durante l’acquisizione di nuovi modelli del

mondo

martedì 17 maggio 2011 IM

Psychology

- White (’59): il paradigma delle motivazioni solo come

riduzione dei drives primari non è più sufficiente per

spiegare il comportamento animale

- Si sviluppa l’idea che la novità stessa possa essere

considerata un elemento in grado di generare segnali

di rinforzo

- Berlyne (’60): i fattori legati alle motivazioni

intrinseche sono novità, sorpresa, incongruenze e

complessità

- IM collegate all’agency, al ruolo attivo che un agente

ha nel modificare il mondo ed interagire con esso

martedì 17 maggio 2011 IM

Neuroscience

- Dopamina ha un ruolo importante nella modifica delle

connessioni sinaptiche

- Attivazioni fasiche di dopamina sono causate dalle motivazioni

estrinseche (cibo, sesso, etc)

- Studi recenti hanno mostrato come la dopamina fasica sia

causata anche da altre tipologie di stimoli salienti: nuovi pattern,

cambiamenti imprevisti nell’ambiente, etc.

- Tale attività diminuisce quando lo stimolo diviene familiare

- Redgrave (’06): studi sul superior colliculus nei topi. Uno

stimolo luminoso inatteso può guidare l’apprendimento di nuovi

comportamenti

martedì 17 maggio 2011 IM

Machine Learning

- Schmidhuber (’91): segnale intrinseco di rinforzo

come errore di predizione. L’errore nel prevedere i

cambiamenti nel mondo viene utilizzato come segnale

di rinforzo per il sistema.

- Oudeyer, Kaplan(’07): review sugli approcci

computazionali alle intrinsic motivations

martedì 17 maggio 2011 Reinforcement learning

- L’apprendimento per rinforzo è un algoritmo di apprendimento che

punta alla costruzione di (strategia) in grado di massimizzare la

policy

quantità di rinforzi ottenuti nel tempo

- Credit assignment problem: problema dell’assegnazione di un valore

ad azioni lontane nel tempo rispetto al momento del rinforzo

- Temporal Difference (TD): soluzione al problema del credit

assignment. Il segnale di rinforzo viene propagato all’indietro in modo

intercettare le azioni che hanno portato al suo raggiungimento

- Actor-Critic reinforcement learning

martedì 17 maggio 2011 Actor-Critic

- La rete è composta da due elementi, attore e critico

- L’attore è il controller del sistema

- Il critico fornisce una valutazione degli stati correnti

che guida l’apprendimento della policy migliore

- Sutton, Barto(’98): il segnale di rinforzo non viene

dall’esterno ma dall’interno dell’agente stesso. Il sistema

motivazionale è interno all’ “organismo”

- I gangli della base, dove avviene l’apprendimento delle

sequenze motorie, sembrerebbero implementare

l’apprendimento per rinforzo attore-critico ( Barto, 1995;

Joel et al. 2002)

martedì 17 maggio 2011 Option Framework

- Strategia per implementare le azioni, con un controllo su macro azioni e non step

by step

- Ciascuna opzione può essere considerata una skill, che a sua volta può richiamare

ulteriori skill, in modo gerarchico

- Componenti di un’opzione:

1. Una strategia che diriga l’azione per un subset di stati

2. Un set di stati in cui l’opzione può essere inizializzata

3. Una condizione di terminazione della policy

- Due caratteristiche fondamentali dell’option framework:

1. Un option model è una descrizione probabilistica degli effetti

dell’esecuzione di una azione. E’ quindi possibile avere un “errore” nella

predizione

2. Apprendimento di più policy di diverse option contemporaneamente.

Questo amplifica l’apprendimento dovuto all’esperienza

martedì 17 maggio 2011 Hierarchical collection of

skills

- La struttura dell’option framework può essere sfruttata per

simulare quello che è l’apprendimento cumulativo di nuove

capacità

- Così come i bambini accumulano nuove skill interagendo con

l’ambiente spinti dalle motivazioni intrinseche, così nuove

opzioni possono essere immagazzinate

- Ogni skill/opzione immagazzinata oltre a risolvere un task

specifico può costituire la base per l’acquisizione di una nuova

competenza

- Non necessariamente tutte le skill acquisite con le motivazioni

intrinseche saranno utili in futuro

martedì 17 maggio 2011 Implementazione

Motivazioni Intrinseche

- In questo lavoro le motivazioni intrinseche sono implementate

come una “sorpresa”, simile alla risposta dei neuroni dopaminergici

alla novità

- Il rinforzo intrinseco deve diminuire al seguito della ripetizione

dell’azione che l’ha generato: quando un’azione diviene “routine”

perde la sua capacità di suscitare interesse nell’agente

- Una volta “annoiato” l’agente passerà a cercare nuove modalità di

interazione col mondo che genereranno nuovi rinforzi intrinseci

The agent learns what is easy to learn first, then uses this knowledge to

learn harder things. This results in a generative power that is absent from

current machine learning system

martedì 17 maggio 2011


PAGINE

21

PESO

305.84 KB

AUTORE

Atreyu

PUBBLICATO

+1 anno fa


DESCRIZIONE DISPENSA

Questa dispensa si riferisce alle lezioni di Filosofia della scienza, tenute dal Prof. Roberto Cordeschi nell'anno accademico 2011 e tratta i seguenti argomenti:
[list]
Problema della flessibilità;
Motivazioni estrinseche;
Motivazioni intrinseche;
Apprendimento per rinforzo (reinforcement learning);
Option Framework.
[/list]


DETTAGLI
Corso di laurea: Corso di laurea in filosofia
SSD:
A.A.: 2011-2012

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Atreyu di informazioni apprese con la frequenza delle lezioni di Filosofia della scienza e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università La Sapienza - Uniroma1 o del prof Cordeschi Roberto.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Filosofia della scienza

Macchine di Turing
Dispensa
Logica
Dispensa
Logica e rappresentazione della conoscenza
Dispensa
Risoluzione automatica dei problemi
Dispensa