Paniere con risposte aperte - Fondamenti di intelligenza artificiale (2023/2024)

Il file contiene le risposte a tutte le domande a risposta aperta dell'esame di Fondamenti di intelligenza artificiale. Ho superato l'esame con 29/30 (il massimo disponibile per lo scritto …

Esame Fondamenti di intelligenza artificiale

Facoltà Ingegneria

Dal corso del Prof. Caroprese Luciano

Università Università telematica "e-Campus" di Novedrate (CO)

Publisher Carlo9898

A.A. 2023-2024

34 pagine

Panieri

Vota 5,0 / 5 (2)

Scarica

Estratto del documento

K

fra le classi.

parità

Se vi è la possibilità che possa verificarsi una situazione di parità dovranno essere previste ulteriori

condizione per scegliere la classe da selezionare (es. la classe di appartenenza del campione più

vicino).

Questo modello presenta degli indubbi vantaggi. Innanzitutto è particolarmente semplice (è

caratterizzato da un semplice e non presenta una fase di addestramento vera e propria. Dunque

ciclo)

l’aggiunta di nuovi campioni al training set è un processo triviale.

D’altra parte un dataset molto grande potrebbe richiedere lunghi tempi di elaborazione perché sarà

necessario, per ogni predizione, scandire per intero tutto il training set (il modello non è scalabile).

Si descriva l'algoritmo della discesa del gradiente.

L'algoritmo della discesa del gradiente è un metodo utilizzato nell'ottimizzazione dei

modelli per fare previsioni.

L'idea alla base di questo algoritmo è quella di regolare iterativamente i parametri del

modello per ridurre l'errore delle previsioni.

Supponiamo che il modello sia caratterizzato da parametri, calcoliamo, quindi, la

h derivata

dell’errore rispetto a ciascuno dei parametri [theta] ..â−1]).

(ð∈[0

parziale ð

Questo valore indica di quanto varierà l’errore al variare del parametro Se esso è positivo,

ð .

significa che incrementando il valore del parametro l’errore aumenterà, se invece è negativo,

incrementando il valore del parametro, l’errore diminuirà.

Siccome il nostro obiettivo è quello di abbattere l’errore, aggiorneremo il parametro nella

direzione opposta al segno della relativa derivata parziale rispetto all’errore stesso: se la derivata

è positiva il valore del parametro sarà diminuito, se la derivata è negativa, sarà abbassato.

Durante ogni iterazione del processo di addestramento, il valore di ciascun parametro

(ðð ) viene regolato per ridurre l'errore complessivo del modello. Questo

aggiornamento avviene considerando la pendenza della funzione obiettivo rispetto a

quel parametro, moltiplicata per un fattore noto come learning rate (ð)[eta]. Il learning

rate determina quanto dobbiamo 'muoverci' lungo la pendenza della funzione durante

ogni passo di aggiornamento, influenzando così la convergenza e la stabilità

complessiva dell'algoritmo di apprendimento.

Si descriva, anche informalmente, il modello di regressione logistica.

La regressione logistica è un modello ampiamente utilizzato per affrontare problemi di

classificazione, in cui l'obiettivo è assegnare un dato specifico a una delle diverse

classi possibili. Esaminiamo questa metodologia sia per i problemi di classificazione

binaria che per quelli multiclasse.

In una prospettiva di classificazione binaria, il modello di regressione logistica inizia

con una funzione lineare che combina i coefficienti associati agli attributi del dato in

ingresso. Successivamente, attraverso l'uso di una funzione non lineare chiamata

sigmoide, il risultato viene trasformato in una probabilità compresa tra 0 e 1. Se

questa probabilità supera il 50%, il modello predice che il dato appartiene alla classe

positiva (1); altrimenti, predice che appartiene alla classe negativa (0). Durante

l'addestramento, il modello cerca di minimizzare una funzione di perdita, chiamata

cross-entropia binaria, che tiene conto della discrepanza tra le predizioni del modello e

le etichette reali.

Nel contesto della classificazione multiclasse, la regressione logistica estende il suo

approccio per gestire più di due classi possibili. Utilizza una codifica "one-hot" per

rappresentare le etichette, dove un vettore binario indica a quale classe appartiene il

dato. Introduce K funzioni lineari, una per ogni classe, con i relativi pesi organizzati in

una matrice Θ. La funzione softmax viene quindi utilizzata per trasformare gli score

delle diverse classi in probabilità normalizzate, assegnando una probabilità a ciascuna

classe. Durante l'addestramento, l'obiettivo è minimizzare una funzione di perdita

adattata per problemi multiclasse, chiamata cross-entropia.

In conclusione, la regressione logistica è un approccio flessibile e potente per

modellare la probabilità di appartenenza a diverse classi, cercando di ridurre al

minimo l'errore, consentendo al modello di fare previsioni accurate su nuovi dati di

input.

Si descriva l'algoritmo CART per problemi di classificazione.

L'algoritmo CART (Classification and Regression Tree) è un approccio utilizzato per

creare alberi decisionali, comunemente utilizzati per compiti di classificazione e

regressione.

Iniziamo comprendendo il processo di costruzione di questi alberi.

L'algoritmo inizia con la selezione di un nodo radice, che coinvolge la scelta di un

attributo (f) e una soglia (tf). Questi vengono utilizzati per definire una condizione del

tipo "l'attributo f è minore o uguale a tf". Questa condizione separa il set di

addestramento in due sottoinsiemi.

L'obiettivo principale è massimizzare la purezza dei due sottoinsiemi risultanti. La

purezza è misurata utilizzando l'indice di Gini, che valuta quanto bene una

suddivisione separa le classi. L'algoritmo seleziona f e tf in modo da minimizzare la

somma ponderata degli indici di Gini dei due sottoinsiemi. Questo processo è iterativo

e si ripete per ciascuno dei due sottoinsiemi, creando una struttura ad albero.

Nel caso della regressione, l'obiettivo è simile ma la misura di impurità utilizzata è

l'errore quadratico medio (MSE). L'algoritmo cerca di minimizzare la somma ponderata

degli errori quadratici medi nei sottoinsiemi.

È importante notare che l'algoritmo CART è "goloso" (greedy), poiché prende decisioni

ottimali localmente in ogni passo, cercando di massimizzare la purezza dei

sottoinsiemi senza garantire l'ottimalità globale dell'albero risultante. Questa

approccio "goloso" è una scelta pratica, ma può non portare all'albero ottimale in

termini di prestazioni globali.

Il processo di costruzione dell'albero è ricorsivo e continua fino a quando viene

raggiunta la profondità massima prevista o non è più possibile ridurre l'impurità. Va

notato che la ricerca di un albero ottimale richiederebbe un tempo esponenziale nel

numero di campioni del set di addestramento, rendendo il problema impraticabile per

set di dati di dimensioni anche relativamente piccole.

Si presenti il concetto di Ensemble Learning.

L'Ensemble Learning è una tecnica di machine learning che si basa sull'idea di

utilizzare più modelli in parallelo per risolvere un problema di regressione o di

classificazione, e aggregare le loro risposte per ottenere una predizione finale.

L'effetto principale dell'Ensemble Learning è che un insieme di modelli, anche se

ciascuno di essi può avere prestazioni decenti, quando combinati possono raggiungere

prestazioni migliori rispetto al miglior modello singolo incluso nell'ensemble (ci sono

casi dove anche un ensemble di modelli con prestazioni inizialmente scarse può

portare a prestazioni eccellenti quando combinati).

Un esempio pratico di ensemble è analogo a consultare più medici per ottenere una

diagnosi corretta. La diversità e l'indipendenza dei modelli che compongono

l'ensemble sono chiave per ottenere miglioramenti significativi nelle prestazioni

complessive. Modelli indipendenti sono in grado di fornire prospettive diverse e

compensarsi reciprocamente.

Per massimizzare l'efficacia dell'ensemble, è fondamentale che i modelli siano

indipendenti, e spesso vengono addestrati su sottoinsiemi diversi del set di

addestramento per abbattere correlazioni indesiderate.

L'output di un ensemble in una classificazione può essere ottenuto attraverso hard

voting, dove la classe più frequente tra i modelli è selezionata come predizione finale.

Nel caso del soft voting, se i modelli restituiscono anche le probabilità di appartenenza

alle classi, la predizione finale è ottenuta pesando i risultati in base alle probabilità di

ciascun modello.

Nel contesto di un problema di regressione, l'output dell'ensemble è la media degli

output dei modelli che lo compongono. In conclusione, l'Ensemble Learning sfrutta la

diversità e l'indipendenza dei modelli per migliorare le prestazioni complessive

rispetto a singoli modelli.

Si descrivano i meccanismi di hard voting e di soft voting nelle architetture

di ensemble learning.