Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
K
fra le classi.
parità
Se vi è la possibilità che possa verificarsi una situazione di parità dovranno essere previste ulteriori
condizione per scegliere la classe da selezionare (es. la classe di appartenenza del campione più
vicino).
Questo modello presenta degli indubbi vantaggi. Innanzitutto è particolarmente semplice (è
caratterizzato da un semplice e non presenta una fase di addestramento vera e propria. Dunque
ciclo)
l’aggiunta di nuovi campioni al training set è un processo triviale.
D’altra parte un dataset molto grande potrebbe richiedere lunghi tempi di elaborazione perché sarà
necessario, per ogni predizione, scandire per intero tutto il training set (il modello non è scalabile).
Si descriva l'algoritmo della discesa del gradiente.
L'algoritmo della discesa del gradiente è un metodo utilizzato nell'ottimizzazione dei
modelli per fare previsioni.
L'idea alla base di questo algoritmo è quella di regolare iterativamente i parametri del
modello per ridurre l'errore delle previsioni.
Supponiamo che il modello sia caratterizzato da parametri, calcoliamo, quindi, la
h derivata
ð
dell’errore rispetto a ciascuno dei parametri [theta] ..â−1]).
(ð∈[0
parziale ð
Questo valore indica di quanto varierà l’errore al variare del parametro Se esso è positivo,
ð .
ð
significa che incrementando il valore del parametro l’errore aumenterà, se invece è negativo,
incrementando il valore del parametro, l’errore diminuirà.
Siccome il nostro obiettivo è quello di abbattere l’errore, aggiorneremo il parametro nella
direzione opposta al segno della relativa derivata parziale rispetto all’errore stesso: se la derivata
è positiva il valore del parametro sarà diminuito, se la derivata è negativa, sarà abbassato.
Durante ogni iterazione del processo di addestramento, il valore di ciascun parametro
(ðð ) viene regolato per ridurre l'errore complessivo del modello. Questo
aggiornamento avviene considerando la pendenza della funzione obiettivo rispetto a
quel parametro, moltiplicata per un fattore noto come learning rate (ð)[eta]. Il learning
rate determina quanto dobbiamo 'muoverci' lungo la pendenza della funzione durante
ogni passo di aggiornamento, influenzando così la convergenza e la stabilità
complessiva dell'algoritmo di apprendimento.
Si descriva, anche informalmente, il modello di regressione logistica.
La regressione logistica è un modello ampiamente utilizzato per affrontare problemi di
classificazione, in cui l'obiettivo è assegnare un dato specifico a una delle diverse
classi possibili. Esaminiamo questa metodologia sia per i problemi di classificazione
binaria che per quelli multiclasse.
In una prospettiva di classificazione binaria, il modello di regressione logistica inizia
con una funzione lineare che combina i coefficienti associati agli attributi del dato in
ingresso. Successivamente, attraverso l'uso di una funzione non lineare chiamata
sigmoide, il risultato viene trasformato in una probabilità compresa tra 0 e 1. Se
questa probabilità supera il 50%, il modello predice che il dato appartiene alla classe
positiva (1); altrimenti, predice che appartiene alla classe negativa (0). Durante
l'addestramento, il modello cerca di minimizzare una funzione di perdita, chiamata
cross-entropia binaria, che tiene conto della discrepanza tra le predizioni del modello e
le etichette reali.
Nel contesto della classificazione multiclasse, la regressione logistica estende il suo
approccio per gestire più di due classi possibili. Utilizza una codifica "one-hot" per
rappresentare le etichette, dove un vettore binario indica a quale classe appartiene il
dato. Introduce K funzioni lineari, una per ogni classe, con i relativi pesi organizzati in
una matrice Θ. La funzione softmax viene quindi utilizzata per trasformare gli score
delle diverse classi in probabilità normalizzate, assegnando una probabilità a ciascuna
classe. Durante l'addestramento, l'obiettivo è minimizzare una funzione di perdita
adattata per problemi multiclasse, chiamata cross-entropia.
In conclusione, la regressione logistica è un approccio flessibile e potente per
modellare la probabilità di appartenenza a diverse classi, cercando di ridurre al
minimo l'errore, consentendo al modello di fare previsioni accurate su nuovi dati di
input.
Si descriva l'algoritmo CART per problemi di classificazione.
L'algoritmo CART (Classification and Regression Tree) è un approccio utilizzato per
creare alberi decisionali, comunemente utilizzati per compiti di classificazione e
regressione.
Iniziamo comprendendo il processo di costruzione di questi alberi.
L'algoritmo inizia con la selezione di un nodo radice, che coinvolge la scelta di un
attributo (f) e una soglia (tf). Questi vengono utilizzati per definire una condizione del
tipo "l'attributo f è minore o uguale a tf". Questa condizione separa il set di
addestramento in due sottoinsiemi.
L'obiettivo principale è massimizzare la purezza dei due sottoinsiemi risultanti. La
purezza è misurata utilizzando l'indice di Gini, che valuta quanto bene una
suddivisione separa le classi. L'algoritmo seleziona f e tf in modo da minimizzare la
somma ponderata degli indici di Gini dei due sottoinsiemi. Questo processo è iterativo
e si ripete per ciascuno dei due sottoinsiemi, creando una struttura ad albero.
Nel caso della regressione, l'obiettivo è simile ma la misura di impurità utilizzata è
l'errore quadratico medio (MSE). L'algoritmo cerca di minimizzare la somma ponderata
degli errori quadratici medi nei sottoinsiemi.
È importante notare che l'algoritmo CART è "goloso" (greedy), poiché prende decisioni
ottimali localmente in ogni passo, cercando di massimizzare la purezza dei
sottoinsiemi senza garantire l'ottimalità globale dell'albero risultante. Questa
approccio "goloso" è una scelta pratica, ma può non portare all'albero ottimale in
termini di prestazioni globali.
Il processo di costruzione dell'albero è ricorsivo e continua fino a quando viene
raggiunta la profondità massima prevista o non è più possibile ridurre l'impurità. Va
notato che la ricerca di un albero ottimale richiederebbe un tempo esponenziale nel
numero di campioni del set di addestramento, rendendo il problema impraticabile per
set di dati di dimensioni anche relativamente piccole.
Si presenti il concetto di Ensemble Learning.
L'Ensemble Learning è una tecnica di machine learning che si basa sull'idea di
utilizzare più modelli in parallelo per risolvere un problema di regressione o di
classificazione, e aggregare le loro risposte per ottenere una predizione finale.
L'effetto principale dell'Ensemble Learning è che un insieme di modelli, anche se
ciascuno di essi può avere prestazioni decenti, quando combinati possono raggiungere
prestazioni migliori rispetto al miglior modello singolo incluso nell'ensemble (ci sono
casi dove anche un ensemble di modelli con prestazioni inizialmente scarse può
portare a prestazioni eccellenti quando combinati).
Un esempio pratico di ensemble è analogo a consultare più medici per ottenere una
diagnosi corretta. La diversità e l'indipendenza dei modelli che compongono
l'ensemble sono chiave per ottenere miglioramenti significativi nelle prestazioni
complessive. Modelli indipendenti sono in grado di fornire prospettive diverse e
compensarsi reciprocamente.
Per massimizzare l'efficacia dell'ensemble, è fondamentale che i modelli siano
indipendenti, e spesso vengono addestrati su sottoinsiemi diversi del set di
addestramento per abbattere correlazioni indesiderate.
L'output di un ensemble in una classificazione può essere ottenuto attraverso hard
voting, dove la classe più frequente tra i modelli è selezionata come predizione finale.
Nel caso del soft voting, se i modelli restituiscono anche le probabilità di appartenenza
alle classi, la predizione finale è ottenuta pesando i risultati in base alle probabilità di
ciascun modello.
Nel contesto di un problema di regressione, l'output dell'ensemble è la media degli
output dei modelli che lo compongono. In conclusione, l'Ensemble Learning sfrutta la
diversità e l'indipendenza dei modelli per migliorare le prestazioni complessive
rispetto a singoli modelli.
Si descrivano i meccanismi di hard voting e di soft voting nelle architetture
di ensemble learning.
L'Ensemble Learning è una tecnica di machine learning che si basa sull'idea di
utilizzare più modelli in parallelo per risolvere un problema di regressione o di
classificazione, e aggregare le loro risposte per ottenere una predizione finale.
L'effetto principale dell'Ensemble Learning è che un insieme di modelli, anche se
ciascuno di essi può avere prestazioni decenti, quando combinati possono raggiungere
prestazioni migliori rispetto al miglior modello singolo incluso nell'ensemble (ci sono
casi dove anche un ensemble di modelli con prestazioni inizialmente scarse può
portare a prestazioni eccellenti quando combinati).
Per massimizzare l'efficacia dell'ensemble, è fondamentale che i modelli siano
indipendenti, e spesso vengono addestrati su sottoinsiemi diversi del set di
addestramento per abbattere correlazioni indesiderate.
L'output di un ensemble in una classificazione può essere ottenuto attraverso hard
voting, dove la classe più frequente tra i modelli è selezionata come predizione finale.
Nel caso del soft voting, se i modelli restituiscono anche le probabilità di appartenenza
alle classi, la predizione finale è ottenuta pesando i risultati in base alle probabilità di
ciascun modello.
Si descrivano le caratteristiche di un Extra-Tree.
Nella lezione, viene introdotto il concetto di Extra-Trees (o Extremely Randomized
Trees), un