PCA
Riduzione della dimensionalità SVD
tecnica valutare Overfitting Underfitting capire modificare ipotesi
Training Curve l’errore dati di addestramento variare dimensione dati in addestramento da 1 a n
Si utilizzano Learning Curves
Ottimizzazione Disgnostica Validation Curve l’errore dati di validazione variare iperparametro esempio complessità
Diagnosticare alto bias (Underfitting) curve vicine errore elevato
Diagnosticare basso bias (Overfitting) errore training basso errore validation alto
prestazioni
valutare modello Training Set addestrare modello
Come costruire Cross-validation Hold-out dataset diviso Validation set scegliere miglior modello
un sistema di ML Test set valutare miglior modello
K-folds k sottogruppi ogni iterazione un fold test set gli altri validation valutazione finale media risultati
MAE errore medio previsione valori reali
quadrato MAE
Modelli di Regressione tramite metriche Standard MSE più sensibile valori anomali
radice MSE
RMSE dimensioni originali valori positivi
Come valutare se un modello
di ML lavora bene Accuracy previsioni corrette totale
Precision previsione corrette positive fatte
Valutazione Modelli di Classificazione tramite metriche confusion matrix Recall previsioni positive positivi reali
asse y TPR recall
ROC asse x FPR 1-recall
variare soglia di precisione
test statistico confrontare modelli stessa serie di dati valutare modello migliori prestazioni
differenza errori di previsione
differenza significativa? Calcolare media differenze
Paired Sample t-test t-score se maggiore soglia si
Test a due code differenza significativa non si sa direzione
Differenza Positiva primo modello migliore del secondo
differenza determinata dal caso? Test a una coda Differenza Negativa secondo modello migliore del primo
Come misurare se i risultati
sono significativi p < soglia differenza non determinata dal caso
p > soglia differenza potrebbe essere dovuta al caso
misura previsioni modello corrispondono
Coefficient of Determination RSS differenza valori reali previsioni
TSS differenza valori reali media di essi
nodi (neuroni) strati (layer) modificano ingresso produrre output
apprendere mappatura risolvere problema
Rete neurale input x(i)
neurone sigmoide Pesi theta
Output unico
si passa da approccio lineare non lineare funzioni di attivazione come sigmoide
Pattern complessi classificazione indicare l’appartenenza classe intervallo 0 e 1 probabilità
sigmoide utilizzata caratteristica derivabilità fondamentale backpropagation
Processo dati attraversano rete neurale
X vettore di input
Forward Propagation Theta(i) matrici dei pesi strati i
RETI NEURALI a( i-1)
Composto z(i) attivazione combinazione lineare theta(i-1)
a(i) input strato i applicato funzione di attivazione z(i)
htheta(x)
Regressione
Tipologie Classificazione
RegTerm calcolare gradiente funzione di costo aggiornare pesi minimizzare errore
ottenere l’errore strato di output
Funzioni di costo Tramite l’errore Strato L calcolare l’errore neurone j strato nascosto l
Passaggi ottenuti valori errori ciascun neurone calcolare gradiente funzione di costo
Minimizzazione Backpropagation Aggiornamento pesi
troppo complessa l’algoritmo porta Overfitting
rete troppo profonda gradienti molto piccoli propaghiamo errore difficile allenamento strati iniziali
troppo grandi
limitazioni valore atteso attivazione 0 evitano accumuli troppo piccoli
risolviamo inponendo varianza attivazione costante tra layer considerati
inizializzare parametri thteta valori casuali molto piccoli selezionandoli distribuzioni standard Xavier
modello Supervised Learning problemi regressione
Dividono dati segmenti (o foglie) previsioni valori continui
Nodo radice partenza
Composto da Nodi intermedi ogni nodo condizione dati
Regression Trees Foglie parte finale
analizzano tutte caratteristiche
ogni caratteristica valutano possibili soglie identificare minimizza RSS
creazione Si sceglie caratteristica RSS più basso
divide dataset due sottoinsiemi
ripete il processo
classificare dati categorie discrete
Calcolare entropia iniziale sistema
Classification Trees Calcolare ogni caratteristica guadagno informativo porterebbe nuova divisione
creazione Scelta caratteristica guadagno informativo maggiore
dividere l’albero ogni sottoinsieme
tecnica ridurre overfitting permetterdo generalizzare meglio
Scelta della soglia fatta media valori contigui dataset riducendo numero soglie
ALBERI tecniche situazione valori mancanti dataset
Missing values
Decision Trees Pruning Categorical case valore più frequente componente correlato utilizzarlo come guida
scelte Numerical case considerando attributi numerici creare regressione lineare
creazione molteplici sottoalberi
Per Regressione calcola RSS ogni albero
calcola tree score ogni albero
metodo supervised learning creare combinare diversi alberi predizioni più accurate
Creare sottodivisione dataset maniera casuale campioni possono ripetersi
Passaggi ogni sottodivisione creare albero solamente alcune feature decisionali
Ripetere creare foresta
valutare efficienza testarla Out-Of-Bag Data campioni non scelti
Categorical case
Inizializzare valori mancanti Numerical Case
Creazione Random Forest
Ogni campione attraverso ogni albero
Raffinamento valori tenuta traccia campioni finiscono stessa foglia matrice di prossimità
Random Forest Valori mancanti utilizza matrice di prossimità
Calcolo valori mancanti Dati categorici media ponderata
Dati Dati numerici media ponderata
Creiamo due copie campione stimando valori diversi
nuovi campioni passare copie random forest
sceglie campione classificazione più coerente
Robustezza ovefitting
Vantaggi Alta accuratezza
Valutazione feature importanti
V e S Complesso interpretare
Svantaggi Richiesta computazionale elevata
Necessita grandi dataset