GMM INIT
→
Cosa fa il codice esegue un confronto tra diversi metodi di inizializzazione dei centroidi per un
→
modello GMM valutando il tempo necessario sia per inizializzare sia per l’effetto di
→ → →
apprendimento l’obiettivo provare diversi metodi di inizializzazione quanto tempo
→ →
impiega per ognuno visualizzare l’impatto sull’addestramento del GMM confrontare i
→ →
centroidi inziali con quelli finali ottenuti dopo l’apprendimento output finale mostra tutti i
→ → →
subplot uno con ground truth uno per ciascun metodo di inizializzazione metodi di
→ →
inizializzazione kmeans kmeans++ random from data random
GMM TUNING
→ →
Cosa fa questo codice costruisce e seleziona il miglior modello GMM usando come criterio di
→ → →
valutazione AIC o BIC tramite ricerca a griglia passaggi principali genera un dataset
→ →
sintetico con2/3 cluster primo una gaussiana sferica e secondo stirata opzionalmente crea un
→ →
terzo cluster definisce le metriche AIC e BIC prova varie configurazioni di GMM ricercando il
→ →
modello GMM migliore cercando la combinazione ottimale che minimizza AIC/BIC analizza i
→ →
risultati e seleziona modello migliore in base AIC o BIC quello con il punteggio + basso
→
visualizza graficamente i risultati ricordo che durante tutto il codice
→ → →
avendone messi insieme 3 posso visualizzare altri grafici
→ →
come quello relativo ai valori di AIC quello finale è
VARIATIONAL GMM
→ → →
Cosa fa confronta 2 approcci per la modellazione di dati con GMM modello classico
→ → →
basato su alg EM modello bayesiano basato sull’inferenza variazionale in + permette di
→
visualizzare i risultati mostrando i punti colorati secondo il cluster e un’ellisse per ogni cluster
→ →
che rappresenta la forma della gaussiana passaggi come sempre import e configurazione
→ →
iniziale _test settato a false perché 3 cluster disattivato poi avviene l’addestramento dei
→
modelli GMM prima secondo modello classico dove quindi si specifica numero max di cluster da
→
usare poi secondo modello bayesiano che decide in modo autonomo quante componenti usare
→ →
in base al prior che è quello di Dirichlet viene poi creata una funzione di plotting con ellissi
→
funzione che mostra visivamente cosa hanno trovato i modelli ovvero si crea un grafico con i
dati colorati per cluster e si disegna un’ellisse che rappresenta la forma del cluster usando la
→ → → →
matrice di covarianza ellisse mostra dove si trova cluster quanto largo/stretto come è
→ →
orientato richiamando la funzione due volte ne ottengo 2 di grafici uno per GMM classico e
→
uno per GMM bayesiano
GMM VARIATIONAL CONCENTRATION
→ →
Cosa fa studia come si comporta un modello bayesiano GMM usando due approcci diversi
→ → →
Dirichlet distribution quindi modello finito di componenti e Dirichlet process modello con
→
numero potenzialmente infinito di componenti ma che automaticamente decide quante usarne
→
questi analizzano l’effetto di diversi valori dell’iperparametro gamma che influenza il numero di
→ → →
cluster attivi passaggi crea i due modelli di BGMM testa l’effetto di gamma variandolo con
→ → →
valore predefiniti e per ciascun caso adatta il modello ai dati e mostra sia cluster trovati
→ →
con ellissi sia pesi associati a ciascun cluster
NOTEBOOK 03
AGGLOMERATIVE CLUSTERING
→ → →
Cosa fa qui troviamo due blocchi di codice il primo per eseguire il clustering gerarchico il
→ →
secondo per visualizzare il dendrogramma dei raggruppamenti gerarchici passaggi primo
→
blocco specifico i 4 tipi di collegamento e setta il colore per colorare cluster in modo coerente
→ per ogni tipo di collegamento inizializza modello fa addestramento e visualizza dei cluster
→ →
trovati misurando anche tempo per ogni modello recupera cluster assegnati per ciascun
→
punto plotta tutti i punti di un cluster con un colore diverso ed etichetta con il tempo di
→ →
esecuzione l’output finale mostra tutti i plot e stampa una sintesi dei parametri usati
→ → →
secondo blocco per realizzare il dendrogramma fa conta i campioni conta i dati per ongi
→ →
nodo crea una lista di coppie nodi/cluster uniti a ogni passo crea una matrice dove nelle
→ → → →
colonne troviamo ID del primo cluster unito quello del secondo unito d tra cluster
→ →
numero di punti nel cluster risultante plotto figura
AGGLOMERATIVE CLUSTERING CONN
→ →
Cosa fa dopo aver caricato un’immagine segmenta in 12 regioni usando algoritmo gerarchico
→
con metodo Ward poi mostra le linee di contorno di ogni regione sovrapposte all’immagine
→ → →
originale in scala di grigi passaggi si specifica che volgiamo 12 regioni quindi cluster finali
→
si specifica il metodo di fusione ward che unisce i cluster minimizzando la varianza totale
→
all’interno dei cluster dopo aver ottenuto una rappresentazione vettoriale dell’immagine dove
→
ogni pixel è un campione grazie alla matrice opzionale che specifica quali pixel sono vicini tra
→ →
loro eseguo clustering infine creo la figura dove per ogni cluster disegna contorni della
→
regione con colore diverso
DBSCAN
→ → →
Cosa fa costituito da 2 blocchi serve per eseguire il clustering DBSCAN su + dataset
→
l’obiettivo è quello di trovare cluster basandosi sulla densità dei dati confrontando i cluster
→ → → →
trovati con quelli reali passaggi primo blocco setup del modello DBSCAN si specifica
→ → →
raggio di ricerca e quanti vicini servono per far si che un dato sia un core secondo blocco
→ → →
loop sul dataset per ogni dataset estrae le feature x e le etichette reali y poi normalizza
→ →
poi applica DBSCAN estrae le etichette predette con questo calcola poi il numero di cluster
→ → →
trovati e mostra i risultati cluster reali e cluster trovati da DBSCAN mostra tutto con grafica
PCA DIABETES
→
Cosa fa il codice viene applicato ad un dataset precedentemente caricato contenente tot
→
osservazioni di pazienti con diabete ogni osservazione è caratterizzata da 10 variabili numeriche
→ → → →
predittive le features e 1 variabile target continua la risposta a questo viene applicata la
PCA che permette di trovare combinazioni lineari delle features che rappresentano le direzioni
→ → →
principali di variazione nei dati e ridurre il dataset a meno dimensioni passaggi primo
→
blocco vuole visualizzare quanta varianza spiegano le componenti principali calcolate dalla PCA
→ → →
calcolando prima varianza relativa poi quella cumulativa crea poi un grafico a barre per le
→
singole varianze e uno a linea sovrapposto con la varianza cumulativa
→
Secondo blocco vuole visualizzare i dati proiettati sulle prima 3 componenti principali in uno
→ → →
spazio 3D imposta la colormap per distinguere la gravità del diabete crea grafico 3D
→
disegna uno scatter plot 3D dei dati proiettati con le prime 3 componenti PCA
PCA ZEBRAFISH
→ →
Cosa fa saranno diversi blocchi di codice si carica prima il video del battito cardiaco della
→ →
larva zebrafish si esegue l’analisi delle componenti principali temporale per identificare i
→ →
pattern temporali dominanti cioè come cambiano nel tempo le intensità dei pixel ogni pixel
→ →
viene trattato come un vettore features quindi pixel = righe del dataset mentre i valori di
→
intensità nel tempo sono le colonne si applica poi la PCA a queste serie temporali per estrarre le
→
modalità temporali di variazione le componenti principali catturano le dinamiche temporali
→
comuni tra i pixel →
poi proprio come prima evidenzia la varianza per ogni componente
Selezionando poi la componente principale per capire quale aree del cuore partecipano
→
maggiormente a una certa dinamica
→ →
Successivamente normalizzazione del battito cardiaco
→
Sovracampionamento del battito
→
Rilevamento dei picchi →
Stima del periodo del battito →
Ricampionamento sul periodo del battito cardiaco →
Confronto della traccia del battito ottenuta con PCA con riferimenti atrio-ventricolari
NOTEBOOK 04
SVM SOFT MARGIN
→
Cosa fa questo codice applica una Support Vector Machine lineare al dataset precedentemente
→
definito e mostra graficamente come cambia il margine decisionale al variare del parametro di
→ → →
penalizzazione C passaggi vengono prima definiti i parametri iniziali quindi C che può
→ →
assumere 3 diversi valori e la tolleranza per selezionare con precisione i vettori di supporto
→
poi si esegue un ciclo su i diversi valori che può assumere C sostanzialmente si va a creare un
→
plot con tanto sottotrame quanti sono i valori di C da testare poi viene addestrato il modello
→
calcolando anche il tempo di addestramento la funzione decisionale dice quanto ogni punto è
lontano dall’iperpiano e si calcola poi vettori di supporto che sono quelli per cui la distanza è circa
→
1 poi si disegna il plot con iperpiano margini vettori supporto in rosso e dati colorati per classe
→
SVM RBF KERNEL
→
Cosa fa questo codice applica un classificatore SVM non lineare con kernel RBF su un dataset
→ →
precedentemente definito testando diverse combinazioni C e gamma visualizza come cambia
→ →
il margine decisionale per ciascuna combinazione passaggi si definiscono i parametri C e
→
gamma esplicitando i 2 valori che ciascuno può assumere si crea una griglia di sottoplot per
→ →
visualizzare ogni combinazione C e gamma si combinano poi tutti i valori di C e gamma poi si
→
addestra il modello come prima di calcola ogni distanza con la funzione decisionale e si
→ →
calcolano i vettori di supporto infine si rappresentano graficamente i risultati
MATRICE DI CONFUSIONE
→ →
Cosa fa questo codice permette di visualizzare la matrice di confusione per un classificato
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Bioingegneria per la decisione clinica
-
Appunti di Bioingegneria per la decisione clinica
-
Processi di decisione
-
Decisione degli esperti - Appunti