Estratto del documento

GMM INIT

Cosa fa il codice esegue un confronto tra diversi metodi di inizializzazione dei centroidi per un

modello GMM valutando il tempo necessario sia per inizializzare sia per l’effetto di

→ → →

apprendimento l’obiettivo provare diversi metodi di inizializzazione quanto tempo

→ →

impiega per ognuno visualizzare l’impatto sull’addestramento del GMM confrontare i

→ →

centroidi inziali con quelli finali ottenuti dopo l’apprendimento output finale mostra tutti i

→ → →

subplot uno con ground truth uno per ciascun metodo di inizializzazione metodi di

→ →

inizializzazione kmeans kmeans++ random from data random

GMM TUNING

→ →

Cosa fa questo codice costruisce e seleziona il miglior modello GMM usando come criterio di

→ → →

valutazione AIC o BIC tramite ricerca a griglia passaggi principali genera un dataset

→ →

sintetico con2/3 cluster primo una gaussiana sferica e secondo stirata opzionalmente crea un

→ →

terzo cluster definisce le metriche AIC e BIC prova varie configurazioni di GMM ricercando il

→ →

modello GMM migliore cercando la combinazione ottimale che minimizza AIC/BIC analizza i

→ →

risultati e seleziona modello migliore in base AIC o BIC quello con il punteggio + basso

visualizza graficamente i risultati ricordo che durante tutto il codice

→ → →

avendone messi insieme 3 posso visualizzare altri grafici

→ →

come quello relativo ai valori di AIC quello finale è

VARIATIONAL GMM

→ → →

Cosa fa confronta 2 approcci per la modellazione di dati con GMM modello classico

→ → →

basato su alg EM modello bayesiano basato sull’inferenza variazionale in + permette di

visualizzare i risultati mostrando i punti colorati secondo il cluster e un’ellisse per ogni cluster

→ →

che rappresenta la forma della gaussiana passaggi come sempre import e configurazione

→ →

iniziale _test settato a false perché 3 cluster disattivato poi avviene l’addestramento dei

modelli GMM prima secondo modello classico dove quindi si specifica numero max di cluster da

usare poi secondo modello bayesiano che decide in modo autonomo quante componenti usare

→ →

in base al prior che è quello di Dirichlet viene poi creata una funzione di plotting con ellissi

funzione che mostra visivamente cosa hanno trovato i modelli ovvero si crea un grafico con i

dati colorati per cluster e si disegna un’ellisse che rappresenta la forma del cluster usando la

→ → → →

matrice di covarianza ellisse mostra dove si trova cluster quanto largo/stretto come è

→ →

orientato richiamando la funzione due volte ne ottengo 2 di grafici uno per GMM classico e

uno per GMM bayesiano

GMM VARIATIONAL CONCENTRATION

→ →

Cosa fa studia come si comporta un modello bayesiano GMM usando due approcci diversi

→ → →

Dirichlet distribution quindi modello finito di componenti e Dirichlet process modello con

numero potenzialmente infinito di componenti ma che automaticamente decide quante usarne

questi analizzano l’effetto di diversi valori dell’iperparametro gamma che influenza il numero di

→ → →

cluster attivi passaggi crea i due modelli di BGMM testa l’effetto di gamma variandolo con

→ → →

valore predefiniti e per ciascun caso adatta il modello ai dati e mostra sia cluster trovati

→ →

con ellissi sia pesi associati a ciascun cluster

NOTEBOOK 03

AGGLOMERATIVE CLUSTERING

→ → →

Cosa fa qui troviamo due blocchi di codice il primo per eseguire il clustering gerarchico il

→ →

secondo per visualizzare il dendrogramma dei raggruppamenti gerarchici passaggi primo

blocco specifico i 4 tipi di collegamento e setta il colore per colorare cluster in modo coerente

→ per ogni tipo di collegamento inizializza modello fa addestramento e visualizza dei cluster

→ →

trovati misurando anche tempo per ogni modello recupera cluster assegnati per ciascun

punto plotta tutti i punti di un cluster con un colore diverso ed etichetta con il tempo di

→ →

esecuzione l’output finale mostra tutti i plot e stampa una sintesi dei parametri usati

→ → →

secondo blocco per realizzare il dendrogramma fa conta i campioni conta i dati per ongi

→ →

nodo crea una lista di coppie nodi/cluster uniti a ogni passo crea una matrice dove nelle

→ → → →

colonne troviamo ID del primo cluster unito quello del secondo unito d tra cluster

→ →

numero di punti nel cluster risultante plotto figura

AGGLOMERATIVE CLUSTERING CONN

→ →

Cosa fa dopo aver caricato un’immagine segmenta in 12 regioni usando algoritmo gerarchico

con metodo Ward poi mostra le linee di contorno di ogni regione sovrapposte all’immagine

→ → →

originale in scala di grigi passaggi si specifica che volgiamo 12 regioni quindi cluster finali

si specifica il metodo di fusione ward che unisce i cluster minimizzando la varianza totale

all’interno dei cluster dopo aver ottenuto una rappresentazione vettoriale dell’immagine dove

ogni pixel è un campione grazie alla matrice opzionale che specifica quali pixel sono vicini tra

→ →

loro eseguo clustering infine creo la figura dove per ogni cluster disegna contorni della

regione con colore diverso

DBSCAN

→ → →

Cosa fa costituito da 2 blocchi serve per eseguire il clustering DBSCAN su + dataset

l’obiettivo è quello di trovare cluster basandosi sulla densità dei dati confrontando i cluster

→ → → →

trovati con quelli reali passaggi primo blocco setup del modello DBSCAN si specifica

→ → →

raggio di ricerca e quanti vicini servono per far si che un dato sia un core secondo blocco

→ → →

loop sul dataset per ogni dataset estrae le feature x e le etichette reali y poi normalizza

→ →

poi applica DBSCAN estrae le etichette predette con questo calcola poi il numero di cluster

→ → →

trovati e mostra i risultati cluster reali e cluster trovati da DBSCAN mostra tutto con grafica

PCA DIABETES

Cosa fa il codice viene applicato ad un dataset precedentemente caricato contenente tot

osservazioni di pazienti con diabete ogni osservazione è caratterizzata da 10 variabili numeriche

→ → → →

predittive le features e 1 variabile target continua la risposta a questo viene applicata la

PCA che permette di trovare combinazioni lineari delle features che rappresentano le direzioni

→ → →

principali di variazione nei dati e ridurre il dataset a meno dimensioni passaggi primo

blocco vuole visualizzare quanta varianza spiegano le componenti principali calcolate dalla PCA

→ → →

calcolando prima varianza relativa poi quella cumulativa crea poi un grafico a barre per le

singole varianze e uno a linea sovrapposto con la varianza cumulativa

Secondo blocco vuole visualizzare i dati proiettati sulle prima 3 componenti principali in uno

→ → →

spazio 3D imposta la colormap per distinguere la gravità del diabete crea grafico 3D

disegna uno scatter plot 3D dei dati proiettati con le prime 3 componenti PCA

PCA ZEBRAFISH

→ →

Cosa fa saranno diversi blocchi di codice si carica prima il video del battito cardiaco della

→ →

larva zebrafish si esegue l’analisi delle componenti principali temporale per identificare i

→ →

pattern temporali dominanti cioè come cambiano nel tempo le intensità dei pixel ogni pixel

→ →

viene trattato come un vettore features quindi pixel = righe del dataset mentre i valori di

intensità nel tempo sono le colonne si applica poi la PCA a queste serie temporali per estrarre le

modalità temporali di variazione le componenti principali catturano le dinamiche temporali

comuni tra i pixel →

poi proprio come prima evidenzia la varianza per ogni componente

Selezionando poi la componente principale per capire quale aree del cuore partecipano

maggiormente a una certa dinamica

→ →

Successivamente normalizzazione del battito cardiaco

Sovracampionamento del battito

Rilevamento dei picchi →

Stima del periodo del battito →

Ricampionamento sul periodo del battito cardiaco →

Confronto della traccia del battito ottenuta con PCA con riferimenti atrio-ventricolari

NOTEBOOK 04

SVM SOFT MARGIN

Cosa fa questo codice applica una Support Vector Machine lineare al dataset precedentemente

definito e mostra graficamente come cambia il margine decisionale al variare del parametro di

→ → →

penalizzazione C passaggi vengono prima definiti i parametri iniziali quindi C che può

→ →

assumere 3 diversi valori e la tolleranza per selezionare con precisione i vettori di supporto

poi si esegue un ciclo su i diversi valori che può assumere C sostanzialmente si va a creare un

plot con tanto sottotrame quanti sono i valori di C da testare poi viene addestrato il modello

calcolando anche il tempo di addestramento la funzione decisionale dice quanto ogni punto è

lontano dall’iperpiano e si calcola poi vettori di supporto che sono quelli per cui la distanza è circa

1 poi si disegna il plot con iperpiano margini vettori supporto in rosso e dati colorati per classe

SVM RBF KERNEL

Cosa fa questo codice applica un classificatore SVM non lineare con kernel RBF su un dataset

→ →

precedentemente definito testando diverse combinazioni C e gamma visualizza come cambia

→ →

il margine decisionale per ciascuna combinazione passaggi si definiscono i parametri C e

gamma esplicitando i 2 valori che ciascuno può assumere si crea una griglia di sottoplot per

→ →

visualizzare ogni combinazione C e gamma si combinano poi tutti i valori di C e gamma poi si

addestra il modello come prima di calcola ogni distanza con la funzione decisionale e si

→ →

calcolano i vettori di supporto infine si rappresentano graficamente i risultati

MATRICE DI CONFUSIONE

→ →

Cosa fa questo codice permette di visualizzare la matrice di confusione per un classificato

Anteprima
Vedrai una selezione di 7 pagine su 26
Decisione clinica Pag. 1 Decisione clinica Pag. 2
Anteprima di 7 pagg. su 26.
Scarica il documento per vederlo tutto.
Decisione clinica Pag. 6
Anteprima di 7 pagg. su 26.
Scarica il documento per vederlo tutto.
Decisione clinica Pag. 11
Anteprima di 7 pagg. su 26.
Scarica il documento per vederlo tutto.
Decisione clinica Pag. 16
Anteprima di 7 pagg. su 26.
Scarica il documento per vederlo tutto.
Decisione clinica Pag. 21
Anteprima di 7 pagg. su 26.
Scarica il documento per vederlo tutto.
Decisione clinica Pag. 26
1 su 26
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Ingegneria industriale e dell'informazione ING-IND/34 Bioingegneria industriale

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher caterinafdifanti di informazioni apprese con la frequenza delle lezioni di Bioingegneria per la decisione clinica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Firenze o del prof Sorelli Michele.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community