Decisione clinica

Appunti di Bioingegneria per la decisione clinica su: K-means, k-means slihoutte, mini-batch k-means, GMM fit, GMM tuning, variotional GMM, GMM variational concentration, agglomerative …

Esame Bioingegneria per la decisione clinica

Facoltà Ingegneria

Dal corso del Prof. Sorelli Michele

Università Università degli Studi di Firenze

Publisher caterinafdifanti

A.A. 2024-2025

26 pagine

Appunti esame

Vota

Scarica

Estratto del documento

GMM INIT

→

Cosa fa il codice esegue un confronto tra diversi metodi di inizializzazione dei centroidi per un

→

modello GMM valutando il tempo necessario sia per inizializzare sia per l’effetto di

→ → →

apprendimento l’obiettivo provare diversi metodi di inizializzazione quanto tempo

→ →

impiega per ognuno visualizzare l’impatto sull’addestramento del GMM confrontare i

→ →

centroidi inziali con quelli finali ottenuti dopo l’apprendimento output finale mostra tutti i

→ → →

subplot uno con ground truth uno per ciascun metodo di inizializzazione metodi di

→ →

inizializzazione kmeans kmeans++ random from data random

GMM TUNING

→ →

Cosa fa questo codice costruisce e seleziona il miglior modello GMM usando come criterio di

→ → →

valutazione AIC o BIC tramite ricerca a griglia passaggi principali genera un dataset

→ →

sintetico con2/3 cluster primo una gaussiana sferica e secondo stirata opzionalmente crea un

→ →

terzo cluster definisce le metriche AIC e BIC prova varie configurazioni di GMM ricercando il

→ →

modello GMM migliore cercando la combinazione ottimale che minimizza AIC/BIC analizza i

→ →

risultati e seleziona modello migliore in base AIC o BIC quello con il punteggio + basso

→

visualizza graficamente i risultati ricordo che durante tutto il codice

→ → →

avendone messi insieme 3 posso visualizzare altri grafici

→ →

come quello relativo ai valori di AIC quello finale è

VARIATIONAL GMM

→ → →

Cosa fa confronta 2 approcci per la modellazione di dati con GMM modello classico

→ → →

basato su alg EM modello bayesiano basato sull’inferenza variazionale in + permette di

→

visualizzare i risultati mostrando i punti colorati secondo il cluster e un’ellisse per ogni cluster

→ →

che rappresenta la forma della gaussiana passaggi come sempre import e configurazione

→ →

iniziale _test settato a false perché 3 cluster disattivato poi avviene l’addestramento dei

→

modelli GMM prima secondo modello classico dove quindi si specifica numero max di cluster da

→

usare poi secondo modello bayesiano che decide in modo autonomo quante componenti usare

→ →

in base al prior che è quello di Dirichlet viene poi creata una funzione di plotting con ellissi

→

funzione che mostra visivamente cosa hanno trovato i modelli ovvero si crea un grafico con i

dati colorati per cluster e si disegna un’ellisse che rappresenta la forma del cluster usando la

→ → → →

matrice di covarianza ellisse mostra dove si trova cluster quanto largo/stretto come è

→ →

orientato richiamando la funzione due volte ne ottengo 2 di grafici uno per GMM classico e

→

uno per GMM bayesiano

GMM VARIATIONAL CONCENTRATION

→ →

Cosa fa studia come si comporta un modello bayesiano GMM usando due approcci diversi

→ → →

Dirichlet distribution quindi modello finito di componenti e Dirichlet process modello con

→

numero potenzialmente infinito di componenti ma che automaticamente decide quante usarne

→

questi analizzano l’effetto di diversi valori dell’iperparametro gamma che influenza il numero di

→ → →

cluster attivi passaggi crea i due modelli di BGMM testa l’effetto di gamma variandolo con

→ → →

valore predefiniti e per ciascun caso adatta il modello ai dati e mostra sia cluster trovati

→ →

con ellissi sia pesi associati a ciascun cluster

NOTEBOOK 03

AGGLOMERATIVE CLUSTERING

→ → →

Cosa fa qui troviamo due blocchi di codice il primo per eseguire il clustering gerarchico il

→ →

secondo per visualizzare il dendrogramma dei raggruppamenti gerarchici passaggi primo

→

blocco specifico i 4 tipi di collegamento e setta il colore per colorare cluster in modo coerente

→ per ogni tipo di collegamento inizializza modello fa addestramento e visualizza dei cluster

→ →

trovati misurando anche tempo per ogni modello recupera cluster assegnati per ciascun

→

punto plotta tutti i punti di un cluster con un colore diverso ed etichetta con il tempo di

→ →

esecuzione l’output finale mostra tutti i plot e stampa una sintesi dei parametri usati

→ → →

secondo blocco per realizzare il dendrogramma fa conta i campioni conta i dati per ongi

→ →

nodo crea una lista di coppie nodi/cluster uniti a ogni passo crea una matrice dove nelle

→ → → →

colonne troviamo ID del primo cluster unito quello del secondo unito d tra cluster

→ →

numero di punti nel cluster risultante plotto figura

AGGLOMERATIVE CLUSTERING CONN

→ →

Cosa fa dopo aver caricato un’immagine segmenta in 12 regioni usando algoritmo gerarchico

→

con metodo Ward poi mostra le linee di contorno di ogni regione sovrapposte all’immagine

→ → →

originale in scala di grigi passaggi si specifica che volgiamo 12 regioni quindi cluster finali

→

si specifica il metodo di fusione ward che unisce i cluster minimizzando la varianza totale

→

all’interno dei cluster dopo aver ottenuto una rappresentazione vettoriale dell’immagine dove

→

ogni pixel è un campione grazie alla matrice opzionale che specifica quali pixel sono vicini tra

→ →

loro eseguo clustering infine creo la figura dove per ogni cluster disegna contorni della

→

regione con colore diverso

DBSCAN

→ → →

Cosa fa costituito da 2 blocchi serve per eseguire il clustering DBSCAN su + dataset

→

l’obiettivo è quello di trovare cluster basandosi sulla densità dei dati confrontando i cluster

→ → → →

trovati con quelli reali passaggi primo blocco setup del modello DBSCAN si specifica

→ → →

raggio di ricerca e quanti vicini servono per far si che un dato sia un core secondo blocco

→ → →

loop sul dataset per ogni dataset estrae le feature x e le etichette reali y poi normalizza

→ →

poi applica DBSCAN estrae le etichette predette con questo calcola poi il numero di cluster

→ → →

trovati e mostra i risultati cluster reali e cluster trovati da DBSCAN mostra tutto con grafica

PCA DIABETES

→

Cosa fa il codice viene applicato ad un dataset precedentemente caricato contenente tot

→

osservazioni di pazienti con diabete ogni osservazione è caratterizzata da 10 variabili numeriche

→ → → →

predittive le features e 1 variabile target continua la risposta a questo viene applicata la

PCA che permette di trovare combinazioni lineari delle features che rappresentano le direzioni

→ → →

principali di variazione nei dati e ridurre il dataset a meno dimensioni passaggi primo

→

blocco vuole visualizzare quanta varianza spiegano le componenti principali calcolate dalla PCA

→ → →

calcolando prima varianza relativa poi quella cumulativa crea poi un grafico a barre per le

→

singole varianze e uno a linea sovrapposto con la varianza cumulativa

→

Secondo blocco vuole visualizzare i dati proiettati sulle prima 3 componenti principali in uno

→ → →

spazio 3D imposta la colormap per distinguere la gravità del diabete crea grafico 3D

→

disegna uno scatter plot 3D dei dati proiettati con le prime 3 componenti PCA

PCA ZEBRAFISH

→ →

Cosa fa saranno diversi blocchi di codice si carica prima il video del battito cardiaco della

→ →

larva zebrafish si esegue l’analisi delle componenti principali temporale per identificare i

→ →

pattern temporali dominanti cioè come cambiano nel tempo le intensità dei pixel ogni pixel

→ →

viene trattato come un vettore features quindi pixel = righe del dataset mentre i valori di

→

intensità nel tempo sono le colonne si applica poi la PCA a queste serie temporali per estrarre le

→

modalità temporali di variazione le componenti principali catturano le dinamiche temporali

→

comuni tra i pixel →

poi proprio come prima evidenzia la varianza per ogni componente

Selezionando poi la componente principale per capire quale aree del cuore partecipano

→

maggiormente a una certa dinamica

→ →

Successivamente normalizzazione del battito cardiaco

→

Sovracampionamento del battito

→

Rilevamento dei picchi →

Stima del periodo del battito →

Ricampionamento sul periodo del battito cardiaco →

Confronto della traccia del battito ottenuta con PCA con riferimenti atrio-ventricolari

NOTEBOOK 04

SVM SOFT MARGIN

→

Cosa fa questo codice applica una Support Vector Machine lineare al dataset precedentemente

→

definito e mostra graficamente come cambia il margine decisionale al variare del parametro di

→ → →

penalizzazione C passaggi vengono prima definiti i parametri iniziali quindi C che può

→ →

assumere 3 diversi valori e la tolleranza per selezionare con precisione i vettori di supporto

→

poi si esegue un ciclo su i diversi valori che può assumere C sostanzialmente si va a creare un

→

plot con tanto sottotrame quanti sono i valori di C da testare poi viene addestrato il modello

→

calcolando anche il tempo di addestramento la funzione decisionale dice quanto ogni punto è

lontano dall’iperpiano e si calcola poi vettori di supporto che sono quelli per cui la distanza è circa

→

1 poi si disegna il plot con iperpiano margini vettori supporto in rosso e dati colorati per classe

→

SVM RBF KERNEL

→

Cosa fa questo codice applica un classificatore SVM non lineare con kernel RBF su un dataset

→ →

precedentemente definito testando diverse combinazioni C e gamma visualizza come cambia

→ →

il margine decisionale per ciascuna combinazione passaggi si definiscono i parametri C e

→

gamma esplicitando i 2 valori che ciascuno può assumere si crea una griglia di sottoplot per

→ →

visualizzare ogni combinazione C e gamma si combinano poi tutti i valori di C e gamma poi si

→

addestra il modello come prima di calcola ogni distanza con la funzione decisionale e si

→ →

calcolano i vettori di supporto infine si rappresentano graficamente i risultati

MATRICE DI CONFUSIONE

→ →

Cosa fa questo codice permette di visualizzare la matrice di confusione per un classificato

Anteprima

Vedrai una selezione di 7 pagine su 26