Anteprima
Vedrai una selezione di 10 pagine su 276
Appunti Gestione energetica e automazione negli edifici Pag. 1 Appunti Gestione energetica e automazione negli edifici Pag. 2
Anteprima di 10 pagg. su 276.
Scarica il documento per vederlo tutto.
Appunti Gestione energetica e automazione negli edifici Pag. 6
Anteprima di 10 pagg. su 276.
Scarica il documento per vederlo tutto.
Appunti Gestione energetica e automazione negli edifici Pag. 11
Anteprima di 10 pagg. su 276.
Scarica il documento per vederlo tutto.
Appunti Gestione energetica e automazione negli edifici Pag. 16
Anteprima di 10 pagg. su 276.
Scarica il documento per vederlo tutto.
Appunti Gestione energetica e automazione negli edifici Pag. 21
Anteprima di 10 pagg. su 276.
Scarica il documento per vederlo tutto.
Appunti Gestione energetica e automazione negli edifici Pag. 26
Anteprima di 10 pagg. su 276.
Scarica il documento per vederlo tutto.
Appunti Gestione energetica e automazione negli edifici Pag. 31
Anteprima di 10 pagg. su 276.
Scarica il documento per vederlo tutto.
Appunti Gestione energetica e automazione negli edifici Pag. 36
Anteprima di 10 pagg. su 276.
Scarica il documento per vederlo tutto.
Appunti Gestione energetica e automazione negli edifici Pag. 41
1 su 276
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Analisi di cluster nel clustering partitivo

PCCavvicina a 1, la distanza tra i due oggetti tende a diminuire, quindi i due oggetti tendono ad avere una maggiore similarità. Questo deve far intuire ancora un passaggio. L'analisi di cluster (siamo ancora nel caso del clustering partitivo) ha già tre grossi punti da definire. Il primo è il numero di Kcioè in quante partizioni si vuole suddividere il data set. Il secondo è quale distanza si considera per verificare che i due oggetti siano effettivamente simili tra di loro; distanze basate sul una distanza geometrica come per esempio la distanza euclidea oppure distanze basate su un coefficiente di correlazione? Il terzo è se si sta utilizzando i dati nella loro forma originale o se i dati sono soggetti a normalizzazione preliminare. Domanda: il coefficiente di correlazione è PCC? Sì, esatto, è il Pearson correlation coefficient che è uguale al coefficiente R delle regressioni lineari. Domanda: nel K means con quale

Con quale criterio viene assegnata la posizione di un centroide? Il K-means ha come primo passo quello di scegliere il numero di K, quindi il numero di partizioni. Dopodiché si selezionano due oggetti prototipi che sono chiamati centroidi. Questi oggetti corrisponderanno nell'ultima interazione ai centri, quindi ai baricentri, dei cluster. Questi oggetti vengono in prima battuta posizionati in maniera randomica nello spazio n-dimensionale. Dopodiché, se per esempio K = 2, i punti più vicini al primo centroide verranno etichettati come appartenenti al cluster 1, i punti più vicini al secondo centroide verranno etichettati come appartenenti al cluster 2. Una volta che si è finito questo primo processo di assegnazione si ricalcolano le posizioni dei centroidi. Come si fa a ricalcolare le posizioni dei centroidi? Si sa quali sono tutti gli oggetti che appartengono al cluster che si rappresentano, si rimette il centroide rispetto a questi punti nella posizione baricentrica.

diferenti producano gli stessi risultati.maniera diversa dell'algoritmo sullo stesso data set convergano sulla stessa soluzione. Esistono delle tecniche specifiche che ottimizzano il primo posizionamento dei centroidi, che non è più randomico ma pseudorandomico, in maniera tale che la configurazione finale sia sempre la migliore e sia sempre la stessa. Vedremo successivamente invece che ci sono altri tipi di cluster che una volta inizializzati produrranno sempre e soltanto lo stesso output. Nella clusterizzazione si devono raggruppare gli oggetti simili. Il problema è capire qual è la similitudine alla quale si è interessati. Nel caso in cui si vogliono vedere edifici che hanno caratteristiche simili, la distanza euclidiana è perfetta. Si raggrupperanno edifici che hanno trasmittanze, superfici vetrate e così via che sono simili. Per cui evidentemente a quella similarità, cioè quel gruppo di edifici che appartengono allo stesso cluster, ci si aspetta anche cheabbiamo unaprestazione energetica simile, perché si è cercato di raggruppare in un solo cluster edifici che avessero per oggetto il set di variabili di caratteristiche di involucro e di geometria che li caratterizzavano. Nel caso in cui l'oggetto è un profilo di carico, cioè la dimensionalità è data dal valore che assume la stessa variabile per diverse ore del giorno, non si è tanto interessati a due profili di carico uno del giorno 1 e uno del giorno 2 che diano come sommatoria della loro distanza un valore molto simile. In realtà si è più interessati a individuare profili di carico giornalieri che abbiano una forma che sia simile. È interessante che la metrica di similarità riesca a restituire indicazioni sul fatto che due profili siano simili nella forma perché questo tipo di informazione, quindi la similarità basata sulla forma e la forma la dà esattamente il profilo di correlazione.

è moltopiù interessante perché ci si aspetta di ritrovare che tutte le domeniche se si ha un profilo di caricoelettrico vengono messe insieme perché la forma è tutta di un profilo piatto molto basso; ci siaspetta che d'estate i giorni feriali siano messi insieme perché la potenza elettrica è molto altadurante le ore di grossa radiazione perché quella potenza è dovuta al carico di raffreddamento einvece è più bassa la notte. La similarità calcolata sulla forma permette di avere un'informazione piùinteressante. Nel problema del profilo di carico, utilizzare una metrica che fa uso di correlazione,che dice se i profili non tanto sono vicini nella loro cumulata di energia quanto più sono vicinirispetto al fatto che questi profili hanno uno stesso trend di crescita e decrescita nel tempo edevidentemente la similarità.

Domanda: nel caso in cui si hanno n edifici per cui ogni

edificio ha un set di variabili, ha senso in quel caso normalizzare queste variabili oppure è più opportuno lasciarle nel loro valore originario? In realtà la normalizzazione parte proprio quando tutte le variabili appartengono a edifici diversi perché possono essere significativamente diverse nello spazio geometrico e influenzare di molto tutto il discorso. Facciamo un esempio. Supponiamo la taglia di un generatore di calore: un edificio ha un generatore di 50 kW e un altro di 50 000 kW. In questo caso interessa andare a trovare una similarità tipo per esempio normalizzare la potenza sulla superficie. La grossa distanza che si ha tra 50 kW e 50 000 kW non andrà a inficiare la qualità della clusterizzazione perché quel tipo di variabile è giusto che venga in qualche modo normalizzato rispetto al fatto che l'edificio è molto più grosso.

Domanda: è per questo motivo che vengono svolte normalizzazioni differenti?

Per attenzionare variabili differenti degli oggetti di studio? Sì. Ipotizziamo di voler enfatizzare delle similarità legate all'andamento ma di non voler utilizzare necessariamente un tipo di distanza basata sulla correlazione. Ci sono degli escamotage che si possono intraprendere che enfatizzano in maniera naturale questo tipo di similarità di andamenti che possono essere comunque considerate utilizzando la distanza geometrica per il concetto di similarità. Ipotizziamo di voler enfatizzare quindi una similarità tra l'andamento del profilo più basso e del profilo più alto con una normalizzazione massimo minimo questi due profili (rosso e blu dell'illustrazione 48) praticamente si vanno a sovrapporre uno sull'altro. In questo caso se si utilizza una distanza di tipo geometrica euclidea si ha il risultato che si avrebbe nell'utilizzare una distanza basata su correlazione su dati grezzi cioè non normalizzati.

Quindi quello che si vuole far capire è che le combinazioni e le configurazioni del processo di clustering sono tantissimi e da questo punto c'è anche l'esperienza del dominio che fa anche moltissimo nel voler enfatizzare alcuni aspetti piuttosto che altri. Se si normalizza si riesce in qualche modo a mitigare l'effetto diciamo fuorviante che potrebbe dare la distanza euclidea quando viene applicata su dati normalizzati e quindi anche la distanza euclidea da sola avrebbe già restituito che due profili che hanno un andamento simile verrebbero clusterizzati allo stesso gruppo grazie al fatto che in qualche modo ci si è svincolati da quella dimensionalità cioè si dice da quella magnitudo. Che cosa ci stanno insegnando questi ragionamenti? Questa materia, cioè quella del data analytics energetico, è particolarmente interessante perché si hanno degli strumenti, che consistono in questo caso nel cluster, ma questostrumento lo dobbiamo dominare noi energetici. Cioè noi dobbiamo scegliere le variabili giuste, noi dobbiamo capire quando è necessario e opportuno normalizzare, noi dobbiamo scegliere la distanza più opportuna per raggruppare dei cluster. Questo è un mestiere che deve fare l'ingegnere energetico. Questi sono strumenti potentissimi. Però senza sapere che una potenza molto grande o molto piccola se normalizzata rispetto alla dimensionalità quindi alla dimensione dell'edificio è un'ottima variabile normalizzata della potenza, senza sapere che interessa profili che sono simili nella forma perché si è interessati a sapere se si consuma più energia alla mattina, alla sera o nella parte centrale della giornata e di conseguenza provvedere a normalizzazioni o all'utilizzo di distanze che non sono euclidee ma basate su correlazioni. Queste risposte le può dare soltanto un esperto del dominio che

utilizza questi strumenti che deve conoscere, ma li utilizza con consapevolezza energetica. Un esperto informatico sarà sempre più bravo di un energetico a usare questi tipi di algoritmi, questi ragionamenti non li può fare perché non conosce la fisica dell'edificio e degli impianti. Uno dei più grandi problemi di un'analisi non supervisionata è quello di cercare di inserire delle esperienze di dominio per in qualche modo supervisionarlo. Il K means è uno strumento potentissimo ma ha un grande difetto alla base: bisogna scegliere a priori qual è il numero di partizioni ottimale all'interno del data set. Questa è un'operazione non molto facile però esistono comunque degli strumenti o delle procedure di supporto che danno una mano in questa direzione. Si ipotizza di avere due casi limite. Si ipotizza di avere un data set composto da 100 oggetti e si ipotizzano le due situazioni limite, ovvero fare un solo

cluster cioè un raggruppamento che include tutti e cento gli oggetti oppure cento cluster dove ciascun oggetto rappresenta un sotto-data set.

Cosa succede alla sommatoria dell'errore quadratico medio in queste due configurazioni? Nella prima con K = 1

Dettagli
Publisher
A.A. 2020-2021
276 pagine
4 download
SSD Ingegneria industriale e dell'informazione ING-INF/04 Automatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Unoebasta di informazioni apprese con la frequenza delle lezioni di Gestione energetica e automazione negli edifici e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Politecnico di Torino o del prof Capozzoli Alfonso.