Anteprima
Vedrai una selezione di 10 pagine su 424
Bioinformatica (Versione Aggiornata 2023/2024) Pag. 1 Bioinformatica (Versione Aggiornata 2023/2024) Pag. 2
Anteprima di 10 pagg. su 424.
Scarica il documento per vederlo tutto.
Bioinformatica (Versione Aggiornata 2023/2024) Pag. 6
Anteprima di 10 pagg. su 424.
Scarica il documento per vederlo tutto.
Bioinformatica (Versione Aggiornata 2023/2024) Pag. 11
Anteprima di 10 pagg. su 424.
Scarica il documento per vederlo tutto.
Bioinformatica (Versione Aggiornata 2023/2024) Pag. 16
Anteprima di 10 pagg. su 424.
Scarica il documento per vederlo tutto.
Bioinformatica (Versione Aggiornata 2023/2024) Pag. 21
Anteprima di 10 pagg. su 424.
Scarica il documento per vederlo tutto.
Bioinformatica (Versione Aggiornata 2023/2024) Pag. 26
Anteprima di 10 pagg. su 424.
Scarica il documento per vederlo tutto.
Bioinformatica (Versione Aggiornata 2023/2024) Pag. 31
Anteprima di 10 pagg. su 424.
Scarica il documento per vederlo tutto.
Bioinformatica (Versione Aggiornata 2023/2024) Pag. 36
Anteprima di 10 pagg. su 424.
Scarica il documento per vederlo tutto.
Bioinformatica (Versione Aggiornata 2023/2024) Pag. 41
1 su 424
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

(R²).

Dettagli sui Dataset

1. Dataset 1: Presenta una relazione lineare classica.

2. Dataset 2: Mostra una relazione quadratica; i punti si distribuiscono attorno a una parabola.

3. Dataset 3: Ha una distribuzione simile al dataset 1, ma con un outlier significativo che

influisce sul risultato.

4. Dataset 4: Mostra una relazione che si concentra attorno a una retta, ma con un outlier molto

influente che modifica la retta di regressione.

Implicazioni

• Analisi Visiva Necessaria: Questo esempio evidenzia l'importanza di visualizzare i dati.

Anche se le statistiche possono suggerire che i dataset siano simili, le loro rappresentazioni

grafiche rivelano relazioni molto diverse.

• Non Fidarsi Solemente delle Statistiche: Le sole statistiche descrittive possono mascherare

informazioni cruciali sui dati. È fondamentale esaminare i dati con metodi visivi come scatter

plot e diagrammi per ottenere una comprensione più completa.

Cosa rappresenta l'immagine?

L'immagine mostra una matrice di dati tipica, dove le righe rappresentano le osservazioni (es. utenti,

prodotti, documenti) e le colonne rappresentano le caratteristiche (o features) di queste osservazioni.

Come funziona la correlazione come metrica di similarità?

1. Vettori delle caratteristiche: Ogni osservazione può essere vista come un vettore in uno

spazio multidimensionale, dove ogni dimensione corrisponde a una caratteristica.

2. Calcolo della correlazione: La correlazione misura la relazione lineare tra due vettori. Un

valore di correlazione vicino a 1 indica una forte correlazione positiva (i due vettori tendono

a variare insieme nella stessa direzione), un valore vicino a -1 indica una forte correlazione

negativa (i due vettori tendono a variare in direzioni opposte), mentre un valore vicino a 0

indica una correlazione debole o nulla.

3. Interpretazione come similarità: Una correlazione alta (vicina a 1) indica che le due

osservazioni sono simili, nel senso che le loro caratteristiche variano in modo simile. Al

contrario, una correlazione bassa (vicina a 0 o -1) indica che le osservazioni sono meno simili.

Perché usare la correlazione come metrica di similarità?

• Cattura relazioni lineari: La correlazione è particolarmente efficace per identificare

relazioni lineari tra variabili.

• Invariante alla scala: La correlazione non è influenzata dalla scala delle variabili, a

differenza di altre misure di distanza come la distanza euclidea.

• Interpretazione intuitiva: Un valore di correlazione tra -1 e 1 è facile da interpretare e

fornisce una misura immediata della forza e della direzione della relazione.

Quando usare la correlazione?

La correlazione è particolarmente utile quando:

• Si vogliono identificare relazioni lineari tra variabili numeriche.

• Si vogliono trovare coppie di osservazioni che si comportano in modo simile.

• Si vogliono selezionare le caratteristiche più correlate con una variabile target.

Correlazione e Similarità Coseno

La correlazione e la similarità coseno sono misure comunemente utilizzate per valutare la somiglianza

tra vettori di dati. Sebbene entrambe forniscano informazioni sulla relazione tra due set di dati,

operano su principi diversi.

Cosine Similarity

• Definizione: La similarità coseno misura l'angolo tra due vettori in uno spazio

multidimensionale. Viene calcolata come il coseno dell'angolo tra i vettori, definendo la

similarità sulla base della loro direzione piuttosto che della loro magnitudine.

• Invarianza alla Scala: La similarità coseno è invariante rispetto alla scala, il che significa

che se moltiplichiamo tutti gli elementi di un vettore per una costante, la similarità non

cambia. Questo è utile quando i dati possono variare in unità o ampiezza, come nelle

misurazioni di sensori diversi.

Correlazione

• Definizione: La correlazione misura la forza e la direzione di una relazione lineare tra due

variabili. Viene comunemente calcolata usando il coefficiente di correlazione di Pearson.

Utilizzo e Vantaggi

Evitare Distanze Euclidee Fuorvianti

• Tecniche di Misura inadeguate: Quando i dati presentano variazioni tecniche dovute a

strumentazione o misurazioni (ad esempio, la sensibilità degli strumenti), le distanze euclidee

possono non rappresentare accuratamente la similitudine reale tra osservazioni.

• Applicazione della Correlazione e della Similarità Coseno: Entrambi i metodi si

concentrano sulla relazione relativa tra i dati piuttosto che sulla loro grandezza assoluta,

rendendoli strumenti più robusti in questi contesti.

Esempio Pratico

Immaginiamo di avere due set di dati provenienti da esperimenti condotti con strumenti diversi.

Anche se le misurazioni possono variare in scala (ad esempio, misurazioni di intensità luminosa), la

correlazione e la similarità coseno possono aiutare a identificare relazioni significative tra i dati,

indipendentemente dalle differenze assolute.

Indice di Jaccard/Tanimoto: Una Misura di Somiglianza per

Insiemi

L'indice di Jaccard o indice di Tanimoto è una misura statistica utilizzata per quantificare la

similarità tra due insiemi. In altre parole, ci dice quanto due insiemi hanno elementi in comune

rispetto al totale degli elementi unici presenti in entrambi gli insiemi.

Come Funziona

Immagina di avere due gruppi di oggetti. L'indice di Jaccard ti dice quanto questi due gruppi hanno

oggetti in comune. Più oggetti hanno in comune, più alto sarà il valore dell'indice, avvicinandosi a

1. Al contrario, se non hanno oggetti in comune, l'indice sarà 0.

Dove:

• J(A, B): Indice di Jaccard tra gli

insiemi A e B

A ∩ B:

• Intersezione degli insiemi

A e B (elementi presenti in entrambi)

• ∪

A B: Unione degli insiemi A e

B (tutti gli elementi unici presenti in A

o in B)

• |X|: Cardinalità dell'insieme X

(numero di elementi in X)

Interpretazione

• Valori tra 0 e 1: L'indice di Jaccard varia sempre tra 0 e 1.

o 0: Gli insiemi non hanno elementi in comune.

o 1: Gli insiemi sono identici.

• Più alto è il valore, maggiore è la similarità: Un valore vicino a 1 indica una grande

sovrapposizione tra gli insiemi, mentre un valore vicino a 0 indica una piccola

sovrapposizione.

Applicazioni Pratiche

L'indice di Jaccard trova numerose applicazioni in diversi campi, tra cui:

• Ricerca dell'informazione: Per misurare la similarità tra documenti, identificando quelli che

trattano argomenti simili.

• Bioinformatica: Per confrontare sequenze di DNA o proteine.

• Visione artificiale: Per valutare la precisione di algoritmi di segmentazione di immagini.

• Raccomandazione di prodotti: Per suggerire prodotti simili a quelli già acquistati da un

utente.

• Clustering: Per raggruppare oggetti simili in base alle loro caratteristiche.

Esempio

Consideriamo due insiemi di frutta:

• A = {mela, pera, banana}

• B = {pera, banana, arancia}

L'intersezione di A e B è {pera, banana}, mentre l'unione è {mela, pera, banana, arancia}. Quindi,

l'indice di Jaccard è:

J(A, B) = 2 / 4 = 0.5

Ciò significa che i due insiemi condividono il 50% degli elementi.

Confronto con altre misure di similarità

L'indice di Jaccard è particolarmente utile per dati binari (presenza/assenza di una caratteristica) e per

insiemi. Tuttavia, esistono altre misure di similarità, come la distanza di coseno, che possono essere

più adatte per altri tipi di dati. L

'immagine mostra due matrici quadrate. Ogni cella di queste

matrici rappresenta la distanza tra due osservazioni.

• Dimensioni della matrice: La dimensione della matrice

dipende dal numero di osservazioni (N). Avrai una matrice NxN,

dove ogni riga e ogni colonna rappresentano un'osservazione.

• Contenuto della matrice: Ogni elemento della matrice indica

la distanza tra le due osservazioni corrispondenti. La scelta della

metrica di distanza (euclidea, Manhattan, coseno, ecc.) dipende

dal tipo di dati e dall'obiettivo dell'analisi.

Cosa possiamo fare con questa matrice di distanze?

Una volta ottenuta la matrice delle distanze, possiamo eseguire

diverse analisi:

1. Identificazione di gruppi di osservazioni simili:

o Clustering: Utilizzando algoritmi di clustering (come K-means, DBSCAN, hierarchical

clustering), possiamo raggruppare le osservazioni in base alla loro similarità. Le osservazioni

che hanno una distanza bassa tra loro saranno raggruppate insieme.

o Anomaly detection: Le osservazioni che hanno una distanza molto elevata da tutti gli altri

punti possono essere considerate degli outlier o anomalie.

2. Visualizzazione dei dati:

o Mappe di calore: Possiamo rappresentare la matrice delle distanze come una mappa di calore,

dove i colori più caldi indicano distanze minori (maggiore similarità) e i colori più freddi

indicano distanze maggiori (minore similarità).

o Visualizzazioni a bassa dimensionalità: Utilizzando tecniche come t-SNE o UMAP,

possiamo proiettare i dati in uno spazio a due o tre dimensioni, preservando al meglio le

relazioni di similarità tra le osservazioni.

3. Selezione delle features:

o Analisi delle distanze: Analizzando le distanze tra le osservazioni, possiamo identificare le

caratteristiche che contribuiscono maggiormente alla variabilità dei dati e selezionare le più

rilevanti per l'analisi successiva.

4. Valutazione di modelli:

o Validazione incrociata: La matrice delle distanze può essere utilizzata per valutare le

prestazioni di modelli di classificazione o regressione.

Clustering

Il clustering è una tecnica di analisi dei dati che mira a raggruppare osservazioni simili in insiemi

distinti, detti cluster. Questa metodologia è utile per identificare strutture nascoste nei dati,

semplificare l'analisi e generare ipotesi su sottopopolazioni.

Importanza del Clustering

1. Identificazione di Strutture Nascoste: Può

rivelare pattern o gruppi naturali nei dati che non sono

immediatamente evidenti.

2. Semplificazione dell'Analisi: Riduce la

complessità dei dati, facilitando l'interpretazione.

3. Generazione di Ipotesi: I cluster possono

suggerire categorie o segmenti di interesse.

Come Funziona il Clustering

Gli algoritmi di clustering calcolano una misura di similarità tra le osservazioni (come la distanza

euclidea) per raggruppare insieme quelle più simili.

Tipi di Algoritmi di Clustering

• K-means: Divide i dati in un numero specificato di cluster minimizzando la varianza intra-

cluster.

• Clustering Gerarchico: Costruisce una gerarchi

Dettagli
Publisher
A.A. 2023-2024
424 pagine
SSD Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher leandro.92 di informazioni apprese con la frequenza delle lezioni di Bioinformatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma Tor Vergata o del prof Gherardini Francesco.