Anteprima
Vedrai una selezione di 10 pagine su 391
Bioinformatica Pag. 1 Bioinformatica Pag. 2
Anteprima di 10 pagg. su 391.
Scarica il documento per vederlo tutto.
Bioinformatica Pag. 6
Anteprima di 10 pagg. su 391.
Scarica il documento per vederlo tutto.
Bioinformatica Pag. 11
Anteprima di 10 pagg. su 391.
Scarica il documento per vederlo tutto.
Bioinformatica Pag. 16
Anteprima di 10 pagg. su 391.
Scarica il documento per vederlo tutto.
Bioinformatica Pag. 21
Anteprima di 10 pagg. su 391.
Scarica il documento per vederlo tutto.
Bioinformatica Pag. 26
Anteprima di 10 pagg. su 391.
Scarica il documento per vederlo tutto.
Bioinformatica Pag. 31
Anteprima di 10 pagg. su 391.
Scarica il documento per vederlo tutto.
Bioinformatica Pag. 36
Anteprima di 10 pagg. su 391.
Scarica il documento per vederlo tutto.
Bioinformatica Pag. 41
1 su 391
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

COEFFICIENTE DI CORRELAZIONE DI PEARSON

Il coefficiente di correlazione di Pearson è una misura di correlazione lineare tra due variabili

quantitative. Questa misura quantifica il grado di relazione lineare tra le variabili, indicando se esse

variano insieme in modo proporzionale (correlazione positiva), inversamente proporzionale

(correlazione negativa) o non presentano alcuna relazione lineare.

Ecco una spiegazione dettagliata di come viene calcolato il coefficiente di correlazione di Pearson:

1. Calcolo della media: Per entrambe le variabili, si calcola la media dei valori osservati.

2. Calcolo della deviazione standard: Si calcola la deviazione standard delle variabili, che

rappresenta la misura della dispersione dei valori intorno alla media.

3. Calcolo della covarianza: Si calcola la covarianza tra le due variabili, che misura la

variazione congiunta delle variabili rispetto alle loro medie. La covarianza è definita come la

media del prodotto delle differenze dei valori osservati dalle medie delle due variabili.

4. Calcolo del coefficiente di correlazione di Pearson: Il coefficiente di correlazione di

Pearson è calcolato come il rapporto tra la covarianza delle due variabili e il prodotto delle

loro deviazioni standard. La formula è la seguente:

Il coefficiente di correlazione di Pearson produce un valore compreso tra -1 e 1, dove:

1 indica una correlazione perfettamente positiva, ovvero le due variabili variano insieme in

• modo proporzionale.

-1 indica una correlazione perfettamente negativa, ovvero le due variabili variano insieme in

• modo inversamente proporzionale.

0 indica assenza di correlazione lineare tra le variabili.

È importante notare che il coefficiente di correlazione di Pearson misura solo la correlazione lineare

tra le variabili e può non catturare altre forme di relazione non lineare.

Il coefficiente di correlazione di Pearson è ampiamente utilizzato nell'analisi statistica, nella ricerca

scientifica e nell'analisi dei dati per valutare la relazione tra variabili, identificare pattern e tendenze

nei dati e supportare l'interpretazione dei risultati dell'analisi. È particolarmente utile quando si

desidera valutare la relazione tra due variabili quantitative.

Le "trappole della correlazione" (pitfalls of correlation) si riferiscono a errori o problemi comuni che

possono verificarsi durante l'interpretazione o l'analisi delle correlazioni tra le variabili. Queste

trappole possono portare a conclusioni errate o a interpretazioni sbagliate sui rapporti tra le variabili.

Ecco alcuni esempi di trappole della correlazione:

1. Confondere correlazione e causalità: Una delle trappole più comuni è assumere che la

correlazione implichi necessariamente una relazione di causa-effetto tra le variabili. Anche se

due variabili sono correlate, non significa che una causa l'altra. È possibile che entrambe le

variabili siano influenzate da una terza variabile, o che la correlazione sia il risultato del caso.

2. Correlazioni spurie: Le correlazioni spurie si verificano quando due variabili sembrano

correlate tra loro, ma in realtà non c'è alcuna relazione causale o significativa tra di esse.

Questo può accadere per vari motivi, come il caso, le variabili nascoste o la manipolazione

dei dati.

3. Non considerare variabili di confondimento: Le variabili di confondimento sono fattori che

influenzano sia la variabile indipendente che la variabile dipendente e possono portare a

correlazioni spurie o a interpretazioni erronee. È importante controllare e considerare queste

variabili durante l'analisi per evitare conclusioni errate sulla relazione tra le variabili.

4. Campione non rappresentativo: Se il campione utilizzato per l'analisi non è rappresentativo

della popolazione di interesse, le correlazioni calcolate possono essere distorte o non

significative. Un campione non rappresentativo può portare a conclusioni errate sulla

relazione tra le variabili.

5. Dimensionalità: In presenza di molte variabili, è possibile ottenere molte correlazioni spurie

semplicemente per il caso. Questo è noto come "problematica della dimensionalità" e può

portare a interpretazioni errate dei risultati dell'analisi.

Per evitare queste trappole della correlazione, è importante condurre un'analisi rigorosa e critica dei

dati, prendendo in considerazione variabili rilevanti, controllando per variabili di confondimento,

utilizzando metodi statistici appropriati e interpretando i risultati con cautela. Inoltre, la replicazione

dei risultati e l'analisi critica sono importanti per confermare la validità delle conclusioni e ridurre il

rischio di trappole della correlazione. Anscombe's quartet è un famoso esempio in

statistica che illustra come quattro diversi set di

dati possono avere statistiche descrittive molto

simili, nonostante le differenze sostanziali nei

dati stessi. Creato dallo statistico Francis

Anscombe nel 1973, questo esempio dimostra

l'importanza della visualizzazione dei dati e della

verifica delle ipotesi prima di trarre conclusioni

sulla base delle statistiche descrittive.

Il quartetto di Anscombe è composto da quattro

insiemi di dati, ciascuno con 11 coppie di valori

x e y. Sebbene le statistiche descrittive come

media, deviazione standard e coefficiente di correlazione siano molto simili tra i quattro set di dati, i

dati effettivi e le relazioni tra le variabili sono molto diverse.

Ecco una breve descrizione dei quattro set di dati del quartetto di Anscombe:

1. Set di dati 1: Questo set di dati mostra una relazione lineare quasi perfetta tra x e y, con una

pendenza di circa 0.5. È adatto per l'analisi di regressione lineare.

2. Set di dati 2: Questo set di dati mostra una relazione lineare con una pendenza simile al primo

set di dati, ma con un punto di dati outlier che influisce significativamente sulla regressione

lineare.

3. Set di dati 3: Questo set di dati mostra una relazione non lineare, con una curva a forma di U.

La regressione lineare su questo set di dati sarebbe inappropriata.

4. Set di dati 4: Questo set di dati contiene tre punti con lo stesso valore x e tre valori di y molto

simili, tranne per un valore significativamente diverso. Questo set di dati dimostra che la

correlazione può essere influenzata da punti outlier.

Il quartetto di Anscombe sottolinea l'importanza della visualizzazione dei dati e dell'analisi visiva per

comprendere la relazione tra le variabili e identificare eventuali pattern o anomalie nei dati. Anche se

le statistiche descrittive possono fornire un riassunto utile dei dati, esse non sempre riflettono la

complessità dei dati stessi. Pertanto, è importante utilizzare una combinazione di analisi statistiche e

visualizzazione dei dati per una comprensione completa dei dati e delle relazioni tra le variabili.

Utilizzare la correlazione come metrica di similarità o distanza è una pratica comune nell'analisi dei

dati quando si desidera valutare la relazione tra le variabili. La correlazione misura il grado di

associazione lineare tra due variabili e può essere utilizzata per determinare quanto due insiemi di

dati variano insieme.

Ecco come la correlazione può essere utilizzata come metrica di similarità o distanza:

1. Correlazione come metrica di similarità: Quando due variabili sono correlate

positivamente, significa che tendono a variare insieme nella stessa direzione. In questo caso,

una correlazione più alta indica una maggiore similarità tra le variabili. Si utilizza la

correlazione di Pearson, che produce un valore compreso tra -1 e 1. Un valore di 1 indica una

correlazione perfetta positiva, mentre un valore di -1 indica una correlazione perfetta negativa.

Un valore vicino a zero indica una scarsa correlazione. Maggiore è il valore assoluto della

correlazione, maggiore è la similarità tra le variabili.

2. Correlazione come metrica di distanza: In alcuni casi, la correlazione può essere utilizzata

come metrica di distanza tra due insiemi di dati. Questo è particolarmente utile quando si

desidera valutare quanto due insiemi di dati siano diversi l'uno dall'altro. In questo contesto,

la distanza viene calcolata come la differenza tra 1 e il valore assoluto della correlazione. In

altre parole, la distanza è alta quando la correlazione è bassa e viceversa. Questo è utile quando

si desidera utilizzare metodi basati sulla distanza, come il clustering o la classificazione, per

raggruppare insiemi di dati che sono diversi tra loro.

Esempio: Supponiamo di avere due insiemi di dati, A e B, e vogliamo valutare la similarità o distanza

tra di essi utilizzando la correlazione come metrica. Dopo aver calcolato la correlazione di Pearson

tra i due insiemi di dati, possiamo interpretare il valore della correlazione in uno dei seguenti modi:

Se la correlazione è alta (vicina a 1), i due insiemi di dati sono simili.

• Se la correlazione è bassa (vicina a -1 o 0), i due insiemi di dati sono diversi.

• Se la correlazione è negativa, significa che i due insiemi di dati variano in direzioni opposte,

• il che può indicare una differenza significativa tra di essi.

In sintesi, la correlazione può essere utilizzata sia come metrica di similarità che di distanza per

valutare la relazione tra due insiemi di dati. La scelta di utilizzarla come similarità o distanza dipende

dall'obiettivo dell'analisi e dal contesto specifico dei dati.

INDICE DI TANIMOTO L'indice di Jaccard, anche

conosciuto come indice di

Tanimoto, è una misura di

similarità tra due insiemi. È

ampiamente utilizzato in

diversi campi, come la

bioinformatica,

l'informatica, la statistica e il

machine learning, per

valutare la similarità tra due

insiemi di elementi.

Ecco come viene calcolato

l'indice di Jaccard

1. Calcolo dell'intersezione: Si calcola il numero di elementi che sono presenti in entrambi gli

insiemi, ossia l'intersezione tra A e B.

2. Calcolo dell'unione: Si calcola il numero di elementi totali presenti nei due insiemi, ossia

l'unione tra A e B.

3. Calcolo dell'indice di Jaccard: L'indice di Jaccard è definito come il rapporto tra il numero

di elementi dell'intersezione e il numero di elementi dell'unione dei due insiemi. La formula

è la seguente:

L'indice di Jaccard produce un valore compreso tra 0 e 1, dove:

- 0 indica che non ci sono elementi comuni tra i due insiemi, quindi la loro similarità è

nulla.

- 1 indica che i due insiemi sono identici, quindi la loro similarità è massima.

L'indice di Jaccard è particolarmente utile quando si vogliono confrontare insiemi di elementi senza

considera

Dettagli
Publisher
A.A. 2023-2024
391 pagine
SSD Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher leandro.92 di informazioni apprese con la frequenza delle lezioni di Bioinformatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma Tor Vergata o del prof Gherardini Francesco.