Estratto del documento

Appunti di genomica applicata

Capitolo 1 – Introduzione della genomica applicata alla biomedica

Pietre miliari che hanno portato alla nascita della genomica (intesa come settore della biologia) sono:

  • 1865: Pubblicazione da parte di Gregor Mendel del suo lavoro dal titolo "Esperimenti sull’ibridazione delle piante" (importante in quanto per la prima volta la statistica e il calcolo della probabilità vengono applicate alla biologia).
  • 1953: Watson e Crick scoprono la struttura a doppia elica del DNA.
  • Anni '60: È stato scoperto il codice genetico (ossia l’insieme di regole con la quale viene tradotta l’informazione contenuta nei nucleotidi dei geni per la sintesi di proteine).
  • 1980: Si assiste alla clonazione del DNA (primi metodi per ottenere più copie di una sequenza nucleotidica attraverso manipolazione del DNA).
  • 1987: Viene coniato il termine "genomica" (come disciplina che si occupa del mappaggio e sequenziamento di genomi).
  • 1990 – 2003: Progetto genoma umano (l’obiettivo principale era quello di determinare la sequenza delle coppie di basi azotate che formano il DNA e di identificare e mappare i geni del genoma umano).

Ad oggi, la genomica trova spazio in qualsiasi settore nella quale si ha a che fare con del materiale vivente (agricoltura, polizia forense, medicina, etc).

La genomica medica è un settore della genomica in cui l’obiettivo è quello di usare le informazioni genetiche di un paziente per massimizzare l’efficacia della terapia. Il termine genomica medica è stato coniato solo di recente (2011, Nature) e ad oggi questa parte della genomica è ancora in sviluppo.

Sotto il nome di genomica medica vengono raggruppati 5 grandi domini:

  • Comprensione della struttura di un genoma (forma)
  • Comprensione della biologia di un genoma (funzione)
  • Comprensione dei processi biologici alla base di patologie
  • Comprensione delle risposte individuali ai farmaci (farmacogenomica)
  • Miglioramento delle cure

Negli ultimi 30 anni il costo del sequenziamento di un genoma si sono ridotti di 1.000.000 di volte; si è passati da un costo di un miliardo di dollari a circa mille dollari e il tempo di sequenziamento di un genoma è passato da anni a giorni. L'abbattimento dei costi e dei tempi per lo studio di genomi ha permesso lo sviluppo di questa branca della biologia.

Negli ultimi anni il sequenziamento di migliaia di genomi umani ha permesso di determinare e studiare diverse varianti a singolo nucleotide del genoma umano così da poter distinguerle in rare e comuni (the hapmap project).

L’aplotipo consiste nell’elenco ordinato di alleli presenti all’interno di una determinata regione cromosomica (più o meno estesa). Il genoma umano aploide è costituito da 3,2x109 paia di basi e all’interno di ogni individuo vi sono circa dalle 3 alle 5 milioni di variazioni a singolo nucleotide (rispetto al genoma umano di riferimento), di queste circa 150 mila probabilmente non sono ancora conosciute, mentre circa 60 non sono presenti nei genitori.

L’identificazione di regioni del genoma costanti in specie diverse (identificazione grazie a sequenziamento e comparazione di sequenze) ha permesso di iniziare ad effettuare degli studi di filogenesi molecolare.

Il genoma è composto non soltanto da porzioni codificanti ma anche da porzioni non codificanti di cui ad oggi non si conosce ancora con esattezza la funzione. Il progetto ENCODE è nato e prosegue ancora oggi avendo come obiettivo quello di comprendere la funzione di ogni porzione del DNA umano (comprendere quindi la funzione sia del DNA umano codificante che non codificante) dopo il suo intero sequenziamento avvenuto per opera del progetto genoma umano.

Patologie mendeliane

Sono patologie genetiche (ereditabili) molto rare, dovute a mutazione di un unico gene (monogeniche). Esse seguono la modalità di ereditarietà monogenica. Queste patologie sono state le prime ad essere sottoposte a studi genomici in quanto, coinvolgendo un unico gene, il loro studio risulta "piuttosto semplice". Ad oggi sono note circa 7 mila patologie mendeliane di cui però solo per il 58% di esse si conosce il gene coinvolto.

Patologie non mendeliane

Sono patologie comuni (in quanto il fenotipo della gran parte dei nostri caratteri è dovuto all’azione di molti geni) e sono dovute a mutazione di molti geni (multigeniche) e a fattori ambientali (vengono dette infatti patologie complesse in quanto la causa non è solamente genetica ma anche ambientale). Oggi è più facile rispetto ad un tempo effettuare studi su queste patologie in modo da capire i geni coinvolti, in quanto le tecniche di sequenziamento disponibili sono molto efficienti.

Uno studio di associazione genome-wide (in inglese genome-wide association study, o GWAS) è un'indagine di tutti, o quasi tutti, i geni di diversi individui di una particolare specie per determinare le variazioni geniche tra gli individui in esame. In seguito, si tenta di associare le differenze osservate con alcuni tratti particolari, ad esempio una malattia. Nell'uomo è stato possibile individuare un'associazione tra particolari geni e malattie come la degenerazione maculare e il diabete. In questi casi vengono valutati campioni provenienti da centinaia o migliaia di individui, di solito cercando polimorfismi di singoli nucleotidi (o SNP).

In genetica, l’acronimo di lod-score ("calcolo del logaritmo della probabilità") è un parametro usato per calcolare l’associazione (linkage) e determinare la probabilità di ricombinazione tra diversi marcatori genici. Se due marcatori genici hanno un lod-score uguale o maggiore di 3, sono associati sullo stesso cromosoma (cioè hanno 1000 probabilità contro 1 di essere associati); se il lod-score è minore o uguale a 2-2, sono indipendenti per 100 probabilità contro 1. Il lod-score viene usato per effettuare il mappaggio di cromosomi e comprendere se due o più geni coinvolti in una malattia sono solitamente trasmessi assieme.

"Il collo di bottiglia" ossia la limitazione nella genomica, non consiste nell’ottenimento di genomi (visto lo sviluppo di tecniche sempre più efficienti e a costi sempre più bassi), ma è l’analisi dei dati ottenuti (ciò richiede infatti personale esperto) e lo stoccaggio degli stessi.

Esempi di campi di studio della genomica medica

  • Cancro; è forse la patologia più studiata dalla genomica in quanto questa è dovuta all’accumularsi di una serie di mutazioni nella cellula. Solitamente nello studio del cancro si parte da studi istopatologici effettuati su campioni di tessuto ottenuti per biopsia in modo da osservare le variazioni morfologico-funzionali del tessuto necrotico; successivamente si effettuano studi di sequenziamento genomico così da capire quali siano i geni mutati nelle cellule neoplastiche esaminate e confrontare questi dati con dati di sequenziamento ottenuti da altre biopsie così da individuare i geni colpiti da una determinata forma di cancro.
  • Farmaci; vengono effettuati studi di genomica per comprendere le capacità metaboliche del singolo individuo nei confronti dei singoli farmaci (farmacogenomica). Un altro obiettivo della farmacogenomica è quello di comprendere quali siano le variazioni alleliche coinvolte nel metabolismo di un farmaco. Questi studi sono importanti perché un farmaco può essere benefico e non tossico per un individuo, oppure tossico ma non benefico, non benefico e non tossico o tossico e benefico.
  • Diagnosi di patologie rare;
  • Gravidanza; è possibile effettuare dei test genomici su frammenti di DNA fetale presenti nel sangue materno (questa tecnica è più sicura del prelievo dei villi coriali, sia per la madre che per il feto, tuttavia permette il riconoscimento solamente di macro-mutazioni come trisomie, delezione di cromosomi, grosse trasposizioni, etc).
  • Gestione e sviluppo di sistemi informatici per la genomica clinica;

Capitolo 2 – Basi di bioinformatica

L’allineamento di sequenze risulta importante per comprendere eventuali relazioni evolutive tra organismi e per comprendere la relazione tra sequenza e funzione o sequenza e struttura.

Termini importanti in bioinformatica:

  • Similarità; è un dato quantificabile (un numero) basato su osservazioni. Solitamente rappresenta una percentuale di identità. Un alto livello di similarità implica quasi sempre una storia evolutiva comune delle sequenze e una funzione biologica comune (non sempre però).
  • Omologia; il termine implica una relazione evolutiva tra 2 sequenze con un grado più o meno elevato di similarità. I geni quindi possono essere o non essere omologi, ossia non esiste un "grado di omologia", mentre esiste un grado di similarità.
  • Ortologhi; sono dei geni che divergono come risultato di un evento di speciazione. Ortologhe sono quindi sequenze che derivano direttamente da una sequenza ancestrale comune.
  • Paraloghi; sono geni che derivano dalla duplicazione di un singolo gene in una particolare linea evolutiva (ossia all’interno di una specie). Questi geni possono avere delle funzioni diverse assunte con il passare del "tempo evolutivo".

L’allineamento di due o più sequenze può essere locale o globale. Nell’allineamento globale le 2 sequenze in esame vengono comparate per l’intera loro sequenza (questo tipo di allineamento è molto buono per sequenza con un alto grado di similarità, infatti al diminuire della similarità diminuisce il punteggio e possono venir perse informazioni biologiche importanti interne a parte delle sequenze) mentre nell’allineamento locale le sequenze sono comparate con l’intento di trovare le regioni interne con maggior similarità (viene usato solitamente per sequenze di lunghezza molto diversa o per sequenze con basso punteggio di similarità).

Le matrici a punti sono degli schemi all’interno del quale vengono pesate le possibili sostituzioni di amminoacidi o nucleotidi secondo le loro caratteristiche fisiche, chimiche e/o biologiche. Esempi di matrici a punti sono le BLOSUM, in cui il valore assegnato alla sostituzione rappresenta la quantità di volte (in percentuale) che la sostituzione avviene all’interno di sequenze ritenute sicuramente ortologhe e con un grado di similarità non superiore al 62% (BLOSUM62), al 80% (BLOSUM80) o al 90% (BLOSUM90). Le matrici a punti sono importanti in quanto sono coinvolte in tutte quelle analisi che richiedono l’allineamento di sequenze ed inoltre la scelta della matrice può influenzare molto il risultato dell’analisi. Le matrici più famose sono le PAM, usate per il calcolo del punteggio di similarità di sequenze molto diverse tra loro, e le BLOSUM, usate per il calcolo del punteggio di similarità tra sequenze abbastanza simili. Per le matrici BLOSUM, più le sequenze sono simili più alto deve essere il numero della BLOSUM, mentre per le PAM il contrario.

I "gap" vengono introdotti negli allineamenti in modo da aumentare il punteggio di similarità tra sequenze, infatti questi in linea teorica dovrebbero compensare le delezioni e inserzioni di nucleotidi. Ai gap è importante sempre assegnare un punteggio di penalità per il singolo gap a cui eventualmente assegnare un punteggio ulteriore se allungato.

Nell’ambito degli algoritmi usati per l’allineamento di sequenze, quello più conosciuto e maggiormente usato è BLAST. BLAST è un tool che effettua un allineamento di tipo locale cercando i segmenti di sequenze che appaiandosi raggiungono un punteggio elevato; per fare ciò usa un approccio euristico (ossia non effettua un confronto completo delle sequenze, ma confronta solo le porzioni con maggior probabilità di generare un buon risultato) sacrificando quindi in minima parte la bontà del dato ottenuto ma diminuendo in maniera sensibile il tempo impiegato per trovarlo.

Funzionamento di BLAST:

  • Il tool riceve in input una sequenza (query) fornita dall’utente.
  • Il tool scompone la sequenza in tante parole di lunghezza W (solitamente W è uguale a 3 nel caso di sequenze proteiche e uguale a 12 nel caso di query nucleotidiche).
  • Per ogni parola di lunghezza W ottenuta dalla sequenza query, il programma crea una lista di parole (ognuna sempre di W caratteri) che abbiano un punteggio di similarità con la parola della query pari o superiore ad un punteggio T (il tool per assegnare il punteggio si rifà ad una matrice di sostituzione).
  • Il programma procede poi interrogando il database di riferimento (scelto dall’utente prima di avviare la ricerca) al fine di trovare sequenze che presentano almeno una parola (sempre di lunghezza W) che si appaia perfettamente ad una delle qualsiasi parole appartenenti alle liste create in precedenza.
  • Il programma poi procede estendendo la zona di appaiamento aggiungendo caratteri a destra e a sinistra della parola (eventualmente anche gap). Per ogni carattere aggiunto alla parola, viene ricalcolato il punteggio con la sequenza del database; fino a quando il punteggio di similarità aumenta la parola continuerà a venir estesa (le zone di appaiamento così trovate prendono il nome di HSP – high scoring segment pair).
  • Il programma scarta poi tutti gli HSP con punteggio inferiore ad S (impostato dall’utente) ottenuti.
  • L'output di BLAST conterrà le sequenze del database i cui HSP non sono stati scartati con i relativi punteggi ottenuti.

In realtà anche se il punteggio scende sotto S, ma solo per alcuni residui, e poi risale, l’HSP può ancora allungarsi. Il parametro X dice la quantità di perdita di score massima tollerabile se si prosegue con l’allungamento dell’HSP. Quindi una volta raggiunto il punteggio massimo della sequenza, questo punteggio può calare di massimo X; una volta calato di X l’allungamento si interrompe e viene fornito come HSP quello con punteggio S massimo (viene eliminato in output la porzione di HSP che ha portato ad S-X punti).

Ad ogni output di BLAST è sempre associato un valore E (E-value) che indica la probabilità di aver ottenuto quel punteggio di similarità puramente per caso. Solitamente si tengono in considerazione gli output con E-value inferiore a 10-6 per i nucleotidi o a 10-3 per le sequenze proteiche.

Esistono diversi tipi di BLAST:

  • BLASTn (come input fornisco una sequenza nucleotidica che viene confrontata con altre sequenze nucleotidiche).
  • BLASTp (come input fornisco una sequenza proteica che viene confrontata con altre sequenze proteiche).
  • BLASTx (come input fornisco una sequenza nucleotidica che viene tradotta in proteica e confronta con sequenze proteine).
  • tBLASTn (fornisco una query proteica che viene confrontata con sequenze di un database nucleotidico tradotto).
  • tBLASTx (fornisco una query nucleotidica tradotta in proteica e confrontata con sequenze nucleotidiche tradotte in proteiche).

Esistono inoltre algoritmi sostitutivi ai normali BLAST e usati in diversi casi:

  • MegaBLAST (ottimizzato per l’allineamento di sequenze molto lunghe e/o con un elevato grado di similarità).
  • Discontinuous MegaBLAST (migliore per il confronto tra sequenze divergenti e/o appartenenti a diverse specie).
  • BLAT (algoritmo usato per velocizzare di molto le ricerche, in quanto supera in velocità anche il megablast; è stato creato per allineare sequenze nucleotidiche molto lunghe con similarità superiore o uguale al 95%).

Ad oggi, il più veloce algoritmo di allineamento al mondo è DIAMOND.

I genome browser sono interfacce molto utili in quanto permettono di "navigare" facilmente nei genomi (permettono infatti di avere una visione comparativa di tante informazioni riguardo una singola porzione di genoma). Esempi di genome browser sono Ensembl e UCSC Genome Browser.

Oltre alle ricerche di similarità effettuabili attraverso BLAST, esistono anche delle ricerche di profilo effettuabili mediante l’impiego di altri tool (Pfam, CDD, Delta-BLAST, Psi-BLAST etc). Questi profili (che possono essere dei pattern o dei domini) sono delle rappresentazioni numeriche di allineamenti multipli di sequenza; i singoli profili rappresentano delle singole caratteristiche comuni a famiglie di proteine (dominio per il riconoscimento di una data proteina, sequenza amminoacidica che garantisce una determinata struttura secondaria, etc). Ricerche di profilo vengono solitamente usate per analizzare proteine distanti evolutivamente, in quanto sono in grado di trovare similarità anche in proteine con un piccolo o nullo grado di identità.

Il funzionamento delle ricerche di profilo si basa anch’esso sulla creazione di una matrice di punteggio detta sequenza specifica, in quanto essa assegna dei punteggi alle sostituzioni amminoacidiche basandosi non solo sulla similarità tra amminoacidi ma anche sulla posizione occupata dagli stessi. La matrice viene creata allineando diverse sequenze accomunate da un dato profilo X (un dominio, un pattern, etc) al fine di ottenere una di dimensione 20 x N, dove N è il numero di amminoacidi del profilo; nella matrice vengono assegnati punteggi elevati ad amminoacidi mantenuti nella sequenza e occupanti posizioni importanti per la definizione del profilo.

Il pattern consiste in una sequenza di amminoacidi o nucleotidi accettati nelle singole posizioni di una piccola sequenza (diversamente dal dominio, che invece è rappresentato da una sequenza meno flessibile). I pattern seguono delle precise regole per la loro descrizione.

Il database Pfam è una collezione di allineamenti multipli di domini proteici e regioni proteiche conservate che hanno probabilmente una importanza strutturale, funzionale o evolutiva. Negli ultimi anni questo database ha adottato modelli markoviani nascosti.

Anteprima
Vedrai una selezione di 13 pagine su 57
Sequenziamento del genoma Pag. 1 Sequenziamento del genoma Pag. 2
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Sequenziamento del genoma Pag. 6
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Sequenziamento del genoma Pag. 11
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Sequenziamento del genoma Pag. 16
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Sequenziamento del genoma Pag. 21
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Sequenziamento del genoma Pag. 26
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Sequenziamento del genoma Pag. 31
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Sequenziamento del genoma Pag. 36
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Sequenziamento del genoma Pag. 41
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Sequenziamento del genoma Pag. 46
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Sequenziamento del genoma Pag. 51
Anteprima di 13 pagg. su 57.
Scarica il documento per vederlo tutto.
Sequenziamento del genoma Pag. 56
1 su 57
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze biologiche BIO/18 Genetica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Ticio di informazioni apprese con la frequenza delle lezioni di Genomica applicata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Trieste o del prof Biologia Prof.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community