CORSO DI GENOMICA FUNZIONALE : PARTE DI BICCIATO
3 MARZO 2015
INDICAZIONI :
LIBRI :
J. Pevsner Bioinformatics and functional genomics 2009 ( è quello su cui è fatto il corso e la copia del libro
( che è in inglese) ce l’ha nel suo ufficio).
G.Valle Introduzione alla Bioinformatica 2003
MATERIALE : slides su Dolly
ESAME . orale ( nello stesso giorno anche la parte di Ferrari, DA SUPERARE ENTRAMBE nella stessa
giornata )
Date possibili (relativamente agli impegni di Ferrari ) :
18/06/15
9/07/15
30/07/15
17/09/15
12/11/15
ALLE ORE 9:30 PRESSO AULA H4.1 ( chim.biol. 4 piano, ex scienze biomediche)
No altri appelli fuori sessione (se non per i fuori corso )
CONTATTI PROF :
EMAIL : silvio.bicciato@unimore.it
TEL : 059-205-5219
ATTENZIONE : NON FA LEZIONE GIOVEDI 5/3/15
LEZIONI SOSPESE IL 18 MARZO 2015 PER IL “MORE JOBS _ CAREER DAY” presso ingegneria
DATE LAUREA : ( da confermare )
21 luglio 2015
13 ottobre 2015
NO DICEMBRE
9 febbraio 2016
8 aprile 2016
Consiglio del prof : FARE L’ESAME DI BIOLOGIA CELL- MOLECOLARE ( FERRARI-MAVIGLIO)
PRIMA DI FARE QUESTO ESAME DI GENOMICA FUNZIONALE
INIZIO :
La famosa storia dello Spritz padovano.. .
Che cosa vediamo in questa parte di Bioinformatica? Vedremo:
gli aspetti introduttivi dell’analisi dei dati genomici : parleremo di banche dati biologiche ( es: Gene Bank)
come sono fatte, cosa c’è dentro, come si possono consultare.
Introduzione all’analisi dei genomi : per esempio quando con le nuove macchine per sequenziare, si
sequenzia un genoma nuovo, di una specie non sequenziata precedentemente, come si fa a capire quali sono
le porzioni codificanti e quelle non codificanti. Oppure come si fa ad annotare genomi complessi come il
genoma umano.
Algoritmi per l’allineamento di sequenze : “allineare sequenze” = stringhe di parole e di lettere che vengono
confrontate tra loro e per poterle confrontare le si allinea, cioe si cerca di vedere se ci sono lettere uguali
nelle stesse posizioni, perche magari lettere uguali nelle stesse posizioni vogliono dire qualcosa da un punto
di vista funzionale.
Tutta questa roba qui la si fa con i computer e quindi dietro c’è un po di matematica : vedremo formule ? NO
Vedremo un po di procedure, ma non siete informatici quindi non vi verrà chiesto di capire le parti
computazionali brutte e difficili. Pero vi verrà chiesto di capire il principio che c’è dietro.
Mostra il numero di “TIME” ,
che ha in copertina Craig Venter e Francis Collins che sono quelli che hanno
capitanato i due progetti di sequenziamento del genoma umano, ovvero quello che per tutti è noto come
progetto genoma umano fu un’iniziativa voluta, pensata, finanziata da Watson e ci mise a capo F. Collins,
che era suo allievo, nel team c’era anche Venter che poi ha preso una strada sua, indipendente, molto piu
legata alle company che portò alla creazione di una azienda chiamata “ Celera Genomics” che si mise in
concorrenza con il progetto pubblico di sequenziamento del genoma umano a sequenziare il genoma umano.
Fecero una sorta di gara ad un certo punto e questa gara fu vinta dall’azienda di Venter. Alla fine del’99
inizio 2000, Venter dichiarò che la sua azienda aveva completato la prima stesura molto approssimativa della
sequenza del genoma umano. E questo causò un problema perche loro erano un consorzio privato e decisero
di renderlo pubblico (essendo il genoma dell’uomo) ma per un po di tempo si tennero per sé alcune piccole
regioni coperte da segreto industriale : piccole regioni dove c’erano polimorfismi , che potevano essere
interessanti come hot spots per sviluppare farmaci ecc. Ma la cosa mise molto in allarme, non tanto gli
scienziati ma soprattutto i politici perche il dibattito era: se fosse o meno brevettabile una cosa la cui
proprietà era da definire , perche di chi è il genoma umano? È di chi lo scopre? È di tutti? È dell’umanità? È
brevettabile o non brevettabile?.
E infatti l’annuncio che fosse stato completato il genoma umano non era stato dato né da Venter, né dalle
riviste scientifiche, ma una settimana prima che uscisse questo numero di TIME, era stato dato Bil Klinton e
Tony Blair. E l’annuncio fu che era stata completata la prima sequenza del genoma umano e che il genoma
umano era di proprietà dell’uomo e come tale non brevettabile.
Come fece la Celera Genomics ad arrivare prima? Un po sfruttando le informazioni rese pubbliche
quotidianamente dalle banche dati ( di cui, la principale era Gene Bank) e un po per il fatto che Venter ( non
da solo ) ebbe questa idea di sequenziare in maniera diversa rispetto al modo in cui veniva sequenziato il
genoma fino ad allora ( ovvero con il metodo di Sanger , che era quello usato dal progetto pubblico). Questo
metodo, di allora, era problematico perche aveva un limite fisico alla quantità di basi che potevano essere
sequenziate. Mentre Venter introdusse il nuovo metodo di sequenziamento che divenne famoso come
“shotgun approach” , cioè: si frammenta in maniera completa il genoma , si sequenzia e poi dopo, la
ricostruzione viene garantita dai computer. Il giornale TIME fa un parallelo e si riferisce al fatto che
all’inizio degli anni ’40 , gli ingegneri e i computer scientists si unirono insieme per decifrare un codice
allora molto importante : il codice “ enigma” . ( cinema , film su Alan Turing ). Il codice enigma era quello
utilizzato dai sottomarini tedeschi per comunicare con le loro navi appoggio. Ed era questo codice segreto
che li rendeva introvabili e ad un certo punto della guerra ( 1940) erano riusciti a bloccare tutti i convogli
che portavano rifornimenti dagli USA all’Europa. Chi sono le due competenze che si uniscono per decifrare
il codice genetico contenuto nel genoma umano? Di nuovo sono i biologi e gli informatici, perche di fatto
senza l’apporto della informatica, non sarebbero riusciti a portare a termine con molti anni di anticipo, un
progetto che era destinato ( secondo Watson) a finire in questi anni (oggi).
C’è la time line, ( foto che non trovo) che si ferma alle due pubblicazioni della sequenza del genoma umano :
Nature e Science, che uscirono lo stesso giorno, entrambe con un numero monografico sulla sequenza del
genoma umano . Nature lo dedicò tutto al progetto genoma umano, quindi al consorzio pubblico; Science lo
dedicò a Celera Genomics.
In tutta questa storia ad un certo punto entrano i computer, e lo speen è dato anche dai computer , il fatto di
poter gestire miliardi di dati e condividerli ( da un lato computer sempre piu piccoli e potenti e dall’altro un
sistema di comunicazione che permettesse di parallelizzare i dati ) cambiò la velocità di quello che si poteva
fare. Adesso , dal 2002/3 ha visto invece la rivoluzione dei sequenziatori di nuova generazione NGS .
Usare i computer per analizzare e gestire quei dati, cioè i dati dei genomi, è un pezzo importante della
bioinformatica. Non è tutta la bioinformatica, perche esiste anche la bioinformatica delle proteine. Questo
corso sarà principalmente un corso di bioinformatica degli acidi nucleici.
Qual è la nuova frontiera dei genomi? È quella dell’annotazione strutturale e funzionale del DNA, cioè tutto
quello che c’è dentro al dna, a che cosa serve? Tenete conto che in quegli anni li, 2002/3 si parlava di geni,
c’era il gioco di chi indovinava quanti geni ci fossero nel genoma umano.. quanti geni sappiamo esserci nel
genoma? 20.000 ( taca su- taca giu ), ma la domanda giusta sarebbe: che cosa intendi tu per gene? Sequenze
codificanti, oppure sequenza trascrivibili? Perche poi quello che è cambiato è l’aver scoperto che : allora si
diceva che l’80% del dna fosse junk dna, ma ormai non esiste quasi piu nulla che sia junk. Quello che non si
è ancora ben capito è come funzioni. Pensate al dna e alla sua struttura e a quella dei cromosomi, sapete che
all’interno del nucleo i cromosomi sono organizzati in gomitoli, che costituiscono i territori cromosomici,
pensate ai corsi di biologia che avete fatto e vedrete che tutti vi avranno parlato di sequenze di dna che vi
vengono rappresentate come dei mini filamenti estesi, in cui il promotore sta li all’inizio del gene, ecc come
se tutto funzionasse come se fosse tutto dritto. Mentre il genoma non è mica tutto dritto, ma “arrotolato” e
dobbiamo cercare di analizzare il genoma nella sua triplice dimensionalità. Infatti è appena partito un altro
grosso progetto che si chiama 4D nucleome : la cromatina nelle sue 4 dimensioni , che sono le 3 dimensioni
solite e la quarta è il tempo in termini di differenziamento, in termini di trasformazione fenotipica, cioè come
cambia la struttura e quindi come cambiano i contatti , le vicinanze, al passaggio da una cellula staminale, al
progenitore, a una cellula terminalmente differenziata ; perche il programma si svolge anche nell’arco
temporale. È un progetto che è partito oggi ed è stato lanciato per i prossimi 5 anni ( ma probabilmente se ne
parlerà per i prossimi 10) per capire la cromatine conformation structure . Tutto fatto a computer.
A metà degli anni 80 si comincia a sequenziare e si capisce che le sequenze dobbiamo metterle da qualche
parte, e viene creata una banca dati ( metà anni 80).
Si sono divertiti a creare un parallelismo tra il genoma e un libro. È chiaro che gli esseri viventi funzionano
sulla base di quello che c’è scritto nel dna, , è chiaro che quello che c’è scritto nel dna è scritto utilizzando un
alfabeto di 4 lettere, quindi un qualche codice di deve essere.. film Contact . come si è passati da quelle 4
lettere messe insieme al risultato (cioè 1’organismo) ? è quello che dobbiamo scoprire, ed è quello che non è
stato scoperto ancora. Tra l’altro.. parlando di codici , dopo 10 anni che il genoma è stato studiato, Venter e
un suo collaboratore premio nobel per la fisiologia, Smith, cominciarono a pensare che finita l’avventura del
sequenziamento, si poteva pensare di creare un organismo vivente, partendo direttamente da un dna sintetico.
L’idea era di riuscire a fare un genoma minimo, partendo dal presupposto che non tutto serve, che ci fosse
ancora l’idea del junk dna. Si potrebbe costruire un organismo minimo vivente, ed è quello che ad un certo
punto fecero, attraverso il progetto chiamato “ essencial genome project” , crearono un organismo, nel 2010
pubblicarono questo microorganismo su Science, ed era un microorganismo il cui dna era completamente
sintetico, cioè fatto costruendolo con i sequenziatori di oligonucleotidi e assemblando poi i singoli pezzi.
Non esiste un microorganismo sulla terra che abbia quel dna . dna di circa 1 megabase. Si divertivano a tal
punto a fare questa cosa che dentro al codice genetico di questo microorganismo, usando il codice a 4 lettere,
dentro ci scrissero di tutto, perche oltre alle sequenze dei geni che servivano, ci scrissero quello che gli
andava di scrivere; perche tanto è un codice, quindi voi potete scriverci quello che volete, come un alfabeto
per non farsi capire da mamma e papà… e ci scrissero i loro nomi: “Craig Venter” se voi andate nella
banca dati, vi prendete questo microrganismo, troverete una sequenza che è semplicemente la codifica della
scritta Craig Venter. Misero la mail, il sito web.. ecc . NON solo, ci misero anche un punto in cui se tu
riuscivi a decodificare quel punto, trovavi un indirizzo e-mail, se mandavi la mail a quell’indirizzo e-mail , ti
dicevano: “ bravo complimenti, hai decodificato il codice con cui noi abbiamo messo un sacco di scritte
dentro”. Si chiamano water marks queste scritte, ed era una cosa che avevano copiato da quelli che facevano
i microchip. Tra le varie scritte che misero vi furono anche delle citazioni : “ see things not as they are, but
as they might be” . e poi sfortunatamente han fatto un errore : han messo dentro una frase famosa di un fisico
Richard Feynman , che l’originale sarebbe “ what i cannot create, i do not understand” , ma loro la
introdussero nel genoma come “ what i cannot build, i do not understand” . Perche forse il verbo “ create”
era un po troppo forte, quasi da Dio? Nel senso che loro volevano intendere che non si sono divertiti a fare
Dio ( creare) ma hanno costruito semplicemente. OPPURE che Craig Venter abbia sbagliato la citazione da
ignorante?... mah.
….tutta questa storia che sembra facile ed è anche cosi carina e interessante, però in realtà è molto
complicata, perche tutta l’informazione è interconnessa, la stessa struttura è interconnessa, è molto difficile
decretare il codice, ed è ancora piu difficile capire poi dopo, quando il codice è usato dalla cellula per le
proteine, come queste agiscono. Un sistema cosi complesso richiede quindi sistemi complessi per studiarlo..
ovvero i computer.. viceversa voi potreste studiare un gene per volta, ma un gene per volta avulso dal suo
contesto non ha piu nessun pregio .. tranne che per le malattie genetiche monogeniche. E allora ci servono i
computer, per studiare tutto quello che c’è dentro al flusso di informazione che costituisce poi dopo, un
processo biologico complesso, servono le tecniche computazionali.
Che cosa vuol dire Bioinformatica : è un insieme di tecniche in cui voi dovete utilizzare biologia ed
informatica per studiare sistemi biologici complessi.
NCBI : contiene banche dati famose come, Gene bank, Gene ( banca dati dei geni, non delle sequenze
generali, ma solo dei geni di quelle 18/20.000 entità ). Una delle banche dati contenuta nell’NCBI è
PUBMED che è la versione fatta dall’NCBI della banca dati che si chiama MED LINE , cioè della biblioteca
informatizzata dei libri e di tutto ciò che concerne le scienze medico-biologiche.
Biologia+chimica+informatica+statistica e nel mezzo ci sta un po la Bioinformatica.
Che cosa fa la Bioinformatica:
per prima cosa, serve a organizzare i dati biologici : è la ragione per cui è nata, 1982 Gene Bank. Creiamo
delle strutture, luoghi, cassetti, armadi dove metterci dentro i dati biologici che vengono prodotti man mano
con le tecniche di sequenziamento.. ma non solo.
Poi la Bioinformatica si occupa anche di sviluppare strumenti computazionali per analizzare questi dati.
Craig Venter quando inizia ad utilizzare l’approccio shotgun, lo porta avanti anche perche aveva incontrato
un bioinformatico, matematico che aveva fatto un algoritmo per poter ricostruire sequenze lunghe a partire
da frammentini corti. IDEA GENIALE “ se volete , provateci!!” “ prendete una sequenza di 100 paia di
basi, spaccatela a caso, poi provate a ricostruire la sequenza iniziale. Senza usare la sequenza template…
Comunque, gli strumenti computazionali vengono sviluppati per :
-analizzare i dati
-interpretare la biologia dei risultati
-formulare e verificare ipotesi. 11/03/2015
Ci sono le slide su dolly.
La volta scorsa abbiamo visto quello che si può fare con la bioinformatica, ossia possiamo organizzare i dati
biologici delle banche dati, posso sviluppare strumenti computazionali per fare le analisi, o interpretare il
dato dal punto di vista biologico.
Che cosa vuole dire organizzare i dati biologici? Cosa viene collezionato nelle banche dati oggi?
SEQUENZA
•
Negli anni 70, per dato biologico si intendevano dati che arrivavano dal sequenziamento, quindi dati di
sequenza di DNA e di RNA. Un modo furbo per cercare i geni, soprattutto quelli complessi, era
sequenziare l’RNA e vedere le differenze per capire subito, anche con tutte le difficoltà del caso, quali
fossero le porzioni codificanti, quindi DNA, sequenze di genomi, qualche RNA e proteine. Per le
sequenze delle proteine, la cosa era più complicata, perché non esistono metodi di sequenziamento
delle proteine simili al metodo di sequenziamento del DNA. Ovviamente la sequenza della proteina può
essere ricavata dalla sequenza dei trascritti, guardando il codice, ma molto più interessante, sono le
strutture terziare delle proteine, che hanno particolari angoli di legame. Queste hanno un mondo a sé,
hanno banche dati dedicate.
STRUTTURA
•
Se  
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Genomica Funzionale
-
genomica funzionale - 230 pagine
-
Genomica - Patologia clinica
-
Appunti genomica funzionale