vuoi
o PayPal
tutte le volte che vuoi
Definizioni di geni omologhi
OMOLOGHI: geni con lo stesso ancestore
ORTOLOGHI: geni omologhi con attuale appartenenza a specie diverse (funzioni simili)
PARALOGHI: geni omologhi con diversa funzione nello stesso genoma (funzioni diverse)
• Per aumentare la sensibilità di un’analisi mediante BLAST posso: diminuire la soglia T per la costruzione del vocabolario. VARIANTE: per aumentare la specificità alzo la soglia.
• Che cosa si intende per associazione indiretta nell’associazione statistica tra un allele e un tratto fenotipico?
Se lo SNPs è significativo è statisticamente associato alla patologia perché c’è una variante che è over rappresentata nei casi rispetto ai controlli. Questa variante non è causa della patologia perché la causa è una variante di un locus adiacente che non è stato genotipizzato però il linkage è quello acquisito. Si parla di associazione indiretta perché i segnali dei due loci
sono avvolte circa 147 paia di basi del DNA. Il nucleosoma è la struttura fondamentale della cromatina, che a sua volta costituisce il materiale genetico all'interno del nucleo delle cellule.Il DNA si avvolge facendo poco meno di due giri e impaccando circa 150 basi.
Che cosa indica il valore E riportato nei risultati di una ricerca mediante BLAST? Qual è la sua formula? Indicare la relazione tra E-value e p-value.
L'E-value indica la significatività statistica, più è piccolo, più il risultato è significativo. Se fosse troppo elevato, potrebbe corrispondere a situazioni non biologiche. Lo ottengo da BLAST accanto allo score, ovvero il punteggio che mi indica quanta somiglianza c'è tra due sequenze che volevo confrontare. L'E-value è quindi la probabilità, dovuta al caso, che ci sia un altro allineamento con una similarità più alta dello score ottenuto. La formula è:
E = kmne^(-lambda*s) con k ampiezza del database, lambda ampiezza della matrice di sostituzione, s punteggio, m lunghezza della query e n lunghezza delle altre sequenze).
Il p-value invece indica per una distribuzione
di microRNA e complementarità tra il microRNA e il mRNA target.e conservazionefilogenetica. • Qual è il significato del numero che segue la matrice BLOSUM? Il numero è la soglia che abbiamo utilizzato per raggruppare le sequenze; è espresso in % e indica la soglia di identità sopra la quale due sequenze separate vengono contate come un cluster. La BLOSUM con un numero più alto sarà adatta a confrontare sequenze simili tra loro. TdE 08/07/19 • Si disegnino i grafici qualitativi della densità di probabilità del grado per una rete random e una di tipo scale-free. Si evidenzi la caratteristica di quest'ultima. Nella rete random la disposizione è a campana simmetrica, quindi ciò significa che i nodi hanno generalmente circa lo stesso grado mentre nella rete scale-free la disposizione è esponenziale e lineare su una scala bi-logaritmica. La caratteristica è avere molti nodi con poche connessioni e pochi nodi con tante connessioni (questi sono detti hub). QuestoÈ causato dal fenomeno di attacco preferenziale. • Si elenchino le strategie di aggiornamento della matrice delle distante conosciute per l'applicazione dell'algoritmo di clustering gerarchico a profili di espressione. Il clustering gerarchico è effettuato per trovare ogni volta la coppia di elementi più vicini, per poi aggiornare le distanze fino ad ottenere il dendrogramma completo. Ci sono diverse strategie per aggiornare le distanze: SINGLE LINKAGE: si prende la distanza tra i due punti più vicini COMPLETE LINKAGE: si prende la distanza tra i due punti più lontani AVERAGE LINKAGE: si prende la media delle distanze tra tutti i punti CENTROID LINKAGE: si prende la distanza fra i due centroidi dei due gruppi di punti I punti nei due gruppi sono l'immagine del profilo di espressione di un determinato gene. • Quale relazione empirica motiva la modellazione per omologia nella predizione di struttura di una proteina? Si riporti il tag html corrispondente. La relazione empirica che motiva la modellazione per omologia nella predizione di struttura di una proteina è la seguente: La struttura di una proteina simile a una proteina già conosciuta è probabilmente simile.La modellizzazione per omologie prevede che anche se la sequenza non è così conservata, la struttura delle due proteine considerate potrebbe essere molto simile. Osservando infatti la curva ottenuta ponendo la percentuale di residui identici sulle x (decrescenti da sinistra verso destra) e la root mean square deviation sulle y, ottenuta come media delle distanze tra gli atomi pesata sul numero di residui, vediamo che per basse identità aumenta la varianza, mentre se superiamo il 25-30% di residui identici, allora i puntini sono più vicini alla curva.
Che cosa si intende per approccio cladistico in filogenetica? Quali metodi di questo tipo conosci? Di questi, quale è basato su un modello di evoluzione?
Approccio cladistico significa che si tiene conto della storia evolutiva, si basa sulla genealogia e si contrappone all'approccio fenetico che invece si basa solo sulla somiglianza, senza tener conto della storia evolutiva. I due metodi principali
sono:MASSIMA PARSIMONIA: si costruiscono degli alberi e si dà loro un costo, trovando l'albero che implica il minor numero di sostituzioni.
MASSIMA VEROSIMIGLIANZA: si costruiscono degli alberi a partire da un set di dati originale. Si fanno delle sostituzioni e si calcolano le probabilità per ogni singolo percorso dell'albero. Si moltiplicano le probabilità per ottenere quella totale di quell'albero. Si sommano poi le probabilità per ottenere la probabilità totale dell'albero di cui ho preso le varianti. Si prende quindi l'albero con la maggiore probabilità. Il metodo a massima verosimiglianza è quello basato su un modello di evoluzione. La verosimiglianza è infatti calcolata in termini di probabilità che il pattern di variazione in quel sito sia prodotto in base a un modello di evoluzione ipotizzato, dato un particolare albero.
TdE 19/02/19
- Si descrivano i passaggi per ottenere la matrice di
Cosa si intende per RPKM? Scrivere formula e significato.
È un metodo che si usa per normalizzare i dati trovati rispetto alla lunghezza dell'RNA e al numero totale di reads, in modo tale da rendere confrontabili sia match di lunghezze diverse che sequenze totali da condizioni differenti. Le sequenze risultanti sono contate per ottenere il numero e la densità di reads che corrispondono all'RNA da ogni esone, evento di splicing o nuovo gene candidato conosciuto. Sono poi normalizzate con questo metodo:
RPKM = numero di reads / (concentrazione molare * kilobasi)
dove la concentrazione molare è la profondità di coverage, cioè la totalità delle reads sequenziate nell'esperimento.
Si citi
numero di geni - 1, e così via fino all'ultimo p-value che moltiplico per 1. Il p-value corretto è il minimo tra i p-value corretti ottenuti. BONFERRONI STEP-UP (HOC)= ordino i p-value in modo crescente e moltiplico il primo p-value per il numero di geni, moltiplico il secondo p-value per il numero di geni - 1, e così via fino all'ultimo p-value che moltiplico per 1. Il p-value corretto è il massimo tra i p-value corretti ottenuti. BONFERRONI-HOLM= ordino i p-value in modo crescente e moltiplico il primo p-value per il numero di geni, moltiplico il secondo p-value per il numero di geni - 1, e così via fino all'ultimo p-value che moltiplico per 1. Il p-value corretto è il minimo tra i p-value corretti ottenuti. BONFERRONI-HOCHBERG= ordino i p-value in modo crescente e moltiplico il primo p-value per il numero di geni diviso per il suo indice di posizione, moltiplico il secondo p-value per il numero di geni diviso per il suo indice di posizione - 1, e così via fino all'ultimo p-value che moltiplico per 1 diviso per il suo indice di posizione. Il p-value corretto è il minimo tra i p-value corretti ottenuti. La correzione di Bonferroni è la più conservativa, restituendo il minor numero di falsi negativi. Funziona stabilendo una soglia molto bassa per il p-value corretto, in modo da ridurre al minimo la probabilità di commettere errori di tipo I.(numero di geni - 1) e conti