Quanto è utile/interessante questa discussione:
Autore |
Discussione |
|
cammaratamarco
Nuovo Arrivato
15 Messaggi |
Inserito il - 23 ottobre 2009 : 11:19:10
|
Salve a tutti! Premesso che sono un profano della materia (ma perchè devo ancora fare questi insegnamenti d'"orientamento" alla specialistica?), quindi mi scuso in anticipo per le scemenze che potranno seguire; devo scrivere in R (l'ho già scritto in Matlab) una funzione per la ricerca di ORFs in una sequenza di mtDNA; nello specifico, realizzata la funzione devo: Execute your program on the mtDNA from the human (NC_001807) and the mouse (NC_005089). Note that the genetic code from mitochondria is slightly different from the standart one. In particular the one for those vertebrates has different start and stop codons, resulting in different ORFs: the codon TGA means stop in the universal code, but code for tryptophan in mtDNA; AGA and AGG code for arginine in the universal code and the stop codon in mtDNA; and ATA represents isolencine in the universal code and methionine mtDNA.
Quindi le domande sono: 1) Quali sono gli start/stop codons da prendere in considerazione in questo caso? 2) Il singolo ORF include anche gli start/stop codons? 3) Data la generica sequenza ATGCGATGC il frame +1 sarà ATG CGA TGC, +2 A TGC GAT GC, e +3 AT GCG ATG C. Per -1, -2 e -3 sarà la stessa cosa ma prima la sequenza va riflessa orizzontalmente. E' corretto? 4) Che vuol dire 3' e 5'? 5) Quali sono i requisiti affinchè una ORF possa essere candidata alla codificazione di una proteina (lunghezza minima...)? 6) Se trovo un start codon all'interno della sequenza e a seguire manca lo stop codon, allora è corretto dire che l'orf inizia dallo start codon e finisce alla fine della sequenza? 7) Matlab (e più precisamente il comando seqshoworfs) seppur sia impostata una limitazione sulla lunghezza minima della sequenza, considera buoni gli orf (anche se non rispettano tale limitazione) che terminano con la sequenza stessa (per mancanza di stop codon). E' corretto?
Vi ringrazio se vorrete rispondermi.
Marco
|
|
|
dallolio_gm
Moderatore
Prov.: Bo!
Città: Barcelona/Bologna
2445 Messaggi |
Inserito il - 23 ottobre 2009 : 18:16:54
|
Citazione: Messaggio inserito da cammaratamarco
Salve a tutti! Premesso che sono un profano della materia (ma perchè devo ancora fare questi insegnamenti d'"orientamento" alla specialistica?), quindi mi scuso in anticipo per le scemenze che potranno seguire; devo scrivere in R (l'ho già scritto in Matlab) una funzione per la ricerca di ORFs in una sequenza di mtDNA; nello specifico, realizzata la funzione devo: Execute your program on the mtDNA from the human (NC_001807) and the mouse (NC_005089). Note that the genetic code from mitochondria is slightly different from the standart one. In particular the one for those vertebrates has different start and stop codons, resulting in different ORFs: the codon TGA means stop in the universal code, but code for tryptophan in mtDNA; AGA and AGG code for arginine in the universal code and the stop codon in mtDNA; and ATA represents isolencine in the universal code and methionine mtDNA.
Quindi le domande sono: 1) Quali sono gli start/stop codons da prendere in considerazione in questo caso?
Quelli che sono indicati nel testo, ovvero non devi considerare quelli del genoma nucleare.. se vuoi puoi anche fare riferimento a questo: - http://www.kazusa.or.jp/java/codon_table_java/
Citazione: 2) Il singolo ORF include anche gli start/stop codons?
sì
Citazione: 3) Data la generica sequenza ATGCGATGC il frame +1 sarà ATG CGA TGC, +2 A TGC GAT GC, e +3 AT GCG ATG C. Per -1, -2 e -3 sarà la stessa cosa ma prima la sequenza va riflessa orizzontalmente. E' corretto?
Puoi rimuovere le basi fuori dal frame: per esempio il secondo inizia direttamente con TGC e il terzo con GCG. Per -1, -2 e -3 devi calcolare la sequenza complementare (GCATCGCAT)
Citazione: 4) Che vuol dire 3' e 5'?
5' a monte del gene, 3' a valle. Ovvero, 5' è qualsiasi cosa che venga 'prima' del gene, della sequenza, o di quello di cui stai parlando, purchè sia sullo stesso strand (stesso segno); 3' viene dopo. Si riferisce alla nomenclatura degli zuccheri che costituiscono lo scheletro delle base azotate del DNA.
Citazione: 5) Quali sono i requisiti affinchè una ORF possa essere candidata alla codificazione di una proteina (lunghezza minima...)?
La risposta semplice è che se il tuo programma ha solo scopo didattico, ti puoi accontentare di qualsiasi sequenza che abbia un codone di inizio e di stop e che sia lunga almeno una ventina di aminoacidi.
Per la risposta lunga, ti conviene leggere una review o un articolo su un programma di 'Gene prediction' o 'Gene finding', e fare riferimento ai parametri che utilizza. Per esempio, puoi leggere l'articolo di wikipedia http://en.wikipedia.org/wiki/Gene_prediction nella sezione 'Ab initio' e prendere spunto da lí.
Citazione: 6) Se trovo un start codon all'interno della sequenza e a seguire manca lo stop codon, allora è corretto dire che l'orf inizia dallo start codon e finisce alla fine della sequenza?
no
Citazione: 7) Matlab (e più precisamente il comando seqshoworfs) seppur sia impostata una limitazione sulla lunghezza minima della sequenza, considera buoni gli orf (anche se non rispettano tale limitazione) che terminano con la sequenza stessa (per mancanza di stop codon). E' corretto?
personalmente mi sembra sbagliato, ma non conosco le ragioni degli autori dello script di matlab. Per realizzare un buon programma di ricerca delle ORF bisognerebbe prendere in considerazione diversi parametri: presenza di esoni e introni nel pre-mRNA, presenza di determinati segnali, struttura terziaria credibile, omologia con sequenze simili in altre specie, etc..; ed inoltre, bisogna mettere da conto possibili errori nella sequenza. Forse gli autori di quello script hanno tentato di semplificare il problema mostrando tutte le sequenze con uno schema di lettura.
Vi ringrazio se vorrete rispondermi.
Marco
[/quote] |
Il mio blog di bioinformatics (inglese): BioinfoBlog Sono un po' lento a rispondere, posso tardare anche qualche giorno... ma abbiate fede! :-) |
|
|
cammaratamarco
Nuovo Arrivato
15 Messaggi |
Inserito il - 23 ottobre 2009 : 22:37:04
|
Quindi se ho ben capito devo utilizzare solo AGA e AGG come stop; e come start? Uso sempre ATG? Te lo chiedo perchè nel link che mi hai passato non si fa riferimento agli start codon e poi selezionando il radiobutton per il DNA mitocondriale non si notano cambiamenti nella tabella... In ogni caso grazie mille per la risposta, sintetica ma estremamente precisa. Adesso non mi resta che fare il porting Matlab->R, che onestamente trovo ridondante; non sono un informatico, e quindi ho poca voce in merito: però, perchè utilizzare un'altro linguaggio quando ne esistono parecchi che possono fare le stesse cose? Tra l'altro R è interpretato (come Matlab, d'altronde) e magari con un linguaggio compilato (C,C++,C#,...) sarebbe ottenibile una maggiore efficienza. |
|
|
|
Discussione |
|
|
|
Quanto è utile/interessante questa discussione:
MolecularLab.it |
© 2003-18 MolecularLab.it |
|
|
|