Formato di dati standard per la bioinformatica

Forum

Registrati Discussioni Recenti Preferiti Utenti Cerca Regolamento RSS Statistiche

Utilità

I libri
consigliati:

Chimica e propedeutica biochimica. Con CD-ROM
Luciano Binaglia, Bruno Giardina

Dizionario di biologia
Autori Vari

Genetica molecolare umana
Jack J. Pasternak

Altri Libri

Nome Utente:	Password:
Riconoscimi automaticamente

Tutti i Forum

MolecularLab

Bioinformatica

Formato di dati standard per la bioinformatica

Nuova Discussione

Nuovo Sondaggio

Rispondi

Aggiungi ai Preferiti

Cerca nelle discussioni

Risorse di Bioinformatica:

Guide tools online

Blog InsideBioinfo

Siti di Bioinformatica

Protocolli

Ultime notizie

Aggiungi i tag

Quanto � utile/interessante questa discussione:

Autore

Discussione

dave00
Nuovo Arrivato

Citt�: Genova

19 Messaggi

Inserito il - 30 aprile 2007 : 10:22:28

Ciao ragazzi
scusate il disturbo, sto preparano la mia tesi di laurea triennale su alcuni algoritmi di clusterin' gerarchico usati per lo studio dei geni.

Il primo obiettivo del mio lavoro e' quello di trovare e documentare un formato di dati standard usato dalla comunita' bioinformatica internazionale.

Ho cercato un po' in giro, le indicazioni che ho ricevuto sono state:
- Miame < http://www.mged.org/Workgroups/MIAME/miame.html >
- SQLite < http://www.sqlite.org >
- BioDCV < http://biodcv.itc.it >

Sono ancora un po' confuso su quale formato usare / considerare come standard: qualcuno potrebbe darmi una mano
Se c'e' qualcuno di voi che lavora abitualmente nel campo del clusterin' gerarchico, potrebbe gentilmente darmi un'indicazione?

Non so proprio che pesci pigliare!!!

grazie_ciao

-- dave

dallolio_gm
Moderatore

Prov.: Bo!
Citt�: Barcelona/Bologna

2445 Messaggi

Inserito il - 30 aprile 2007 : 10:40:43

hola benvenuto,
non ho capito bene, ti interessa un formato standard per il clustering gerarchico? Mi suona un po' strano...
Oppure un formato per descrivere che cosa?

Il mio blog di bioinformatics (inglese): BioinfoBlog
Sono un po' lento a rispondere, posso tardare anche qualche giorno... ma abbiate fede! :-)

dave00
Nuovo Arrivato

Citt�: Genova

19 Messaggi

Inserito il - 30 aprile 2007 : 11:40:45

A dirti la verita' non ho le idee chiare neppure io...

Nei passi del progetto che devo portare avanti c'e':

1 - identificare il formato dei dati condiviso da tutta la comunita' d'interesse;

2 - studiare un'applicazione [...];

[...]

L'applicazione che il prof m'ha assegnato e' un programma che utilizza un algoritmo di clusterin' gerarchico che serve ad classifaicare i geni in base alla loro distanza.

Essendo nuovo alla bioinformatica non so ancora se esistono tipi di dato standard da usare in questo caso...

hai capito il mio problema?

grazie

-- dave

dallolio_gm
Moderatore

Prov.: Bo!
Citt�: Barcelona/Bologna

2445 Messaggi

Inserito il - 30 aprile 2007 : 12:08:44

mmm forse inizio a capire.
Accidenti il tuo prof. si e' sprecato pero' ;).

Immagina di avere le sequenze dello stesso gene in specie differenti, e di volerti creare un albero filogenetico per capire come queste specie sono imparentate fra di loro.

Esistono diversi algoritmi per creare alberi filogenetici: ti consiglio di dare un'occhiata a wikipedia, che mi pare lo spieghi abbastanza bene:
- http://en.wikipedia.org/wiki/Phylogenetic_tree
- http://it.wikipedia.org/wiki/Albero_filogenetico

Questi metodi si classificano in vari modi, possono essere parametrici o basati su matrici di distanza (qui inizio a non ricordarmi bene...).
Mi sembra che UPGMA e anche il Neightbour Joining siano metodi di clusterizzamento gerarchico:
- http://en.wikipedia.org/wiki/UPGMA
- http://en.wikipedia.org/wiki/Neighbour_joining

Studiati queste pagine e vedi se ti e' piu' chiaro.

Per i formati standard usati in bioinformatica, sappi che la situazione e' nera... in quasi tutto il campo della bioinformatica sono diffusi formati molto mal definiti e basati su plain-text, anche se molto lentamente si stanno facendo sforzi per passare a XML... inoltre, perfino i database piu' importanti sono pieni di file che non rispettano gli stessi standard che sono messi.

Cmq per quello che ti interessa ti consiglio di studiarti la documentazione di Phylip (http://evolution.genetics.washington.edu/phylip.html), che e' uno dei programmi storici per la creazione di alberi filogenetici, e magari anche quella di clustalw (http://www.google.com/search?q=clustalw+doc) e di T-Coffee (http://www.tcoffee.org/Documentation/t_coffee/t_coffee_tutorial.htm), che sono programmi di allineamento multiplo.

In ogni caso, ci sono diversi formati perche' il processo di creare un albero filogenetico richiede diversi stadi (allineamento, clusterizzazione, etc..).

Il mio blog di bioinformatics (inglese): BioinfoBlog
Sono un po' lento a rispondere, posso tardare anche qualche giorno... ma abbiate fede! :-)

dave00
Nuovo Arrivato

Citt�: Genova

19 Messaggi

Inserito il - 02 maggio 2007 : 14:22:02

Grazie mille!
Quindi se ho capito bene non esiste un formato standard per il clusterin' gerarchico in bioinformatica ed e' cosigliabile usare XML ?

Cosa mi puoi dire delle altre indicazioni che avevo ricevuto (Miame, SQLite, BioDCV) ?
Completamente sballate oppure solo alcune delle tantissime possibili?

grazie

-- dave

dallolio_gm
Moderatore

Prov.: Bo!
Citt�: Barcelona/Bologna

2445 Messaggi

Inserito il - 03 maggio 2007 : 20:34:29

No per la costruzione di alberi filogenetici non si usano ancora formati basati sull'XML, perch� si preferiscono usare dei file in formato testo.

Dovresti andare dal tuo prof e chiedergli se intende farti studiare appunto la costruzione di alberi filogenetici con metodi computazionali, che � un procedimento nel quale generalmente si usano tecniche di clusterizzazione gerachica.

Detto questo ti devi studiare un bel po' di formati perch� si tratta di un processo che richiede pi� passaggi:
- il formato FASTA che � il pi� diffuso per le sequenze di DNA/RNA o proteiche;
- i formati EMBL o GENBANK che servono per descrivere informazioni su geni (es. http://www.bioperl.org/wiki/EMBL_sequence_format)
- i formati PHYLIP, CLUSTAL, MSP per gli allineamenti di pi� sequenze (http://www.bioperl.org/wiki/Special:Search?search=multiple+alignment+format&go=Go)
- i file .dnd, .phy e tutti i file intermedi creati dal pacchetto phylip (seguiti un tutorial) o da altri pacchetti di filogenia pi� complicati.

Un buon posto dove trovare documentazione � http://bioperl.org , che � il wiki di bioperl, un progetto per creare delle librerie bioinformatiche per il perl e che � abbastanza documentato da avere una buona descrizione dei formati supportati.

In bocca al lupo! Break a leg! Chiedi pure se ti serve qualcosa.

Il mio blog di bioinformatics (inglese): BioinfoBlog
Sono un po' lento a rispondere, posso tardare anche qualche giorno... ma abbiate fede! :-)

Discussione

Quanto � utile/interessante questa discussione:

Nuova Discussione

Nuovo Sondaggio

Rispondi

Aggiungi ai Preferiti

Cerca nelle discussioni

Vai a:

MolecularLab.it

Android e Mobile



Scarica le app! Ora anche sul tuo smartphone!

Ciao Login - Iscriviti



Visitatori: 143

Novità
Protocolli di laboratorio: reagenti e tecniche usate in laboratorio biomedico e molecolare.