Forum

Nome Utente:
Password:
Riconoscimi automaticamente
 Tutti i Forum
 MolecularLab
 Bioinformatica
 Formato di dati standard per la bioinformatica
 Nuova Discussione  Nuovo Sondaggio Nuovo Sondaggio
 Rispondi Aggiungi ai Preferiti Aggiungi ai Preferiti
Cerca nelle discussioni
I seguenti utenti stanno leggendo questo Forum Qui c'è:

Aggiungi Tag Aggiungi i tag

Quanto è utile/interessante questa discussione:

Autore Discussione  

dave00
Nuovo Arrivato


Città: Genova


19 Messaggi

Inserito il - 30 aprile 2007 : 10:22:28  Mostra Profilo  Visita l'Homepage di dave00 Invia a dave00 un Messaggio Privato  Rispondi Quotando

Ciao ragazzi
scusate il disturbo, sto preparano la mia tesi di laurea triennale su alcuni algoritmi di clusterin' gerarchico usati per lo studio dei geni.

Il primo obiettivo del mio lavoro e' quello di trovare e documentare un formato di dati standard usato dalla comunita' bioinformatica internazionale.

Ho cercato un po' in giro, le indicazioni che ho ricevuto sono state:
- Miame < http://www.mged.org/Workgroups/MIAME/miame.html >
- SQLite < http://www.sqlite.org >
- BioDCV < http://biodcv.itc.it >

Sono ancora un po' confuso su quale formato usare / considerare come standard: qualcuno potrebbe darmi una mano
Se c'e' qualcuno di voi che lavora abitualmente nel campo del clusterin' gerarchico, potrebbe gentilmente darmi un'indicazione?

Non so proprio che pesci pigliare!!!

grazie_ciao


-- dave

dallolio_gm
Moderatore


Prov.: Bo!
Città: Barcelona/Bologna


2445 Messaggi

Inserito il - 30 aprile 2007 : 10:40:43  Mostra Profilo  Visita l'Homepage di dallolio_gm  Clicca per vedere l'indirizzo MSN di dallolio_gm Invia a dallolio_gm un Messaggio Privato  Rispondi Quotando
hola benvenuto,
non ho capito bene, ti interessa un formato standard per il clustering gerarchico? Mi suona un po' strano...
Oppure un formato per descrivere che cosa?

Il mio blog di bioinformatics (inglese): BioinfoBlog
Sono un po' lento a rispondere, posso tardare anche qualche giorno... ma abbiate fede! :-)
Torna all'inizio della Pagina

dave00
Nuovo Arrivato


Città: Genova


19 Messaggi

Inserito il - 30 aprile 2007 : 11:40:45  Mostra Profilo  Visita l'Homepage di dave00 Invia a dave00 un Messaggio Privato  Rispondi Quotando
A dirti la verita' non ho le idee chiare neppure io...

Nei passi del progetto che devo portare avanti c'e':

1 - identificare il formato dei dati condiviso da tutta la comunita' d'interesse;

2 - studiare un'applicazione [...];

[...]

L'applicazione che il prof m'ha assegnato e' un programma che utilizza un algoritmo di clusterin' gerarchico che serve ad classifaicare i geni in base alla loro distanza.

Essendo nuovo alla bioinformatica non so ancora se esistono tipi di dato standard da usare in questo caso...

hai capito il mio problema?

grazie

-- dave
Torna all'inizio della Pagina

dallolio_gm
Moderatore


Prov.: Bo!
Città: Barcelona/Bologna


2445 Messaggi

Inserito il - 30 aprile 2007 : 12:08:44  Mostra Profilo  Visita l'Homepage di dallolio_gm  Clicca per vedere l'indirizzo MSN di dallolio_gm Invia a dallolio_gm un Messaggio Privato  Rispondi Quotando
mmm forse inizio a capire.
Accidenti il tuo prof. si e' sprecato pero' ;).

Immagina di avere le sequenze dello stesso gene in specie differenti, e di volerti creare un albero filogenetico per capire come queste specie sono imparentate fra di loro.

Esistono diversi algoritmi per creare alberi filogenetici: ti consiglio di dare un'occhiata a wikipedia, che mi pare lo spieghi abbastanza bene:
- http://en.wikipedia.org/wiki/Phylogenetic_tree
- http://it.wikipedia.org/wiki/Albero_filogenetico

Questi metodi si classificano in vari modi, possono essere parametrici o basati su matrici di distanza (qui inizio a non ricordarmi bene...).
Mi sembra che UPGMA e anche il Neightbour Joining siano metodi di clusterizzamento gerarchico:
- http://en.wikipedia.org/wiki/UPGMA
- http://en.wikipedia.org/wiki/Neighbour_joining

Studiati queste pagine e vedi se ti e' piu' chiaro.


Per i formati standard usati in bioinformatica, sappi che la situazione e' nera... in quasi tutto il campo della bioinformatica sono diffusi formati molto mal definiti e basati su plain-text, anche se molto lentamente si stanno facendo sforzi per passare a XML... inoltre, perfino i database piu' importanti sono pieni di file che non rispettano gli stessi standard che sono messi.

Cmq per quello che ti interessa ti consiglio di studiarti la documentazione di Phylip (http://evolution.genetics.washington.edu/phylip.html), che e' uno dei programmi storici per la creazione di alberi filogenetici, e magari anche quella di clustalw (http://www.google.com/search?q=clustalw+doc) e di T-Coffee (http://www.tcoffee.org/Documentation/t_coffee/t_coffee_tutorial.htm), che sono programmi di allineamento multiplo.

In ogni caso, ci sono diversi formati perche' il processo di creare un albero filogenetico richiede diversi stadi (allineamento, clusterizzazione, etc..).

Il mio blog di bioinformatics (inglese): BioinfoBlog
Sono un po' lento a rispondere, posso tardare anche qualche giorno... ma abbiate fede! :-)
Torna all'inizio della Pagina

dave00
Nuovo Arrivato


Città: Genova


19 Messaggi

Inserito il - 02 maggio 2007 : 14:22:02  Mostra Profilo  Visita l'Homepage di dave00 Invia a dave00 un Messaggio Privato  Rispondi Quotando
Grazie mille!
Quindi se ho capito bene non esiste un formato standard per il clusterin' gerarchico in bioinformatica ed e' cosigliabile usare XML ?

Cosa mi puoi dire delle altre indicazioni che avevo ricevuto (Miame, SQLite, BioDCV) ?
Completamente sballate oppure solo alcune delle tantissime possibili?

grazie


-- dave
Torna all'inizio della Pagina

dallolio_gm
Moderatore


Prov.: Bo!
Città: Barcelona/Bologna


2445 Messaggi

Inserito il - 03 maggio 2007 : 20:34:29  Mostra Profilo  Visita l'Homepage di dallolio_gm  Clicca per vedere l'indirizzo MSN di dallolio_gm Invia a dallolio_gm un Messaggio Privato  Rispondi Quotando
No per la costruzione di alberi filogenetici non si usano ancora formati basati sull'XML, perché si preferiscono usare dei file in formato testo.

Dovresti andare dal tuo prof e chiedergli se intende farti studiare appunto la costruzione di alberi filogenetici con metodi computazionali, che é un procedimento nel quale generalmente si usano tecniche di clusterizzazione gerachica.

Detto questo ti devi studiare un bel po' di formati perché si tratta di un processo che richiede più passaggi:
- il formato FASTA che é il più diffuso per le sequenze di DNA/RNA o proteiche;
- i formati EMBL o GENBANK che servono per descrivere informazioni su geni (es. http://www.bioperl.org/wiki/EMBL_sequence_format)
- i formati PHYLIP, CLUSTAL, MSP per gli allineamenti di più sequenze (http://www.bioperl.org/wiki/Special:Search?search=multiple+alignment+format&go=Go)
- i file .dnd, .phy e tutti i file intermedi creati dal pacchetto phylip (seguiti un tutorial) o da altri pacchetti di filogenia più complicati.

Un buon posto dove trovare documentazione é http://bioperl.org , che é il wiki di bioperl, un progetto per creare delle librerie bioinformatiche per il perl e che é abbastanza documentato da avere una buona descrizione dei formati supportati.

In bocca al lupo! Break a leg! Chiedi pure se ti serve qualcosa.

Il mio blog di bioinformatics (inglese): BioinfoBlog
Sono un po' lento a rispondere, posso tardare anche qualche giorno... ma abbiate fede! :-)
Torna all'inizio della Pagina
  Discussione  

Quanto è utile/interessante questa discussione:

 Nuova Discussione  Nuovo Sondaggio Nuovo Sondaggio
 Rispondi Aggiungi ai Preferiti Aggiungi ai Preferiti
Cerca nelle discussioni
Vai a:
MolecularLab.it © 2003-18 MolecularLab.it Torna all'inizio della Pagina