“Uno score per indicizzare il livello di caratterizzazione dei geni”
Prima o poi chi gioca al Bioinformatico si ritrova ad affrontare la sfida di progettare un sistema di indicizzazioine e scoring.
Ce ne sono di ogni tipo, possono esserci score statistici, algoritmici, induttivi, euristici, gerarchici… ci si perde facilmente tra curve poissoniane del rumore, condizioni di Kolmogorov-Smirnov, normalizzazioni, teorie dei grandi numeri…
Uno score e’ comunque una sorta di coltello che frange dati significativi, dallo schifo intorno.
Tra gli score euristici mi affascinano quelli che fanno parte della categoria score qualitativi, che trattano proprio clasterizzazioni di paper, che costruiscono network sulla base di parole chiavi. L’incremento del numero di pubblicazioni ha reso necessario lo sviluppo di strumenti sempre più raffinati per identificare reference incrociate, analisi degli abstract e via dicendo. Se ne parla su Openhelix.
Ebbene, UN INTERESSANTE LAVORO e’ stato sviluppato e pubblicato nel tentativo di rispondere alla domanda “quanto uno specifico gene è stato funzionalmente caratterizzato?“. Lo score e’ basato su criteri che scansionano risorse quali le sequenze presenti in GenBank, domini InterPro, pathway in KEGG, reference Medline, OMIM e Swiss-Prot. Su questa base vengono assegnati degli score da 1 a 10 (great!).
By evaluating the survey as training data, we developed a bioinformatics procedure to assign gene characterization scores to all genes in the human genome. We analyzed snapshots of functional genome annotation over a period of 6 years to assess temporal changes reflected by the increase of the average Gene Characterization Index.
Il sistema, è più complesso di quanto ho detto (naturalmente!) ed è stato validato su classi di geni di rilevanza farmacologica. Il sistema dimostra di essere in grado di generare un ottimo posizionamento per geni target ben noti, e di individuare nuovi target gene potenzialmente interessanti. Un suo uso base può facilmente dare un’idea di quanto è studiato un gene, quanto materiale posso aspettarmi di trovare a riguardo, e se magari vale la pena focalizzare su di esso i nostri sforzi bioinformatici!
Other Posts
- Biomail è morto (o quasi), lunga vita a Biomail
- Il pessimismo cosmico del bioinformatico (just for fun)
- La proprietà transitiva della Bioinformatica
- Protein ID mapping (come passar da una nomenclatura ad un’altra in due facili click)
- I 7 peccati capitali commessi dai bioinformatici.
- LOOKING FOR A BUDGET LUXURY WATCH? PRE-OWNED WATCHES ARE FOR YOU
- The Synaptic Leap e il progetto di Tropicaldisease.org
- Bioscreencast (1001 nuovi sharing tools)
- Il buon bioinformatico deve essere hacker dentro?