ciao a tutti... premetto che sono un bioinformatico con molte conoscenze bio e poce di informatica.... Ho un database di geni di S.cerevisiae che ho clusterizzato in vari modi. Dei cluster ottenuti vorrei calcolare il GO enrichment in modo automatico. Per prima cosa vorrei capire se la definizione di GO enrichment che conosco è giusta. A grandi linee: per ogni gene del dataset si ottengono delle categorie di GO, poi valuto se nel cluster considerato ci sono delle categorie di GO che sono più o meno frequenti rispetto all'intero dataset.
Il problema vero e proprio è che, dato che il dataset è veramente grande, vorrei automatizzare il processo di querying per ottenere le categorie di GO dei geni e per il successivo calcolo del GO enrichment e del rispettivo p value: il casino è che devo integrarlo nel programma in java.... avete dei consigli a riguardo o sapete se esiste qualche libreria che contenga qualche metodo che mi permetta di farlo?????? Ho provato biojava (mi sono letto il tutorial e il cookbook), ma non ho trovato quello che mi interessa (mentre ho visto che bioperl e biopython contengono librerie che ti permettono di fare query direttamente sui database online e ti consentono di calcolare direttamente il GO enrichment). Boh, non so che fare....
In Java onestamente non ti so aiutare. La definizione che hai dato mi sembra giusta, ma io utilizzerei sempre un dataset di controllo rispetto al quale confrontare tutti gli altri sets, in modo da poter leggere piu' facilmente i risultati.
Il mio blog di bioinformatics (inglese): BioinfoBlog Sono un po' lento a rispondere, posso tardare anche qualche giorno... ma abbiate fede! :-)