A formal framework for integrating human expertise in eukaryotic gene annotation
Un cadre formel pour l'annotation experte des gènes eucaryotes
Résumé
Despite tremendous advances, automatic gene annotations are considered as predictions that require human validation. We have developped Exogean, a software for annotating gene structures in eukaryotic genomic DNA based on human expertise. Exogean explicitely uses the same heuristic rules that human biologists use when annotating genes. Consequently Exogean is conceived as a framework that represents the biological objects (exons, transcripts, etc) and the rules that we use to manipulate them. This framework is based on directed acyclic coloured multigraphs (DACMS), a powerful representation that intuitively models the reasonning followed by human experts.
The fact that the heuristic rules used by human experts may change over time, are difficult to express and are applied to heterogeneous data, raised the need for a generic, flexible and intuitive formal framework for gene annotation. We thus also have developed DACMLang, a language dedicated to gene annotation based on DACMs.
The fact that the heuristic rules used by human experts may change over time, are difficult to express and are applied to heterogeneous data, raised the need for a generic, flexible and intuitive formal framework for gene annotation. We thus also have developed DACMLang, a language dedicated to gene annotation based on DACMs.
Malgré des avancées considérables dans le domaine de l'annotation automatique de gènes, l'annotateur de référence reste l'expert humain. Nous avons donc développé Exogean, une méthode automatique qui suit le même processus que l'expert humain. Pour cela, Exogean utilise des multi-graphes orientés acycliques colorés (DACMs) où les sommets sont des objets biologiques, et les multiples couleurs d'arêtes entre les sommets sont des relations entre ces objets. Les DACMs sont parcourus suivant des chemins qui répliquent les règles suivies par l'expert humain lorsqu'il analyse les données.
Le fait que les règles heuristiques utilisées par l'expert soient de différentes natures, soient susceptibles d'évoluer au cours du temps et s'appliquent à des ressources de types différents, a fait ressortir le besoin d'un cadre formel à la fois flexible, intuitif et générique pour l'annotation de gènes. Nous avons donc également développé DACMLang, un langage dédié à l'annotation de gènes fondé sur les DACMs.
Le fait que les règles heuristiques utilisées par l'expert soient de différentes natures, soient susceptibles d'évoluer au cours du temps et s'appliquent à des ressources de types différents, a fait ressortir le besoin d'un cadre formel à la fois flexible, intuitif et générique pour l'annotation de gènes. Nous avons donc également développé DACMLang, un langage dédié à l'annotation de gènes fondé sur les DACMs.