Un cadre formel pour l'annotation experte des gènes eucaryotes - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2006

A formal framework for integrating human expertise in eukaryotic gene annotation

Un cadre formel pour l'annotation experte des gènes eucaryotes

Résumé

Despite tremendous advances, automatic gene annotations are considered as predictions that require human validation. We have developped Exogean, a software for annotating gene structures in eukaryotic genomic DNA based on human expertise. Exogean explicitely uses the same heuristic rules that human biologists use when annotating genes. Consequently Exogean is conceived as a framework that represents the biological objects (exons, transcripts, etc) and the rules that we use to manipulate them. This framework is based on directed acyclic coloured multigraphs (DACMS), a powerful representation that intuitively models the reasonning followed by human experts.

The fact that the heuristic rules used by human experts may change over time, are difficult to express and are applied to heterogeneous data, raised the need for a generic, flexible and intuitive formal framework for gene annotation. We thus also have developed DACMLang, a language dedicated to gene annotation based on DACMs.
Malgré des avancées considérables dans le domaine de l'annotation automatique de gènes, l'annotateur de référence reste l'expert humain. Nous avons donc développé Exogean, une méthode automatique qui suit le même processus que l'expert humain. Pour cela, Exogean utilise des multi-graphes orientés acycliques colorés (DACMs) où les sommets sont des objets biologiques, et les multiples couleurs d'arêtes entre les sommets sont des relations entre ces objets. Les DACMs sont parcourus suivant des chemins qui répliquent les règles suivies par l'expert humain lorsqu'il analyse les données.

Le fait que les règles heuristiques utilisées par l'expert soient de différentes natures, soient susceptibles d'évoluer au cours du temps et s'appliquent à des ressources de types différents, a fait ressortir le besoin d'un cadre formel à la fois flexible, intuitif et générique pour l'annotation de gènes. Nous avons donc également développé DACMLang, un langage dédié à l'annotation de gènes fondé sur les DACMs.
Fichier principal
Vignette du fichier
manuscritSD.pdf (2.33 Mo) Télécharger le fichier

Dates et versions

tel-00112099 , version 1 (07-11-2006)

Identifiants

  • HAL Id : tel-00112099 , version 1

Citer

Sarah Djebali. Un cadre formel pour l'annotation experte des gènes eucaryotes. Autre [cs.OH]. Université d'Evry-Val d'Essonne, 2006. Français. ⟨NNT : ⟩. ⟨tel-00112099⟩
253 Consultations
63 Téléchargements

Partager

Gmail Facebook X LinkedIn More