Cartographie des connaissances : l'intégration et la visualisation au service de la biologie Application à l'ingénierie des connaissances et à l'analyse de données d'expression de gènes - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2007

Cartographie des connaissances : l'intégration et la visualisation au service de la biologie Application à l'ingénierie des connaissances et à l'analyse de données d'expression de gènes

Résumé

The biomedical domain uses more than 1000 online databases. Crossing and analyzing their content is hard, and users often report the following kind of comment: “There are frequently about 20 windows on my desktop; so I'm lost”. Data crossing and analysis is also mostly done by manually copying and pasting data into a spreadsheet. Data integration community advances do not concretely address the user's needs for better visualization and integration tools. This thesis proposes a biological knowledge mapping environment that simplifies integration and visualization of biological data. I²DEE (an Integrated and Interactive Data Exploration Environment) is based upon a simple graph metamodel. This metamodel confers I²DEE flexibility and extensibility for interoperating with existing data integration approaches. I²DEE provides a visual and homogeneous biological data access and can adapt to specialized user tasks. To demonstrate I²DEE versatility, two applications have been experimented in the context of microarray gene expression data analysis and knowledge engineering. Keywords: Biological data integration, visualization, knowledge engineering, knowledge mapping.
Ce mémoire s'inscrit dans un axe stratégique du groupement des Ecoles des Mines : GEMBIO. Dans ce contexte, plusieurs collaborations ont été initiées, notamment avec des chercheurs de l'Institut Pasteur de Paris, de l'Inserm/Hôpitaux de Paris, et du CEA dans le cadre du programme ToxNuc-e. De ces échanges, est née notre problématique. Plus d'un millier de bases de données biologiques sont disponibles en ligne. Leur exploitation et le croisement de leurs contenus entraînent souvent ce constat des chercheurs biologistes : « J'ai souvent une vingtaine de fenêtres ouvertes sur mon écran : je m'y perds ». Souvent l'analyse et le croisement des données est fait par simple copier-coller dans un tableur. Si l'intégration de données à apporté des solutions ponctuelles à des problèmes particuliers, elle ne propose pas pour autant une réponse concrète à la multiplicité des fenêtres pour l'utilisateur, à la surcharge d'information, et à la difficulté de croiser l'information provenant de plusieurs sources hétérogènes. Nous proposons un environnement de cartographie des connaissances biologiques qui facilite l'intégration et la visualisation des données biologiques. Basé sur un métamodèle simple de graphe, I²DEE (Integrated and Interactive Data Exploration Environment) se veut souple et extensible afin de répondre aux besoins des différentes approches existantes de l'intégration. Il permet un accès homogène aux principales ressources biologiques et son adaptabilité offre des réponses visuelles personnalisées à des tâches spécifiques. Après une analyse des besoins des chercheurs biologistes et l'identification des problématiques de traitement de l'information sous-jacentes, un état de l'art de l'intégration de données hétérogènes est présenté. L'approche proposée reprend les principes existants en architecture des IHM et en cartographie géographique. L'environnement I2DEE est alors présenté à partir de son architecture et son métamodèle. Deux modules de l'environnement sont détaillés : l'entrepôt de données biologiques et la boîte à outils graphique permettant de construire rapidement des applications adaptées. Des résultats ont été obtenus dans deux contextes applicatifs distincts : l'ingénierie terminologique et ontologique, et l'analyse de données d'expression de gènes issues de puces à ADN. Ils sont discutés et analysés en regard des objectifs initialement fixés.
Fichier principal
Vignette du fichier
these_jalabert.pdf (17.45 Mo) Télécharger le fichier

Dates et versions

tel-00207602 , version 1 (17-01-2008)

Identifiants

  • HAL Id : tel-00207602 , version 1

Citer

Fabien Jalabert. Cartographie des connaissances : l'intégration et la visualisation au service de la biologie Application à l'ingénierie des connaissances et à l'analyse de données d'expression de gènes. domain_other. Université Montpellier II - Sciences et Techniques du Languedoc, 2007. Français. ⟨NNT : ⟩. ⟨tel-00207602⟩
200 Consultations
710 Téléchargements

Partager

Gmail Facebook X LinkedIn More