Apprentissage de la structure de réseaux bayésiens. Application aux données de génétique-génomique

Jimmy Vandel

Thèse Année : 2012

Apprentissage de la structure de réseaux bayésiens. Application aux données de génétique-génomique

(1)

Jimmy Vandel

Fonction : Auteur

Unité de Biométrie et Intelligence Artificielle (ancêtre de MIAT)

Résumé

Apprendre la structure d’un réseau de régulation de gènes est une tâche complexe due à la fois au nombre élevé de variables le composant (plusieurs milliers) et à la faible quantité d’échantillons disponibles (quelques centaines). Parmi les approches proposées permettant d’apprendre ces réseaux, nous nous sommes placés pour cette thèse dans le formalisme des réseaux bayésiens. Apprendre la structure d’un réseau de régulation consiste alors à apprendre la structure d’un réseau bayésien où chaque variable représente un gène et chaque arc de ce réseau un phénomène de régulation. Dans la première partie de cette thèse nous nous intéressons à l’apprentissage de la structure de réseaux bayésiens génériques. Nous nous sommes placés dans le cadre des recherches locales à base de score. Nous proposons une version stochastique d’une recherche gloutonne existante, permettant d’explorer plus efficacement l’espace des réseaux possibles. Pour ce même objectif, nous avons développé un nouvel opérateur local, le SWAP, ainsi qu’une extension itérative des opérateurs classiques, permettant d’assouplir temporairement la contrainte d’acyclicité imposée par le formalisme des réseaux bayésiens. La deuxième partie vise plus spécifiquement l’apprentissage de réseaux de régulation de gènes. Nous proposons une modélisation de ce problème d’apprentissage dans le cadre des réseaux bayésiens qui permet la prise en compte de deux types d’information. Le premier, classiquement utilisé, est le niveau d’expression des différents gènes. Le second, plus original, est la présence de mutations sur la séquence d’ADN pouvant expliquer certaines variations de l’expression. L’utilisation de ce type de données dites de génétique-génomique, vise à améliorer la qualité du réseau reconstruit en intégrant différentes sources d’information lors de l’apprentissage. Nous avons développé deux variantes de cette modélisation dont la première consiste en une représentation non-fusionnée des deux informations augmentant alors la qualité descriptive du réseau tandis que la seconde permet une représentation compacte. Nous avons également défini une extension des scores classiquement employés pour l’apprentissage, permettant de restaurer un a priori uniforme sur les classes de connectivité des réseaux explorés. Les deux modélisations proposées ainsi que l’utilisation des scores étendus ont été validées sur des données simulées issues de nos propres expérimentations et à l’occasion d’une compétition internationale. Par ailleurs, nous avons utilisé notre modélisation non-fusionnée dans le cas de données de génétique-génomique réelles issues de la plante Arabidopsis thaliana afin d’en apprendre le réseau de régulation. Un premier réseau a ainsi été obtenu dont certaines régulations ont été validées d’après la littérature existante.

Mots clés

these

réseau bayésien apprentissage de la structure d'un réseau bayésien opérateurs de voisinage dans une recherche locale génétique génomique réseau de régulations de gènes compétition DREAM5 réseau de gènes d'arabidopsis thaliana recherche stochastique gloutonne dans l'espace des DAG

Domaines

Mathématiques [math] Informatique [cs]

Fichier principal

VandelThese2012_1.pdf (2.87 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Migration ProdInra : Connectez-vous pour contacter le contributeur

https://hal.inrae.fr/tel-02809699

Soumis le : samedi 6 juin 2020-07:22:17

Dernière modification le : jeudi 14 mars 2024-03:13:51

Dates et versions

tel-02809699 , version 1 (06-06-2020)

Identifiants

HAL Id : tel-02809699 , version 1
PRODINRA : 272045

Citer

Jimmy Vandel. Apprentissage de la structure de réseaux bayésiens. Application aux données de génétique-génomique. Mathématiques [math]. Université Toulouse III - Paul Sabatier, 2012. Français. ⟨NNT : ⟩. ⟨tel-02809699⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INRA INRAE MATHNUM MIAT

53 Consultations

503 Téléchargements

Apprentissage de la structure de réseaux bayésiens. Application aux données de génétique-génomique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager