Arrêt de service programmé du vendredi 10 juin 16h jusqu’au lundi 13 juin 9h. Pour en savoir plus
Accéder directement au contenu Accéder directement à la navigation
Thèse

Application de méthodes de classification supervisée et intégration de données hétérogènes pour des données transcriptomiques à haut-débit

Résumé : Les méthodes d'apprentissage supervisé sont appliquées depuis récemment à des jeux de données de puces à ADN, afin d'une part d'extraire des gènes impliqués dans les différences entre les classes d'individus étudiés et d'autre part de construire une fonction de classification permettant de prédire la classe d'un nouvel individu. Ces données de puces à ADN peuvent être accompagnées d'une information précieuse décrivant les interactions entre les variables (les gènes). Cette information est regroupée sous la forme de réseaux de régulations génétiques (RRG). L'objectif de la thèse est de réaliser l'intégration de l'information contenue dans ces RRGs dans une méthode de classification supervisée binaire. Nous proposons une nouvelle méthode, graph Constrained Discriminant Analysis (gCDA), basée sur l'analyse discriminante de Fisher. Les méthodes de la littérature se proposent d'implémenter la contrainte suivante : les gènes qui sont voisins dans le RRG doivent avoir des poids proches, voire identiques, dans la fonction de classification. À contrepoint de ces méthodes, gCDA est basée sur l'estimation régularisée des matrices de variance covariance qui sont utilisées dans l'analyse discriminante de Fisher. Les estimateurs utilisés dans gCDA prennent en compte l'information contenue dans les RRGs disponibles a priori grâce aux propriétés des modèles graphiques gaussiens. gCDA est comparée aux méthodes de la littérature sur des données simulées, données pour lesquelles le graphe sous-jacent est parfaitement connu. Dans le cas de données réelles, le graphe sous-jacent décrivant les interactions entre variables n'est pas connu. Nous nous sommes donc également intéressés à des méthodes permettant d'inférer de tels graphes à partir de données transcriptomiques. Enfin, des résultats sont obtenus sur trois jeux de données réelles. Les RRG ont été inférés soit sur des jeux de données de même nature mais indépendants (c'est-à-dire concernant des individus qui ne sont pas utilisés pour en classification), soit sur une partie indépendante du jeu de données étudié. Nous montrons une amélioration notable des performances de classification sur ces jeux de données lorsque gCDA est utilisée par rapport à l'utilisation des méthodes de la littérature décrites dans la deuxième partie.
Type de document :
Thèse
Liste complète des métadonnées

Littérature citée [87 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00481822
Contributeur : Karine El Rassi Connectez-vous pour contacter le contributeur
Soumis le : vendredi 7 mai 2010 - 13:54:42
Dernière modification le : lundi 14 décembre 2020 - 12:38:05
Archivage à long terme le : : jeudi 16 septembre 2010 - 13:11:22

Fichier

Identifiants

  • HAL Id : tel-00481822, version 1

Collections

Citation

Vincent Guillemot. Application de méthodes de classification supervisée et intégration de données hétérogènes pour des données transcriptomiques à haut-débit. Sciences du Vivant [q-bio]. Université Paris Sud - Paris XI, 2010. Français. ⟨tel-00481822⟩

Partager

Métriques

Consultations de la notice

340

Téléchargements de fichiers

2804