Apprentissage statistique pour l'intégration de données omiques

Résumé : Les avancées des nouvelles techniques de séquençage ont permis de produire des données hétérogènes, volumineuse, de grande dimension et à différentes échelles du vivant. L'intégration de ces différentes données représente un défi en biologie des systèmes, défi qu'il est critique d'aborder pour tirer le meilleur parti possible de l'accumulation d'informations biologiques pour leur interprétation et leur exploitation dans un but finalisé. Cette thèse regroupe plusieurs contributions méthodologiques utiles à l'exploration simultanée de plusieurs jeux de données omiques de natures hétérogènes. Pour aborder cette question, les noyaux et les méthodes à noyaux offrent un cadre naturel, car ils permettent de prendre en compte la nature propre de chacun des tableaux de données tout en permettant leur combinaison. Toutefois, lorsque le nombre d'observations à traiter est grand, les méthodes à noyaux souffrent d'un manque d'interprétabilité et d'une grande complexité algorithmique. Une première partie de mon travail a porté sur l'adaptation de deux méthodes exploratoires à noyaux : l'analyse en composantes principales (K-PCA) et les cartes auto-organisatrices (K-SOM). Les adaptations développées portent d'une part sur le passage à l'échelle du K-SOM et de la K-PCA au domaine des omiques et d'autre part sur l'amélioration de l'interprétabilité des résultats. Dans une seconde partie, je me suis intéressé à l'apprentissage multi-noyaux pour combiner plusieurs jeux de données omiques. L'efficacité des méthodes proposées est illustrée dans le contexte de l'écologie microbienne : huit jeux de données du projet TARA oceans ont été intégrés et analysés à l'aide d'une K-PCA.
Type de document :
Thèse
Bio-informatique [q-bio.QM]. UPS Toulouse - Université Toulouse 3 Paul Sabatier, 2017. Français
Liste complète des métadonnées

Littérature citée [188 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01666744
Contributeur : Jérôme Mariette <>
Soumis le : mercredi 20 décembre 2017 - 09:44:14
Dernière modification le : vendredi 22 décembre 2017 - 01:22:33

Fichier

Mariette_Jerome.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01666744, version 2

Collections

Citation

Jérôme Mariette. Apprentissage statistique pour l'intégration de données omiques. Bio-informatique [q-bio.QM]. UPS Toulouse - Université Toulouse 3 Paul Sabatier, 2017. Français. 〈tel-01666744v2〉

Partager

Métriques

Consultations de la notice

260

Téléchargements de fichiers

262