Prédiction de la localisation cellulaire des protéines à l'aide de leurs séquences biologiques. - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2005

Predicting proteins subcellular localization by their biological sequences.

Prédiction de la localisation cellulaire des protéines à l'aide de leurs séquences biologiques.

Hugues Richard

Résumé

Cellular compartments, due to the membrane frontiers they induce, allow the realization of diverse metabolic tasks in the cell. This specialization of the cell's spatial domains directly corresponds to a differentiation in the functional role of the proteins they involve. Thus, when homology searches in the databanks produce no results, the knowledge of the localization site of a protein can help in deducing its function. With the large amount of unannotated orphan genes produced these last years, ab-initio prediction of the subcellular location of proteins has become an important problem.

Thus the major part of the work presented here concerns the prediction of the subcellular localization of a protein, knowing its primary or coding sequence.

We proposed descriptive alternatives to existing methods for predicting subcellular localization by: (1) using new descriptors from nucleotidic sequence and (2) an HMM approach combined with decision trees. The HMM approach is justified biologically in that it permits to modelize biological adressing signals conjointly with global composition. Furthermore, embedding the classification steps within a decision tree slightly improved classification results, whose accuracy is similar with other methods using global composition information.
Les compartiments cellulaires, de par les frontières membranaires qui les définissent, permettent l'accomplissement de taches métaboliques diverses au sein de la cellule. Cette spécialisation en domaines intracellulaires induit donc une différentiation dans la fonction des protéines qui les composent. Le grand nombre de gènes orphelins produits ces dernières années par les projets de séquençage motive la mise au point de méthodes efficaces pour la prédiction ab-initio de la localisation cellulaire des protéines.

Ainsi la majorité de ce travail de thèse s'intéresse au problème de la prédiction du compartiment cellulaire d'une protéine à partir de sa séquence primaire.

Nous nous sommes attachés à proposer des alternatives descriptives aux méthodes existantes de prédiction de la localisation cellulaire en utilisant : (1) de nouveaux descripteurs issus de la séquence nucléique, (2) une approche par chaînes de Markov cachées (CMC) et arbres de décision. L'approche par CMC est justifiée biologiquement a posteriori car elle permet la modélisation de signaux d'adressage conjointement à la prise en compte de la composition globale. En outre, l'étape de classification hiérarchique par arbre améliore nettement les résultats de classification. Les résultats obtenues lors des comparaisons avec les méthodes existantes et utilisant des descripteurs fondés sur la composition globale possèdent des performances similaires.
Fichier principal
Vignette du fichier
these_hrichard.pdf (1.71 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00011707 , version 1 (01-03-2006)

Identifiants

  • HAL Id : tel-00011707 , version 1

Citer

Hugues Richard. Prédiction de la localisation cellulaire des protéines à l'aide de leurs séquences biologiques.. Mathématiques [math]. Université d'Evry-Val d'Essonne, 2005. Français. ⟨NNT : ⟩. ⟨tel-00011707⟩
215 Consultations
2940 Téléchargements

Partager

Gmail Facebook X LinkedIn More