2452 articles  [version française]
Detailed view PhD thesis
Université Pierre et Marie Curie - Paris VI (28/03/2012), Alessandra Carbone (Dir.)
Attached file list to this document: 
PDF
these.pdf(2 MB)
Evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies lointains en protéines.
Juliana Silva Bernardes1

La détection d'homologues lointains est essentielle pour le classement fonctionnel et structural des séquences protéiques et pour l'amélioration de l'annotation des génomes très divergents. Pour le classement des séquences, nous présentons la méthode "ILP-SVM homology", combinant la programmation logique inductive (PLI) et les modèles propositionnels. Elle propose une nouvelle représentation logique des propriétés physico-chimiques des résidus et des positions conservées au sein de l'alignement de séquences. Ainsi, PLI trouve les règles les plus fréquentes et les utilise pour la phase d'apprentissage utilisant des modèles d'arbre de décision ou de machine à vecteurs de support. La méthode présente au moins les mêmes performances que les autres méthodes trouvées dans la littérature. Puis, nous proposons la méthode CASH pour annoter les génomes très divergents. CASH a été appliqué à Plasmodium falciparum, mais reste applicable à toutes les espèces. CASH utilise aussi bien l'information issue de génomes proches ou éloignés de P. falciparum. Chaque domaine connu est ainsi représenté par un ensemble de modèles évolutifs, et les sorties sont combinées par un méta-classificateur qui assigne un score de confiance à chaque prédiction. Basé sur ce score et sur des propriétés de co-ocurrences de domaines, CASH trouve l'architecture la plus probable de chaque séquence en appliquant une approche d'optimisation multi-objectif. CASH est capable d'annoter 70% des domaines protéiques de P. falciparum, contre une moyenne de 58% pour ses concurrents. De nouveaux domaines protéiques ont pu être caractérisés au sein de protéines de fonction inconnue ou déjà annotées.
1:  LGM - Génomique des Microorganismes
Biologie computationelle – approche discriminative – programmation logique inductive – ma- chine à vecteurs de support – ensemble de modèles – optimisation multi-objectif.

Combining evolution and machine learning for functional annotation and classification of remote homologous proteins.
Detection of remote homologous proteins is essential for functional and structural classification of protein sequences and for the completion of the annotation for highly divergent genomes. Here, we present two new methods to address these problems. For the first prob- lem, we introduce ILP-SVM Homology that combines inductive logic programming (ILP) and propositional models. It proposes a novel logical representation of physico-chemical properties, conserved amino acid positions and conserved physico-chemical positions in sequence alignments. Based on these signals, ILP finds the most frequent patterns and uses them to train models, such as decision trees and support vector machines. ILP-SVM Homology achieves at least equal performance when compared with other methods. To address the second problem, we propose CASH, a large-scale pipeline to annotate highly divergent genomes. CASH was applied to the Plasmodium falciparum, but it is applicable to any species. In CASH we explore different evolutionary pathways including those that are phylogenetically distant from P. falciparum. As a result, each known domain is represented by an ensemble of heterogeneous models, and the outputs are combined through a meta-classifier that assigns a confidence score to each prediction. Based on this score and on properties as domain co-occurrence, CASH finds the most probable architecture for each query sequence by resolving a multi-objective optimization problem. CASH provides domain annotation for 70% of proteins in P. falciparum, while its competitors achieve at most 58%. We find additional domains into already annotated proteins, and predict domains for proteins with unknown function.