Inférence grammaticale sur des alphabets ordonnés : application à la découverte de motifs dans des familles de protéines - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2005

Grammatical inference on ordered alphabets : application to pattern discovery in proteins

Inférence grammaticale sur des alphabets ordonnés : application à la découverte de motifs dans des familles de protéines

Résumé

This work has addressed the problem of the adaptation of grammatical inference algorithms for the discovery of common properties in a set of proteins. Positive grammatical inference generates a particular grammatical representation which is optimal for this language, i.e. which gathers and organises the specic properties of the words of the given language, from a set of words belonging to a given target language. We used the Taylor diagram, which classies amino acids according to their physico-chemical properties, in order to propose a specic order on groups of amino acids in the form of a lattice. During this work, we also developed an inference algorithm (SDTM) which computes best local alignments between pairs of proteins according to a score based on the order dened by the lattice and on the statistical properties of the given set of proteins. The result of the algorithm is a sequential machine close to a Mealy machine in which the outputs are reduced to accept and reject. The algorithm begins by the construction of the biggest automaton recognising exactly the words of the language. Then, it generalizes the automaton by successively merging some pairs of transitions corresponding to paired amino acids in the selected alignments. Experiments have shown the interest of this combination of pattern discovery and grammatical inference methods.
Durant cette thèse, nous avons travaillé sur l'adaptation des algorithmes d'inférence grammaticale pour la recherche des propriétés communes à un ensemble de protéines. L'inférence grammaticale positive cherche à générer, à partir d'un ensemble de mots appartenant à un langage cible particulier inconnu, une représentation grammaticale qui est "optimale" par rapport à ce langage, c'est-à-dire qui rassemble et organise les particularités des mots du langage. Nous avons utilisé le diagramme de Taylor, qui classe les acides aminés suivant leurs propriétés physico-chimiques, pour construire, sous forme de treillis, un ordre sur les groupes d'acides aminés. Nous avons aussi développé une méthode d'inférence (SDTM) qui calcule les meilleurs alignements locaux entre les paires de protéines suivant un score fondé à la fois sur cet ordre et sur les propriétés statistiques de l'ensemble de protéines donné. Le résultat est une machine séquentielle proche de celle de Mealy avec des sorties réduites à "accepte" et "rejette". L'algorithme commence par construire le plus grand automate reconnaissant exactement les mots du langage et le généralise par fusions successives des paires de transitions correspondant aux acides aminés appariés dans les alignements sélectionnés. Les expérimentations ont montré l'intérêt de cette combinaison de méthodes importées de la découverte de motifs et de l'inférence grammaticale.
Fichier principal
Vignette du fichier
leroux.pdf (1.24 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00185489 , version 1 (06-11-2007)

Identifiants

  • HAL Id : tel-00185489 , version 1

Citer

Aurélien Leroux. Inférence grammaticale sur des alphabets ordonnés : application à la découverte de motifs dans des familles de protéines. Biochimie [q-bio.BM]. Université Rennes 1, 2005. Français. ⟨NNT : ⟩. ⟨tel-00185489⟩
283 Consultations
659 Téléchargements

Partager

Gmail Facebook X LinkedIn More