Apprentissage d'automates modélisant des familles de séquences protéiques - TEL - Thèses en ligne Access content directly
Theses Year : 2008

Learning automata modelling families of protein sequences

Apprentissage d'automates modélisant des familles de séquences protéiques

Abstract

This thesis shows a new approach out of discovering protein families signatures. Given a sample of (unaligned) sequences belonging to a structural or functional family of proteins, this approach infers non-deterministic automata characterizing the family. A new kind of multiple alignment called PLMA is introduced in order to emphasize the partial and local significant similarities. Given this information, the NFA models are produced by a process stemming from the domain of grammatical inference. The NFA models, presented here under the name of Protomata, are discreet graphical models of strong expressiveness, which distinguishes them from statistical models such as HMM profiles or pattern models like Prosite patterns.
The experiments led on various biological families, among which the MIP and the TNF, show a success on real data.
Cette thèse propose une nouvelle approche de découverte de signatures de familles de protéines. Etant donné un échantillon (non-aligné) de séquences appartenant à une famille structurelle ou fonctionnelle de protéines, cette approche infère des automates fini s non déterministes (NFA) caractérisant la famille.
Un nouveau type d'alignement multiple nommé PLMA est introduit afin de mettre en valeur les similarités partielles et locales significativement similaires. A partir de ces informations, les modèles de type NFA sont produits par un procédé relevant du domaine de l'inférence grammaticale. Les modèles NFA, présentés ici sous le nom de Protomates, sont des modèles graphiques discrets de forte expressivité, ce qui les distingue des modèles statistiques de type profils HMM ou des motifs de type Prosite.
Les expériences menées sur différentes familles biologiques dont les MIP et les TNF, montrent un succès sur des données réelles.
Fichier principal
Vignette du fichier
these_goulven_kerbellec_2008_09_19.pdf (2.35 Mo) Télécharger le fichier
Loading...

Dates and versions

tel-00327938 , version 1 (09-10-2008)

Identifiers

  • HAL Id : tel-00327938 , version 1

Cite

Goulven Kerbellec. Apprentissage d'automates modélisant des familles de séquences protéiques. Interface homme-machine [cs.HC]. Université Rennes 1, 2008. Français. ⟨NNT : ⟩. ⟨tel-00327938⟩
406 View
588 Download

Share

Gmail Facebook X LinkedIn More