Skip to Main content Skip to Navigation
Theses

Alignement, séquence consensus, recherche de similarités : complexité et approximabilité

Résumé : Dans ce mémoire, nous étudions la complexité algorithmique de plusieurs problèmes combinatoires
concernant la comparaison de séquences biologiques. Nous nous pla¸cons successivement du point de vue de
chacune des trois principales théories de la complexité algorithmique : la NP-complétude, l'approximabilité
et la complexité paramétrique.
Dans un premier temps, nous considérons plusieurs formes du problème de l'extraction des motifs communs
à un ensemble de séquences donné. Les motifs communs permettent, en pratique, de classifier les protéines
grâce à leur structure primaire, par exemple en fabriquant des séquences consensus.
En particulier, le problème de la médiane (resp. du centre) pour la distance d'édition consiste à rechercher
une séquence consensus minimisant la somme (resp. le maximum) des distances d'édition la séparant de
chacune des séquences prises en entrée. Nous affinons les résultats connus sur la difficulté de chacun de ces
deux problèmes : nous montrons, par exemple, qu'ils sont tous les deux W[1]-difficiles lorsqu'on les
paramétrise par le nombre des séquences étudiées et ce, même dans le cas d'un alphabet binaire. Nous
considérons également le problème de la plus longue sous-séquence commune. Ce problème a été
exhaustivement étudié dans sa forme usuelle. Or, on trouve dans la nature des séquences d'ADN et d'ARN
circulaires qu'il est utile de comparer. Dans ce mémoire, nous menons à bien la première étude du problème
de la plus longue sous-séquence commune à plusieurs séquences circulaires et/ou non orientées.
Dans un second temps, nous considérons plusieurs problèmes liés à la recherche de similarités approchées
entre séquences biologiques. C'est dans ce domaine que l'application de l'informatique à la biologie
moléculaire a été la plus fructueuse. En pratique les similarités permettent de déterminer les propriétés des
molécules nouvellement séquencées à l'aide de celles des séquences déjà annotées. En effet, une similarité en
séquence entraîne généralement une similarité en structure ou en fonction.
La plupart des nombreux logiciels dédiés à la détection de similarités locales, mettent en oeuvre des filtres
heuristiques : deux portions de séquences ne possédant pas certains motifs spécifiques en commun sont
considérées d'emblée comme dissimilaires. Le choix des motifs conditionne la sensibilité et la sélectivité du
filtre associé. Dans ce mémoire nous considérons un certain type de motifs appelé graine. Il s'agit en fait de
sous-chaînes à trous.
Nous étudions plusieurs problèmes algorithmiques liés à la conception de bonnes graines. En particulier,
nous montrons que le problème suivant est NP-difficile : étant donnés deux entiers naturels k, m et une
graine, décider si le filtre associé est sans perte lorsque l'on restreint la notion de similarité aux paires de
mots de même longueur m, séparés par une distance de Hamming au plus k. Notons que plusieurs
algorithmes exponentiels ont été proposés pour des généralisations de ce problème.
Document type :
Theses
Complete list of metadata

Cited literature [123 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-00108020
Contributor : Isabelle Gouat <>
Submitted on : Thursday, October 19, 2006 - 3:15:27 PM
Last modification on : Thursday, May 24, 2018 - 3:59:20 PM
Long-term archiving on: : Tuesday, April 6, 2010 - 5:56:48 PM

Identifiers

  • HAL Id : tel-00108020, version 1

Collections

Citation

François Nicolas. Alignement, séquence consensus, recherche de similarités : complexité et approximabilité. Autre [cs.OH]. Université Montpellier II - Sciences et Techniques du Languedoc, 2005. Français. ⟨tel-00108020⟩

Share

Metrics

Record views

679

Files downloads

1405