Skip to Main content Skip to Navigation
Theses

Filtrage de séquences d'ADN pour la recherche de longues répétitions multiples

Résumé : La génomique moléculaire fait face en ce début de siècle à de nouvelles situations qu'elle doit prendre en compte. D'une part, depuis une dizaine d'années, la quantité de données disponibles croît
de manière exponentielle. D'autre part, la recherche dans le domaine
implique de nouvelles questions dont les formulations in silico
génèrent des problèmes algorithmiquement difficiles à résoudre.

Parmi ces problèmes, certains concernent notamment l'étude de réarrangements génomiques dont les duplications et les éléments transposables. Ils imposent que l'on soit en mesure de détecter précisément et efficacement de longues répétitions approchées et multiples dans les génomes. Par répétition multiple, nous désignons
des répétitions ayant au moins deux copies dans une séquence d'ADN, ou ayant des copies dans au moins deux séquences d'ADN distinctes. De plus, ces répétitions sont approchées dans le sens où des erreurs existent entre les copies d'une même répétition.

La recherche de répétitions approchées multiples peut être résolue par des algorithmes d'alignements multiples locaux mais ceux-ci présentent une complexité exponentielle en la taille de l'entrée, et ne sont donc pas applicables à des données aussi grandes que des génomes. C'est pourquoi, de nouvelles techniques doivent être créées pour répondre à ces nouveaux besoins.

Dans cette thèse, une approche de filtrage des séquences d'ADN est
proposée. Le but d'une telle approche est de supprimer rapidement et
efficacement, parmi des textes représentant des séquences d'ADN, de
larges portions ne pouvant pas faire partie de répétitions. Les données filtrées, limitées en majorité aux portions pertinentes, peuvent alors être fournies en entrée d'un algorithme d'alignement multiple local.


Les filtres proposés appliquent une condition nécessaire aux séquences pour n'en conserver que les portions qui la respectent. Les travaux que nous présentons ont porté sur la création de conditions de filtrage, à la fois efficaces et simples à appliquer d'un point de vue algorithmique. À partir de ces conditions de filtrage, deux filtres, Nimbus et Ed'Nimbus, ont été créés. Ces filtres sont appelés exacts car il ne suppriment jamais de données contenant effectivement des occurrences de répétitions respectant les caractéristiques fixées par un utilisateur. L'efficacité du point de vue de la simplicité d'application et de celui de la précision du filtrage obtenu, conduit à de très bons résultats en pratique. Par exemple, le temps utilisé par des algorithmiques de recherche de répétitions ou d'alignements multiples peut être réduit de plusieurs ordres de grandeur en utilisant les filtres proposés.

Il est important de noter que les travaux présentés dans cette thèse
sont inspirés par une problématique biologique mais ils sont également généraux et peuvent donc être appliqués au filtrage de tout type de textes afin d'y détecter de grandes portions répétées.
Document type :
Theses
Complete list of metadatas

https://tel.archives-ouvertes.fr/tel-00132300
Contributor : Pierre Peterlongo <>
Submitted on : Wednesday, February 21, 2007 - 9:40:37 AM
Last modification on : Wednesday, February 26, 2020 - 7:06:05 PM
Document(s) archivé(s) le : Friday, September 21, 2012 - 11:35:56 AM

Identifiers

  • HAL Id : tel-00132300, version 1

Collections

Citation

Pierre Peterlongo. Filtrage de séquences d'ADN pour la recherche de longues répétitions multiples. Interface homme-machine [cs.HC]. Université de Marne la Vallée, 2006. Français. ⟨tel-00132300⟩

Share

Metrics

Record views

551

Files downloads

422