Filtrage de séquences d'ADN pour la recherche de longues répétitions multiples

Pierre Peterlongo

Résumé

Since a few years, molecular genomics has had to deal with new
situations. First, the amount of data available is increasing
exponentially. Second, research in this domain involves some new
questions which lead to problems that are algorithmically difficult to
solve.

Among such problems, some are related to the study of genomic
rearrangements, including duplicated and transposable elements. Such a task requires the capacity to detect accurately and efficiently long multiple approximate repetitions in the genomes. A multiple repetition refers to a repetition having at least two copies in a DNA sequence, or having copies in a least two distinct DNA sequences. Furthermore, the repetitions involved are called approximate because their occurrences are distant from another by some errors like insertions, deletions and substitutions.

The problem of searching for long multiple approximate repetitions may be solved by multiple local alignment algorithms. Such algorithms have a complexity that is exponential with the size of the input. Therefore they cannot be applied to data as big as genomes. This is the reason why new techniques have to be created to address these new problems.

In this PhD thesis, a filtration approach for comparing DNA sequences is proposed. The goal of this approach is to remove accurately and efficiently, from texts representing DNA, large portions that cannot contain an occurrence of a repetition. Filtered data, which in general will then correspond to the relevant portions, may be used as input of a multiple local alignment algorithm.

The filters proposed apply a necessary condition on the sequences. Only portions of sequences respecting this condition are
conserved. The work presented deals with the creation of filtration
conditions. Such conditions have to be both efficient and, from an
algorithmic point of view, easy to apply. Using the provided
filtration conditions, two filters, Nimbus and Ed'Nimbus were created. These
filters are called exact because the condition applied guarantees that
no relevant part of the data may be filtered out. Its efficiency, both
in terms of the accuracy of the filtration and of the time consumption, leads to very good practical results. For instance, the time spent by repetition extraction algorithms or multiple alignment algorithms may be reduced by several orders of magnitude using one of the proposed filters.

It is worth to notice that the work presented in this PhD thesis was
motivated by biology, however, it is generic and can thus be used to
filter of any other kinds of text with the aim to detect long multiple
repeated portions.

La génomique moléculaire fait face en ce début de siècle à de nouvelles situations qu'elle doit prendre en compte. D'une part, depuis une dizaine d'années, la quantité de données disponibles croît
de manière exponentielle. D'autre part, la recherche dans le domaine
implique de nouvelles questions dont les formulations in silico
génèrent des problèmes algorithmiquement difficiles à résoudre.

Parmi ces problèmes, certains concernent notamment l'étude de réarrangements génomiques dont les duplications et les éléments transposables. Ils imposent que l'on soit en mesure de détecter précisément et efficacement de longues répétitions approchées et multiples dans les génomes. Par répétition multiple, nous désignons
des répétitions ayant au moins deux copies dans une séquence d'ADN, ou ayant des copies dans au moins deux séquences d'ADN distinctes. De plus, ces répétitions sont approchées dans le sens où des erreurs existent entre les copies d'une même répétition.

La recherche de répétitions approchées multiples peut être résolue par des algorithmes d'alignements multiples locaux mais ceux-ci présentent une complexité exponentielle en la taille de l'entrée, et ne sont donc pas applicables à des données aussi grandes que des génomes. C'est pourquoi, de nouvelles techniques doivent être créées pour répondre à ces nouveaux besoins.

Dans cette thèse, une approche de filtrage des séquences d'ADN est
proposée. Le but d'une telle approche est de supprimer rapidement et
efficacement, parmi des textes représentant des séquences d'ADN, de
larges portions ne pouvant pas faire partie de répétitions. Les données filtrées, limitées en majorité aux portions pertinentes, peuvent alors être fournies en entrée d'un algorithme d'alignement multiple local.

Les filtres proposés appliquent une condition nécessaire aux séquences pour n'en conserver que les portions qui la respectent. Les travaux que nous présentons ont porté sur la création de conditions de filtrage, à la fois efficaces et simples à appliquer d'un point de vue algorithmique. À partir de ces conditions de filtrage, deux filtres, Nimbus et Ed'Nimbus, ont été créés. Ces filtres sont appelés exacts car il ne suppriment jamais de données contenant effectivement des occurrences de répétitions respectant les caractéristiques fixées par un utilisateur. L'efficacité du point de vue de la simplicité d'application et de celui de la précision du filtrage obtenu, conduit à de très bons résultats en pratique. Par exemple, le temps utilisé par des algorithmiques de recherche de répétitions ou d'alignements multiples peut être réduit de plusieurs ordres de grandeur en utilisant les filtres proposés.

Il est important de noter que les travaux présentés dans cette thèse
sont inspirés par une problématique biologique mais ils sont également généraux et peuvent donc être appliqués au filtrage de tout type de textes afin d'y détecter de grandes portions répétées.

DNA sequence filtration for the problem of finding long multiple repetitions

Filtrage de séquences d'ADN pour la recherche de longues répétitions multiples

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager