New methods for biological sequence alignment

Marta Gîrdea 1, 2
2 SEQUOIA2 - Algorithms for large scale sequence analysis
LIFL - Laboratoire d'Informatique Fondamentale de Lille, Inria Lille - Nord Europe
Résumé : L'alignement de séquences biologiques est une technique fondamentale en bioinformatique, et consiste à identifier des séries de caractères similaires (conservés) qui apparaissent dans le même ordre dans les deux séquences, et à inférer un ensemble de modifications (substitutions, insertions et suppressions) impliquées dans la transformation d'une séquence en l'autre. Cette technique permet de déduire, sur la base de la similarité de séquence, si deux ou plusieurs séquences biologiques sont potentiellement homologues, donc si elles partagent un ancêtre commun, permettant ainsi de mieux comprendre l'évolution des séquences. Cette thèse aborde les problèmes de comparaison de séquences dans deux cadres différents: la détection d'homologies et le séquençage à haut débit. L'objectif de ce travail est de développer des méthodes d'alignement qui peuvent apporter des solutions aux deux problèmes suivants: i) la détection d'homologies cachées entre des protéines par comparaison de séquences protéiques, lorsque la source de leur divergence sont les mutations qui changent le cadre de lecture, et ii) le mapping de reads SOLiD (séquences de di-nucléotides chevauchantes codés par des couleurs) sur un génome de référence. Dans les deux cas, la même idée générale est appliquée: comparer implicitement les séquences d'ADN pour la détection de changements qui se produisent à ce niveau, en manipulant, en pratique, d'autres représentations (séquences de protéines, séquences de codes di-nucléotides) qui fournissent des informations supplémentaires et qui aident à améliorer la recherche de similarités. Le but est de concevoir et d'appliquer des méthodes exactes et heuristiques d'alignement, ainsi que des systemes de scores, adaptés à ces scénarios.
Type de document :
Thèse
Bioinformatics [q-bio.QM]. Université des Sciences et Technologie de Lille - Lille I, 2010. English
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00833311
Contributeur : Laurent Noé <>
Soumis le : mercredi 12 juin 2013 - 14:14:28
Dernière modification le : mercredi 12 juin 2013 - 16:43:51

Identifiants

  • HAL Id : tel-00833311, version 1

Collections

Citation

Marta Gîrdea. New methods for biological sequence alignment. Bioinformatics [q-bio.QM]. Université des Sciences et Technologie de Lille - Lille I, 2010. English. 〈tel-00833311〉

Partager

Métriques

Consultations de
la notice

354

Téléchargements du document

1008