Matrices score-position, algorithmes et propriétés

Aude Liefooghe 1, 2
2 BONSAI - Bioinformatics and Sequence Analysis
LIFL - Laboratoire d'Informatique Fondamentale de Lille, Inria Lille - Nord Europe
Résumé : Les travaux présentés dans cette thèse s'inscrivent dans le cadre de l"algorithmique et de la combinatoire du texte et s'appliquent à la bio-informatique. Plus particulièrement, ils concernent la localisation de motifs pondérés modélisés par des matrices score-position dans un texte non pondéré. Ces travaux sont appliqués au problème biologique de la recherche de sites de fixation de facteurs de transcription dans un génome. Cette application contribue à la compréhension de la régulation des gènes. Nous nous sommes attaqués à deux problèmes complémentaires, la recherche d'une seule matrice dans un texte puis la recherche simultanée d'un ensemble de matrices. Pour accélérer les algorithmes existant, nous nous sommes inspiré des algorithmes de recherche de motifs exacts connus pour leur efficacité. La différence est que les matrices score-position sont des motifs probabilistes, utilisant des fonctions de score. Nous devons donc intégrer la distribution de ces fonctions dans les algorithmes de recherche. Concernant le premier problème nous proposons une extension de l'algorithme de Knuth, Morris et Pratt qui repose sur un pré-traitement du motif pour optimiser le parcours le long du texte. Concernant le second problème nous avons utilisé une structure d'indexation afin de factoriser l'ensemble des matrices. Cette structure tire partie des distributions de scores associées à chaque matrice. Dans les deux cas, nous traitons en amont une partie des données de départ. Nous avons choisi de pré-traiter les matrices par rapport à l'application bio-informatique car les sites de fixation de facteurs de transcription sont des données relativement stables dans le temps. Ces algorithmes ont été mis en oeuvre dans un logiciel disponible en ligne appelé TFMscan. Ils ont fait l'objet d'une validation à grande échelle sur les bases de données de facteurs de transcription Jaspar et Transfac.
Type de document :
Thèse
Bio-informatique [q-bio.QM]. Université des Sciences et Technologie de Lille - Lille I, 2008. Français
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00832725
Contributeur : Jean-Stéphane Varré <>
Soumis le : mercredi 12 juin 2013 - 08:59:18
Dernière modification le : mercredi 12 juin 2013 - 16:29:08
Document(s) archivé(s) le : vendredi 13 septembre 2013 - 03:05:14

Fichier

Identifiants

  • HAL Id : tel-00832725, version 1

Collections

Citation

Aude Liefooghe. Matrices score-position, algorithmes et propriétés. Bio-informatique [q-bio.QM]. Université des Sciences et Technologie de Lille - Lille I, 2008. Français. <tel-00832725>

Partager

Métriques

Consultations de
la notice

184

Téléchargements du document

1361