Bioinformatics Sequence Comparisons on Manycore Processors

Tuan Tu Tran 1, 2
2 BONSAI - Bioinformatics and Sequence Analysis
LIFL - Laboratoire d'Informatique Fondamentale de Lille, Inria Lille - Nord Europe
Résumé : Rechercher les similarités entre séquences est une opération fondamentale en bioinformatique, que cela soit pour étudier des questions biologiques ou bien pour traiter les données issues de séquenceurs haut-débit. Il y a un vrai besoin d'algorithmes capables de traiter des millions de séquences rapidement. Pour trouver des similarités approchées, on peut tout d'abord considérer de petits mots exacts présents dans les deux séquences, les graines, puis essayer d'étendre les similarités aux voisinages de ces graines. Cette thèse se focalise sur la deuxième étape des heuristiques à base de graines : comment récupérer et comparer efficacement ces voisinages des graines, pour ne garder que les bons candidats ? La thèse explore différentes solutions adaptées aux processeurs massivement multicoeurs: aujourd'hui, les GPUs sont en train de démocratiser le calcul parallèle et préparent les processeurs de demain. La thèse propose des approches directes (extension de l'algorithme bit-parallèle de Wu-Manber, publiée à PBC 2011, et recherche dichotomique) ou bien avec un index supplémentaire (utilisation de fonctions de hash parfaites). Chaque solution a été pensée pour tirer le meilleur profit des architectures avec un fort parallélisme à grain fin, en utilisant des calculs intensifs mais homogènes. Toutes les méthodes proposées ont été implémentés en OpenCL, et comparées sur leur temps d'exécution. La thèse se termine par un prototype de read mapper parallèle, MAROSE, utilisant ces concepts. Dans certaines situations, MAROSE est plus rapide que les solutions existantes avec une sensibilité similaire.
Liste complète des métadonnées


https://tel.archives-ouvertes.fr/tel-00832663
Contributeur : Mathieu Giraud <>
Soumis le : mardi 11 juin 2013 - 10:31:31
Dernière modification le : mercredi 29 juillet 2015 - 01:19:15
Document(s) archivé(s) le : mardi 4 avril 2017 - 19:17:43

Identifiants

  • HAL Id : tel-00832663, version 1

Collections

Citation

Tuan Tu Tran. Bioinformatics Sequence Comparisons on Manycore Processors. Data Structures and Algorithms [cs.DS]. Université des Sciences et Technologie de Lille - Lille I, 2012. English. <tel-00832663>

Partager

Métriques

Consultations de
la notice

329

Téléchargements du document

648