Bioinformatics analysis and consensus ranking for biological high throughput data

Résumé : Cette thèse aborde deux problèmes relatifs à l’analyse et au traitement des données biologiques à haut débit: le premier touche l’analyse bioinformatique des génomes à grande échelle, le deuxième est consacré au développement d’algorithmes pour le problème de la recherche d’un classement consensus de plusieurs classements.L’épissage des ARN est un processus cellulaire qui modifie un ARN pré-messager en en supprimant les introns et en raboutant les exons. L’hétérodimère U2AF a été très étudié pour son rôle dans processus d’épissage lorsqu’il se fixe sur des sites d’épissage fonctionnels. Cependant beaucoup de problèmes critiques restent en suspens, notamment l’impact fonctionnel des mutations de ces sites associées à des cancers. Par une analyse des interactions U2AF-ARN à l’échelle génomique, nous avons déterminé qu’U2AF a la capacité de reconnaître environ 88% des sites d’épissage fonctionnels dans le génome humain. Cependant on trouve de très nombreux autres sites de fixation d’U2AF dans le génome. Nos analyses suggèrent que certains de ces sites sont impliqués dans un processus de régulation de l’épissage alternatif. En utilisant une approche d’apprentissage automatique, nous avons développé une méthode de prédiction des sites de fixation d’UA2F, dont les résultats sont en accord avec notre modèle de régulation. Ces résultats permettent de mieux comprendre la fonction d’U2AF et les mécanismes de régulation dans lesquels elle intervient.Le classement des données biologiques est une nécessité cruciale. Nous nous sommes intéressés au problème du calcul d’un classement consensus de plusieurs classements de données, dans lesquels des égalités (ex-aequo) peuvent être présentes. Plus précisément, il s’agit de trouver un classement dont la somme des distances aux classements donnés en entrée est minimale. La mesure de distance utilisée le plus fréquemment pour ce problème est la distance de Kendall-tau généralisée. Or, il a été montré que, pour cette distance, le problème du consensus est NP-difficile dès lors qu’il y a plus de quatre classements en entrée. Nous proposons pour le résoudre une heuristique qui est une nouvelle variante d’algorithme à pivot. Cette heuristique, appelée Consistent-pivot, s’avère à la fois plus précise et plus rapide que les algorithmes à pivot qui avaient été proposés auparavant.
Type de document :
Thèse
Bioinformatics [q-bio.QM]. Université Paris Sud - Paris XI, 2014. English. 〈NNT : 2014PA112250〉
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-01207489
Contributeur : Abes Star <>
Soumis le : jeudi 1 octobre 2015 - 01:04:13
Dernière modification le : mardi 24 avril 2018 - 13:39:07
Document(s) archivé(s) le : samedi 2 janvier 2016 - 10:22:53

Identifiants

  • HAL Id : tel-01207489, version 1

Collections

Citation

Bo Yang. Bioinformatics analysis and consensus ranking for biological high throughput data. Bioinformatics [q-bio.QM]. Université Paris Sud - Paris XI, 2014. English. 〈NNT : 2014PA112250〉. 〈tel-01207489〉

Partager

Métriques

Consultations de la notice

356

Téléchargements de fichiers

485