Graph models and algorithms in (co-)evolutionary contexts

Beatrice Donati

Résumé

In the results presented in the present manuscripts, graph theory and combinatorial optimizationtecniques, have been used to model and solve biological problems. The manuscript is divided in twoparts, each one containing the mathematical and biological background of a given application and ouroriginal contributions to it.Part I groups a set of results designed for phylogenetics analysis, and in particular for reconstructingthe co-evolution of two groups of organisms (the so called co-phylogeny reconstruction problem).Although the addressed problem was treated in the available there was no method that solved suchproblem in a complete and efficient way. We thus developed and implemented a new one, calledEucalypt, with this purpose in mind. This not only provides a novel and usable software for cophylogenyreconstruction but also allows to investigate how the event-based model performs inpractice in terms of thenumber and quality of the solutions obtained. We compared our method to the available software. Bylooking at the results obtained, some interesting considerations about the advantages anddisadvantages of the commonly accepted mathematical model could be drawn. Finally, we introduceda new version of the problem where the host-switches are distance bounded: the k-bounded-All-MPRproblem. Eucalypt solves both problems in polynomial delay. These results have been accepted forpublication by the jounal Algorithms for Molecular Biology. The relative software is publicyavailable.Our studies show that the 'most parsimonious scenario' approach presents some limitationsthat cannot be ignored. To deal with these problems, we developed a second algorithm, called Coala,based on an approximate Bayesian computation approach for estimating the frequency of the events.The benefits of this method are twofold: it provides more confidence in the set of costs to be used in areconciliation, and it allows to estimate the frequency of the events in the cases where a reconciliationmethod cannot be applied. These results are currently under review by the jounal Systematic Biology.The relative software is publicy available.In Part 2 another set of studies is presented. Our original model for the contig scaffolding problem,and our algorithm MeDuSa, are presented and tested. Unlike traditional software, it does not rely eitheron paired-end information of sequencing reads or on a phylogenetic distance of the microorganismsused in the analysis. This drastically increases the usability of our software and, at the same time,reduces the computational time required for genome scaffolding. We show that the algorithmimplemented in MeDuSa, in most cases, is capable of producing less and longer scaffolds incomparison to commonly used scaffolders, while maintaining high accuracy and correctness of thepredicted joins. These results are currently under revision by the journal Bioinformatics.Finally, during the development of this method we encountered some pure theoretical open problemsand we decided to dedicate part of our job to their analysis. The last chapter is then dedicated to a setof problems, all related to the Implicit Hitting set enumeration problem. After some formal definitions,an original NP-completeness result is presented and the future directions of our work are described.

Cette thèse s’inscrit dans le cadre de la bioinformatique. Les outils mathématiques les plus utilisés dans ce travail relèvent de la théorie des graphes, des statistiques, de la théorie des ensembles et des mathématiques discrètes. Ces mathématiques ont permis de développer des modèles de systèmes biologiques ainsi que des algorithmes efficaces dans l’étude concrète de ces modèles. La nécessité d’analyses de jeux de données de très grande taille a rendu critique dans notre démarche cette notion d’efficacité des algorithmes. Il faut enfin remarquer que le champ biologique qui a servi de support à cette thèse nous a conduit à explorer un domaine particulier au sein de la théorie de la complexité, à savoir le développement et l’analyse des algorithmes d’énumération.Le texte se compose de deux parties qui regroupent des résultats qui dérivent du même problème biologique. Dans chaque partie est présentée une introduction mathématique et une biologique, ainsi qu’une exposition détaillée des résultats que nous avons obtenus.Dans la première partie, la théorie des graphes est utilisée afin de modéliser l’information phylogénétique ainsi que les relations symbiotiques entre organismes. Cela conduit à l’analyse simultanée de plusieurs arbres, désignée sour le terme de co-phylogénie. Ces analyses sont importantes sur le plan fondamental par leur apport à la connaissance des mécanismes évolutifs mais aussi sur le plan plus appliqué dans le cadre des relations hôtes/pathogènes (la course aux armements), voire dans celui de l’émergence des pathologies nouvelles.Dans le premier chapitre, nous fournissons les principes mathématiques et biologiques nécessaires pour comprendre les résultats obtenus. En plus, nous donnons des informations sur l’état de la recherche dans le domaine de la reconstruction co-phylogénétique. En particulier, nous nous sommes intéressés à l’aspect énumératif de son coté énumératif centré autour de la possibilité d’expliciter toutes les solutions optimales pour une question donnée.Ce problème avait été déjà abondamment traité dans la littérature au moment où nous avons commencé ce travail. Cependant nous nous sommes très tôt rendu compte que non seulement aucun logiciel ne l’abordait d’une façon efficace et correcte, mais que de plus les limites, pratiques et théoriques, de cette approche étaient mal connues.C’est avec ce double objectif que nous avons développé et amélioré un nouvel algorithme, appelé Eucalypt, qui, n’étant pas seulement un outil efficace et innovant pour la reconstruction phylogénétique , nous a permis d’étudier le comportement du modèle basé sur les évènements, en termes de nombre et qualité des solutions sur des données réelles. Nous avons largement comparé notre méthode avec les logiciels qui étaient disponibles. Les résultats de l’expérimentation conduite sur Eucalypt, nous ont permis de mettre en évidence les avantages et les difficultés d’une des approches classiques de la co-phylogénie. Le logiciel développé est accessible à l’addresse: http://eucalypt.gforge.inria.fr/.La méthode et les résultats correspondants sont présentés dans le deuxième chapitre.Cette partie de nos études est présentée dans l’article : “B. Donati, C. Baudet, B. Sinaimeri, P. Crescenzi, and M.-F. Sagot. Eucalypt: Efficient tree reconciliation enumerator”, accepté par la revue Algorithms for Molecular Biology.Les études conduites avec Eucalypt, montrent que l’approche du scénario le plus parcimonieux présente des limites, qui ne peuvent pas être ignorés et dont un est constitué par la façon arbitraire avec laquelle on assigne des coûts aux différents événements ce qui influence profondément les résultats.Un deuxième point faible demeure le fait que sur des jeux de donnés réels d’une certaine ampleur, le nombre de solutions équivalentes est tellement élevé que toute réconciliation est absolument non justifiée.Pour répondre, au moins en partie à certains aspects négatifs emergés de notre analyse, nous avons avant tout défini, une nouvelle version du problème, dans laquelle les transferts ont une distance maximale fixée : le « k-bounded-All-MPR ».Eucalypt donne des solutions a cette version du problème en les énumérant avec un délai polynomial.Le deuxième pas pour éviter les faiblesses de la technique dite basée sur les évènements, a été le développement d’un deuxième algorithme, nommé Coala, basé sur un modèle Bayésien approximé.Les bénéfices de cette méthode sont doubles : il permet à la fois d’inférer un ensemble de coûts ad hoc pour un certain jeu de données, et de fournir une estimation de la fréquence de chaque évènement.Cela est particulièrement utile lorsqu’il n’est pas possible d’appliquer la règle de la parsimonie.Cette partie de nos études est présentée dans l’article : “C. Baudet, B. Donati, B. Sinaimeri, P. Crescenzi, C. Gautier, C. Matias, and M.-F. Sagot. Co-phylogeny reconstruction via an Approximate Bayesian Computation, article en révision dans Systematic Biology.Dans la partie 2, l’application biologique change, même si les outils mathématiques utilisés restent toujours la théorie des graphes et l’optimisation combinatoire. Le problème biologique que nous avons traité se situe dans le domaine du séquençage génomique. Plus spécifiquement, il s’agit d’ordonner et d’orienter un ensemble de fragments de même longueur, appelés contigs. On appelle ce processus effectuer un scaffolding. Celui-ci est introduit dans le quatrième chapitre, avec le pré-requis mathématiques nécessaire pour l’aborder.Le développement des méthodes de séquençage massives (NGS) a conduit à la nécessité du développement d’algorithmes et d’approches expérimentales pour terminer le séquençage complet d’un génome.Nous avons développé une nouvelle méthode avec le logiciel Medusa. Cet algorithme présenté dans le cinquième chapitre, résout efficacement le problème du scaffolding en utilisant beaucoup moins de mémoire que les procédures les plus utilisées. En fait, si la majorité des logiciels de scaffolding nécessite d’une grande quantité d’informations, provenant des démarches précédentes du processus du séquençage, Medusa exploite la comparaison avec un nombre variable d’organismes similaires, ce qui permet de séparer complètement la phase du scaffolding de l’assemblage et de travailler avec des files d’entrée sensiblement plus légeress.Avec Medusa, le problème du scaffolding est formalisé en terme d’optimisation combinatoire sur descgraphes et résolu grâce à un algorithme d’approximation avec un facteur constant.Contrairement aux autres méthodes actuellement utilisées, il ne nécessite ni d’une connaissance « a priori » des relations phylogénétiques qui existent entre l’organisme cible et les organismes de comparaison, ni de librairires de reads provenant d’un assembleur. Tout cela implique facilité d’utilisation et vitesse sont deux caractéristiques importantes de notre méthode.Benchmark et tests montrent aussi que Medusa est précis, et obtient souvent une meilleure performance que les scaffolders traditionnels. Medusa peut être utilisé localement ou à travers une interface web: http://combo.dbe.unifi.it/medusa/, et est présenté dans l'article « E. Bosi, B. Donati, M. Galardini, S. Brunetti, M.-F. Sagot, P. Lio, P. Crescenzi, R. Fani, et M. Fondi. Medusa: a multi-draft based scaffolder », en révision pour la revue Bioinformatics.Durant le développement de ce dernier algorithme nous avons rencontré un ensemble très intéressant de problèmes, purement mathématiques. En particulier, nous nous sommes intéressés a à un problème appelé Implicit Hitting Set qui n'a jamais été étudié en termes de complexité d’énumération.Ce problème a trouvé sa première application dans le cadre de la biologie computationnelle. Cependant, nous croyons qu'il est également intéressant d'un point de vue théorique parce que, grâce à son caractère très abstrait, il peut être considéré comme un cadre à l’intérieur duquel on peut redéfinir la plupart des problèmes combinatoires.Puisque le problème peut être formulé de différentes façons, nous proposons d'abord un ensemble de définitions et ensuite une démonstration de NP-complétude pour la plus générale de ces définitions. De nombreuses questions restent encore ouvertes et, en fait, nous aimerions étudier le problème dans deux directions: Top-bottom, d'identifier les conditions dans lesquelles le problème d'énumérer les solutions cesse d'être difficile; et bottom-top en définissant un ensemble de conditions pour lesquelles le problème est résoluble efficacement. Nous savons que certains de ses sous-problèmes sont polynomialement résolubles, ce qui garantit que cette condition existe. Les résultats et les lignes de recherche actuellement ouvertes sont présentées dans le chapitre 6.

Graph models and algorithms in (co-)evolutionary contexts

Algorithmes et modélisation en graphes dans des contextes de co-evolution

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager