Étude des différentes approches d'indexation : du génome au pan-génome Application aux génomes de riz - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Different indexing approaches study: From Genome to Pan-genome. Application to rice genome

Étude des différentes approches d'indexation : du génome au pan-génome Application aux génomes de riz

Résumé

The subject of my thesis concerns the study of indexing structures and data compression methods to find a solution to the problem of indexing a collection of similar genomes. The ultimate goal is to apply these methods to the indexing of rice genomes in order to facilitate the analysis of all the studies and activities of the GenomeHarvest project. As for example the impact of their structural variations on the rates of recombination, studies of allelic frequencies, GWAS studies, etc. The indexing of whole genomes is an important step in the exploration and understanding of data from living organisms. An index should provide a quick answer to the following questions: - How often does a given motif appear in a collection of genomes? - What are the positions and genomes carrying a given motif? - What is the length of the motif at position i for a given genome? This is what we achieved thanks to this thesis, we thought and finally proposed an algorithm. When the algorithm was found, we implemented this one into a software that allows the indexing of a large genome collection and its querying.
Le sujet de ma thèse concerne l’étude des structures d’indexation et les méthodes de compression de données pour palier au problème d’indexation d’une collection de génomes similaires. Le but ultime est d’appliquer ces méthodes à l’indexation des génomes du riz afin de faciliter l’analyse de l’ensemble des études et activités du projet GenomeHarvest. Comme par exemple l’impact de leurs variations structurelles sur les taux de recombinaison, les études des fréquences allèliques, les études GWAS, etc. L’indexation de génomes complets est une étape importante dans l’exploration et la compréhension des données d’organismes vivants. Un index devrait fournir une réponse rapide aux questions suivantes : - Combien de fois un motif donné apparaît dans une collection de génomes ? - Quelles sont les positions et les génomes porteurs d’un motif donné ? - Quelle est la longueur du motif à la position i pour un génome donné ? C’est ce que nous avons réalisé grâce à cette thèse, nous avons réfléchi, proposés un algorithme. Une fois l’algorithme trouvé, nous avons implémenté cet algorithme sous forme d’un logiciel qui permet l’indexation d’une large collection de génome et son requêtage.
Fichier principal
Vignette du fichier
These_C-AGRET.pdf (9.07 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03573114 , version 1 (14-02-2022)

Identifiants

  • HAL Id : tel-03573114 , version 1

Citer

Clément Agret. Étude des différentes approches d'indexation : du génome au pan-génome Application aux génomes de riz. Bio-informatique [q-bio.QM]. Université de Montpellier, 2020. Français. ⟨NNT : ⟩. ⟨tel-03573114⟩
67 Consultations
358 Téléchargements

Partager

Gmail Facebook X LinkedIn More