Algorithmes multi-critères pour la prédiction de structures d'ARN - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Multi-criteria algorithms for RNA structure prediction

Algorithmes multi-critères pour la prédiction de structures d'ARN

Résumé

Computational RNA structure prediction methods rely on two major algorithmic steps : a sampling step, to propose new structure solutions, and a scoring step to sort the solutions by relevance. A wide diversity of scoring methods exists. Some rely on physical models, some on the similarity to already observed data (so-called data based methods, or knowledge based methods). This thesis proposes structure prediction methods combining two or more scoring criterions, diverse regarding the modelling scale (secondary structure, tertiary structure), their type (theory-based, knowledge-based, compatibility with experimental chemical probing results). The methods describe the Pareto front of the multi-objective optimization problem formed by these criteria. This allows to identify solutions (structures) well scored on each criterion, and to study the correlation between criterions. The presented approaches exploit the latest progresses in the field, like the identification of modules or recurrent interaction networks, and the use of deep learning algorithms. Two neural network architectures (a RNN and a CNN) are adapted from proteins to RNA. A dataset is created to train these networks: RNANet. Two software tools are proposed: the first is called BiORSEO, which predicts the secondary structure based on two criterions (one relative to the structure’s energy, the other relative to the presence of known modules). The second is MOARNA, which predicts coarse-grained 3D structures based on four criterions: energy in 2D and 3D, compatibility with experimental probing results, and with the shape of a known RNA family if one has been identified.
Les méthodes informatiques de prédiction des structures d'ARN reposent sur deux étapes algorithmiques : proposer des structures (l'échantillonnage), et les trier par pertinence (l'évaluation). Une grande diversité de méthodes d'évaluation existe. Certaines reposent sur des modèles physiques, d'autres sur la similarité à des données déjà observées. Cette thèse propose des méthodes de prédiction de structure combinant deux ou plusieurs critères de tri des solutions, divers d'un point de vue de l'échelle de modélisation (structure secondaire, tertiaire), et du type (theory-based, data-based, compatibilité avec des données expérimentales de sondage chimique). Les méthodes proposées identifient le front de Pareto du problème d'optimisation multiobjectif formé par ces critères. Ceci permet d'identifier des solutions (structures) bien notées selon tous les modèles, et également d'étudier la corrélation entre critères. Les approches présentées exploitent les dernières avancées, comme l'identification de modules ou de réseaux d'interactions récurrents, ainsi que les algorithmes d'apprentissage profond. Deux architectures de réseaux de neurones (un RNN et un CNN) sont adaptées des protéines à l'ARN. Un jeu de données d'ARN est proposé pour entrainer ces réseaux : RNANet. Deux outils logiciels sont proposés : BiORSEO, qui prédit la structure secondaire des ARN sur la base de deux critères (l'un énergétique, l'autre relatif à la présence de modules connus). MOARNA, qui propose des structures 3D gros grains sur la base de 4 critères : l'énergie de la structure secondaire, l'énergie en 3D, la compatibilité avec des données expérimentales de sondage chimique, ou la forme d'une famille connue d'ARN si une famille est identifiée.
Fichier principal
Vignette du fichier
2021UPASG065.pdf (9.9 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03440181 , version 1 (22-11-2021)

Identifiants

  • HAL Id : tel-03440181 , version 1

Citer

Louis Becquey. Algorithmes multi-critères pour la prédiction de structures d'ARN. Bio-informatique [q-bio.QM]. Université Paris-Saclay, 2021. Français. ⟨NNT : 2021UPASG065⟩. ⟨tel-03440181⟩
283 Consultations
232 Téléchargements

Partager

Gmail Facebook X LinkedIn More