Comprehensive data analysis and predictive chemoinformatics models for REACH related physicochemical and (eco)toxicity properties - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Comprehensive data analysis and predictive chemoinformatics models for REACH related physicochemical and (eco)toxicity properties

Analyse exhaustive et modèles chémoinformatiques prédictifs des données physicochimiques et (éco)toxicologiques concernées par REACH

Résumé

This thesis concerns the modelling of several environmental fate and (eco)toxicological properties relevant under the European Union Registration, Evaluation, Authorisation and Restriction of Chemical Substances Regulation (REACH, EC No 1907/2006). Statistical models have been generated using state-of-the-art machine learning methods, such Support Vector Machine and Random Forest and molecular descriptors. Models have been internally and externally validated following internationally recognized guidelines, especially the OECD principles. The models are designed to be used as valid alternative to experimental testing and data-gap filling under the REACH regulation. New models possess several advantages over already existing ones: (i) noticeable larger training sets; (ii) external validation on a significant number of compounds coming from the Industrial context (Solvay portfolio); (iii) better accuracy and extended applicability domain.
Cette thèse concerne la modélisation de propriétés environnementales et (éco)-toxicologiques pertinentes dans le cadre du règlement de l'Union Européenne sur l'enregistrement, l'évaluation, l'autorisation et la restriction des substances chimiques (REACH, CE n ° 1907/2006). Des modèles statistiques ont été générés à l'aide de méthodes d'apprentissage automatique, telles que les Séparateurs à Vaste Marge (SVM) ou les Forêts Aléatoires (Random Forest), et des descripteurs moléculaires. Les modèles sont conçus pour être utilisés comme une alternative crédible aux tests expérimentaux et pour compléter les données manquantes dans le cadre du règlement REACH. Les nouveaux modèles présentent plusieurs avantages par rapport aux modèles existants: (i) ils sont construits sur des ensembles de données sensiblement plus grands; (ii) ils sont validés sur des données externes de tailles significatives composés d’exemples issus d’un contexte industriel (l’entreprise Solvay); (iii) la précision des modèles est améliorée et leurs domaines d'applicabilité sont étendus.
Fichier principal
Vignette du fichier
Lunghini_Filippo_2020_ED222.pdf (47.14 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03505818 , version 1 (31-12-2021)

Identifiants

  • HAL Id : tel-03505818 , version 1

Citer

Filippo Lunghini. Comprehensive data analysis and predictive chemoinformatics models for REACH related physicochemical and (eco)toxicity properties. Cheminformatics. Université de Strasbourg, 2020. English. ⟨NNT : 2020STRAF016⟩. ⟨tel-03505818⟩
37 Consultations
6 Téléchargements

Partager

Gmail Facebook X LinkedIn More