Gimadiev Timur
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSITE DE STRASBOURG ECOLE DOCTORALE DES SCIENCES CHIMIQUES [ UMR 7140] THÈSE présentée par : Gimadiev Timur Soutenue le : 11 juillet 2018 pour obtenir le grade de : Docteur de l’université de Strasbourg Discipline/ Spécialité : Chimie/Chémoinformatique Modèles prédictifs pour les paramètres cinétiques et thermodynamiques des réactions chimiques THÈSE dirigée par : VARNEK Alexandre Professeur, Université de Strasbourg MADZHIDOV Timur Docteur, Université Fédérale de Kazan RAPPORTEURS : ERTL Peter Docteur, Novartis , Suisse PETITJEAN Michel Professeur, INSERM, Université de Paris EXAMINATEUR : KELLENBERGER Esther Professeur, Université de Strasbourg GIMADIEV Timur Modèles prédictifs pour les paramètres cinétiques et thermodynamiques des réactions chimiques Résumé Ce travail est consacré à la modélisation QSPR des propriétés cinétiques et thermodynamiques des réactions chimiques à l'aide de l'approche Graphe Condensé de Réaction (CGR). Le CGR permet de coder des structures de réactifs et de produits en un seul graphe moléculaire pour lequel des descripteurs moléculaires peuvent être générés. Une base de données contenant plus de 11000 réactions collectées manuellement a été développée puis utilisée dans la modélisation. Les modèles prédictifs ont été construits pour les constantes de vitesse de réactions Diels-Alder, SN2 et E2 ainsi que pour les constantes d'équilibre des transformations tautomères. Ils sont rendus publics via un portail WEB. Une partie de la thèse concerne une étude de mécanique quantique des réactions entre des sydnones et des alcynes contraints pour lesquels la taille du jeux de données n'était pas suffisante pour produire des modèles statistiquement significatifs. Résumé en anglais This work is devoted to QSPR modeling of kinetic and thermodynamic properties of chemical reactions using the Condensed Graph of Reaction (CGR) approach. CGR allows encoding structures of reactants and products into one sole molecular graph for which molecular descriptors can be generated. A comprehensive database containing some 11000 manually collected reactions has been developed then used in the modeling. Predictive models were built for rate constants of Diels-Alder, SN2 and E2 reaction as well as for equilibrium constants of tautomeric transformations. They are available for the users via WEB portal. A part of the thesis concerned quantum mechanics studies of reactions between sydnones and strained alkynes for which the size of the dataset was not sufficient to produce statistically meaningful models. 2 Table of contents Acknowledgements ................................................................. 6 List of Abbreviations ............................................................... 7 Chapter 1. ............................................................................. 22 Introduction .......................................................................... 22 Chapter 2. ............................................................................. 26 Review on chemical reaction modeling studies ......................... 26 2.1 Thermodynamics and kinetics of reaction.................................................... 27 2.2 Reaction representation ............................................................................... 30 2.2.1 Reagent-product representation ............................................................ 31 2.2.2 Reaction center representation .............................................................. 33 2.2.3 Representation based on difference in structure of reagents and products. ............................................................................................................................... 36 2.3. Reaction descriptors................................................................................. 37 2.3.1. Fragment Descriptors ....................................................................... 40 2.3.2. Particular types of reaction descriptors .............................................. 42 2.4. Computational approaches to reactivity modeling ................................... 48 2.4.1. Quantum chemical calculations ........................................................ 49 2.4.2. QSAR in reaction modeling ............................................................. 52 Chapter 3. ............................................................................. 58 Computational techniques used in the study............................. 58 3.1. Quantitative Structure Reactivity Relationship (QSRR) modeling strategy 59 3.1.1. Reactions Descriptors ....................................................................... 59 3.1.2. Model Validation .............................................................................. 60 3.1.3. Machine-Learning methods .............................................................. 61 3 3.1.4. Applicability domain ......................................................................... 66 3.1.5. Genetic Algorithm driven parameters optimization .......................... 67 3.1.6. Model publishing .............................................................................. 68 3.2. Matched Molecular Pairs ......................................................................... 68 3.3. Quantum Chemistry calculations ............................................................. 69 3.4. Model implementation ............................................................................. 70 3.5. In-house software tools ............................................................................... 72 Chapter 4. ............................................................................. 74 Data collection, cleaning and representation ............................ 74 4.1. Development of a comprehensive reaction database ............................... 75 4.1.1. CGR technology development ............................................................ 75 4.1.2. Data collection .................................................................................. 82 4.1.3. Data curation .................................................................................... 84 4.1.4. Relational tables ............................................................................... 89 4.1.5. Content of the database .................................................................... 91 4.2. Modeling procedure ................................................................................. 93 Chapter 5. ............................................................................. 95 Models for rate constants of bimolecular nucleophilic substitution reactions ..................................................................................... 95 5.1. Data description ....................................................................................... 97 5.2. Data visualization and analysis ................................................................. 99 5.3. Analysis of substituent effect using Matched Reactions Pairs (MRP) ...... 102 5.4. Model building and validation ............................................................... 106 5.5. Outliers analysis ..................................................................................... 108 5.6. Local and global models ..................................................................... 111 5.8. Validation on the external set................................................................. 112 4 Conclusions ..................................................................................................... 114 Chapter 6. .......................................................................... 115 Modeling of rate constants of bimolecular elimination (E2) reactions modeling ..................................................................... 115 6.1. Models built on CGR-based reaction descriptors ................................... 116 6.2. Models built on mixture-based reaction descriptors ............................... 125 Chapter 7. ........................................................................... 139 Modeling of rate constants of Diels-Alder reactions ................. 139 Chapter 8. ........................................................................... 150 Modeling of tautomeric equilibrium constants ....................... 150 Chapter 9. ........................................................................... 168 Modeling of reaction rates of some bioorthogonal reactions .... 168 9.1. Data set description................................................................................ 171 9.2. QSRR modeling .................................................................................... 173 9.3. Details of quantum chemical calculations ............................................... 174 9.3.1. Energy and geometry optimization ................................................ 174 9.3.2. Procedure for transition state detection ........................................... 175 9.3.3. Activation free energy calculation ................................................... 178 9.3.4. Conceptual DFT indices ................................................................. 178 9.4. Reaction pathway investigation .............................................................. 179 9.5. Assessment of rate constant .................................................................... 181 9.6 Structural factors responsible for reaction rate ........................................... 183 Conclusions ....................................................................................................