Property-Enriched Fragment Descriptors for Adaptive QSAR Fiorella Ruggiu

Property-enriched fragment descriptors for adaptive QSAR Fiorella Ruggiu To cite this version: Fiorella Ruggiu. Property-enriched fragment descriptors for adaptive QSAR. Cheminformatics. Uni- versité de Strasbourg, 2014. English. NNT : 2014STRAF037. tel-01130689 HAL Id: tel-01130689 https://tel.archives-ouvertes.fr/tel-01130689 Submitted on 12 Mar 2015 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. UNIVERSITÉ DE STRASBOURG ÉCOLE DOCTORALE DES SCIENCES CHIMIQUES [ UMR 7140 ] THÈSE présentée par : [ Fiorella RUGGIU] soutenue le : 22 septembre 2014 pour obtenir le grade de : Docteur de l’université de Strasbourg Discipline/ Spécialité : Chimie/Chémoinformatique Property-enriched fragment descriptors for adaptive QSAR THÈSE dirigée par : [M. VARNEK Alexandre] Professeur, Université de Strasbourg [M. HORVATH Dragos] Directeur de Recherche, CNRS, UMR 7140 RAPPORTEURS : [M. AIRES DE SOUSA João] Professeur, Université de Lisbonne [M. TABOUREAU Olivier] Professeur, Université Paris Diderot AUTRES MEMBRES DU JURY : [M. ERTL Peter] Docteur, HDR, société Novartis [Mme. KELLENBERGER Esther] Docteur, HDR, Université de Strasbourg Fiorella RUGGIU Property-enriched fragment descriptors for adaptive QSAR Résumé Les descripteurs ISIDA enrichis par propriété ont été introduit pour encoder les structures moléculaires en chémoinformatique en tant que nombre d’occurrence de sous-graphes moléculaires spécifiques dont les sommets représentant les atomes sont colorés par des propriétés locales tel que les pharmacophores dépendant du pH, les identifiants de champs de force, les charges partielles, les incréments LogP ou les propriétés extraites d’un modèle QSAR. Ces descripteurs, par leurs large choix d’option, permettent à l’utilisateur de les adapter au problème à modéliser. Ils ont été utilisés avec succès dans une étude de criblage virtuel sur des inhibiteurs de protéases et plusieurs modèles QSAR sur le coefficient de partage octanol-eau, l’index d’hydrophobicité chromatographique, l’inhibition du canal hERG, la constante de dissociation acide, la force des accepteurs de liaison hydrogène et l’affinité de liaison des GPCR. Résumé en anglais ISIDA property-enriched fragment descriptors were introduced as a general framework to numerically encode molecular structures in chemoinformatics, as counts of specific subgraphs in which atom vertices are coloured with respect to a local property - notably pH-dependent pharmacophore, force field, partial charges, logP increments and QSAR model extracted properties. The descriptors leave the user a vast choice in terms of the level of resolution at which chemical information is extracted into the descriptors to adapt them to the problem. They were successfully tested in neighbourhood behaviour and QSAR modelling challenges, with very promising results. They showed excellent results in similarity-based virtual screening for analogue protease inhibitors, and generated highly predictive octanol-water partition coefficient, chromatographic hydrophobicity index, hERG channel inhibition, acidic dissociation constant, hydrogen-bond acceptor strength and GPCR binding affinity models. Acknowledgements First and foremost, I would like to express my gratitude to my advisers, Pr. Alexandre Varnek and Dr. Dragos Horvath for their kindness, patience and advice. Besides my advisers, I am particularly grateful to Dr. Gilles Marcou for his advice in my research and for his kindness as well. Without them, this thesis would have never come into existence. I would like to thank all the members of the jury, Pr. João Aires de Sousa, Pr. Olivier Taboureau, Dr. Peter Ertl, Dr. Esther Kellenberger and Dr. Jean-Luc Galzi as an invited member, for accepting to judge and revise my work. I am thankful to all my collaborators on the different projects, Dr. Vitaly Solov’ev, Dr. Patrick Gizzi, Dr. J.B. Brown, Dr. Jean-Luc Galzi, Dr. Jérôme Graton et Pr. Jean-Yves Le Questel for their help and advice. A particular thanks to Pr. Okuno and to the Japan Society for the Promotion of Science for enabling me to do research in Japan. I am thankful to my colleagues, Dr. Fanny Bonachera, Dr. Ioana Oprisiu, Dr. Olga Klimchuk, Grace Delouis, Héléna Gaspar, Pr. Igor Baskin, Dr. Tetiana Khristova, Dr. Christophe Muller, Dr. Laurent Hoffer and Aurélie De Luca for their advice and support. I would like to thank my students, Jacques Ehret, Guillaume Charbonnier, Julien Denos and Jiangyue He, for working together. Thank to Sandrine Garcin, Danièle Ludwig and Soumia Hnini for their help on administrative tasks. i Résumé en français : Descripteurs fragmentaux enrichis par propriété pour QSAR adaptif Cette thèse présente des développements méthodologiques dans le domaine de la relation structure-activité et leurs applications à la modélisation de certaines propriétés chimiques et activités biologiques. L’objectif principal de cette thèse était l’extension des descripteurs développés au Laboratoire de Chémoinformatique (UMR 7140, Chimie de la Matière Complexe, Université de Strasbourg, France), les descripteurs fragmentaux ISIDA. ISIDA est le nom de la suite de logiciels du laboratoire et est l’abréviation de « In Silico Design and data Analysis » (Conception et analyse de données in silico). Comme présenté dans la Figure 1, les Triplets Pharmacophoriques Flous (TPF) et les Fragments Moléculaires Sous-structuraux (FMS) avaient été développés précédemment. Ces types différents de descripteurs ont été unifiés et étendus dans ce travail. Trois différents types de descripteurs sont proposés dans ce travail (en bleu sur la Figure 1) : les fragments avec projection de propriétés, les fragments locaux et les fragments avec projection d’incréments QSAR. Le manuscrit est divisé selon les sections suivantes: Une première section introductive au sujet et une partie bibliographique pour la méthodologie, une deuxième section de présentation des nouveaux descripteurs développés dans cette thèse, une troisième section présentant les différentes études d’applications des descripteurs effectuées, une section présentant les développements logiciels, et finalement une section pour la conclusion et les perspectives de ce travail. Figure 1. Graphe représentant les différents types de descripteurs fragmentaux ISIDA. Les descripteurs existants avant la thèse sont en vert (à gauche) et ceux développés durant la thèse sont en bleu (à droite). Les cadres bleus incluent les propriétés sur lesquels les différents descripteurs ont été testés. ii 1 1. Descripteurs fragmentaux : état de l’art La chémoinformatique utilise des outils informatiques afin de gérer, interpréter et extraire des connaissances de l’information chimique. Celle-ci fait abondamment appel à la notion de graphe moléculaire (par exemple des structures de Lewis. Or les graphes sont des structures de données compliquées ce qui rend mal aisée leur utilisation direct pour analyser et extraire des connaissances par des moyens informatiques. Une représentation sous forme de descripteurs moléculaires leurs est préférée. Les descripteurs moléculaires consistent à extraire l’information du graphe moléculaire et de l’encoder dans des vecteurs, D, où chaque composant i représente une caractéristique de la molécule (D i). Ces vecteurs de descripteurs sont bien adaptés pour l’analyse mathématique des relations structure- activité, en particulier pour (a) le Criblage Virtuel par Similarité (CVS) reposant sur le principe de similarité classique : « des molécules similaires présenteront probablement des propriétés similaires ». D’un point de vue mathématique, une mesure de similarité est définie en fonction des vecteurs de descripteurs Ainsi, le calcul de similarité entre un vecteur référence décrivant une molécule d’intérêt, par exemple active en se liant à une protéine, et des vecteurs d’autres molécules d’une base de données permet de sélectionner les molécules les plus probablement intéressantes. (b) les Relations Quantitative Structure-Activité ou propriété (Quantitative Structure- Activity Relationship - QSAR), où les techniques d’apprentissage automatique sont employées pour chercher des équations empiriques qui expriment une propriété moléculaire Y comme une fonction des composants D i des vecteurs de descripteurs. Si une telle fonction est établie et qu’elle retourne des approximations proches de la valeur Y de molécules connues, elle peut être utilisée pour estimer cette valeur pour des composés virtuels n’ayant pas été synthétisés ou testés. En effet, les termes Di peuvent être calculés préalablement à la synthèse et ainsi des composés avec des valeurs de Y intéressantes pourront être privilégiées pour la synthèse et les tests. L’art de concevoir des descripteurs moléculaires consiste à décider sur quels types de caractéristiques de la molécule doivent se concentrer les vecteurs. Evidemment, le CVS et le QSAR ne fonctionne qu’à condition que des informations pertinentes pour la propriété soient inclus dans le vecteur D. Par exemple, le laboratoire de Chémoinformatique de l’université de Strasbourg, a développé des descripteurs

Property-Enriched Fragment Descriptors for Adaptive QSAR Fiorella Ruggiu

1 Abietic Acid R Abrasive Silica for Polishing DR Acenaphthene M (LC

Agilent Technologies, Inc

Treball Final De Grau

Nicolet Vapor Phase

Download Download

Setup and Validation of Shake-Flask Procedures for The

Integrated Biological-Chemical Approach for the Identification of Polyaromatic Mutagens in Surface Waters

Prediction of Herg Inhibition of Drug Discovery Compounds Using