Practical Chemoinformatics Muthukumarasamy Karthikeyan • Renu Vyas

Practical Chemoinformatics

1 3 Muthukumarasamy Karthikeyan Renu Vyas Digital Information Resource Centre Scientist (DST) National Chemical Laboratory Division of Chemical Engineering and Pune process development India National Chemical Laboratory Pune India

ISBN 978-81-322-1779-4 ISBN 978-81-322-1780-0 (eBook) DOI 10.1007/978-81-322-1780-0 Springer New Delhi Dordrecht Heidelberg London New York

Library of Congress Control Number: 2014931501

© Springer India 2014 This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of the material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recita- tion, broadcasting, reproduction on microfilms or in any other physical way, and transmission or infor- mation storage and retrieval, electronic adaptation, computer , or by similar or dissimilar meth- odology now known or hereafter developed. Exempted from this legal reservation are brief excerpts in connection with reviews or scholarly analysis or material supplied specifically for the purpose of being entered and executed on a computer system, for exclusive use by the purchaser of the work. Duplica- tion of this publication or parts thereof is permitted only under the provisions of the Copyright Law of the Publisher’s location, in its current version, and permission for use must always be obtained from Springer. Permissions for use may be obtained through RightsLink at the Copyright Clearance Center. Violations are liable to prosecution under the respective Copyright Law. The use of general descriptive names, registered names, trademarks, service marks, etc. in this publica- tion does not imply, even in the absence of a specific statement, that such names are exempt from the relevant protective laws and regulations and therefore free for general use. While the advice and information in this book are believed to be true and accurate at the date of publica- tion, neither the authors nor the editors nor the publisher can accept any legal responsibility for any errors or omissions that may be made. The publisher makes no warranty, express or implied, with respect to the material contained herein.

Printed on acid-free paper

Springer is part of Springer Science+Business Media (www.springer.com) Dedicated to our respected parents and loving children

v Foreword

The term “cheminformatics” was only coined in 1998; nevertheless, in the last 15+ years this field has experienced a burgeoning growth with respect to the numbers of publications, conferences, specialized journals, and the diversity of research. The editorial published in the inaugural issue of the journal Cheminformatics in January of 2009 outlined major challenging problems facing cheminfomatics such as “over- coming stalled drug discovery … advancing green chemistry … understanding life from chemical prospective, and … enabling the network of the world’s chemical and biological information to be accessible and interpretable”. This visionary edito- rial emphasized that despite their breadth and complexity cheminformatics embod- ies thenecessary concepts and tools to effectively tackle these vital problems. Addressing challenges facing cheminformatics is exciting but it requires deep understanding of the cheminformatics theory as well as practical knowledge of the many important cheminformatics tools created by specialists working in the field. Practical Chemoinformatics by Karthikeyan and Vyas serves a critical purpose of bringing cheminformatics education and tools to researchers at all levels, from un- dergraduate students to specialists. The book incorporates ten excellently written chapters that cover cheminformatics methods and applications from A to Z. Not only do the authors provide critical summary of major cheminformatics concepts but most importantly they incorporate many case studies illustrating how typical research problems can be addressed and solved using proprietary as well as open source databases and computational tools. I am confident that the book will be of interest to all scientists working in chemi- cal biology and drug discovery but it will be particularly valuable for beginners and undergraduate, graduate or post-graduate students specializing in chemistry, biol- ogy and allied sciences.

Alexander Tropsha, PhD UNC Eshelman School of Pharmacy University of North Carolina at ChapelHill, USA

vii Preface

Chemoinformatics is a key technology for today’s synthetic/medicinal chemist. People with extensive knowledge of chemistry and computer skills are immensely required by the industry. Database producers, chemical software developers, and chemical publishers offer attractive opportunities to the chemoinformaticians. The present book is intended to be a useful practical guide on chemoinformatics for the students at graduate, postgraduate, and Ph.D. levels. There are a couple of books on the theory of chemoinformatics and plenty of scattered information is available on the web but a well structured Do it yourself book is urgently required. The idea is that the reader of any background should be enthused to follow the book and start using the computer or a computer enthusiast can start learning the basics of . With this objective in mind, numerous step by step prac- tice tutorials, source code snippets, and Do it yourself exercise have been given for quick grasp of the subject. The book intends to put the students in the driver’s seat to test drive the software, code snippets, and practice tutorials. Rules of thumb have been provided at the end of every chapter for specific practical guidance. The lan- guage has been intentionally kept simple, technical jargon wherever used has been thoroughly explained. Adequate bibliography has been provided for readers seeking advanced knowledge on any of the given topics. The chapters in the book are linked to each other and at the same time are independent of each other. The book begins with an elementary chapter on how to read and write molecules into a computer and basic file format conversions. The second chapter teaches how to compute properties of molecules and store them in a database. The third chapter delves into the use of computed property data to build models employing machine learning methods. The fourth and fifth chapters deal with protein active site pre- diction and docking studies, both of which are essential for any successful drug design experiment. The sixth and seventh chapter focus on use of reaction and NMR chemical shift based fingerprints respectively, and their use of virtual screening— an important component in chemoinformatics. The eighth chapter deals with text mining and its role in chemoinformatics methods to discover a lead molecule. The ninth and tenth are technology focused chapters that demonstrate ways to handle big data using today’s state of art workflows, portals deployed in distributed, cloud

ix x Preface computing platforms, and Android-based app development. To sum up, the purpose behind bringing out this book is to demystify and master chemoinformatics through a practical approach and make students aware of the latest developments in this field. After comprehending the entire book the reader will be able to appreciate the power of chemoinformatics tools and apply them for practical use. Acknowledgments

The authors express their deep sense of gratitude and heart-felt thanks to all the contributors of this book without whose help the book would not have seen the light of the day. First and foremost thanks are due to the young enthusiastic team— Deepak Pandit, Chinmai P., Monalisa M., Soumya, Surojit Sadhu, Yogesh Pandit, Apurva for their tireless efforts in compiling data, checking code and proof reading the chapters. We wish to thank senior scientists and mentors Dr. B.D. Kulkarni and Dr. S.S. Tambe for being an inspiration for writing the chapter on machine learning and special guidance regarding the section on genetic programming. The help from academicians, Dr. Sankar and Dr. Agila for the reaction ontology discussion in the chapter on reaction fingerprint and modelling, is greatly acknowledged. The sup- port from industry came from Mr. Sameer Choudhary and Ms. Sapna, CEO of Rasa Life Science Informatics for workflow related topics in chapters 5 and 9. We wish to thank Dr. S. Krishnan for nurturing and guiding the growth of chemoinformat- ics at NCL. Sincere thanks are due to former NCL directors Dr. R.A. Mashalkar, Dr Paul Ratanasamy, Dr. S. Shivram, and present director Dr. Sourav Pal for being the source of inspiration and constant encouragement. We also wish to express our gratitude towards all our chemoinformatics mentors, collaborators and colleagues whose valuable interactions have helped in career development- Dr J Gasteiger, Prof Alex Tropsha, Dr. Janest Ash, Dr. Wendy Warr, Dr. Peter Murray Rust, Dr. Peter Ertl, Dr Andreas Bender, Dr. Robert Glen, Dr Christopher Steinbeck, Prof Igor Tetko, Dr. Jonathan Goodman to name a few. Finally, we thank the publisher, Springer, for bringing out the book on time.

xi Contents

1 Open-Source Tools, Techniques, and Data in Chemoinformatics ��������� 1 1.1 Chemoinformatics ������������������������������������������������������������������������������ 2 1.1.1 Open-Source Tools ��������������������������������������������������������������� 2 1.1.2 Introduction to Programming Languages ���������������������������� 3 1.2 Chemical Structure Representation ��������������������������������������������������� 8 1.3 Code for Including the Editor Applet in JChemPaint ������������������������ 9 1.4 Definition of Templates (Polygons, Benzene, Bond, Atom, etc.) ������ 9 1.5 Free Tools ������������������������������������������������������������������������������������������ 10 1.6 Academic Programs ��������������������������������������������������������������������������� 11 1.6.1 Marvin Sketch ���������������������������������������������������������������������� 11 1.6.2 ACD Labs ���������������������������������������������������������������������������� 12 1.7 Commercial Tools ������������������������������������������������������������������������������ 12 1.7.1 ChemDraw ��������������������������������������������������������������������������� 12 1.7.2 Schrodinger �������������������������������������������������������������������������� 14 1.7.3 MOE (CCG) ������������������������������������������������������������������������� 14 1.7.4 Accelrys ������������������������������������������������������������������������������� 14 1.8 A Practice Tutorial ����������������������������������������������������������������������������� 15 1.8.1 Interconversion of Name/SMILES to Structure and Vice Versa ���������������������������������������������������������������������� 15 1.9 Introduction to Chemical Structure Formats ������������������������������������� 20 1.9.1 Linear Format ����������������������������������������������������������������������� 20 1.9.2 Graph-based Representation (2D and 3D formats) �������������� 21 1.9.3 Connection Tables ���������������������������������������������������������������� 22 1.9.4 FILE FORMATS ������������������������������������������������������������������ 22 1.10 2D and 3D Representation ����������������������������������������������������������������� 30 1.10.1 Code for 3D Structure Generation in ChemAxon ���������������� 31 1.10.2 A Practice Tutorial ��������������������������������������������������������������� 31 1.11 Abstract Representation of Molecules ����������������������������������������������� 32 1.12 File Format Exchange ������������������������������������������������������������������������ 35 1.12.1 A Practice Tutorial ��������������������������������������������������������������� 36 1.12.2 Code for Reading a Molecule, checking the Num- ber of Atoms, and Writing a SMILES String ����������������������� 38

xiii xiv Contents

1.12.3 Code for Reading a SMILES String in Python ������������������ 39 1.13 Similarity and Fingerprint Analysis ������������������������������������������������� 39 1.13.1 Simple Fingerprints (Structural Keys) ������������������������������� 41 1.13.2 Hashed Fingerprints ����������������������������������������������������������� 42 1.13.3 A Practice Tutorial ������������������������������������������������������������� 44 1.14 Molecular Similarity ������������������������������������������������������������������������ 45 1.14.1 Exact Structure Search ������������������������������������������������������� 46 1.14.2 Substructure Search ������������������������������������������������������������ 47 1.14.3 Similarity Search ���������������������������������������������������������������� 48 1.14.4 Subsimilarity Search ���������������������������������������������������������� 50 1.15 Search for Relationship �������������������������������������������������������������������� 51 1.16 Similarity Measures ������������������������������������������������������������������������� 52 1.17 Molecular Diversity ������������������������������������������������������������������������� 55 1.18 Advanced Structure-handling Tools ������������������������������������������������ 56 1.18.1 CCML ��������������������������������������������������������������������������������� 56 1.19 ChemXtreme ������������������������������������������������������������������������������������ 56 1.19.1 Barcoding SMILES ������������������������������������������������������������ 57 1.19.2 Chem Robot ����������������������������������������������������������������������� 57 1.19.3 Image to Structure Tools ���������������������������������������������������� 58 1.19.4 CLide ���������������������������������������������������������������������������������� 59 1.19.5 Advanced Structure Computation Platforms ��������������������� 59 1.20 Virtual Library Enumeration ������������������������������������������������������������ 59 1.21 Clustering ����������������������������������������������������������������������������������������� 60 1.22 Databases ����������������������������������������������������������������������������������������� 60 1.22.1 Database Server My SQL �������������������������������������������������� 62 1.22.2 Code for Connecting to a MySQL Database ���������������������� 63 1.22.3 A Practice Tutorial ������������������������������������������������������������� 64 1.22.4 Creating and Hosting Database ������������������������������������������ 67 1.22.5 A Practice Tutorial ������������������������������������������������������������� 67 1.22.6 Hosting the Database ��������������������������������������������������������� 71 1.22.7 Chemical Databases ����������������������������������������������������������� 74 1.22.8 Do It Yourself (DIY) ���������������������������������������������������������� 85 1.22.9 Questions ���������������������������������������������������������������������������� 89 References ������������������������������������������������������������������������������������������������� 89

2 Chemoinformatics Approach for the Design and Screening of Focused Virtual Libraries ������������������������������������������������������������������ 93 2.1 Introduction to Structure–Property Correlations ����������������������������� 93 2.1.1 Descriptors ������������������������������������������������������������������������� 94 2.1.2 Online Property Prediction Tools ��������������������������������������� 108 2.1.3 Virtual Library Generation (Enumeration) ������������������������� 111 2.1.4 Virtual Screening ���������������������������������������������������������������� 121 2.1.5 Thumb Rules for Computing Molecular Properties ����������� 128 2.1.6 Do it Yourself ��������������������������������������������������������������������� 128 2.1.7 Questions ���������������������������������������������������������������������������� 129 References ������������������������������������������������������������������������������������������������� 129 Contents xv

3 Machine Learning Methods in Chemoinformatics for Drug Discovery ���������������������������������������������������������������������������������������� 133 3.1 Introduction �������������������������������������������������������������������������������������� 133 3.2 Machine Learning Models for Predictive Studies ��������������������������� 134 3.3 Machine Learning Methods ������������������������������������������������������������� 136 3.4 Open-Source Tools for Building Models for Drug Design �������������� 139 3.4.1 Library for Support Vector Machines (LibSVM) ��������������� 139 3.4.2 Waikato Environment for Knowledge Analysis (WeKa) ��� 141 3.4.3 R Program �������������������������������������������������������������������������� 151 3.5 Free Tools for Machine Learning ���������������������������������������������������� 152 3.5.1 An Example of SVR-based Machine Learning ������������������ 152 3.5.2 Rapid Miner ���������������������������������������������������������������������� 160 3.6 Commercial Tools for Building ML Models ����������������������������������� 164 3.6.1 Molecular Operating Environment (MOE) ����������������������� 164 3.6.2 IBM SPSS ������������������������������������������������������������������������� 176 3.6.3 Matrix Laboratory (MATLAB) ����������������������������������������� 178 3.7 Genetic Programming-Based ML Models ��������������������������������������� 179 3.7.1 A Practical Demonstration of GP-Based Software ������������ 185 3.8 Thumb Rules for Machine Learning-Based Modelling ������������������� 189 3.9 Do it Yourself (DIY) ������������������������������������������������������������������������ 191 3.10 Questions ����������������������������������������������������������������������������������������� 191 References ������������������������������������������������������������������������������������������������� 192

4 Docking and Pharmacophore Modelling for Virtual Screening ��������� 195 4.1 Introduction �������������������������������������������������������������������������������������� 195 4.2 A Practice Tutorial: Docking Using a Commercial Tool ����������������� 196 4.3 Docking Using Open Source Software �������������������������������������������� 211 4.3.1 Autodock Steps ����������������������������������������������������������������� 212 4.3.2 Docking Using AutoDock Vina ���������������������������������������� 220 4.4 Other Docking Algorithms �������������������������������������������������������������� 223 4.4.1 Induced Fit Docking ���������������������������������������������������������� 224 4.4.2 Flexible Protein Docking �������������������������������������������������� 225 4.4.3 Blind Docking ������������������������������������������������������������������� 226 4.4.4 Cross Docking ������������������������������������������������������������������� 226 4.4.5 Docking and Site-Directed Mutagenesis ���������������������������� 229 4.5 Protein–Protein Docking ����������������������������������������������������������������� 231 4.6 Pharmacophore �������������������������������������������������������������������������������� 234 4.6.1 Pharmacophore Modelling in SCHRÖDINGER ��������������� 235 4.6.2 Finding Pharmacophore Features Using MOE ������������������ 248 4.7 Open Source Tools for Pharmacophore Generation ������������������������ 253 4.8 Rules of Thumb for Structure-Based Drug Design ������������������������� 254 4.9 Do it Yourself Exercises ������������������������������������������������������������������ 260 4.10 Questions ����������������������������������������������������������������������������������������� 261 References ������������������������������������������������������������������������������������������������� 267 xvi Contents

5 Active Site-Directed Pose Prediction Programs for Efficient Filtering of Molecules ����������������������������������������������������������������������������� 271 5.1 Introduction �������������������������������������������������������������������������������������� 271 5.2 A Practice Tutorial for Predicting Active Site Using SiteMap �������� 272 5.3 A Practice Tutorial for Active Site Prediction Using MOE ������������� 276 5.4 Free Online Tools for Active Site Prediction ����������������������������������� 279 5.5 Homology Modelling ����������������������������������������������������������������������� 282 5.6 A Practice Tutorial for Homology Modelling ���������������������������������� 285 5.7 Model Validation Using Online Servers ������������������������������������������ 295 5.8 Receptor-Based Pharmacophore ������������������������������������������������������ 296 5.9 Studies on Active Site Structural Features ��������������������������������������� 298 5.9.1 Application of Active Site Features in Chemoinformatics ��� 300 5.10 Thumb Rules for Active Site Identification and Homology Modelling ����������������������������������������������������������������������������������������� 312 5.11 Do it Yourself Exercises ������������������������������������������������������������������ 313 5.12 Questions ����������������������������������������������������������������������������������������� 313 References ������������������������������������������������������������������������������������������������� 313

6 Representation, Fingerprinting, and Modelling of Chemical Reactions ��������������������������������������������������������������������������������� 317 6.1 Introduction �������������������������������������������������������������������������������������� 318 6.2 Reaction Representation in Computers ������������������������������������������� 318 6.3 Computational Methods in Reaction Modelling ������������������������������ 318 6.3.1 Empirical and Semiempirical Methods ������������������������������ 319 6.3.2 Molecular Mechanics Methods ������������������������������������������ 320 6.3.3 Methods ������������������������������������������� 321 6.3.4 Statistical Mechanics and Thermodynamics ��������������������� 321 6.3.5 The Quantum Mechanical/molecular Mechanical Approach ���������������������������������������������������������������������������� 322 6.3.6 Modelling the Transition State of Reactions ���������������������� 322 6.4 TS Modelling of Organic Transformations �������������������������������������� 324 6.4.1 Name Reactions ����������������������������������������������������������������� 324 6.4.2 A Practice Tutorial for Transition State and Intrinsic Reaction Coordinate Modelling ����������������������������������������� 326 6.4.3 A Practice Tutorial Using Maestro– ������������������������ 338 6.4.4 A Practice Tutorial Using Spartan �������������������������������������� 344 6.5 Reaction-Searching Approaches and Tools ������������������������������������� 347 6.5.1 Chemical Ontologies Approach for Reaction Searching ���� 351 6.5.2 Reaction Searching Using Fingerprints-Based Approach ��� 354 6.5.3 Tools for Reaction Searching ��������������������������������������������� 359 6.6 Reaction Databases �������������������������������������������������������������������������� 363 6.6.1 Tools for Reaction Library Enumeration ��������������������������� 364 6.6.2 A Practice Tutorial ������������������������������������������������������������� 365 6.7 Artificial Intelligence in Chemical Synthesis ���������������������������������� 366 6.8 Modelling Enzymatic Reactions ������������������������������������������������������ 369 Contents xvii

6.9 Thumb Rules for Performing Reaction Representation, Fingerprints, and Modelling ������������������������������������������������������������ 369 6.10 Do it Yourself ����������������������������������������������������������������������������������� 371 6.11 Questions ����������������������������������������������������������������������������������������� 371 References ������������������������������������������������������������������������������������������������� 371

7 Predictive Methods for Organic Spectral Data Simulation ���������������� 375 7.1 Introduction �������������������������������������������������������������������������������������� 376 7.2 Fragment-Based Drug Discovery ���������������������������������������������������� 378 7.3 Spectra Prediction Methods ������������������������������������������������������������� 384 7.4 Spectra Prediction Tools ������������������������������������������������������������������ 384 7.5 Open-Source Tools �������������������������������������������������������������������������� 385 7.5.1 GAMESS ��������������������������������������������������������������������������� 385 7.6 Proprietary Tools ������������������������������������������������������������������������������ 385 7.6.1 ACD/NMR Predictors �������������������������������������������������������� 385 7.6.2 Cambridgesoft Chem3D ���������������������������������������������������� 385 7.6.3 Jaguar ��������������������������������������������������������������������������������� 385 7.6.4 ����������������������������������������������������������������������������� 390 7.6.5 ADF ������������������������������������������������������������������������������������ 391 7.6.6 MestreNova ������������������������������������������������������������������������ 392 7.6.7 Spartan ������������������������������������������������������������������������������� 396 7.6.8 Spectral Databases ������������������������������������������������������������� 399 7.7 Spectra Viewer Programs ����������������������������������������������������������������� 404 7.8 In-House Tools for Spectra Prediction ��������������������������������������������� 404 7.9 Code to Generate Proton and Carbon NMR Spectrum �������������������� 406 7.10 Thumb Rules for Spectral Data Handling and Prediction ��������������� 409 7.11 Do it Yourself ����������������������������������������������������������������������������������� 410 7.12 Questions ����������������������������������������������������������������������������������������� 411 References ������������������������������������������������������������������������������������������������� 412

8 Chemical Text Mining for Lead Discovery ������������������������������������������� 415 8.1 What is Text Mining? ���������������������������������������������������������������������� 416 8.1.1 Text Mining vis-a-vis Data Mining ������������������������������������ 416 8.1.2 A Snippet of Java Code Using the Above URL ����������������� 418 8.2 What are the Components of Text Mining? ������������������������������������� 419 8.3 Text-mining Methods ����������������������������������������������������������������������� 421 8.3.1 Statistics/ML-based Approach ������������������������������������������� 422 8.3.2 Rule-based Approach ��������������������������������������������������������� 423 8.4 Why Text Mining ����������������������������������������������������������������������������� 424 8.5 General Text-mining Tools �������������������������������������������������������������� 424 8.5.1 A Practice Tutorial with an Open-source Tool ������������������� 425 8.5.2 R Program for Text Mining ������������������������������������������������ 430 8.6 Free Tools for Text Mining �������������������������������������������������������������� 434 8.7 Biomedical Text Mining ������������������������������������������������������������������ 434 8.8 Chemically Intelligent Text-mining Tools ��������������������������������������� 435 xviii Contents

8.9 In-house Tools for Text-mining Applications for Chemoinformatics ���������������������������������������������������������������������������� 437 8.9.1 Java Code Snippet for Data Distribution ��������������������������� 441 8.10 Thumb Rules While Performing and Using Text-mining Results ��� 445 8.11 Do it Yourself ����������������������������������������������������������������������������������� 445 8.12 Questions ����������������������������������������������������������������������������������������� 445 References ������������������������������������������������������������������������������������������������� 445

9 Integration of Automated Workflow in Chemoinformatics for Drug Discovery ���������������������������������������������������������������������������������� 451 9.1 What is a Workflow? ����������������������������������������������������������������������� 451 9.2 Need for Workflows ������������������������������������������������������������������������� 452 9.3 General Workflows in Bioinformatics ��������������������������������������������� 453 9.4 General Workflows in Chemistry Domain �������������������������������������� 453 9.4.1 Accelrys Pipeline Pilot ������������������������������������������������������� 453 9.4.2 IDBS Chemsense (Inforsense Suite) ���������������������������������� 454 9.4.3 CDK Taverna ���������������������������������������������������������������������� 455 9.4.4 KNIME ������������������������������������������������������������������������������� 455 9.4.5 Workflow Examples ����������������������������������������������������������� 467 9.4.6 Workflow for QSAR (Anti-cancer) ������������������������������������ 469 9.5 Schrodinger KNIME Extensions ����������������������������������������������������� 470 9.5.1 A Practice Tutorial ������������������������������������������������������������� 473 9.6 Other KNIME Extensions ���������������������������������������������������������������� 481 9.6.1 MOE(CCG) ������������������������������������������������������������������������ 481 9.6.2 ChemAxon ������������������������������������������������������������������������� 483 9.7 Protein–Ligand Analysis-Based Workflows for Drug Discovery ����� 483 9.7.1 A Practice Tutorial for Protein–Ligand Fingerprint Generation �������������������������������������������������������������������������� 486 9.8 Prolix ������������������������������������������������������������������������������������������������ 489 9.9 J-ProLINE: An In-house-developed Chem-Bioinformatics Workflow Application ���������������������������������������������������������������������� 489 9.10 Targetlikeness Score ������������������������������������������������������������������������ 496 9.11 Databases and Tools ������������������������������������������������������������������������� 496 9.12 Thumb Rules for Generating and Applying Workflows ������������������ 496 9.13 Do it Yourself ����������������������������������������������������������������������������������� 497 9.14 Questions ����������������������������������������������������������������������������������������� 497 References ������������������������������������������������������������������������������������������������� 497

10 Cloud Computing Infrastructure Development for Chemoinformatics ��������������������������������������������������������������������������������������������������� 501 10.1 What is a Portal? ������������������������������������������������������������������������������ 501 10.2 Need for Development of Scientific Portals ������������������������������������ 502 10.3 Components of a Portal ������������������������������������������������������������������� 502 10.4 Examples of Portal Systems ������������������������������������������������������������ 503 Contents xix

10.5 A Practice Tutorial for Portal Creation ���������������������������������������� 504 10.5.1 Custom Database connection and Display Table with Paginator via portlet in Liferay Portal ������������������� 509 10.6 A Practice Tutorial for Development of Portlets for Chemoinformatics ������������������������������������������������������������������������ 512 10.6.1 Marvin Sketch Portlet ���������������������������������������������������� 512 10.6.2 JME Portlet �������������������������������������������������������������������� 515 10.6.3 Jchempaint Portlet ��������������������������������������������������������� 515 10.7 Mobile Computing ����������������������������������������������������������������������� 516 10.7.1 Android Applications for Chemoinformatics ���������������� 517 10.8 Need of High-Performance Computing in Chemoinformatics ���� 526 10.9 Thumb Rules for Developing and Using Scientific Portals and Mobile Devices for Computing ��������������������������������� 526 10.10 Do it Yourself Exercises ��������������������������������������������������������������� 526 10.11 Questions �������������������������������������������������������������������������������������� 527 References ������������������������������������������������������������������������������������������������� 527

Index ��������������������������������������������������������������������������������������������������������������� 529 About the Authors

Muthukumarasamy Karthikeyan obtained his Bachelors and Masters Degree in Chemistry from Pondicherry University and Ph.D. (Chemistry) from National Chemical Laboratory (University of Pune) in the area of Organic Synthesis. He began his career as a scientist in Armament Research Development Establishment (Ministry of Defence, DRDO) Pune, and then joined CSIR-National Chemical Laboratory, Pune as a senior scientist; since then he is pursuing his research career in Chemoinformatics, especially in the area of high performance computing for molecular informatics, and its application in lead identification and lead discovery. In 2007 he organized the first International Conference on Chemoinformatics (http://moltable.ncl.res. in/). He has published several key papers in chemoinformatics handling large scale molecular data including entire PubChem repository (ChemStar) which currently holds more than 70 million entries and harvesting chemical information from Google (ChemXtreme) with more than 10 billion web pages. He is also the recipient of BOYSCAST Fellowship from Department of Science and Technology and Long term Overseas Associateship from Department of Biotechnology. He is a visiting scientist/professor at the University of North Carolina at Chapel Hill, USA. His current interest includes development of open source tools in visual computing for molecular informatics (ChemRobot), hybrid computing (distributed, parallel, cloud) using multicore CPU-GPU processors as a web-based problem solving environment in chemical informatics. He is a member on the executive advisory board of journal of Molecular Informatics from Wiley. Currently he is serving as a guest editor for a special issue on chemoinformatics for virtual screening.

Dr. Renu Vyas is currently a DST women scientist at National Chemical Laboratory Pune, India. She pursued her Ph.D. in synthetic organic chemistry at National Chemical Laboratory and postdoctoral studies at the University of Tennessee, USA. She is the recipient of several university and national level fellowships. She has a number of research publications in internationally renowned journals, reviews, and book chapters to her credit. She held high positions and possesses varied experience in research, teaching, administration, and software industry. Her research interests include in the twin domains of chemoinformatics and bioinformatics.

xxi