Automatic Learning for the Classification of Chemical

UNIVERSIDADE NOVA DE LISBOA FACULDADE DE CIENCIASˆ E TECNOLOGIA DEPARTAMENTO DE QUÍMICA AUTOMATIC LEARNING FOR THE CLASSIFICATION OF CHEMICAL REACTIONS AND IN STATISTICAL THERMODYNAMICS DIOGO ALEXANDRE ROSA SERRA LATINO Lisboa 2008 no de arquivo “copyright” UNIVERSIDADE NOVA DE LISBOA FACULDADE DE CIENCIASˆ E TECNOLOGIA DEPARTAMENTO DE QUÍMICA AUTOMATIC LEARNING FOR THE CLASSIFICATION OF CHEMICAL REACTIONS AND IN STATISTICAL THERMODYNAMICS DIOGO ALEXANDRE ROSA SERRA LATINO Tese orientada por: Professor Doutor João Aires de Sousa Professor Doutor Fernando M. S. S. Fernandes Professora Doutora Filomena F. M. Freitas Disserta¸cão apresentada para obten¸cão do Grau de Doutor em Qu´ımica Especialidade de Qu´ımicaOrgânica, pela Universidade Nova de Lisboa, Faculdade de Ciências e Tecnologia. Lisboa 2008 Dedicada aos meus pais e avós Declaration The work presented in this Thesis is based on research carried out at CQFB (Centro de Qu´ımica Fina e Biotecnologia), REQUIMTE, Departamento de Qu´ımica, Faculdade de Ciências e Tecnologia, Universidade Nova de Lisboa and at CCMM (Centro de Ciências Moleculares e Materiais), Departamento de Qu´ımica e Bioqu´ımica, Faculdade de Ciências, Universidade de Lisboa, Portugal. The following Chapters or Sections are based on articles published or submitted during the PhD: • Chapter 5 is based on the article: D. A. R. S. Latino, J. Aires-de-Sousa, “Linking Databases of Chemical Reactions to NMR Data: An Exploration of 1H NMR - Based Reaction Classification”, Anal. Chem. 2007, 79, 854-862. • Chapter 7 is based on the article: D. A. R. S. Latino, J. Aires-de-Sousa, “Genome-Scale Classification of Metabolic Reactions: a Chemoinformatics Approach”, Angew. Chem. Int. Ed. 2006, 45, 2066-2069. • Chapter 8 is based on the article: D. A. R. S. Latino, Q.-Y. Zhang, J. Aires-de-Sousa, “Genome-Scale Classification of Metabolic Reactions and Assignment of EC Numbers with Self-Organizing Maps”, Bioinformatics. 2008, doi:10.1093/bioinformatics/btn405 • Chapter 11 is based on the article: D. A. R. S. Latino, F. F. M. Freitas, J. Aires-de-Sousa, F. M. S. S. Fernandes, “Neu- ral Networks to Approach Potential Energy Surfaces. Application to a Molecular Dynamics Simulation”, Int. J. Quantum Chem. 2007, 107, (11), 2120-2132. • Chapter 12 is based on the article: D. A. R. S. Latino, R. P. S. Fartaria, F. F. M. Freitas, J. Aires-de-Sousa, F. M. S. S. Fernandes, ”Mapping Potential Energy Surfaces by Neural Networks. The Ethanol / Au (111) interface”, J. Electroanal. Chem. in press ix x No part of this Thesis has been submitted elsewhere for any other degree or qualification and all experiments were performed by me unless in the following cases: • In Chapter 8 Subsection 8.3.4 the experiments with chirality codes were done by Dr. Q.-Y. Zhang. • In Chapter 11 Subsection 11.3.2 the Molecular Dynamics simulations were performed by Prof. F. F. M. Freitas. • In Chapter 12 Subsection 12.2.1 the DFT calculations performed for the molecular orientations to be used as test set were performed in collaboration with Dr. R. P. S. Fartaria. During the PhD the following articles were also published: • D. A. R. S. Latino, L. M. V. Pinheiro, F. F. M. Freitas, F. M. S. Silva Fernandes, A. R. T. Calado, “Prediction of Lipophilicity by Feed-Forward Neural Networks using Topological Descriptors”, Revista Portuguesa de Farmácia, ISSN 0484 - 811 X, Volume LII (no2), 2005. • F. M. S. S. Fernandes, R. P. S. Fartaria, D. A. R. S. Latino, F. F. M. Freitas “Computer Simulation of Solution/Electrode Interfaces”, Port. Electrochim. Acta, ISSN 0872 - 1904, 2008, 26, (1), 1-13. Diogo Alexandre Rosa Serra Latino (Licenciado em Qu´ımica pela Faculdade de Ciências da Universidade de Lisboa) Acknowledgements Depois de um percurso de quatro anos, com bons e maus momentos, são muitas as pessoas a quem eu deveria agradecer. Como os Agradecimentos numa Tese devem ser dedicados realmente a quem teve maior influência no trabalho vou então dedicar-me apenas às pessoas, ou institui¸cões, que contribuiram mais directamente para o desenrolar da minha investiga¸cão. As minhas primeiras palavras de agradecimento vão para os meus orientadores, a Pro- fessora Doutora Filomena Freitas, o Professor Doutor Fernando Fernandes e o Professor Doutor João Aires de Sousa. Tenho de referir que o meu percurso como investigador na área da Quimioinformática se iniciou em 2001, no Laboratório de Simula¸cão Molecular da FCUL, ainda como aluno de Licenciatura pela açcão da Professora Doutora Filomena Freitas. Foi ela a primeira pessoa que eu contactei demonstrando o meu interesse em realizar o estágio de final de curso na área da Qu´ımica Computacional tendo-me encaminhado para o Professor Doutor Fernando Fernandes. Durante estes anos sempre me apoiou procurando motivar-me nos meus momentos de desânimo ou de menor motiva¸cão. Tenho que agradecer todo o tempo que despendeu comigo a discutir o trabalho assim como nas últimas semanas no processo moroso e dif´ıcil de revisão da Tese. Ao Professor Doutor Fernando Fernandes tenho de agradecer o facto de me ter aceite como seu aluno ainda como estagiário, quando não tinha qualquer informa¸cão sobre mim, mas mais que isso, ter-me lan¸cado o desafio da aplica¸cão das redes neuronais artificiais em qu´ımica. O Professor Doutor Fernando Fernandes deu-me a escolher dois temas, um em simula¸cão molecular e outro em aplica¸cão de redes neuronais em qu´ımica, tendo frisado desde logo que relativamente ao último esta era uma área virgem no grupo e que por isso a sua ajuda não seria a mesma. Apesar disso, esta foi a área pela qual me senti atra´ıdo tendo aceite o seu desafio e continuando a trabalhar nela atéhoje. Alémdisso, tenho de agradecer toda a motiva¸cão que sempre me procurou transmitir e a confian¸ca que depositou em mim. Sempre procurou transmitir-me o sentido de individualidade, autonomia e independência procurando que eu trilhasse o meu caminho livre como o vento. Em 2003 conheci o Professor Doutor João Aires de Sousa com o qual iniciamos uma colabora¸cão tendo iniciado o doutoramento em 2004 tambémsob a sua supervisão. Tenho xi xii que lhe agradecer a sua orienta¸cão e tudo o que me ensinou sobre métodos de aprendiza- gem automática. Manteve-se quase que diariamente presente para acompanhar a evolu¸cão do trabalho mas, ao mesmo tempo, deixou-me seguir o caminho que eu considerava melhor dando-me liberdade e motivando-me para me dedicar a outros temas sem ser estritamente os do Doutoramento. Penso que uma das suas qualidades éconseguir analisar as virtudes e defeitos dos seus colaboradores e tirar rendimento disso. Todas as pessoas têmaptidões para realizar melhores tarefas que outras, formas diferentes de abordar e resolver os prob- lemas e atéhorários de trabalho diferentes onde produzem mais. Ele consegue perceber e tirar partido disso. Nestes anos tenho tambémde referir e agradecer todo o companheirismo dos meus colegas de grupo quer na FCUL quer na FCTUNL. Na FCUL foram meus colegas o Doutor Pedro Celestino e o Doutor Rui Fartaria. O Doutor Celestino apesar do seu percurso conturbado esteve sempre dispon´ıvel para discutir qualquer assunto ajudando-me inúmeras vezes, na realidade sempre que eu realmente precisei. Ao Doutor Fartaria um agradecimento especial. Foi com ele que eu passei mais tempo e a ele devo muitas das coisas que aprendi. Não tanto relativamente àminha investiga¸cão propriamente dita mas sobre tudo o resto que acaba por nos ajudar a aumentar o nosso rendimento e a atingir objectivos mais depressa. Na FCTUNL foram meus colegas Gon¸calo Carrera, Doutor Sunil Gupta, Doutor Q.-Y. Zhang, Doutor Yuri Binev, e Mestre Diana Almeida. Todos contribu´ıram para um ambi- ente de união e de camaradagem dentro do grupo mas por razões de afinidade de trabalho ou pessoais tive mais contacto com os trêsúltimos. Devo agradecer nomeadamente ao Doutor Binev pela ajuda com o software SPINUS e ASNN e ao Doutor Zhang com quem colaborei mais directamente no desenvolvimento do método MOLMAP. Em termos institucionais desejo agradecer às minhas institui¸cões de acolhimento o REQUIMTE, CQFB, Departamento de Qu´ımica da Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa e o CECUL, numa primeira fase, e CCMM, no último ano, ambos do Departamento de Qu´ımica e Bioqu´ımica da Faculdade de Ciências da Universidade de Lisboa. A todos agrade¸coa disponibiliza¸cão das instala¸cões e recursos que me permitiram realizar o trabalho. A` Funda¸cão para a Ciência e Tecnologia agrade¸coo apoio financeiro sob a forma de uma bolsa de Doutoramento (SFRH/BD/18347). Na Tese encontram-se no final de cada Cap´ıtulo, se for caso disso, os Agradecimentos a institui¸cões, entidades ou pessoas que contribuiram de alguma forma relevante mas não directa para o trabalho apresentado no Cap´ıtulo em questão. De uma forma mais geral desejo agradecer às seguintes entidades a disponibiliza¸cão de dados e software usados nesta Tese: • InfoChem GmbH (Munique, Alemanha) pela disponibiliza¸cão do conjunto de dados relativos a reaçcões fotoqu´ımicas extra´ıdo da base de dados SPRESI. xiii • Molecular Networks GmbH (Erlangen, Alemanha) pela disponibiliza¸cão do pro- grama PETRA e base de dados Biopath. • Kyoto University Bioinformatics Center (Kyoto, Japão) pelo acesso àbase de dados KEGG. • ChemAxon Ltd (Budapeste, Hungria) pelo acesso aos programas JChem e Marvin.

Automatic Learning for the Classification of Chemical

(12) United States Patent (10) Patent No.: US 7,381,538 B2 Reardon Et Al

12) United States Patent (10

Covalent Tethering of Functional Groups to Proteins Kovalentes Anbinden Von Funktionsgruppen an Proteine Fixation Covalente De Groupes Fonctionnels À Des Protéines

Recherche Et Caracterisation D'activités

(12) Patent Application Publication (10) Pub. No.: US 2012/0266329 A1 Mathur Et Al

All Enzymes in BRENDA™ the Comprehensive Enzyme Information System

Développement D'une Nouvelle Méthode De Docking Basée Sur Les

(12) Patent Application Publication (10) Pub. No.: US 2015/0240226A1 Mathur Et Al

Generate Metabolic Map Poster

Springer Handbook of Enzymes

Dependent Monooxygenases

Functional and Structural Characterization of a Flavoprotein