Automatic Learning for the Classification of Chemical
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSIDADE NOVA DE LISBOA FACULDADE DE CIENCIASˆ E TECNOLOGIA DEPARTAMENTO DE QU´IMICA AUTOMATIC LEARNING FOR THE CLASSIFICATION OF CHEMICAL REACTIONS AND IN STATISTICAL THERMODYNAMICS DIOGO ALEXANDRE ROSA SERRA LATINO Lisboa 2008 no de arquivo “copyright” UNIVERSIDADE NOVA DE LISBOA FACULDADE DE CIENCIASˆ E TECNOLOGIA DEPARTAMENTO DE QU´IMICA AUTOMATIC LEARNING FOR THE CLASSIFICATION OF CHEMICAL REACTIONS AND IN STATISTICAL THERMODYNAMICS DIOGO ALEXANDRE ROSA SERRA LATINO Tese orientada por: Professor Doutor Jo˜ao Aires de Sousa Professor Doutor Fernando M. S. S. Fernandes Professora Doutora Filomena F. M. Freitas Disserta¸c˜ao apresentada para obten¸c˜ao do Grau de Doutor em Qu´ımica Especialidade de Qu´ımicaOrgˆanica, pela Universidade Nova de Lisboa, Faculdade de Ciˆencias e Tecnologia. Lisboa 2008 Dedicada aos meus pais e av´os Declaration The work presented in this Thesis is based on research carried out at CQFB (Centro de Qu´ımica Fina e Biotecnologia), REQUIMTE, Departamento de Qu´ımica, Faculdade de Ciˆencias e Tecnologia, Universidade Nova de Lisboa and at CCMM (Centro de Ciˆencias Moleculares e Materiais), Departamento de Qu´ımica e Bioqu´ımica, Faculdade de Ciˆencias, Universidade de Lisboa, Portugal. The following Chapters or Sections are based on articles published or submitted during the PhD: • Chapter 5 is based on the article: D. A. R. S. Latino, J. Aires-de-Sousa, “Linking Databases of Chemical Reactions to NMR Data: An Exploration of 1H NMR - Based Reaction Classification”, Anal. Chem. 2007, 79, 854-862. • Chapter 7 is based on the article: D. A. R. S. Latino, J. Aires-de-Sousa, “Genome-Scale Classification of Metabolic Reactions: a Chemoinformatics Approach”, Angew. Chem. Int. Ed. 2006, 45, 2066-2069. • Chapter 8 is based on the article: D. A. R. S. Latino, Q.-Y. Zhang, J. Aires-de-Sousa, “Genome-Scale Classification of Metabolic Reactions and Assignment of EC Numbers with Self-Organizing Maps”, Bioinformatics. 2008, doi:10.1093/bioinformatics/btn405 • Chapter 11 is based on the article: D. A. R. S. Latino, F. F. M. Freitas, J. Aires-de-Sousa, F. M. S. S. Fernandes, “Neu- ral Networks to Approach Potential Energy Surfaces. Application to a Molecular Dynamics Simulation”, Int. J. Quantum Chem. 2007, 107, (11), 2120-2132. • Chapter 12 is based on the article: D. A. R. S. Latino, R. P. S. Fartaria, F. F. M. Freitas, J. Aires-de-Sousa, F. M. S. S. Fernandes, ”Mapping Potential Energy Surfaces by Neural Networks. The Ethanol / Au (111) interface”, J. Electroanal. Chem. in press ix x No part of this Thesis has been submitted elsewhere for any other degree or qualification and all experiments were performed by me unless in the following cases: • In Chapter 8 Subsection 8.3.4 the experiments with chirality codes were done by Dr. Q.-Y. Zhang. • In Chapter 11 Subsection 11.3.2 the Molecular Dynamics simulations were performed by Prof. F. F. M. Freitas. • In Chapter 12 Subsection 12.2.1 the DFT calculations performed for the molecular orientations to be used as test set were performed in collaboration with Dr. R. P. S. Fartaria. During the PhD the following articles were also published: • D. A. R. S. Latino, L. M. V. Pinheiro, F. F. M. Freitas, F. M. S. Silva Fernandes, A. R. T. Calado, “Prediction of Lipophilicity by Feed-Forward Neural Networks using Topological Descriptors”, Revista Portuguesa de Farm´acia, ISSN 0484 - 811 X, Volume LII (no2), 2005. • F. M. S. S. Fernandes, R. P. S. Fartaria, D. A. R. S. Latino, F. F. M. Freitas “Computer Simulation of Solution/Electrode Interfaces”, Port. Electrochim. Acta, ISSN 0872 - 1904, 2008, 26, (1), 1-13. Diogo Alexandre Rosa Serra Latino (Licenciado em Qu´ımica pela Faculdade de Ciˆencias da Universidade de Lisboa) Acknowledgements Depois de um percurso de quatro anos, com bons e maus momentos, s˜ao muitas as pessoas a quem eu deveria agradecer. Como os Agradecimentos numa Tese devem ser dedicados realmente a quem teve maior influˆencia no trabalho vou ent˜ao dedicar-me apenas `as pessoas, ou institui¸c˜oes, que contribuiram mais directamente para o desenrolar da minha investiga¸c˜ao. As minhas primeiras palavras de agradecimento v˜ao para os meus orientadores, a Pro- fessora Doutora Filomena Freitas, o Professor Doutor Fernando Fernandes e o Professor Doutor Jo˜ao Aires de Sousa. Tenho de referir que o meu percurso como investigador na ´area da Quimioinform´atica se iniciou em 2001, no Laborat´orio de Simula¸c˜ao Molecular da FCUL, ainda como aluno de Licenciatura pela ac¸c˜ao da Professora Doutora Filomena Freitas. Foi ela a primeira pessoa que eu contactei demonstrando o meu interesse em realizar o est´agio de final de curso na ´area da Qu´ımica Computacional tendo-me encaminhado para o Professor Doutor Fernando Fernandes. Durante estes anos sempre me apoiou procurando motivar-me nos meus momentos de desˆanimo ou de menor motiva¸c˜ao. Tenho que agradecer todo o tempo que despendeu comigo a discutir o trabalho assim como nas ´ultimas semanas no processo moroso e dif´ıcil de revis˜ao da Tese. Ao Professor Doutor Fernando Fernandes tenho de agradecer o facto de me ter aceite como seu aluno ainda como estagi´ario, quando n˜ao tinha qualquer informa¸c˜ao sobre mim, mas mais que isso, ter-me lan¸cado o desafio da aplica¸c˜ao das redes neuronais artificiais em qu´ımica. O Professor Doutor Fernando Fernandes deu-me a escolher dois temas, um em simula¸c˜ao molecular e outro em aplica¸c˜ao de redes neuronais em qu´ımica, tendo frisado desde logo que relativamente ao ´ultimo esta era uma ´area virgem no grupo e que por isso a sua ajuda n˜ao seria a mesma. Apesar disso, esta foi a ´area pela qual me senti atra´ıdo tendo aceite o seu desafio e continuando a trabalhar nela at´ehoje. Al´emdisso, tenho de agradecer toda a motiva¸c˜ao que sempre me procurou transmitir e a confian¸ca que depositou em mim. Sempre procurou transmitir-me o sentido de individualidade, autonomia e independˆencia procurando que eu trilhasse o meu caminho livre como o vento. Em 2003 conheci o Professor Doutor Jo˜ao Aires de Sousa com o qual iniciamos uma colabora¸c˜ao tendo iniciado o doutoramento em 2004 tamb´emsob a sua supervis˜ao. Tenho xi xii que lhe agradecer a sua orienta¸c˜ao e tudo o que me ensinou sobre m´etodos de aprendiza- gem autom´atica. Manteve-se quase que diariamente presente para acompanhar a evolu¸c˜ao do trabalho mas, ao mesmo tempo, deixou-me seguir o caminho que eu considerava melhor dando-me liberdade e motivando-me para me dedicar a outros temas sem ser estritamente os do Doutoramento. Penso que uma das suas qualidades ´econseguir analisar as virtudes e defeitos dos seus colaboradores e tirar rendimento disso. Todas as pessoas tˆemaptid˜oes para realizar melhores tarefas que outras, formas diferentes de abordar e resolver os prob- lemas e at´ehor´arios de trabalho diferentes onde produzem mais. Ele consegue perceber e tirar partido disso. Nestes anos tenho tamb´emde referir e agradecer todo o companheirismo dos meus colegas de grupo quer na FCUL quer na FCTUNL. Na FCUL foram meus colegas o Doutor Pedro Celestino e o Doutor Rui Fartaria. O Doutor Celestino apesar do seu percurso conturbado esteve sempre dispon´ıvel para discu- tir qualquer assunto ajudando-me in´umeras vezes, na realidade sempre que eu realmente precisei. Ao Doutor Fartaria um agradecimento especial. Foi com ele que eu passei mais tempo e a ele devo muitas das coisas que aprendi. N˜ao tanto relativamente `aminha inves- tiga¸c˜ao propriamente dita mas sobre tudo o resto que acaba por nos ajudar a aumentar o nosso rendimento e a atingir objectivos mais depressa. Na FCTUNL foram meus colegas Gon¸calo Carrera, Doutor Sunil Gupta, Doutor Q.-Y. Zhang, Doutor Yuri Binev, e Mestre Diana Almeida. Todos contribu´ıram para um ambi- ente de uni˜ao e de camaradagem dentro do grupo mas por raz˜oes de afinidade de trabalho ou pessoais tive mais contacto com os trˆes´ultimos. Devo agradecer nomeadamente ao Doutor Binev pela ajuda com o software SPINUS e ASNN e ao Doutor Zhang com quem colaborei mais directamente no desenvolvimento do m´etodo MOLMAP. Em termos institucionais desejo agradecer `as minhas institui¸c˜oes de acolhimento o REQUIMTE, CQFB, Departamento de Qu´ımica da Faculdade de Ciˆencias e Tecnologia da Universidade Nova de Lisboa e o CECUL, numa primeira fase, e CCMM, no ´ultimo ano, ambos do Departamento de Qu´ımica e Bioqu´ımica da Faculdade de Ciˆencias da Universidade de Lisboa. A todos agrade¸coa disponibiliza¸c˜ao das instala¸c˜oes e recursos que me permitiram realizar o trabalho. A` Funda¸c˜ao para a Ciˆencia e Tecnologia agrade¸coo apoio financeiro sob a forma de uma bolsa de Doutoramento (SFRH/BD/18347). Na Tese encontram-se no final de cada Cap´ıtulo, se for caso disso, os Agradecimentos a institui¸c˜oes, entidades ou pessoas que contribuiram de alguma forma relevante mas n˜ao directa para o trabalho apresentado no Cap´ıtulo em quest˜ao. De uma forma mais geral desejo agradecer `as seguintes entidades a disponibiliza¸c˜ao de dados e software usados nesta Tese: • InfoChem GmbH (Munique, Alemanha) pela disponibiliza¸c˜ao do conjunto de dados relativos a reac¸c˜oes fotoqu´ımicas extra´ıdo da base de dados SPRESI. xiii • Molecular Networks GmbH (Erlangen, Alemanha) pela disponibiliza¸c˜ao do pro- grama PETRA e base de dados Biopath. • Kyoto University Bioinformatics Center (Kyoto, Jap˜ao) pelo acesso `abase de dados KEGG. • ChemAxon Ltd (Budapeste, Hungria) pelo acesso aos programas JChem e Marvin.