Vasco Da Rocha Figueiras Algoritmos Para Genómica Comparativa
Total Page:16
File Type:pdf, Size:1020Kb
Universidade de Aveiro Departamento Electrónica, Telecomunicações 2010 e Informática Vasco da Rocha Algoritmos para Genómica Comparativa Figueiras Universidade de Aveiro Departamento de Electrónica, Telecomunicações 2010 e Informática Vasco da Rocha Algoritmos para Genómica Comparativa Figueiras Dissertação apresentada à Universidade de Aveiro para cumprimento dos requisitos necessários à obtenção do grau de Mestre em Engenharia Electrónica e Telecomunicações, realizada sob a orientação científica do Doutor José Luís Oliveira, Professor associado da Universidade de Aveiro. o júri presidente Prof. Doutor Armando José Formoso de Pinho Professor Associado do Departamento de Electrónica, Telecomunicações e Informática da Universidade de Aveiro Prof. Doutor Rui Pedro Sanches de Castro Lopes Professor Coodenador do Departamento de Informática e Comunicações do Instituto Politécnico de Bragança orientador Prof. Doutor José Luis Guimarães de Oliveira Professor Associado do Departamento de Electrónica, Telecomunicações e Informática da Universidade de Aveiro agradecimentos Durante o desenvolvimento desta dissertação, recebi muito apoio de colegas e amigos. Agora que termino o trabalho não posso perder a oportunidade de agradecer a todas as pessoas que me ajudaram nesta etapa. Um agradecimento ao meu orientador Professor Doutor José Luís Oliveira e ao Doutor Miguel Monsanto Pinheiro, pela oportunidade de aprendizagem. À minha família pelo apoio incondicional, incentivo e carinho. Aos meus colegas e amigos por toda a ajuda e pelos momentos de convívio e de descontracção, que quebraram tantas dificuldades, ao longo desta etapa. A ti, Rita por todo o carinho, paciência e amor. palavras-chave Bioinformática, sequenciação, BLAST, alinhamento de sequências, genómica comparativa. resumo Com o surgimento da Genómica e da Proteómica, a Bioinformática conduziu a alguns dos avanços científicos mais relevantes do século XX. A Unidade de Investigação e Desenvolvimento do Biocant, parque biotecnológico de Cantanhede, assume actualmente o papel de motor no desenvolvimento da Genómica. O Biocant possui um importante sequenciador de larga escala que permite armazenar um elevado número de genomas, nomeadamente, genomas de bactérias. O estudo proposto reflecte a necessidade do Biocant construir e usufruir de um sistema de informação que ofereça funcionalidades para comparar genomas de bactérias sequenciadas no Biocant com outras semelhantes ou sequenciadas em outros centros de investigação. O objectivo deste trabalho é implementar algoritmos que viabilizem uma análise estatística e a construção de métodos para visualização de dados que auxiliem a interpretação dos resultados estatísticos que surgem da análise e comparação da estrutura primária de genomas na forma de sequências de proteínas. A comparação dos genomas é realizada através do algoritmo BLASTp, porém foram desenvolvidos outros algoritmos para facilitar a realização do algoritmo, armazenamento dos dados e compreensão dos resultados. Pretende-se que deste estudo resulte não só, a construção de um sistema de informação útil, mas também, uma profunda investigação acerca de algoritmos e ferramentas de genómica comparativa. O estudo realizado foca, especificamente, os algoritmos e ferramentas BLAST, o algoritmo FASTA, aplicações de alinhamento múltiplo e bases de dados de genomas. Adicionalmente, é elaborada uma descrição das tecnologias propostas para o desenvolvimento do sistema de informação Proteo, focando as bibliotecas Java usadas para desenvolvimento de interfaces gráficas de utilizador, e o sistema de gestão de base de dados MySQL. Acreditamos que o presente trabalho poderá representar uma mais-valia para o desenvolvimento de outros estudos e sistemas de informação da área de Bioinformática. keywords Bioinformatics, sequencing, BLAST, sequence alignment, comparative genomics. abstract With the advent of genomics and proteomics, bioinformatics led to some of the most significant scientific breakthroughs of the twentieth century. The Office of Research and Development at Biocant, the biotech park at Cantanhede, has now assumed the leading role in the genomics development. Biocant possesses an important large-scale sequencer that allows the storage of a large number of genomes, including bacteria’s genomes. The proposed study reflects the Biocant’s need to build and make use of an information system that provides functionality to compare the sequenced genomes of bacteria present at Biocant’s R&D facility or against genomes sequenced in other research centers. The main purpose of this work is to implement algorithms that allow a statistical analysis and to build methods for data visualization in order to help the interpretation of the statistical results acquired from the analysis and comparison of the genomes primary structure with a protein sequence format. This comparison is performed using the BLASTp algorithm, but other methods have also been developed to ease the algorithm implementation, data storage and understanding the resulting data. It is our intention that from this study results not only the construction of a useful information system, but also a thorough research on algorithms and tools for comparative genomics. The study focuses, specifically, the BLAST tools and algorithms, the FASTA algorithm, multiple alignment applications and genomes databases. Additionally, it is elaborated a description of the technologies used for developing the Proteo information system, with primary focus on the Java libraries used to develop graphical user interfaces and the system administration of the MySQL database. We believe this work could represent a valuable asset on the development of information systems and new research projects in the Bioinformatics field. Índice Lista de Figuras .................................................................................................................... V Lista de Tabelas ................................................................................................................... IX Lista de Acrónimos .............................................................................................................. XI 1 Introdução ....................................................................................................................... 1 1.1 Enquadramento ....................................................................................................... 2 1.2 Motivação e Objectivos .......................................................................................... 3 1.3 Estrutura da dissertação .......................................................................................... 4 2 Sequências Biológicas .................................................................................................... 5 2.1 Alinhamento de Sequências .................................................................................... 7 2.1.1 Matrizes de Substituição ou score..................................................................... 10 2.2 Conclusão .............................................................................................................. 13 3 Ferramentas para Genómica Comparativa ............................................................... 15 3.1 BLAST .................................................................................................................. 16 3.1.1 O Algoritmo BLAST......................................................................................... 19 3.1.2 Base estatística do BLAST ................................................................................ 24 3.1.3 Relatório BLAST .............................................................................................. 26 3.1.4 BLAST URLAPI ............................................................................................... 30 3.1.5 Map Viewer ....................................................................................................... 31 3.1.6 BLAT - BLAST Like Alignment Tool ............................................................. 31 3.1.7 PSI-BLAST – Position – Specific integrated BLAST ...................................... 31 I 3.1.8 WU-BLAST .......................................................................................................32 3.1.9 BLASTALL .......................................................................................................32 3.1.10 FormatDB ..........................................................................................................34 3.2 FASTA.................................................................................................................. 35 3.3 Software Open-Source para Bioinformática......................................................... 37 3.3.1 BioPerl ...............................................................................................................40 3.3.2 BioPython ..........................................................................................................40 3.3.3 BioJava ...............................................................................................................41 3.4 Bases de Dados de Genomas ................................................................................ 42 3.4.1 GenBank .............................................................................................................44 3.4.2 Swiss-Prot/TrEMBL ..........................................................................................45 3.4.3 PubMed ..............................................................................................................46