Universidade Católica de Brasília Pró-Reitoria de Pós-Graduação e Pesquisa Programa de Pós-Graduação “Stricto Sensu” em Ciências Genômicas e Biotecnologia
“Uma investigação: ESTs (Expressed Sequence Tags) podem ser usados no desenvolvimento de marcadores moleculares baseados em introns?”
Simone de Sá Vasconcelos
Dissertação apresentada ao Programa de Pós-Graduação “Stricto Sensu” em Ciências Genômicas e Biotecnologia, da Universidade Católica de Brasília, como requisito parcial para obtenção do grau de Mestre.
Orientador: David John Bertioli Co-orientador: Wellington Santos Martins Brasília, outubro de 2003
10
“Uma investigação: ESTs (Expressed Sequence Tags) podem ser usados no desenvolvimento de marcadores moleculares baseados em introns?”
Banca examinadora
Orientador: Prof. Dr. David John Bertioli
Co-orientador: Wellington Santos Martins
Prof. Dr. Marcos Mota Costa
Profa. Dra. Maria Sueli Soares Felipe
______
Prof. Dr. Robert Neil Gerard Miller
11
“As pessoas que acham que sabem tudo aquilo que necessitam saber, pararam de aprender.” Philip B. Crosby
Esse trabalho eu dedico aos meu pais, Heraldo e Glória, aos meus irmãos Lorene, Rafael e Henrique e ao Nícolas, pelo carinho e compreensão.
12 AGRADECIMENTOS
• Aos meus pais e irmãos que sempre me apoiaram em toda a minha caminhada.
• Ao Nícolas pela paciência nesses últimos anos.
• Ao meu orientador Dr. David Bertioli pela orientação.
• Ao meu co-orientador Dr. Wellington Martins pela orientação.
• Ao Prof. Dr. Ruy de Araújo Caldas e à Prof.ª Dra. Sueli Felipe pela ajuda, principalmente nos momentos difíceis.
• Aos colegas e amigos que fiz na Universidade Católica de Brasília, em especial, a Vanice, Maria dos Reis, Alexandre que sempre estiveram ao meu lado.
• A amiga Clarissa, que nos últimos dias foi muito mais que uma amiga e sim uma co-orientadora.
• Aos estagiários da Bioinformática, Gabriel e Hélio Kenta.
• Aos funcionários da Universidade Católica de Brasília, em especial, ao André, Fábio, William e Márcia.
• A Msc. Karina Proite e Dra. Patrícia Guimarães pelo auxilio na construção da biblioteca de cDNA.
• A todos que de alguma forma contribuíram nesse mestrado.
13 Índice
Dedicatória ...... 3 Agradecimentos ...... 4 Resumo ...... 8 Abstract ...... 9 1.Introdução...... 10 1.1 Expresssed Sequence Tags (ESTs) ...... 12 1.2 Marcadores Moleculares ...... 15 1.3 Modelo Biológico: Gênero Arachis ...... 18 1.4 A Bioinformática 1.4.1 – Definição ...... 20 1.4.2 – Sistemas Operacionais ...... 20 1.4.3 – Ferramentas para Bioinformática...... 21 1.4.4 – Linguagens de Programação ...... 24 1.4.5 – Desenvolvimento de Marcadores Moleculares com o uso da Bioinformática ...... 25 2. Justificativa ...... 26 3.Objetivos...... 27 4. Material e Métodos ...... 28 4.1- Extração do RNA...... 28 4.2 - Construção do banco de cDNA ...... 28 4.3 - Sequenciamento ...... 31 4.4 – Análise computacional das ESTs ...... 32 5.Resultados...... 38 6. Discussão...... 45 7. Conclusões...... 49 8. Referências Bibliográficas...... 50 Anexos ...... 56
14 Índice de Figuras
Figura 1: Esquema da construção de ESTs ...... 12
Figura 2: Processo de transcrição monstrando a posição dos introns em uma molécula de DNA...... 17
Figura 3: Fluxograma representando o pipeline 1 ...... 34
Figura 4: Fluxograma representando o pipeline 2 ...... 35
Figura 5: Fluxograma representando o pipeline 3 ...... 36
Figura 6: Fluxograma representando o pipeline 4 ...... 37
Figura 7: Gel de quantificação referente a extração de RNA total ...... 38
Figura 8: Gel referente as frações obtidas da cromatografia de gel de filtração ...... 38
Figura 9: Esquema mostrando como foi feito o desenho de primers ...... 39
Figura 10: Análise em gel dos produtos da reação de PCR,utilizando-se os primers PT2F2 e PT2R2 ...... 40
Figura 11: Exemplo de arquivo do tipo Genbank (.gb) ...... 42
Figura 12: Exemplo de arquivo Gene Finding Format (.gff) ...... 44
15 Índice de Tabelas
Tabela 1: Oligonucleotídeos do kit de construção de biblioteca de cDNA SMART IV ...... 29
Tabela 2: ESTs geradas de Arachis stenosperma ...... 41
Tabela 3: Agrupamento de ESTs após CAP3 ...... 41
Tabela 4: Desenho do primer flanqueando introns – A. stenosperma ...... 47
Tabela 5: Desenho do primer flanqueando introns – A. hypogaea ...... 48
16 Resumo
Os recentes avanços tecnológicos na biologia molecular têm possibilitado o desenvolvimento de técnicas poderosas na análise de diversidade genética. O surgimento da técnica baseada na Reação de Polimerase em Cadeia (PCR) levou ao desenvolvimento de marcadores moleculares, que podem ser usados na construção de mapas genéticos, no mapeamento de características de interesses econômicose e no mapeamento comparativo entre diversas espécies. O presente estudo teve como objetivo investigar a possibilidade de desenvolver marcadores moleculares baseados em introns a partir de ESTs (Expressed Sequence Tags) de Arachis stenosperma e de Arachis hypogaea. É sabido que as ESTs têm sido o meio mais rápido de se obter informações das seqüências codificantes a partir dos bancos de DNA complementar (cDNA), podendo ser utilizadas para o desenvolvimento de marcadores moleculares. Ressalta-se que este trabalho constitui uma das etapas do projeto geral de “Busca de genes de resistência contra pragas e patógenos em germoplasma selvagem de Arachis do Brasil”, o qual tem como um dos objetivos identificar, em espécies selvagens de amendoim, fontes de resistência contra pragas e doenças da América do Sul. Uma espécie selvagem que tem se mostrado resistente a fungos e nematóides é A. stenosperma. Sendo assim, no presente trabalho através da produção, sequenciamento e análise computacional das ESTs obtidas em bancos de cDNA de folhas dessa espécie selvagem, desenvolveu-se uma metodologia objetivando a busca de candidatos a marcadores moleculares baseados em introns. Seqüências de ESTs de raiz de A.stenosperma não inoculada e inoculada por Bradiryzobium, assim como seqüências de ESTs de A. hypogaea depositadas no banco de dados dbEST foram usadas nesse estudo. Visando a automatização do processo de busca de marcadores, desenvolveu-se uma ferramenta computacional com a finalidade de encontrar seqüências homólogas contendo introns, assim como o alinhamento dessas sequências com as ESTs correspondentes. De um total de 330 ESTs de A.stenosperma, foi possível a obtenção de 4 candidatos a marcadores baseados em introns, enquanto que para 1.346 ESTs de A. hypogaea foram obtidos 9 possíveis marcadores. Tais informações foram então utilizados para desenhar primers flanqueando introns, que poderão ser testados posteriormente dentro do projeto geral. Sendo assim, através dos resultados preliminares obtidos nessa investigação, há indícios para a possibilidade de se desenvolver marcadores moleculares baseados em introns.
8
17 Abstract
Recent advances in Molecular Biology have allowed the development of powerful techniques for genetic diversity analysis. Use of the Polymerase Chain Reaction (PCR) has greatly facilitated the development of molecular markers for genetic mapping, and comparative mapping of different species. For comparative mapping it is essential to use coding regions of the genome. It is known that ESTs are the most rapid way to obtain information about coding sequences and, therefore, they could potentially be used as a tool for molecular marker development. The main purpose of this work was to investigate the possibility of molecular marker development based on introns from Arachis stenosperma and Arachis hypogaea ESTs
(Expressed Sequence Tags). This work was done as part of a larger project “ THE
IDENTIFICATION OF RESISTANCES TO BIOTIC STRESS IN WILD ARACHIS GERMPLASM, AND THE DEVELOPMENT OF TOOLS FOR BREEDING BY GENETIC
MAPPING AND COMPARATIVE GENOMICS.” , which has as one of its purposes to identify, among wild peanut species, sources of resistance against South American pests and diseases. It has been shown that. A stenosperma is a wild South American species that has resistance against fungi and nematodes. Therefore, in the present work, through the production, sequencing and computer analysis of ESTs obtained from an A stenosperma leaf cDNA databank, we were able to develop a molecular marker candidate search methodology based on introns. ESTs from A.stenosperma root inoculated or not with Bradiryzobium, as well as ESTs from A. hypogaea obtained from dbEST databank, were also used in this study. In order to automate the marker searching process, a computational tool for searching for homologues with specific introns, and the alignment between them and their correspondent ESTs, was developed. From 330 ESTs of A.stenosperma, we were able to find 4 markers candidates based on introns, while from 1346 A. hypogaea, we identified 9 candidates. These markers were used to design primers flanking introns that can be tested in the general project. Therefore, through the preliminary results obtained from the present investigation, there is evidence that it is possible to develop molecular markers based on introns.
18 1. Introdução
No início do século XXI, a ênfase da biologia molecular passou do estudo de genes individuais para o estudo de genomas inteiros. Essa mudança foi possível graças ao desenvolvimento, durante a década de 1990, de métodos para o sequenciamento de grandes genomas. O sequenciamento de genomas começou antes da última década do século XX, com o primeiro genoma do fago φX174, que foi completado em 1975; mas o primeiro genoma de um organismo de vida livre, o da bactéria Haemophilus influenzae, teve seu sequenciamento concluído apenas 20 anos depois, em 1995. Os cinco anos seguintes constituíram-se em um divisor de águas, com a publicação das seqüências dos genomas de quase 50 outras bactérias, juntamente com as seqüências completas de genomas maiores, tais como o da levedura, o da mosca-das-frutas, o de Caenorhabditis elegans, o da Arabidopsis thaliana e o humano (Brown, 2003).
Grandes projetos genomas que foram desenvolvidos ou que ainda estão em desenvolvimento no mundo inteiro têm como objetivos a descoberta e a descrição de genes; os principais, referem-se aos genomas microbianos, de plantas e humano. Existem vários centros governamentais e privados especializados no sequenciamento desses genomas. Como exemplo, o TIGR (The Institute for Genoma Research – O Instituto para Pesquisa de Genomas) (http://www.tigr.org), que mantém muitos bancos de dados específicos de genoma, enfatizando as ESTs (Expressed Sequence Tags) em vez dos dados genômicos completos. Há outros centros de genomas, como TAIR (The Arabidopsis Information Resource), MGI (Medicago Genome Initiative), Sanger Center, dentre outros tantos. Uma lista completa de sequenciamento dos genomas que estão sendo estudados ou já foram completados pode ser encontrada no banco de dados GOLD (Genomes Online Database – Banco de Dados On-Line de Genomas), um site mantido pela Integrated Genomics, Inc. (Bernal et al, 2001).
Encontram-se hoje em andamento no Brasil mais de 10 projetos de genoma de bactérias e fungos, que buscam informações que auxiliem o desenvolvimento de tecnologias para tratamento de doenças em seres humanos e animais, e de soluções para combater pragas na agricultura.
19 O primeiro projeto genoma no Brasil levado a conhecimento público foi desenvolvido em São Paulo com o apoio da Fundação de Amparo às Pesquisas do Estado de São Paulo (FAPESP). No ano de 1997, essa fundação criou uma rede virtual responsável pelo sequenciamento e análise de nucleotídeos denominado ONSA ( Organization for Nucleotide Sequencing and Analysis), que inclusive tem financiado projetos científicos na área genômica.
Entre os projetos financiado pela FAPESP está o da Xylella fastidiosa (Simpson et al.,2000), patógeno responsável pela “praga do amarelinho” nas lavouras de laranja. Com este projeto o País entrou para a história pelo primeiro sequenciamento de um fitopatógeno. A partir deste projeto, outros mais ambiciosos surgiram, como o Genoma da Cana-de-açúcar, o Genoma do Câncer Humano (HCGP) - em colaboração com o Instituto Ludwig e o Genoma do Eucalipto (Genolyptus), dentre outros.
Após o sequenciamento completo do genoma, a etapa seguinte consiste em localizar todos os genes e determinar todas as suas funções. É nessa área que a bioinformática, às vezes chamada de biologia molecular in silico, está provando a sua relevância, notadamente como um complemento aos experimentos convencionais.
20 1.1 Expressed Sequence Tags (ESTs)
Nos últimos anos, o desenvolvimento de materiais e técnicas para o sequenciamento rápido e preciso de um grande número de amostras de DNA tem possibilitado o sequenciamento sistemático de genoma completo (Cooke et al., 1996). O meio mais rápido para se obter informações das seqüências codificantes é realizar o sequenciamento parcial de DNA complementar (cDNA). As etiquetas de seqüências expressas, ou ESTs (Expressed sequence tags), são seqüências geradas da construção de bibliotecas de cDNA que corresponde a um mRNA (Figura 1) (Adams et al., 1991). As seqüências são de tamanhos pequenos, variando em média de 200 – 800 pares de bases.
Figura 1: Esquema da construção de ESTs (Adaptação do site: http://binfo.ym.edu.tw/yang/talks/gen_ann/sld007.htm)
21 Como os ESTs geralmente são seqüenciados uma única vez, as seqüências podem apresentar freqüência maior de erros, do tipo deleções, substituições e inserções de bases, quando comparadas às seqüências de cDNA determinada por múltiplas leituras em ambas as fitas (Wolfsberg & Landsman, 1997). O sequenciamento pode ser realizado pela extremidade 5’, 3’, ou ambas. A maioria das seqüências ESTs disponíveis hoje têm sido derivadas da extremidade 5’. Obter seqüências de cDNA de boa qualidade da extremidade 3’ em larga escala tem apresentado bastante dificuldade em função do deslizamento da enzima DNA polimerase usado no PCR e no sequenciamento no tracto poliA:poliT. Quando se opta por apenas uma das extremidades, é dada preferência à extremidade 5’ devido à menor extensão da região não traduzida (Rodrigues, 2001).
Outro problema tem sido o risco de contaminação por outros organismos (bactérias ou fungos) de materiais de plantas usados para preparar bibliotecas de cDNA (Cooke et al., 1996), o qual precisa ser analisado e descartado para que se possa dar continuidade com a análise das seqüências. Um cuidado especial é também necessário durante a preparação do tecido que irá ser feito à biblioteca para se evitar esse tipo de contaminação, embora nesse trabalho não tenha sido prioridade, pois um dos objetivos do projeto geral “Busca de genes de resistência contra pragas e patógenos em germoplasma selvagem de Arachis do Brasil” é comparar raiz não inoculada com raiz inoculada por uma bactéria nitrificante Bradyrhizobium.
Como o número de seqüências obtidas em laboratório está aumentando, novos bancos de dados estão surgindo. No NCBI (National Center for Biotechnology Information) (http://ncbi.nlm.nih.gov), o banco de dados dbEST, o qual é uma divisão do Genbank, contém seqüências e informações de ESTs de alguns organismos. Até setembro de 2003 estavam registradas 18.140.083 seqüências de mais de 400 organismos neste banco (http: //ncbi.nlm.nih.gov/dbEST). Os bancos de dados do TIGR podem ser pesquisados por seqüência, identificador de EST, nome da biblioteca de cDNA, tecido ou nome do produto de gene, usando uma interface de Web simples, baseada em formulários (Gibas & Jamberck, 2001).
22 Nos últimos anos, um grande número de ESTs de leguminosas tem sido depositado em banco de dados públicos. Até setembro de 2003, existiam 341.573 ESTs de Glycine max (soja), 187.763 ESTs de Medicago truncatula, 36.262 ESTs de Lotus japonicus e 1346 de Arachis hypogaea no GenBank do NCBI. O Medicago Genome Initiative (MGI) é um banco de dados de EST de Medicago truncatula, um organismo que pode servir como modelo para soja e outras leguminosas economicamente importantes (Bell et al, 2001).
A disponibilidade de uma extensiva informação de ESTs para muitas espécies, em conjunto com as seqüências completas de Arabidopsis thaliana e Oriza sativa, e que se encontram disponíveis no banco de dados do NCBI, permitirá melhor compreensão sobre a questão de quão similar são os genomas de plantas superiores (Somerville & Somerville, 1999). A comparação de seqüências de ESTs com seqüências conhecidas de A. thaliana e O. sativa, em determinados casos, permite a identificação de pequenas regiões altamente conservadas e que podem ser usadas para definir primers únicos ou degenerados para a amplificação de seqüências homólogas em outros organismos (Cooke et al., 1996).
Segundo Rounsley e colaboradores (1996), apesar do alto valor informativo obtido com o uso de ESTs, existem limitações inerentes à sua natureza genética. O tamanho de cada seqüência é pequeno, geralmente em torno de 400 pares de bases. Esse fator pode afetar a utilidade de informações EST para identificação de genes. Além do fato de que dados de seqüências de EST são geralmente obtidos de clones de bibliotecas de cDNA escolhidos de forma aleatória, resultando em genes altamente expressos sendo seqüenciados múltiplas vezes. Essa redundância pode ser reduzida pelo uso de bibliotecas normalizadas em que a freqüência de genes altamente expressa é reduzida pela hibridização subtrativa (Patanjali et al., 1991).
23 1.2. Marcadores Moleculares
Há anos atrás, devido à baixa quantidade de marcadores genéticos de plantas, a capacidade de realizar mapeamento genético detalhado era extremamente limitada. Segundo Rafalski e colaboradores (1996), marcadores fenotípicos clássicos eram abundantes em poucas espécies bem caracterizadas como em milho e ervilha, e suas utilidades eram restritas pela baixa resolução dos mapas produzidos e pela grande quantidade de tarefas requeridas para gerar e usar esses marcadores. Com o advento das técnicas modernas de biologia molecular, marcadores moleculares que detectam polimorfismo genético diretamente ao nível de DNA (ácido desoxirribonucleico) foram desenvolvidos. Marcadores moleculares podem ser definidos como uma “marca”, ou um meio de se visualizar a presença ou ausência de uma seqüência específica de DNA dentro do genoma. Os marcadores de DNA têm aplicação direta em estudos de genética de populações, mapeamento e análise de similaridade e distância genética. Também, as marcas de DNA podem ser usadas para impressão digital de DNA (DNA fingerprinting), isto é, visando à identificação de acessos de plantas ou de isolados de um microorganismo, ou para completar estudos de sistemática (Lopes, 2002). Os distintos tipos de marcadores moleculares hoje disponíveis diferenciam-se pela tecnologia utilizada para revelar variabilidade em nível de DNA, e assim mudam quanto à habilidade de detectar diferenças entre indivíduos, custo, facilidade de uso, consistência e repetibilidade. Os principais tipos de marcadores moleculares podem ser classificados em dois grupos, conforme a metodologia utilizada para identificá-los: hibridização ou amplificação. Entre os identificados por hibridização estão os marcadores RFLP (Restriction Fragment Length Polymorphism) e minisatélites ou locos VNTR (Variable Number of Tandem Repeats). Já aqueles revelados por amplificação incluem os marcadores do tipo RAPD (Random Amplified Polymorphic DNA); SCAR (Sequence Characterized Amplified Regions); STS (Sequence Tagged Sites); Microssatélite (SSR - Single Sequence Repeats) e AFLP (Amplified Fragment Length Polymorphism). O sequenciamento em larga escala, principalmente no estudo dos genomas funcionais, tem gerado um grande número de seqüências, principalmente ESTs. Isto abriu inúmeras possibilidades para o desenvolvimento de marcadores moleculares baseados nas seqüências descobertas, como por exemplo, os ESTP (Expressed Sequence Tag
24 Polymorphism – Polimorfismo de Seqüência Expressa Marcada). Segundo Milach e colaboradores (2002) o desenvolvimento desses consiste no desenho de primers específicos para cada seqüência e no teste em diversos genótipos para determinação da utilidade das seqüências obtidas. Matthews e colaboradores (2001), no estudo com Glycine max (soja), consideraram os ESTs como marcadores valiosos para traçar e isolar genes que controlam características fenotípicas importantes economicamente. O sequenciamento genômico em larga escala e o sequenciamento de ESTs proporcionam também a oportunidade de avaliar a distribuição relativa e abundante de microssatélite em regiões transcritas e não transcritas (Morgante et al., 2002; Thiel et al, 2003). Uma forma de explorar mais informações das seqüências de DNA genômico é desenvolver primers de reações de PCR (iniciadores de reações de amplificação) que objetivam regiões específicas do gene, com vista a determinar que regiões possuem variação suficiente do comprimento do produto de amplificação para serem usadas como marcadores moleculares. Seqüências de DNA genômico (em contraste com o cDNA) de bancos de dados públicos, freqüentemente indicam as posições de exons, introns e regiões promotoras. Conseqüentemente, essas informações podem ser usadas para desenvolver primers que flanqueam exons, introns ou regiões promotoras de genes conhecidos com elevada especificidade. Com essas informações, Holland e colaboradores (2001) desenvolveram marcadores moleculares baseados em exons, introns, regiões promotoras e microssatélites em milho e introns e seqüências repetitivas em aveia, que permitiram a detecção de polimorfismo quando usaram primers flanqueando essas regiões específicas. As regiões excisadas na formação do RNA mensageiro foram denominadas por Gilbert em 1978 como intron (Figura 2). Os introns são regiões intragênicas alternadas com regiões expressas – exons. Segundo Yu e colaboradores (2002) o polimorfismo inserção- deleção na região intrônica revela a tentativa de manter o tamanho do intron. Os resultados da análise de expressão em leveduras mostraram que uma quantidade mínima de introns podem afetar a maturação do mRNA na maquinaria bioquímica do splicing, e na exportação do mRNA do núcleo.
25
Figura 2: Processo de transcrição monstrando a posição dos introns em uma molécula de DNA (Adaptada de Brown, 2003).
Marcadores moleculares estão sendo desenvolvidos para a análise de genomas do gênero Arachis para estudos de mapeamento genético, seleção assistida por marcadores e descoberta de genes. Estudos com microssatélites (He et al., 2003), RAPD (Lanham et al., 1992; Garcia et al., 1995;; Burow et al., 1996; Raina et al., 2001) e RFLP (Halward et al., 1992; Garcia et al., 1996) já foram realizados com estes objetivos.
26 1.3 Modelo Biológico: Gênero Arachis
O gênero Arachis (família Leguminosae, subfamília Papilionidae) é originário da América do Sul, provavelmente do sudoeste do Mato Grosso do Sul, no Brasil ou nordeste do Paraguai, onde ainda também se encontram as espécies com maior divergência basal dentro da árvore filogenética Arachis guaranitica e Arachis tuberosa (Simpson et al, 2001). Esse gênero se distingue claramente de outros representantes da família por possuir uma estrutura particular de frutificação (o ginóforo ou “peg”) com desenvolvimento geocárpico - formação subterrânea das vagens (Godoy et al., 1989).
Em nível citológico, todas as espécies selvagens situam-se em apenas dois níveis de ploidia, o diplóide (2n=20) e o tetraplóide (2n=40). Baseados na morfologia e nos cruzamentos interespecíficos, o gênero Arachis encontra-se dividido nas seguintes seções: Trierectoides, Erectoides, Extranervosae, Triseminatae, Heteranthae, Caulorrhizae, Procumbentes, Rhizomatosae e Arachis (Krapovickas & Gregory, 1994). Destas seções, a Arachis mostra maior interesse econômico por abrigar o amendoim comum (Arachis hypogaea) (Veiga et al, 2001).
As espécies selvagens da seção Arachis, em sua maioria, são diplóides (2n=20) e se caracterizam por apresentarem alto polimorfismo genético (Kochert et al., 1991; Halward et al., 1992; Stalker et al, 1994). O maior interesse pela prospecção, resgate e caracterização de germoplasma das espécies silvestres de Arachis reside em seu potencial de fornecimento de genes úteis para o melhoramento do amendoim cultivado (Stalker, 1992). Do ponto de vista de utilização em programas de melhoramento genético, as espécies selvagens possuem características desejáveis não encontradas nos cultivares comerciais. Santos (1999) aponta como características principais à alta resistência ao estresse hídrico e a algumas doenças de importância econômica, bem como a rica qualidade da proteína encontrada nas sementes de algumas espécies.
O amendoim é caracterizado por alto teor de óleo e proteínas, e baixo teor de carboidratos. O maior percentual de proteínas do gênero foi encontrado na espécie selvagem A. stenosperma (Grosso et al., 2000), que é uma espécie anual, prolífera e com sementes menores que do A. hypogea (Valls, 1997).
27 No Brasil, doenças foliares do amendoim causadas pelos fungos Cercospora arachidicola, (mancha castanha), Cercosporidium personatum (mancha preta) e Puccinia arachidis (ferrugem), permanecem sendo fatores limitantes importantes no rendimento da produção do amendoim. Elas reduzem a área das folhas disponíveis para a fotossíntese, resultando em um decréscimo na habilidade para produzir e converter os produtos da fotossíntese, o que pode reduzir a produção das sementes (Nutter & Shokes, 1995).
A espécie selvagem A. stenosperma apresenta resistência ao nematóide das galhas Meloidogyne arenaria raças 1 e 2 (Nelson et al., 1989; Garcia et al.,1996 ; Leal-Bertioli et al., 1999) e aos fungos Cercospora arachidicola, Cercosporidium personatum (Wyne et al., 1991) e Puccinia arachidis (Subrahmanyam et al., 1983) candidatanto-se, então, a ser uma espécie adequada para a busca de genes de resistência e a introgressão de resistência em A.hypogaea. Lembra-se que a introgressão é feita mais eficientemente com o uso de marcadores moleculares.
O volume de dados gerados para estudos como este é tão grande, que realizar manualmente a análise das informações obtidas está se tornando inviável, demandando a necessidade de utilizar-se ferramentas da bioinformática para automatizar o processo de análise. Muitas dessas ferramentas estão disponívies gratuitamente na Web, mas outras podem ser desenvolvidas pelo próprio pesquisador que tenha conhecimento em linguagem de programação.
28 a. A Bioinformática
1.4.1 Definição
O termo bioinformática foi criado por Hwa Lim no final da década de 80, e popularizado na década de 90, através da sua relação com o projeto genoma humano (Goodman, 2002). A bioinformática pode ser definida como a área da ciência que envolve todos os aspectos da aquisição, processamento, armazenamento, distribuição, análise e interpretação de informação biológica. Os estudos em bioinformática combinam diferentes técnicas e ferramentas da matemática, computação e biologia, e têm como objetivo agilizar e facilitar a análise e compreensão da imensa quantidade e variedade de dados biológicos experimentais e mesmo clínicos (Sousa et al., 2001).
Segundo Luscombe e colaboradores (2001), os objetivos da bioinformática são três. O primeiro consiste na organização dos dados de forma que permita o pesquisador acessar as informações existentes e submeter novas entradas que são produzidas. O segundo objetivo é desenvolver ferramentas e recursos que auxiliem a análise dos dados. O terceiro é o uso dessas ferramentas para analisar dados e interpretar os resultados de uma maneira biologicamente significante.
1.4.2 Sistemas Operacionais
O sistema operacional (SO) é o principal programa de um computador. É o que atua como intermediário entre o usuário e os componentes físicos da máquina (hardware), fornecendo ao usuário um ambiente na qual ele possa executar e desenvolver programas.
Os SOs mais conhecidos e utilizados são aqueles baseados no Windows, Unix e MacOS. Muitas das aplicações utilizadas em bioinformática são compiladas e distribuídas para a execução em plataformas derivadas do Unix.
A preferência por sistemas baseados em Unix deve-se ao fato de que tais sistemas serem normalmente mais confiáveis, gerenciarem melhor o trabalho com grandes quantidades de dados e, em algumas de suas variantes como o Linux, possuem código aberto e distribuições gratuitas.
29 1.4.3 Ferramentas para a Bioinformática
Os métodos computacionais para a busca de genes transformaram-se em uma ferramenta cada vez mais importante nos últimos anos. Enquanto o ritmo de sequenciamento do genoma cresceu com o surgimento dos seqüenciadores automáticos de DNA, a necessidade para métodos rápidos da descoberta do gene tornou-se maior. A seqüência do genoma é justamente o começo de um grande esforço para compreender as funções de um organismo, e o primeiro e mais crítico passo desse processo é a identificação acurada de todos os genes e de suas proteínas associadas (Pertea e Salzberg, 2002).
1.4.3.1 Nomeação de bases (base calling)
Um dos primeiros desafios computacionais no processo de sequenciamento é a interpretação do padrão de fragmentos em um gel de sequenciamento. Esse processo de interpretação dos dados brutos provenientes do sequenciador automático é conhecido como nomeação de bases, ou base calling. Se esta etapa não produzir uma seqüência de DNA correta, qualquer análise subseqüente da seqüência será afetada. A maioria das seqüências depositadas em um banco de dados públicos é afetada por erros de base calling devido a ambigüidades no resultado do seqüenciador ou ao mau funcionamento do equipamento (Gibas & Jambeck, 2001).
Um pacote de software não comercial de base calling é o Phred (Ewing & Green, 1998; Ewing et al., 1998), que dá valores de qualidade às seqüências dentro de um determinado trecho conforme os picos sejam bem nítidos e separados, permitindo uma boa atribuição de nucleotídeos a esta posição da seqüência. As pontuações inseridas nos arquivos de saída do PHRED representam a probabilidade logarítmica negativa em escala de erro de um base calling; portanto, quanto maior o valor de qualidade do PHRED, menor a probabilidade de ter ocorrido um erro. Como exemplo, um valor de PHRED 20 para uma determinada posição nucleotídica, significa que ela apresenta 1 chance em 100 de estar errada.
30 1.4.3.2. Mascaramento de vetores
As seqüências obtidas após o sequenciamento podem apresentar contaminações com regiões correspondentes aos vetores de clonagem (fagos, plasmídeos e outros utilizados na construção de bibliotecas de cDNA) que devem ser descartadas antes de se dar continuidade às análises. O Cross_Match é um software utilizado para comparações entre seqüências de DNA e que permite o mascaramento de vetores nessas seqüências (Green, 1999). O Cross_Match compara a seqüência de DNA com um arquivo de seqüência de vetores, onde o programa encontra similaridade entre as seqüências, ele mascara (substituindo pela letra X) a seqüência de entrada, evitando que essa região mascarada afete os processos posteriores de análise computacional.
1.4.3.3. Montagem de seqüências
Depois de se obter os fragmentos curtos de uma seqüência, eles devem ser montados em uma seqüência completa. Ferramentas, como Phrap (Green, 1999), CAP3 (Huang & Madan, 1999) e TIGR assembler (Sutton et al., 1995), são utilizadas para reunir seqüências contíguas em uma única seqüência, operação esta também conhecida como montagem de fragmentos. Na análise de seqüências de ESTs, Liang e colaboradores (2000) consideram CAP3 como a melhor ferramenta, pois apresenta seqüências consensos de alta fidelidade que serão analisadas para a anotação. A seqüência consenso é uma seqüência nucleotídica utilizada para descrever um grande número de seqüências relacionadas, mas não idênticas. Cada posição da seqüência de consenso representa o nucleotídeo mais freqüentemente encontrado naquela posição nas seqüências reais.
31 1.4.3.4 Consulta de seqüência em banco de dados biológicos
Hoje, um método adequado para inferir a função biológica de um gene (ou a proteína que ele codifica) é pela procura de similaridade em banco de dados de DNA e proteínas. A procura por similaridade é uma das principais técnicas usadas pelos biólogos. As ferramentas mais conhecidas para esses propósitos são o BLAST (Basic Local Alignment Search Tool) (Altschul, 1990) e o FASTA (Pearson, 1998), que efetuam comparações entre pares de seqüências, procurando por regiões de similaridade local. O BLAST tem sido mais usado na análise de similaridade devido ao tempo de execução ser menor quando comparado ao FASTA.
O BLAST consiste em um conjunto de programas de busca de similaridade criado para explorar todos os bancos de dados de seqüências disponíveis em relação a proteína e o DNA Ele executa comparações de seqüências em pares, procurando regiões de similaridade local, ao invés de alinhamentos globais ótimos entre as seqüências inteiras. Uma pesquisa do BLAST em um banco de dados de seqüências dá como resultado uma lista de candidatos similares à seqüência submetida juntamente com os alinhamentos dos segmentos correspondentes. O BLAST fornece três informações que permitem a interpretação dos resultados: pontuações brutas, pontuações de bits e valores E (‘e-value’) (Astchul et al., 1990; http:// www.ncbi.hlm.nih.gov).
A pontuação bruta para um alinhamento de seqüência local é a soma das pontuações de pares de segmentos de pontuação máxima (MSPs) que compõem o alinhamento. Devido a diferenças entre matrizes de pontuação, as pontuações brutas nem sempre são comparáveis diretamente. As pontuações de bit são pontuações brutas convertidas a partir da base de registro 2. Este novo escalonamento permite que as pontuações de bit sejam comparadas entre os alinhamentos (Gibas & Jambeck, 2001).
A significância de cada alinhamento pode ser estimada pelos valores expressos como “valores E”, uma vez que cada alinhamento pode ocorrer aleatoriamente. Um valor “E” indica o número de alinhamento que pode ser encontrado com uma pontuação maior do que ou igual à pontuação de alinhamento observada em uma pesquisa de um banco de dados utilizado na busca. Quanto menor o valor E, maior a garantia da similaridade entre as seqüências. Porém, essa análise requer um exame criterioso antes que seja aceita como significativa, uma vez que altas pontuações podem ocorrer devido ao pareamento de regiões com baixa complexidade decorrentes de erros no sequenciamento ou regiões repetitivas ( www.ncbi.hlm.nih.gov/BLAST).
32 O BLAST disponível no NCBI apresenta cinco subtipos de programas desenvolvidos para buscar similaridades entre seqüências de nucleotídeos e proteínas nos bancos de dados biológicos. O BLASTn analisa a seqüência de nucleotídeo gerada, comparando-a com seqüências de nucleotídeos depositadas no banco de dados; já no BLASTx, a seqüência de nucleotídeo é traduzida nas seis possíveis fases de leitura e a análise é feita contra banco de proteínas; o BLASTp compara a seqüência de proteína submetendo-a a outras seqüências de proteínas dos bancos; o TBLASTx, traduz a seqüência de nucleotídeos nas seis possíveis fases de leitura e faz a análise contra um banco de nucleotídeos também traduzidos nas seis fases de leitura; e por fim, o TBLASTn, compara a seqüência da proteína contra bancos de nucleotídeos traduzido nas seis fases de leitura.
O alinhamento simultâneo de muitos nucleotídeos ou seqüências de aminoácidos é hoje uma ferramenta essencial em biologia molecular. Alinhamentos múltiplos são usados para caracterizar famílias de proteínas, detectar ou demonstrar homologia entre novas seqüências e famílias existentes de seqüências, desenhar primers para PCR (Reação em Cadeia de Polimerase), como um prelúdio essencial para análises moleculares evolucionárias. Um programa utilizado para este propósito é o CLUSTALW (Thompson et al., 1994) que está gratuitamente disponível para uma grande variedade de computadores e sistemas operacionais.
1.4.4 Linguagens de programação
Há uma grande variedade de ferramentas de software para bioinformática, como as citadas acima, mas em certas situações desenvolver o seu próprio programa pode tornra a análise dos dados mais rápida, uma vez que este programa irá extrair apenas as informações necessárias para esta situação. Existem muitas linguagens de programação para este propósito. Gibas & Jambeck (2001) avaliaram os softwares de bioinformática escritos em Java, C, FORTRAN e PERL, e concluíram que PERL é a linguagem mais prática para escrever programas que analisem uma grande quantidade de dados textuais, pois é necessário um tempo menor de programação para extrair dados utilizando PERL do que C ou Java.
33 PERL (Practical Extraction and Report Language – Linguagem Prática para Extração e Relatórios) é uma linguagem de programação criada por Larry Wall em 1987, muito usada em áreas como a bioinformática e programação de web. Muitos dos programas de bioinformática desenvolvidos em PERL são específicos para um laboratório ou instituição em particular e são escritos para uso imediato. Porém em 1995, surgiu um projeto denominado BIOPERL que reúne programas rotineiramente usados em bioinformática na análise e anotação de dados biológicos e que estão disponíveis gratuitamente na WEB. Para Stajich e colaboradores (2002) os módulos do BIOPERL têm sido usados com sucesso por reduzir tarefas complexas a códigos com poucas linhas.
1.4.5 Desenvolvimento de Marcadores Moleculares com o uso da Bioinformática
Genomas, principalmente de eucariotos, contêm um grande número de seqüências repetitivas, como os microsatélites, os quais são utilizados como marcadores moleculares. Para a busca dessas seqüências no genoma de um organismo, programas como Tandem Repeat Occurence Locator (TROLL) (Castelo et al, 2002) e Sputnik (Abajian, 1994) foram desenvolvidos, possibilitando o desenvolvimento de marcadores moleculares.
34 2. Justificativa
Como já foi dito anteriormente, este trabalho se integra ao projeto de “Busca de genes de resistência contra pragas e patógenos em germoplasma selvagem de Arachis do Brasil”, apoiado pela Comunidade Européia e pelo PRODETAB (“The Agricultural Technology Development Project for Brazil”). Um dos objetivos do referido projeto é identificar, em espécies selvagens de amendoim, fontes de resistência contra pragas e doenças na América do Sul. As pragas e doenças visadas são as causadas pelos fungos Cercospora arachidicola (mancha castanha, brown spot), Cercosporidium personatum (mancha preta, black spot), Puccinia arachidis (ferrugem, rust) e pelos nematóides do gênero Meloidogyne. As construções de bancos de dados de ESTs deverão resultar na identificação de genes que possam desempenhar importantes funções, incluindo genes envolvidos na resistência a pragas e patógenos, e no desenvolvimento de marcadores moleculares. A espécie escolhida para este trabalho foi A. stenosperma, pois tem mostrado significativa resistência aos fungos C. personatum e C. arachidicola e aos nematóides do gênero Meloidogyne.
35 3. Objetivos
• Propor uma metodologia para o desenvolvimento de marcadores moleculares baseados em introns utilizando ESTs de Arachis stenosperma não inoculado e inoculado por Bradyrhizobium sp. e de A. hypogaea.
• Desenvolvimento de uma ferramenta computacional para automatizar o processo de busca de marcadores moleculares baseados em introns.
36 4. Material e Métodos
A planta utilizada nas construções das bibliotecas de cDNA de folhas e raízes foi Arachis stenosperma acesso V10309. A semente fazia parte da coleção mantida na Embrapa Recursos Genéticos e Biotecnologia. Os procedimentos para a germinação da semente incluíram lavagem em uma solução fungicida (Thiran 0,05%) e, em seguida lavagem com Ethrel 1% para quebra da dormência e indução da germinação. A semente foi colocada em papel filtro umedecido com água destilada e levada para uma câmara com 100% de umidade e temperatura 25o.C. Após 10 dias, a plântula recém germinada foi transferida para um vaso definitivo.
4.1 Construção de biblioteca de cDNA de folhas de Arachis stenosperma
Embrapa Recursos Genéticos e Biotecnologia
Extração do RNA
O RNA total de folhas (100 mg) foi extraído com a utilização do Rneasy Plant Mini kit (Qiagen/USA). O RNA foi analisado em sua qualidade pela eletroforese em gel de agarose 1% em TAE (Tris-acetato 40mM e EDTA pH 8,0 1mM) corado com brometo de etídeo (1%). Como foi observada a presença de uma banda de DNA no gel, foi feita uma limpeza com DNAse (Pharmacia).
Banco de cDNA
A construção do banco de cDNA foi feito com SMART cDNA Library Construction Kit (Clontech/UK), desenvolvido para a construção de bibliotecas a partir de pequena quantidade de RNA. O kit SMART (Switching Mechanism At 5’ end of RNA Transcript) apresenta dois protocolos para obtenção da biblioteca dependendo do material a ser usado ( RNA total ou mRNA) : Long-Distance PCR (LD-PCR) e Primer Extension . Para esse trabalho foi escolhido o LD-PCR, pois foi utilizado RNA total (1 µg). A primeira etapa consiste na síntese da primeira fita, na qual foram usados 3 µl de RNA total. Um primer oligo (dT), denominado 3’CDS III PCR primer, é utilizado na síntese da fita simples de cDNA. Quando a transcriptase reversa (RT – MMLV – “Moloney murine
37 leukemia virus) alcança a extremidade 5’ do mRNA, é adicionado uma pequena quantidade de citosinas a fita complementar ao mRNA. Então, o oligonucleotídeo SMART IV contendo guanina na extremidade 3’ pareia com a extensão contendo citosina, criando um novo molde para a enzima RT. Essa enzima liga os moldes e continua sintetizando até o final do oligonucleotídeo. A fita simples de cDNA contém a extremidade 5’ completa do mRNA, assim como a seqüência complementar ao oligonucleotídeo SMART IV, que então serve um adaptador, o qual possui um sítio para anelamento do primer 5’ na amplificação por LD- PCR. Somente esses cDNAs contendo adaptadores na extremidade 5’ podem servir como molde e podem ser amplificados. Por meio dos oligonucleotídeos 3’CDS III PCR primer e do SMART IV, o cDNA fita dupla tem incorporado sítios de restrição assimétricos ( A e B) para a enzima de restrição Sfi I nas extremidades 3’ e 5’.
Tabela 2: Oligonucleotídeos do kit de construção de biblioteca de cDNA SMART IV
Oligonucleotídeo SMART IV
5’ AAGCAGTGGTATCAACGCAGAGTGGCCATTACGGCCGGG 3’
CDS III/3’ PCR primer
5’ ATTCTAGAGGCCGAGGCGGACATG –d(T)30 N-1N 3’ 5’ PCR primer
5’ AAGCAGTGGTATCAACGCAGAGT 3’
A reação de LD-PCR inicia-se com a desnaturação a 95 ºC por 2 minutos, seguido de um número de ciclos por 10 segundos a 95 ºC (desnaturação) e 6 minutos a 68 ºC (anelamento). O número de ciclos variou de 18 a 26 ciclos. Amostras dos produtos desses ciclos foram retiradas e observadas em gel de agarose (1%) com brometo de etídio em tampão TAE 1X, para visualizar qual era o menor número de ciclo capaz de produzir um produto para ser visualizado, evitando assim, amplificação excessiva dos transcritos mais expressos. Para a inativação da atividade da DNA polimerase, o cDNA fita dupla foi tratado com a proteinase K conforme o protocolo do fabricante. Já na purificação e concentração do cDNA houve uma modificação do protocolo, substituindo o fenol:clorofórmio:álcool
38 isoamílico por uma coluna de purificação da Amicon – Millipore. Com o produto purificado foi feita a digestão enzimática com Sfi I. O fracionamento do cDNA foi feito em cromatografia de gel de filtração (CHROMA SPIN – 400, Clontech). Dezessete frações da cromatografia foram coletadas e analisadas em gel de agarose (1%)/brometo de etídio em tampão TAE 1X. As frações selecionadas foram reunidas. Com 1.5 µl de cDNA concentrado, foi feita a ligação deste ao vetor λTriplEx2 que contém as extremidades assimétricas para ligação dos fragmentos gerados pela digestão com Sfi I. Para o empacotamento do fago lambda recombinante, foi adicionado 5 µl da ligação ao extrato de empacotamento (Gigapack III Gold Packaging Extract – Stratagene) seguindo a orientação do fabricante. Para a titulação e amplificação dos bancos de cDNA, foram utilizadas células de Escherichia coli XL – 1 Blue, cultivadas em meio LB sólido com tetraciclina (15 µg/ml). A partir dessa cultura, uma colônia isolada foi transferida para 15 ml de LB líquido com MgSO4 10 mM e maltose 0,2% em shaker a 37oC durante à noite. As células foram centrifugadas a
5000 rpm por 5 minutos e o pellet ressuspendido em 6 ml de MgSO4 10 mM. Antes do uso, as células foram diluídas para uma concentração determinada por uma leitura em 600 nm,
OD600 = 0,5 em MgSO4 10 mM. Em tampão SM foram feitas diluições 1:10 as bibliotecas de cDNA. Foram adicionados 1µl, 5µl e 10µl da diluição a 200 µl de células a uma OD600 = 0,5 e a 3 ml de top o ágar a 45 C. Essas amostras foram vertidas em placas de petri com LB + MgSO4 , deixadas durante 10 minutos em temperatura ambiente, e incubadas a 37oC por 7 horas, para visualização das placas de lise isoladas. O título obtido na construção do banco de cDNA ficou em torno de 109 pfu/ml. As placas de lise isoladas foram coletadas aleatoriamente utilizando-se ponteiras de micropipeta de 200 µl cortadas. Os clones foram colocados em 50 µl de SM em microplaca de policarbonato de 96 poços acrescidos de 3 µl de clorofórmio. Os fagos foram eluídos durante a noite a 4 oC. Duas bibliotecas de cDNA de raízes foram construídas como parte da tese de doutorado da aluna Karina Proite pela Universidade de Brasília. Uma biblioteca foi montada com raiz inoculada por uma bactéria nitirificante, do gênero Bradyrhizobium e a outra com raiz não inoculada. Alguns dados do sequenciamento de ESTs dessas bibliotecas foram cedidos para a busca de marcadores moleculares baseados em introns.
39 4.2 Sequenciamento
Laboratório de Biotecnologia Genômica - UCB
A partir da solução de eluição dos fagos em tampão SM foi feita uma reação em cadeia de polimerase (PCR), a qual será utilizada para a reação de sequenciamento. Os primers utilizados na reação de PCR foram primers específicos que flanqueiam a região de inserção do cDNA no vetor, são eles: PT2F2 (5’ GCGCCATTGTGTTGGTACCC 3’) e PT2R2 (5’ CCGCATGCATAAGCTTGCTC 3’). Para a reação, foi utilizado: 1,5 µl da suspensão de fagos eluídos a partir de uma placa de lise; 0,5 µl do primer PT2F2 (10µm) (Invitrogen); 0,5 µl do primer PT2R2(10µm) (Invitrogen); 0,25 µl de dNTP (20mM); 1U Taq Polimerase Recombinante (Pht); 1,5 µl Tampão 10X IB (Pht) em 25 µl volume final da reação. A reação foi feita no formato de microplacas de 96 poços nos termocicladores Mastercycler Gradient e GeneAmp com o seguinte programa: 3 minutos a 75oC, denaturação inicial a 94oC por 3 minutos, seguidos de 32 ciclos de 1 minuto a 94oC, 1 minuto a 49oC, 3 minutos a 72oC, e após os ciclos, 2 minutos a 72oC. Após a reação de amplificação, a porcentagem de clones amplificados foi verificada em gel de agarose (1%) corado com brometo de etídio em tampão TBE 1X. O produto do PCR foi utilizado diretamente na reação de sequenciamento. Esta reação foi realizada de acordo com os seguintes parâmetros: 1 µl do produto de PCR; 1 µl do primer PT2F2 (3,2 pmol/µl), 2 µl do “premix” do kit DYEnamic ET – Dye terminator cycle sequencing kit (Amersham - Pharmacia), volume final de 10 µl da reação. A reação foi submetida a amplificação por PCR a 25 ciclos de 20 segundos a 95o.C, 15 segundos a 50o.C e 1 minuto a 60 oC. O sequenciamento foi feito no sequenciador ABI 377 (Applied Biosystems).
40 4.3 Análise computacional de ESTs
Laboratório de Bioinformática - UCB
As seqüências de ESTs resultantes do sequenciamento foram analisadas no Laboratório de Bioinformática da Universidade Católica de Brasília, o qual está equipado com computadores operando em sistema Linux, o qual é uma versão gratuita e de código aberto do Unix. Para a análise dessas foi desenvolvida uma ferramenta computacional para automatizar o processo de busca por seqüências genômicas homólogas às de ESTs contendo introns em banco de dados públicos. Para a montagem dessa ferramenta foram instalados no computador os seguintes programas: PHRED, CROSS_MATCH, CAP3, CLUSTALW, GDE e módulos do BIOPERL, os quais estão disponíveis gratuitamente na web. A ferramenta computacional foi desenvolvida em PERL e consiste de quatro etapas denominadas pipeline1, pipeline2, pipeline3 e pipeline 4 (ANEXO). Nessas etapas, o usuário pode alterar alguns parâmetros de acordo com o resultado que ele quer obter, como por exemplo, o “e value” (extreme value distribution), o qual é um parâmetro do BLAST, que tem importância na análise de similaridade entre seqüências. Na primeira etapa (pipeline 1), os cromatogramas resultantes do sequenciamento são processados com o programa PHRED. As seqüências com boa qualidade (pelo menos 250 bases com pontuação acima ou igual 20) são então processadas pelo programa CROSS_MATCH para retirada de possíveis vetores. Então, as seqüências mascaradas são montadas pelo programa CAP3 que gera agrupamentos baseados na similaridade das seqüências, e obtém como resultado arquivos com seqüências consenso (contigs) e seqüências únicas (singlets) em formato FASTA (Figura 3). O resultado do pipeline 1 é a entrada para o pipeline2, o qual roda o BLASTn remoto contra DNA genômico e obtém arquivos do tipo gb (Genbank) e gff ('Gene-Finding Format' ou 'General Feature Format') correspondente as seqüências homólogas (Figura 4). Nessa etapa, para cada seqüência homóloga com boa pontuação (e-value <= 1e-10), seu registro Genbank correspondente é buscado e armazenado localmente. É feita então a conversão do formato genbank para o formato gff, para facilitar a busca por característica de cada seqüência, como por exemplo, a localização de introns. Nessa etapa (pipeline 3) (Figura 5), com os resultados do BLASTN gerados na fase anterior é montado um relatório com as informações de cada seqüência homóloga. Para cada resultado BLAST, cada uma das ocorrências (hits), assim como os pares de segmentos
41 com pontuação máxima (HSP’s – High-scoring Segment Pair) são analisados. Quando um hit é analisado, o arquivo gff da seqüência em questão também é analisado para verificar se existe região anotada como codificadora (CDS) nas vizinhanças do HSP. Caso seja, é verificado se existe intron anotado também. Caso positivo, os HSPs subseqüentes são analisados quanto a sua posição relativa ao HSP anterior. O programa procura por HSPs flanqueando introns. Como resultado desta fase, a ferramenta produz arquivos, formato FASTA, com seqüências homólogas às do ESTs (contigs e singletons), e arquivos contendo seqüências formadas por fragmentos (correspondentes aos HSPs) de ESTs concatenadas com introns obtidos das seqüências genômicas homólogas. Com os arquivos gerados no pipeline3 foram utilizados os programas ClustalW, Primer3 e Mview, para a produção de alinhamento múltiplo e desenho de primers, flanqueando a região intrônica, respectivamente. Nesta etapa também é produzido um arquivo auxiliar com a posição dos introns obtidos das seqüências genômicas homólogas (Figura 6). Na etapa descrita acima, houve uma intervenção manual no ajuste dos parâmetros para que os primers adequados fossem obtidos. Antes de fazer o alinhamento múltiplo, as seqüências geradas foram traduzidas nas seis leituras no programa EMBOSS Transeq (http://www.ebi.ac.uk/emboss/transeq/). Então, todas as seis leituras foram alinhadas com as seqüências homológas. A leitura com melhor alinhamento foi escolhida para o desenho de primers. Com as ESTs da biblioteca de folhas, considerando PHRED > 20 e número de bases >= 250, foram inferidas as funções dessas ESTs executando BLASTX contra os bancos de proteínas nr (não redundante) do NCBI. Atualmente 1346 seqüências no formato FASTA de A. hypogaea estão depositadas no banco de dados dbEST, essas também foram utilizadas para o desenvolvimento de marcadores moleculares baseados em introns.
42
Figura 3: Fluxograma representando o pipeline 1.
43 Contigs + Singlets
Blastn vs DNA genômico
Descatada e < 1e-10
Arquivos do tipo .gb
Converte arquivo .gb em .gff
Armazena em um único arquivo
Figura 4: Fluxograma representando o pipeline 2.
44
Falso Enquanto existir resultados blast Fim Verdadeiro
Lê próximo resultado blast
Falso Enquanto existir ocorrências (hits)
Verdadeiro
Lê próximo hit
Lê arquivo gff correspondente ao hit e armazena características
Seleciona somente características vizinhas ao hit
Não Existe sequência codificadora (CDS) na região?
Sim
Não Existe intron na região delimitada pelo CDS?
Sim
Enquanto existir Falso HSP faça
Verdadeiro
HSP é oposto ao Armazena proteína Não primeiro HSP com Sim correspondente e cria um intron no meio? máscara para visualizar introns no alinhamentos
Figura 5: Fluxograma representando o pipeline 3.
Arquivo multi- Arquivo resultado Arquivo fasta com fasta com do blast para contig/singleton sequências de contigs e acrescido de intron proteínas singletons
Roda Roda MVIEW Roda PRIMER3 C LUSTALW
Figura 6: Fluxograma representando o pipeline 4
5. Resultados
5.1 Construção da biblioteca de cDNA de folha
Na extração da amostra de RNA total pelo protocolo da Qiagen, houve contaminação com DNA (Figura 8), o qual foi retirado com DNase (Pharmacia). As bandas mais fortes representam o RNA ribossomal.
DNA
Figura 7: Gel de agarose (1%/brometo de etídio) de quantificação referente à extração de RNA total. Poço 01 marcador 1Kb ladder e Poço 02 amostra de RNA total.
Na realização do LD-PCR o número de ciclos variou de 18 a 26. Apenas os produtos das reações de 26 ciclos apresentaram uma boa visualização em gel de agarose 1%./brometo de etídio, o mesmo foi utilizado para dar continuidade ao procedimento da construção da biblioteca de cDNA. Foram obtidas 17 frações da cromatografia de gel de filtração (Chroma Spin 400) e analisadas em gel de agarose 1%/brometo de etídio. As frações maiores visualizadas no gel nos poços de 8-10 foram reunidas para a construção da biblioteca (Figura 9).
Figura 8: Gel de agarose 1% referente as frações obtidas da cromatografia de gel de filtração. Poço 01: marcador 1 kb ladder, Poços 08, 09 e 10 : frações da cromatografia de gel de filtração.
5.2. Sequenciamento
Para fazer o PCR a partir da solução de eluição dos fagos obtidos dos bancos de cDNA, foram construídos 2 primers que flanqueavam o sítio de clonagem do cDNA : PT2F2 e PT2R2 (Figura 9).
PT2F2
PT2R2
Figura 9: Esquema mostrando como foi feito o desenho de primers.
Após a amplificação, os produtos foram visualizados em gel de agarose 1%/brometo de etídio para a estimar a porcentagem de clones amplificados, como pode ser observado na figura 10. De um total de 404 reações, somente 161 foram usadas para a reação de sequenciamento, pois os produtos de PCR apresentavam a quantidade de massa de DNA entre 10-20 ng.
Folha
Figura 10: Análise em gel de agarose 1% dos produtos da reação de PCR,utilizando-se os primers PT2F2 e PT2R2. Poços 16, 45,71 e 90: marcador Low DNA Mass Ladder.
5.3 Análise Computacional das ESTs
A ferramenta computacional desenvolvida para a análise das ESTs de raízes e folha possibilitou automatizar o processo de busca de marcadores moleculares baseados em introns, reduzindo com isso o tempo de análise. Para a análise das ESTs, os cromatogramas foram reunidos em três arquivos de acordo com o tecido : PlacaML (folha), PlacaRI (raiz inoculada) e PlacaRN (raiz não inoculada). Na primeira etapa do processamento (pipeline 1), 161 cromatogramas de ESTs de folhas ; 192 de raiz inoculada e 318 de raiz não inoculada, resultantes da reação de sequenciamento, foram analisadas no programa PHRED, considerando as seqüências de boa qualidade com pelo menos 250 bases com pontuação >=20 (Tabela 2).
Tabela 2: ESTs geradas de Arachis stenosperma No. de fragmentos de ESTs Seqüenciadas Após PHRED Placa ML 161 81 Placa RN 318 154 Placa RI 192 95 TOTAL 671 330
Após a verificação da qualidade de cada base, e retirada das seqüências de baixa qualidade, foi realizado o mascaramento do vetor pelo programa Cross_Match. Poucas seqüências continham vetor, pois os primers desenhados flanqueavam os sítios de clonagem e evitaram a contaminação com o vetor. No passo seguinte foi feita a montagem pelo programa CAP3 que produziu agrupamento (cluster) baseados na similaridade das seqüências. Dois resultados foram produzidos: contigs e singlets (Tabela 3).
Tabela 3: Agrupamento de ESTs após CAP3 No. de No. de fragmentos de ESTs ESTs Seqüenciadas Após PHRED Placa ML 81 161 81 Placa RN 95 318 154 Placa RI 154 192 95 TOTAL 330 671 330
No resultado da PlacaML dos 10 contigs, 7 contigs foram formados com 2 seqüências, 1 com 5 seqüências e 1 com 8 seqüências (ANEXO). Na Placa RI tiveram 7 contigs com 2 seqüências, 4 contigs com 3 seqüências e 1 contig com 5 seqüências. Já na PlacaRN, dos 22 contigs, 18 contigs tiveram 2 seqüências, 5 contigs com 3 seqüências e 2 contigs com 5 seqüências.
Os arquivos no formato FASTA dos contigs e singlets foram utilizados como entrada para o pipeline3. Neste pipeline, houve a busca de seqüências homólogas aos contigs e singlets. Os parâmetros escolhidos para essa busca foram: e-value = 1e-10; Banco de dados não redundante (nr) contra DNA genômico e BLASTn. As seqüências homólogas obtidas tiveram seu registro Genbank correspondente (Figura 11), armazenado localmente, e logo em seguida, convertido para arquivo do tipo gff (Figura 12) que armazena características, como posição de introns.
Figura 11: Exemplo de arquivo do tipo Genbank (.gb)
LOCUS GTU39858 1084 bp DNA linear PLN 29-NOV- 1995 DEFINITION Glycine tabacina ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit precursor (rbcS) gene, nuclear gene encoding chloroplast protein, complete cds. ACCESSION U39858 VERSION U39858.1 GI:1079739 KEYWORDS ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit; rbcS. SOURCE Glycine tabacina ORGANISM Glycine tabacina Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; rosids; eurosids I; Fabales; Fabaceae; Papilionoideae; Phaseoleae; Glycine. REFERENCE 1 (bases 1 to 1084) AUTHORS Cao,K., Ji,J. and Gu,Q. TITLE Cloning and Structure Analysis of rbcS Gene from Two Wild Soybean (G.tabacina & G.tomenella) JOURNAL Unpublished (1995) REFERENCE 2 (bases 1 to 1084) AUTHORS Xiao,C. TITLE Direct Submission JOURNAL Submitted (02-NOV-1995) Chuan Xiao, Fudan University, Biochemistry, Handan Road 220#, Shanghai, 200433, People's Republic of China FEATURES Location/Qualifiers source 1..1084 /tissue_type="leaf" /clone="pBG43" /strain="pw0043" /organism="Glycine tabacina" /db_xref="taxon:44016" /mol_type="genomic DNA" gene 17..1084 /gene="rbcS" mRNA join(17..235,425..559,838..>1084) /gene="rbcS" exon 17..235 /gene="rbcS" 5'UTR 17..64 /gene="rbcS" CDS join(65..235,425..559,853..1083) /product="ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit precursor" /gene="rbcS" /EC_number="4.1.1.39" /protein_id="AAA82071.1" /codon_start=1 /translation="MASSMISSPAVTTVNRAGAGTVAPFTGLKSMAGFPTRKTNNDIA
SIASNGGRVQCMQVWPTTGKKKFETLSYLPDLDDAQLAKEVEYLLRKGWIPCLEFELE
HGFVYREHHRSPGYYDGRYWTMWKLPMFGCTDASQVLKELQEAKTAYPNAFIRIIGFD NVRQVQCISFIAYKPPSF" /db_xref="GI:1079740" transit_peptide 65..229 /gene="rbcS" mat_peptide join(230..235,425..559,853..1080) /product="ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit" /gene="rbcS" /EC_number="4.1.1.39" intron 236..424 /gene="rbcS" exon 425..559 /gene="rbcS" intron 560..852 /gene="rbcS" exon 853..>1084 /gene="rbcS" BASE COUNT 308 a 240 c 218 g 318 t ORIGIN 1 gagcagaagc ttggatatct ggcagcagaa aaacaagaag ttgcgaacta agaaggagaa 61 ggaaatggct tcctcaatga tctcctcccc agctgttacc accgtcaacc gtgccggtgc 121 cggcacggtt gctccattca ctggcctcaa atccatggct ggcttcccca ccaggaagac 181 caacaatgac attgcctcca ttgctagcaa cggtggaaga gtgcaatgca tgcaggtaag 241 acaactctac acatatacac acatgaggca ccaaaacgtt taaaattcac tattcacatt 301 tatttagctc ctaaatgtta cttaaattca catgattgca tatggttaaa ttaaaatgat 361 tgcatatgga aaatgtgcac atgtgcatgt ttgttaactc acttttcttc atgcaaatta 421 ctaggtgtgg ccaacaactg gcaagaagaa gttcgagact ctttcctact tgccagacct 481 cgatgatgcc caattggcaa aggaagtcga ataccttcta aggaagggat ggattccttg 541 cttggaattc gagttggagg tcaatttctt gtaacccctt ttggtttaat catagatttt 601 cttagtctta gtttgtttca acttaatttc aagaaataat cgcttctctt gctaccgtgc 661 taaaagtact tttggaaaca aaacaaaaaa tggttttgtt ccaaaatcta agtttattta 721 acagattttt ctatctgaga gttatcaata tgtatcaaat ctattcctat ctccgaccaa 781 atgctattct tccaaaacaa gcacttggtt ttgaggtttg atggttgatc tgtttgttgt 841 gtttgtttac agcacggttt tgtgtaccgt gagcaccaca ggtcaccagg atactatgat 901 ggacgctact ggaccatgtg gaagctgcct atgtttggct gcactgatgc ttctcaggtg 961 ttgaaggagc ttcaagaggc taagactgca taccccaacg ccttcatccg tatcatcgga 1021 ttcgacaacg ttcgccaagt gcaatgcatc agcttcatcg cctacaagcc cccaagcttc 1081 taag //
Figura 12: Exemplo de arquivo Gene Finding Format (.gff)
SEQ EMBL/GenBank/SwissProt source 1 1084 . + . tissue_type leaf
; clone pBG43 ; strain pw0043 ; organism "Glycine tabacina" ; db_xref "taxon:44016" ; mo l_type "genomic DNA" SEQ EMBL/GenBank/SwissProt gene 17 1084 . + . gene rbcS SEQ EMBL/GenBank/SwissProt mRNA 17 1084 . + . gene rbcS SEQ EMBL/GenBank/SwissProt exon 17 235 . + . gene rbcS SEQ EMBL/GenBank/SwissProt 5'UTR 17 64 . + . gene rbcS SEQ EMBL/GenBank/SwissProt CDS 65 1083 . + . product "ribulos e 1,5-bisphosphate carboxylase/oxygenase small subunit precursor" ; gene rbcS ; EC_number "4. 1.1.39" ; protein_id "AAA82071.1" ; codon_start 1 ; translation MASSMISSPAVTTVNRAGAGTVAPFTG LKSMAGFPTRKTNNDIASIASNGGRVQCMQVWPTTGKKKFETLSYLPDLDDAQLAKEVEYLLRKGWIPCLEFELEH GFVYREHHRSPGYYDGRYWTMWKLPMFGCTDASQVLKELQEAKTAYPNAFIRIIGFDNVRQVQCISFIAYKPPSF ; db_xref "GI:1079740" SEQ EMBL/GenBank/SwissProt transit_peptide 65 229 . + . gene rbc SEQ EMBL/GenBank/SwissProt mat_peptide 230 1080 . + . product "ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit" ; gene rbcS ; EC_number "4.1. 1.39" SEQ EMBL/GenBank/SwissProt intron 236 424 . + . gene rbcS SEQ EMBL/GenBank/SwissProt exon 425 559 . + . gene rbcS SEQ EMBL/GenBank/SwissProt intron 560 852 . + . gene rbcS SEQ EMBL/GenBank/SwissProt exon 853 1084 . + . gene rbcS
O resultado do Blastn da PlacaML mostrou que 32 singlets e 4 contigs não apresentaram similaridade com outras seqüências depositadas no banco de dados nr. Pôde-se observar que mais de 60% das seqüências homólogas é da mesma família do Arachis stenosperma, a família das leguminosas; e se referem a informações genéticas contidas no cloroplasto (ANEXO). O programa utilizado para busca de proteínas similares foi o BLASTx e o banco de dados não redundantes considerando o valor do e-value 1e-10. As seqüências submetidas a esta análise apresentaram similares a outras seqüências depositadas nestes bancos de dados. Das 53 seqüências únicas (singlets), 34 apresentaram similaridade; e dos 10 contigs, 7 apresentaram similaridade. A maioria das seqüências apresentou similaridade com informações genéticas relacionadas a fotossíntese (ANEXO). A partir das seqüências de ESTs de A. hypogaea foram obtidas nove candidatos a marcadores moleculares baseados em introns. Os resultados de BLASTn e BLASTx das seqüências das Placas RN e RI não serão descritos e só foram usados como testes da metodologia descrita acima.
6. Discussão
O protocolo LD-PCR do kit SMART IV utilizado na construção da biblioteca de cDNA permite a utilização de RNA total, o que pode gerar clones com seqüências de RNA ribossomal, como pôde ser observado no resultado do BLASTx – nr da Placa ML. A contaminação pode ser evitada utilizando RNA mensageiro na construção da biblioteca. O resultado do BLASTx pode ter sido influenciado pelo número de ciclos do LD-PCR, pois pelo protocolo acima citado, com a quantidade de RNA total obtida, o número de ciclos sugerido seria entre 18 – 20, mas como não foi visualizado nenhum produto no gel de agarose, aumentou-se o número de ciclos até 26 ciclos, podendo assim, visualizar o produto. O aumento no número de ciclos do LD-PCR muda a proporção de diferentes cDNAs, por exemplo, seqüências menores são mais representadas. Este estudo investigou 161 ESTs de folha, 192 ESTs de raiz inoculada com Bradyrhizobium sp. e 318 de raiz não inoculada, porém em torno de 50 % das seqüências de cada tecido, foram rejeitadas na primeira etapa de análise quando usados os parâmetros PHRED>20 e tamanho de seqüência de pelo menos 250 bases. Este fato pode ser devido as ESTs serem geradas diretamente dos produtos de PCR, sem fazer uma purificação antes do sequenciamento. Na busca de seqüências homólogas as ESTs de folha no BLASTx, foi observado que as funções dessas seqüências homólogas, em sua maioria, estão relacionadas com fotossíntese, a qual ocorre no cloroplasto. Cada célula vegetal tem em média, de 10 a 100 cloroplastos, que reflete a importância da fotossíntese nas folhas. Cada cloroplasto contém um genoma de DNA, uma molécula circular que contém genes para a fotossíntese, transporte de elétrons e síntese de proteínas do cloroplasto. O cpDNA é transmitido maternalmente na maioria das plantas, exceto nas gimnosperma onde a herança é paterna (Suzuki et al,1992). Embora, a maioria das proteínas é codificada no núcleo e tem herança Mendeliana. Isso demonstra que marcadores para mapeamento genético devem ser derivados de DNA nuclear. Segundo Carrer (1998) o sequenciamento do genoma do cloroplasto tem importância fundamental para o conhecimento dos genes que participam dos caminhos metabólicos, no estudo da interação dos genes nucleares que se expressam nos cloroplastos e apresenta fundamentos para análise do sistema evolutivo da organela nos vegetais. Existem pelo menos de 500 a 1000 genes nucleares que se expressam nos
cloroplastos após síntese pré-protéica nos ribossomos do citoplasma. Dos genes codificados no plastídio, em torno de 50 estão envolvidos na transcrição dos genes plastidiais como rRNA, tRNA, genes de proteínas ribossomais e gene da RNA polimerase. Os genes relacionados com o metabolismo vegetal são aproximadamente 40 e formam complexos com genes nucleares, codificando componentes do sistema fotossintético. Dos ESTs encontrados neste trabalho com funções relacionadas com fotossíntese podemos destacar as seguintes ESTs com similaridade a: rubisco, fotossistema I e II, plastocianina e ubiquitina. Nos últimos anos, o uso de ESTs para desenvolver marcadores moleculares tem sido descrito em vários trabalhos ( Harushima et al., 1998; Morgante et al., 2002; Broughton et al., 2003). Em alguns trabalhos ( Powell et al., 1995;Doyle et al, 1998) os autores descrevem a busca de marcadores baseados em microssatélites do DNA do cloroplasto (cpDNA) para estudos de variação genética, para entender padrões de diferenciações entre populações de plantas. O RFLP também tem sido usado na análise de cpDNA, Parducci & Szmidt (1999) estudaram esse método para detectar variação interespecífica no gênero Abies e para estudar como a variação foi distribuída em diferentes regiões do genoma. Marcadores moleculares baseados em introns não são muito estudados, e isto foi visto quando foi feita a revisão bibliográfica sobre esse assunto e somente foi encontrado um trabalho com milho e aveia feito por Holland e colaboradores (2001), no qual eles utilizaram banco de dados de seqüências para a construção de marcadores moleculares baseados em introns, exons e regiões promotoras. Os procedimentos de construção de bibliotecas de cDNAs e análise destas utilizando ferramentas da bioinformática para automatizar o processo, permitiram investigar a possibilidade de usar ESTs para buscar marcadores moleculares baseados em introns. Para essa investigação foi escolhida a espécie Arachis stenosperma, uma espécie selvagem do gênero Arachis que apresenta resistência a pragas e patógenos. Além disso, foi desenvolvido um programa para análise dos dados. Algumas questões devem ser discutidas antes da construção de um programa para análise de dados biológicos, como por exemplo, qual a linguagem que o programa deve ser escrito, quais os parâmetros que devem ser considerados para obter um resultado confiável, se existem programas já desenvolvidos para este tipo de problema, entre outros.
Para o desenvolvimento do programa, nesse estudo foi escolhida a linguagem PERL, pois tem uma sintaxe flexível (Gibas & Jambeck, 2001), necessitaria de um tempo menor de programação e programas já escritos poderiam ser utilizados, como módulos do BIOPERL (Stajich et al, 2002). Outro parâmetro discutido foi a escolha do tipo de BLAST a ser usado na busca de similaridade no pipeline 2. O BLASTn foi escolhido devido a possibilidade de restringir a busca somente para DNA genômico, o que facilitou encontrar as seqüências homólogas que apresentavam regiões intrônicas. O resultado da busca de seqüências homólogas que continham introns monstrou que quatro ESTs de A. stenosperma e nove ESTs de A. hypogaea possuíam seqüências homólogas, que puderam ser utilizadas na busca de marcadores moleculares baseados em introns (Tabelas 4 e 5). Nos resultados do pipeline 3 e 4, ajustes manuais tiveram que ser feitos a fim de minimizar falhas na edição do programa no alinhamento múltiplo da seqüência de EST com as seqüências homólogas para assim, poder inferir o local de retirada de um intron na seqüência de mRNA, e com isso desenhar primers que flanqueiam essa região para testá-los em DNA genômico.
Tabela 4: Desenho do primer flanqueando introns – A. stenosperma
Seqüências Forward Primer Reverse Primer
As1ML1P1D12 – Placa ACTCGCCGATTACAA TCATCTTATCCTGATT ML CATCC GTAT Contig 4 – Placa ML TGGAAGAGTCCAATG TCGTTCAGGTCTGGC CATGA AAGTA
AS1RI2P1D02 – Placa RI AGGAAGGAATCCCAC AGCCATCAAAGAAGG CTGAT CTCAA
Contig22 – Placa RN GCGAGCACATGACTG TCTGTTCTTGATCTGT ATCTC GTTCTTTCA
Tabela 5: Desenho do primer flanqueando introns – A. Hypogaea
Seqüências Forward Primer Reverse Primer
CD038286 TGGAATGGATGATGG GGGGCTTTTCTGGGT AGATG AGTCT CD038517 TTGTTGGTGATGCTG CGAAAAGTTTTGGCT GTGTT GCTGT CD038536 CTGTGCAGCAAAGGC TGACCATCATCCATC TGATA ACAAGA CD038473 GCAGGAGCTAAGGCA GTGTGGTTGAGGTTG CD038568 GCTCGATGCTCAACC ACCTTGCAATCGTAC TGAGT CCAAG CD038575 TTTCTTCTCCCTCGTC ACACCACCTCCCAGA
CD 038835 TCACTGTTGGTGATG AATTCACAGTGCTCC GTGCT CATCC Contig 38 CCTGCCACCTATGAC GTAACCAAGGATGCC GAAAT CTTCA Contig 168 CAACGGTGGAAGAGT GGAACCCATCCCTTC CCAAT CTTAG
7. Conclusão