Uma Investigação: Ests (Expressed Sequence Tags) Podem Ser Usados No Desenvolvimento De Marcadores Moleculares Baseados Em Introns?”

Universidade Católica de Brasília Pró-Reitoria de Pós-Graduação e Pesquisa Programa de Pós-Graduação “Stricto Sensu” em Ciências Genômicas e Biotecnologia

“Uma investigação: ESTs (Expressed Sequence Tags) podem ser usados no desenvolvimento de marcadores moleculares baseados em introns?”

Simone de Sá Vasconcelos

Dissertação apresentada ao Programa de Pós-Graduação “Stricto Sensu” em Ciências Genômicas e Biotecnologia, da Universidade Católica de Brasília, como requisito parcial para obtenção do grau de Mestre.

Orientador: David John Bertioli Co-orientador: Wellington Santos Martins Brasília, outubro de 2003

“Uma investigação: ESTs (Expressed Sequence Tags) podem ser usados no desenvolvimento de marcadores moleculares baseados em introns?”

Banca examinadora

Orientador: Prof. Dr. David John Bertioli

Co-orientador: Wellington Santos Martins

Prof. Dr. Marcos Mota Costa

Profa. Dra. Maria Sueli Soares Felipe

______

Prof. Dr. Robert Neil Gerard Miller

“As pessoas que acham que sabem tudo aquilo que necessitam saber, pararam de aprender.” Philip B. Crosby

Esse trabalho eu dedico aos meu pais, Heraldo e Glória, aos meus irmãos Lorene, Rafael e Henrique e ao Nícolas, pelo carinho e compreensão.

12 AGRADECIMENTOS

• Aos meus pais e irmãos que sempre me apoiaram em toda a minha caminhada.

• Ao Nícolas pela paciência nesses últimos anos.

• Ao meu orientador Dr. David Bertioli pela orientação.

• Ao meu co-orientador Dr. Wellington Martins pela orientação.

• Ao Prof. Dr. Ruy de Araújo Caldas e à Prof.ª Dra. Sueli Felipe pela ajuda, principalmente nos momentos difíceis.

• Aos colegas e amigos que fiz na Universidade Católica de Brasília, em especial, a Vanice, Maria dos Reis, Alexandre que sempre estiveram ao meu lado.

• A amiga Clarissa, que nos últimos dias foi muito mais que uma amiga e sim uma co-orientadora.

• Aos estagiários da Bioinformática, Gabriel e Hélio Kenta.

• Aos funcionários da Universidade Católica de Brasília, em especial, ao André, Fábio, William e Márcia.

• A Msc. Karina Proite e Dra. Patrícia Guimarães pelo auxilio na construção da biblioteca de cDNA.

• A todos que de alguma forma contribuíram nesse mestrado.

13 Índice

Dedicatória ...... 3 Agradecimentos ...... 4 Resumo ...... 8 Abstract ...... 9 1.Introdução...... 10 1.1 Expresssed Sequence Tags (ESTs) ...... 12 1.2 Marcadores Moleculares ...... 15 1.3 Modelo Biológico: Gênero Arachis ...... 18 1.4 A Bioinformática 1.4.1 – Definição ...... 20 1.4.2 – Sistemas Operacionais ...... 20 1.4.3 – Ferramentas para Bioinformática...... 21 1.4.4 – Linguagens de Programação ...... 24 1.4.5 – Desenvolvimento de Marcadores Moleculares com o uso da Bioinformática ...... 25 2. Justificativa ...... 26 3.Objetivos...... 27 4. Material e Métodos ...... 28 4.1- Extração do RNA...... 28 4.2 - Construção do banco de cDNA ...... 28 4.3 - Sequenciamento ...... 31 4.4 – Análise computacional das ESTs ...... 32 5.Resultados...... 38 6. Discussão...... 45 7. Conclusões...... 49 8. Referências Bibliográficas...... 50 Anexos ...... 56

14 Índice de Figuras

Figura 1: Esquema da construção de ESTs ...... 12

Figura 2: Processo de transcrição monstrando a posição dos introns em uma molécula de DNA...... 17

Figura 3: Fluxograma representando o pipeline 1 ...... 34

Figura 4: Fluxograma representando o pipeline 2 ...... 35

Figura 5: Fluxograma representando o pipeline 3 ...... 36

Figura 6: Fluxograma representando o pipeline 4 ...... 37

Figura 7: Gel de quantificação referente a extração de RNA total ...... 38

Figura 8: Gel referente as frações obtidas da cromatografia de gel de filtração ...... 38

Figura 9: Esquema mostrando como foi feito o desenho de primers ...... 39

Figura 10: Análise em gel dos produtos da reação de PCR,utilizando-se os primers PT2F2 e PT2R2 ...... 40

Figura 11: Exemplo de arquivo do tipo Genbank (.gb) ...... 42

Figura 12: Exemplo de arquivo Gene Finding Format (.gff) ...... 44

15 Índice de Tabelas

Tabela 1: Oligonucleotídeos do kit de construção de biblioteca de cDNA SMART IV ...... 29

Tabela 2: ESTs geradas de Arachis stenosperma ...... 41

Tabela 3: Agrupamento de ESTs após CAP3 ...... 41

Tabela 4: Desenho do primer flanqueando introns – A. stenosperma ...... 47

Tabela 5: Desenho do primer flanqueando introns – A. hypogaea ...... 48

16 Resumo

Os recentes avanços tecnológicos na biologia molecular têm possibilitado o desenvolvimento de técnicas poderosas na análise de diversidade genética. O surgimento da técnica baseada na Reação de Polimerase em Cadeia (PCR) levou ao desenvolvimento de marcadores moleculares, que podem ser usados na construção de mapas genéticos, no mapeamento de características de interesses econômicose e no mapeamento comparativo entre diversas espécies. O presente estudo teve como objetivo investigar a possibilidade de desenvolver marcadores moleculares baseados em introns a partir de ESTs (Expressed Sequence Tags) de Arachis stenosperma e de Arachis hypogaea. É sabido que as ESTs têm sido o meio mais rápido de se obter informações das seqüências codificantes a partir dos bancos de DNA complementar (cDNA), podendo ser utilizadas para o desenvolvimento de marcadores moleculares. Ressalta-se que este trabalho constitui uma das etapas do projeto geral de “Busca de genes de resistência contra pragas e patógenos em germoplasma selvagem de Arachis do Brasil”, o qual tem como um dos objetivos identificar, em espécies selvagens de amendoim, fontes de resistência contra pragas e doenças da América do Sul. Uma espécie selvagem que tem se mostrado resistente a fungos e nematóides é A. stenosperma. Sendo assim, no presente trabalho através da produção, sequenciamento e análise computacional das ESTs obtidas em bancos de cDNA de folhas dessa espécie selvagem, desenvolveu-se uma metodologia objetivando a busca de candidatos a marcadores moleculares baseados em introns. Seqüências de ESTs de raiz de A.stenosperma não inoculada e inoculada por Bradiryzobium, assim como seqüências de ESTs de A. hypogaea depositadas no banco de dados dbEST foram usadas nesse estudo. Visando a automatização do processo de busca de marcadores, desenvolveu-se uma ferramenta computacional com a finalidade de encontrar seqüências homólogas contendo introns, assim como o alinhamento dessas sequências com as ESTs correspondentes. De um total de 330 ESTs de A.stenosperma, foi possível a obtenção de 4 candidatos a marcadores baseados em introns, enquanto que para 1.346 ESTs de A. hypogaea foram obtidos 9 possíveis marcadores. Tais informações foram então utilizados para desenhar primers flanqueando introns, que poderão ser testados posteriormente dentro do projeto geral. Sendo assim, através dos resultados preliminares obtidos nessa investigação, há indícios para a possibilidade de se desenvolver marcadores moleculares baseados em introns.

17 Abstract

Recent advances in Molecular Biology have allowed the development of powerful techniques for genetic diversity analysis. Use of the Polymerase Chain Reaction (PCR) has greatly facilitated the development of molecular markers for genetic mapping, and comparative mapping of different species. For comparative mapping it is essential to use coding regions of the genome. It is known that ESTs are the most rapid way to obtain information about coding sequences and, therefore, they could potentially be used as a tool for molecular marker development. The main purpose of this work was to investigate the possibility of molecular marker development based on introns from Arachis stenosperma and Arachis hypogaea ESTs

(Expressed Sequence Tags). This work was done as part of a larger project “ THE

IDENTIFICATION OF RESISTANCES TO BIOTIC STRESS IN WILD ARACHIS GERMPLASM, AND THE DEVELOPMENT OF TOOLS FOR BREEDING BY GENETIC

MAPPING AND COMPARATIVE GENOMICS.” , which has as one of its purposes to identify, among wild peanut species, sources of resistance against South American pests and diseases. It has been shown that. A stenosperma is a wild South American species that has resistance against fungi and nematodes. Therefore, in the present work, through the production, sequencing and computer analysis of ESTs obtained from an A stenosperma leaf cDNA databank, we were able to develop a molecular marker candidate search methodology based on introns. ESTs from A.stenosperma root inoculated or not with Bradiryzobium, as well as ESTs from A. hypogaea obtained from dbEST databank, were also used in this study. In order to automate the marker searching process, a computational tool for searching for homologues with specific introns, and the alignment between them and their correspondent ESTs, was developed. From 330 ESTs of A.stenosperma, we were able to find 4 markers candidates based on introns, while from 1346 A. hypogaea, we identified 9 candidates. These markers were used to design primers flanking introns that can be tested in the general project. Therefore, through the preliminary results obtained from the present investigation, there is evidence that it is possible to develop molecular markers based on introns.

18 1. Introdução

No início do século XXI, a ênfase da biologia molecular passou do estudo de genes individuais para o estudo de genomas inteiros. Essa mudança foi possível graças ao desenvolvimento, durante a década de 1990, de métodos para o sequenciamento de grandes genomas. O sequenciamento de genomas começou antes da última década do século XX, com o primeiro genoma do fago φX174, que foi completado em 1975; mas o primeiro genoma de um organismo de vida livre, o da bactéria Haemophilus influenzae, teve seu sequenciamento concluído apenas 20 anos depois, em 1995. Os cinco anos seguintes constituíram-se em um divisor de águas, com a publicação das seqüências dos genomas de quase 50 outras bactérias, juntamente com as seqüências completas de genomas maiores, tais como o da levedura, o da mosca-das-frutas, o de Caenorhabditis elegans, o da Arabidopsis thaliana e o humano (Brown, 2003).

Grandes projetos genomas que foram desenvolvidos ou que ainda estão em desenvolvimento no mundo inteiro têm como objetivos a descoberta e a descrição de genes; os principais, referem-se aos genomas microbianos, de plantas e humano. Existem vários centros governamentais e privados especializados no sequenciamento desses genomas. Como exemplo, o TIGR (The Institute for Genoma Research – O Instituto para Pesquisa de Genomas) (http://www.tigr.org), que mantém muitos bancos de dados específicos de genoma, enfatizando as ESTs (Expressed Sequence Tags) em vez dos dados genômicos completos. Há outros centros de genomas, como TAIR (The Arabidopsis Information Resource), MGI (Medicago Genome Initiative), Sanger Center, dentre outros tantos. Uma lista completa de sequenciamento dos genomas que estão sendo estudados ou já foram completados pode ser encontrada no banco de dados GOLD (Genomes Online Database – Banco de Dados On-Line de Genomas), um site mantido pela Integrated Genomics, Inc. (Bernal et al, 2001).

Encontram-se hoje em andamento no Brasil mais de 10 projetos de genoma de bactérias e fungos, que buscam informações que auxiliem o desenvolvimento de tecnologias para tratamento de doenças em seres humanos e animais, e de soluções para combater pragas na agricultura.

19 O primeiro projeto genoma no Brasil levado a conhecimento público foi desenvolvido em São Paulo com o apoio da Fundação de Amparo às Pesquisas do Estado de São Paulo (FAPESP). No ano de 1997, essa fundação criou uma rede virtual responsável pelo sequenciamento e análise de nucleotídeos denominado ONSA ( Organization for Nucleotide Sequencing and Analysis), que inclusive tem financiado projetos científicos na área genômica.

Entre os projetos financiado pela FAPESP está o da Xylella fastidiosa (Simpson et al.,2000), patógeno responsável pela “praga do amarelinho” nas lavouras de laranja. Com este projeto o País entrou para a história pelo primeiro sequenciamento de um fitopatógeno. A partir deste projeto, outros mais ambiciosos surgiram, como o Genoma da Cana-de-açúcar, o Genoma do Câncer Humano (HCGP) - em colaboração com o Instituto Ludwig e o Genoma do Eucalipto (Genolyptus), dentre outros.

Após o sequenciamento completo do genoma, a etapa seguinte consiste em localizar todos os genes e determinar todas as suas funções. É nessa área que a bioinformática, às vezes chamada de biologia molecular in silico, está provando a sua relevância, notadamente como um complemento aos experimentos convencionais.

20 1.1 Expressed Sequence Tags (ESTs)

Nos últimos anos, o desenvolvimento de materiais e técnicas para o sequenciamento rápido e preciso de um grande número de amostras de DNA tem possibilitado o sequenciamento sistemático de genoma completo (Cooke et al., 1996). O meio mais rápido para se obter informações das seqüências codificantes é realizar o sequenciamento parcial de DNA complementar (cDNA). As etiquetas de seqüências expressas, ou ESTs (Expressed sequence tags), são seqüências geradas da construção de bibliotecas de cDNA que corresponde a um mRNA (Figura 1) (Adams et al., 1991). As seqüências são de tamanhos pequenos, variando em média de 200 – 800 pares de bases.

Figura 1: Esquema da construção de ESTs (Adaptação do site: http://binfo.ym.edu.tw/yang/talks/gen_ann/sld007.htm)

21 Como os ESTs geralmente são seqüenciados uma única vez, as seqüências podem apresentar freqüência maior de erros, do tipo deleções, substituições e inserções de bases, quando comparadas às seqüências de cDNA determinada por múltiplas leituras em ambas as fitas (Wolfsberg & Landsman, 1997). O sequenciamento pode ser realizado pela extremidade 5’, 3’, ou ambas. A maioria das seqüências ESTs disponíveis hoje têm sido derivadas da extremidade 5’. Obter seqüências de cDNA de boa qualidade da extremidade 3’ em larga escala tem apresentado bastante dificuldade em função do deslizamento da enzima DNA polimerase usado no PCR e no sequenciamento no tracto poliA:poliT. Quando se opta por apenas uma das extremidades, é dada preferência à extremidade 5’ devido à menor extensão da região não traduzida (Rodrigues, 2001).

Outro problema tem sido o risco de contaminação por outros organismos (bactérias ou fungos) de materiais de plantas usados para preparar bibliotecas de cDNA (Cooke et al., 1996), o qual precisa ser analisado e descartado para que se possa dar continuidade com a análise das seqüências. Um cuidado especial é também necessário durante a preparação do tecido que irá ser feito à biblioteca para se evitar esse tipo de contaminação, embora nesse trabalho não tenha sido prioridade, pois um dos objetivos do projeto geral “Busca de genes de resistência contra pragas e patógenos em germoplasma selvagem de Arachis do Brasil” é comparar raiz não inoculada com raiz inoculada por uma bactéria nitrificante Bradyrhizobium.

Como o número de seqüências obtidas em laboratório está aumentando, novos bancos de dados estão surgindo. No NCBI (National Center for Biotechnology Information) (http://ncbi.nlm.nih.gov), o banco de dados dbEST, o qual é uma divisão do Genbank, contém seqüências e informações de ESTs de alguns organismos. Até setembro de 2003 estavam registradas 18.140.083 seqüências de mais de 400 organismos neste banco (http: //ncbi.nlm.nih.gov/dbEST). Os bancos de dados do TIGR podem ser pesquisados por seqüência, identificador de EST, nome da biblioteca de cDNA, tecido ou nome do produto de gene, usando uma interface de Web simples, baseada em formulários (Gibas & Jamberck, 2001).

22 Nos últimos anos, um grande número de ESTs de leguminosas tem sido depositado em banco de dados públicos. Até setembro de 2003, existiam 341.573 ESTs de Glycine max (soja), 187.763 ESTs de Medicago truncatula, 36.262 ESTs de Lotus japonicus e 1346 de Arachis hypogaea no GenBank do NCBI. O Medicago Genome Initiative (MGI) é um banco de dados de EST de Medicago truncatula, um organismo que pode servir como modelo para soja e outras leguminosas economicamente importantes (Bell et al, 2001).

A disponibilidade de uma extensiva informação de ESTs para muitas espécies, em conjunto com as seqüências completas de Arabidopsis thaliana e Oriza sativa, e que se encontram disponíveis no banco de dados do NCBI, permitirá melhor compreensão sobre a questão de quão similar são os genomas de plantas superiores (Somerville & Somerville, 1999). A comparação de seqüências de ESTs com seqüências conhecidas de A. thaliana e O. sativa, em determinados casos, permite a identificação de pequenas regiões altamente conservadas e que podem ser usadas para definir primers únicos ou degenerados para a amplificação de seqüências homólogas em outros organismos (Cooke et al., 1996).

Segundo Rounsley e colaboradores (1996), apesar do alto valor informativo obtido com o uso de ESTs, existem limitações inerentes à sua natureza genética. O tamanho de cada seqüência é pequeno, geralmente em torno de 400 pares de bases. Esse fator pode afetar a utilidade de informações EST para identificação de genes. Além do fato de que dados de seqüências de EST são geralmente obtidos de clones de bibliotecas de cDNA escolhidos de forma aleatória, resultando em genes altamente expressos sendo seqüenciados múltiplas vezes. Essa redundância pode ser reduzida pelo uso de bibliotecas normalizadas em que a freqüência de genes altamente expressa é reduzida pela hibridização subtrativa (Patanjali et al., 1991).

23 1.2. Marcadores Moleculares

Há anos atrás, devido à baixa quantidade de marcadores genéticos de plantas, a capacidade de realizar mapeamento genético detalhado era extremamente limitada. Segundo Rafalski e colaboradores (1996), marcadores fenotípicos clássicos eram abundantes em poucas espécies bem caracterizadas como em milho e ervilha, e suas utilidades eram restritas pela baixa resolução dos mapas produzidos e pela grande quantidade de tarefas requeridas para gerar e usar esses marcadores. Com o advento das técnicas modernas de biologia molecular, marcadores moleculares que detectam polimorfismo genético diretamente ao nível de DNA (ácido desoxirribonucleico) foram desenvolvidos. Marcadores moleculares podem ser definidos como uma “marca”, ou um meio de se visualizar a presença ou ausência de uma seqüência específica de DNA dentro do genoma. Os marcadores de DNA têm aplicação direta em estudos de genética de populações, mapeamento e análise de similaridade e distância genética. Também, as marcas de DNA podem ser usadas para impressão digital de DNA (DNA fingerprinting), isto é, visando à identificação de acessos de plantas ou de isolados de um microorganismo, ou para completar estudos de sistemática (Lopes, 2002). Os distintos tipos de marcadores moleculares hoje disponíveis diferenciam-se pela tecnologia utilizada para revelar variabilidade em nível de DNA, e assim mudam quanto à habilidade de detectar diferenças entre indivíduos, custo, facilidade de uso, consistência e repetibilidade. Os principais tipos de marcadores moleculares podem ser classificados em dois grupos, conforme a metodologia utilizada para identificá-los: hibridização ou amplificação. Entre os identificados por hibridização estão os marcadores RFLP (Restriction Fragment Length Polymorphism) e minisatélites ou locos VNTR (Variable Number of Tandem Repeats). Já aqueles revelados por amplificação incluem os marcadores do tipo RAPD (Random Amplified Polymorphic DNA); SCAR (Sequence Characterized Amplified Regions); STS (Sequence Tagged Sites); Microssatélite (SSR - Single Sequence Repeats) e AFLP (Amplified Fragment Length Polymorphism). O sequenciamento em larga escala, principalmente no estudo dos genomas funcionais, tem gerado um grande número de seqüências, principalmente ESTs. Isto abriu inúmeras possibilidades para o desenvolvimento de marcadores moleculares baseados nas seqüências descobertas, como por exemplo, os ESTP (Expressed Sequence Tag

24 Polymorphism – Polimorfismo de Seqüência Expressa Marcada). Segundo Milach e colaboradores (2002) o desenvolvimento desses consiste no desenho de primers específicos para cada seqüência e no teste em diversos genótipos para determinação da utilidade das seqüências obtidas. Matthews e colaboradores (2001), no estudo com Glycine max (soja), consideraram os ESTs como marcadores valiosos para traçar e isolar genes que controlam características fenotípicas importantes economicamente. O sequenciamento genômico em larga escala e o sequenciamento de ESTs proporcionam também a oportunidade de avaliar a distribuição relativa e abundante de microssatélite em regiões transcritas e não transcritas (Morgante et al., 2002; Thiel et al, 2003). Uma forma de explorar mais informações das seqüências de DNA genômico é desenvolver primers de reações de PCR (iniciadores de reações de amplificação) que objetivam regiões específicas do gene, com vista a determinar que regiões possuem variação suficiente do comprimento do produto de amplificação para serem usadas como marcadores moleculares. Seqüências de DNA genômico (em contraste com o cDNA) de bancos de dados públicos, freqüentemente indicam as posições de exons, introns e regiões promotoras. Conseqüentemente, essas informações podem ser usadas para desenvolver primers que flanqueam exons, introns ou regiões promotoras de genes conhecidos com elevada especificidade. Com essas informações, Holland e colaboradores (2001) desenvolveram marcadores moleculares baseados em exons, introns, regiões promotoras e microssatélites em milho e introns e seqüências repetitivas em aveia, que permitiram a detecção de polimorfismo quando usaram primers flanqueando essas regiões específicas. As regiões excisadas na formação do RNA mensageiro foram denominadas por Gilbert em 1978 como intron (Figura 2). Os introns são regiões intragênicas alternadas com regiões expressas – exons. Segundo Yu e colaboradores (2002) o polimorfismo inserção- deleção na região intrônica revela a tentativa de manter o tamanho do intron. Os resultados da análise de expressão em leveduras mostraram que uma quantidade mínima de introns podem afetar a maturação do mRNA na maquinaria bioquímica do splicing, e na exportação do mRNA do núcleo.

Figura 2: Processo de transcrição monstrando a posição dos introns em uma molécula de DNA (Adaptada de Brown, 2003).

Marcadores moleculares estão sendo desenvolvidos para a análise de genomas do gênero Arachis para estudos de mapeamento genético, seleção assistida por marcadores e descoberta de genes. Estudos com microssatélites (He et al., 2003), RAPD (Lanham et al., 1992; Garcia et al., 1995;; Burow et al., 1996; Raina et al., 2001) e RFLP (Halward et al., 1992; Garcia et al., 1996) já foram realizados com estes objetivos.

26 1.3 Modelo Biológico: Gênero Arachis

O gênero Arachis (família Leguminosae, subfamília Papilionidae) é originário da América do Sul, provavelmente do sudoeste do Mato Grosso do Sul, no Brasil ou nordeste do Paraguai, onde ainda também se encontram as espécies com maior divergência basal dentro da árvore filogenética Arachis guaranitica e Arachis tuberosa (Simpson et al, 2001). Esse gênero se distingue claramente de outros representantes da família por possuir uma estrutura particular de frutificação (o ginóforo ou “peg”) com desenvolvimento geocárpico - formação subterrânea das vagens (Godoy et al., 1989).

Em nível citológico, todas as espécies selvagens situam-se em apenas dois níveis de ploidia, o diplóide (2n=20) e o tetraplóide (2n=40). Baseados na morfologia e nos cruzamentos interespecíficos, o gênero Arachis encontra-se dividido nas seguintes seções: Trierectoides, Erectoides, Extranervosae, Triseminatae, Heteranthae, Caulorrhizae, Procumbentes, Rhizomatosae e Arachis (Krapovickas & Gregory, 1994). Destas seções, a Arachis mostra maior interesse econômico por abrigar o amendoim comum (Arachis hypogaea) (Veiga et al, 2001).

As espécies selvagens da seção Arachis, em sua maioria, são diplóides (2n=20) e se caracterizam por apresentarem alto polimorfismo genético (Kochert et al., 1991; Halward et al., 1992; Stalker et al, 1994). O maior interesse pela prospecção, resgate e caracterização de germoplasma das espécies silvestres de Arachis reside em seu potencial de fornecimento de genes úteis para o melhoramento do amendoim cultivado (Stalker, 1992). Do ponto de vista de utilização em programas de melhoramento genético, as espécies selvagens possuem características desejáveis não encontradas nos cultivares comerciais. Santos (1999) aponta como características principais à alta resistência ao estresse hídrico e a algumas doenças de importância econômica, bem como a rica qualidade da proteína encontrada nas sementes de algumas espécies.

O amendoim é caracterizado por alto teor de óleo e proteínas, e baixo teor de carboidratos. O maior percentual de proteínas do gênero foi encontrado na espécie selvagem A. stenosperma (Grosso et al., 2000), que é uma espécie anual, prolífera e com sementes menores que do A. hypogea (Valls, 1997).

27 No Brasil, doenças foliares do amendoim causadas pelos fungos Cercospora arachidicola, (mancha castanha), Cercosporidium personatum (mancha preta) e Puccinia arachidis (ferrugem), permanecem sendo fatores limitantes importantes no rendimento da produção do amendoim. Elas reduzem a área das folhas disponíveis para a fotossíntese, resultando em um decréscimo na habilidade para produzir e converter os produtos da fotossíntese, o que pode reduzir a produção das sementes (Nutter & Shokes, 1995).

A espécie selvagem A. stenosperma apresenta resistência ao nematóide das galhas Meloidogyne arenaria raças 1 e 2 (Nelson et al., 1989; Garcia et al.,1996 ; Leal-Bertioli et al., 1999) e aos fungos Cercospora arachidicola, Cercosporidium personatum (Wyne et al., 1991) e Puccinia arachidis (Subrahmanyam et al., 1983) candidatanto-se, então, a ser uma espécie adequada para a busca de genes de resistência e a introgressão de resistência em A.hypogaea. Lembra-se que a introgressão é feita mais eficientemente com o uso de marcadores moleculares.

O volume de dados gerados para estudos como este é tão grande, que realizar manualmente a análise das informações obtidas está se tornando inviável, demandando a necessidade de utilizar-se ferramentas da bioinformática para automatizar o processo de análise. Muitas dessas ferramentas estão disponívies gratuitamente na Web, mas outras podem ser desenvolvidas pelo próprio pesquisador que tenha conhecimento em linguagem de programação.

28 a. A Bioinformática

1.4.1 Definição

O termo bioinformática foi criado por Hwa Lim no final da década de 80, e popularizado na década de 90, através da sua relação com o projeto genoma humano (Goodman, 2002). A bioinformática pode ser definida como a área da ciência que envolve todos os aspectos da aquisição, processamento, armazenamento, distribuição, análise e interpretação de informação biológica. Os estudos em bioinformática combinam diferentes técnicas e ferramentas da matemática, computação e biologia, e têm como objetivo agilizar e facilitar a análise e compreensão da imensa quantidade e variedade de dados biológicos experimentais e mesmo clínicos (Sousa et al., 2001).

Segundo Luscombe e colaboradores (2001), os objetivos da bioinformática são três. O primeiro consiste na organização dos dados de forma que permita o pesquisador acessar as informações existentes e submeter novas entradas que são produzidas. O segundo objetivo é desenvolver ferramentas e recursos que auxiliem a análise dos dados. O terceiro é o uso dessas ferramentas para analisar dados e interpretar os resultados de uma maneira biologicamente significante.

1.4.2 Sistemas Operacionais

O sistema operacional (SO) é o principal programa de um computador. É o que atua como intermediário entre o usuário e os componentes físicos da máquina (hardware), fornecendo ao usuário um ambiente na qual ele possa executar e desenvolver programas.

Os SOs mais conhecidos e utilizados são aqueles baseados no Windows, Unix e MacOS. Muitas das aplicações utilizadas em bioinformática são compiladas e distribuídas para a execução em plataformas derivadas do Unix.

A preferência por sistemas baseados em Unix deve-se ao fato de que tais sistemas serem normalmente mais confiáveis, gerenciarem melhor o trabalho com grandes quantidades de dados e, em algumas de suas variantes como o Linux, possuem código aberto e distribuições gratuitas.

29 1.4.3 Ferramentas para a Bioinformática

Os métodos computacionais para a busca de genes transformaram-se em uma ferramenta cada vez mais importante nos últimos anos. Enquanto o ritmo de sequenciamento do genoma cresceu com o surgimento dos seqüenciadores automáticos de DNA, a necessidade para métodos rápidos da descoberta do gene tornou-se maior. A seqüência do genoma é justamente o começo de um grande esforço para compreender as funções de um organismo, e o primeiro e mais crítico passo desse processo é a identificação acurada de todos os genes e de suas proteínas associadas (Pertea e Salzberg, 2002).

1.4.3.1 Nomeação de bases (base calling)

Um dos primeiros desafios computacionais no processo de sequenciamento é a interpretação do padrão de fragmentos em um gel de sequenciamento. Esse processo de interpretação dos dados brutos provenientes do sequenciador automático é conhecido como nomeação de bases, ou base calling. Se esta etapa não produzir uma seqüência de DNA correta, qualquer análise subseqüente da seqüência será afetada. A maioria das seqüências depositadas em um banco de dados públicos é afetada por erros de base calling devido a ambigüidades no resultado do seqüenciador ou ao mau funcionamento do equipamento (Gibas & Jambeck, 2001).

Um pacote de software não comercial de base calling é o Phred (Ewing & Green, 1998; Ewing et al., 1998), que dá valores de qualidade às seqüências dentro de um determinado trecho conforme os picos sejam bem nítidos e separados, permitindo uma boa atribuição de nucleotídeos a esta posição da seqüência. As pontuações inseridas nos arquivos de saída do PHRED representam a probabilidade logarítmica negativa em escala de erro de um base calling; portanto, quanto maior o valor de qualidade do PHRED, menor a probabilidade de ter ocorrido um erro. Como exemplo, um valor de PHRED 20 para uma determinada posição nucleotídica, significa que ela apresenta 1 chance em 100 de estar errada.

30 1.4.3.2. Mascaramento de vetores

As seqüências obtidas após o sequenciamento podem apresentar contaminações com regiões correspondentes aos vetores de clonagem (fagos, plasmídeos e outros utilizados na construção de bibliotecas de cDNA) que devem ser descartadas antes de se dar continuidade às análises. O Cross_Match é um software utilizado para comparações entre seqüências de DNA e que permite o mascaramento de vetores nessas seqüências (Green, 1999). O Cross_Match compara a seqüência de DNA com um arquivo de seqüência de vetores, onde o programa encontra similaridade entre as seqüências, ele mascara (substituindo pela letra X) a seqüência de entrada, evitando que essa região mascarada afete os processos posteriores de análise computacional.

1.4.3.3. Montagem de seqüências

Depois de se obter os fragmentos curtos de uma seqüência, eles devem ser montados em uma seqüência completa. Ferramentas, como Phrap (Green, 1999), CAP3 (Huang & Madan, 1999) e TIGR assembler (Sutton et al., 1995), são utilizadas para reunir seqüências contíguas em uma única seqüência, operação esta também conhecida como montagem de fragmentos. Na análise de seqüências de ESTs, Liang e colaboradores (2000) consideram CAP3 como a melhor ferramenta, pois apresenta seqüências consensos de alta fidelidade que serão analisadas para a anotação. A seqüência consenso é uma seqüência nucleotídica utilizada para descrever um grande número de seqüências relacionadas, mas não idênticas. Cada posição da seqüência de consenso representa o nucleotídeo mais freqüentemente encontrado naquela posição nas seqüências reais.

31 1.4.3.4 Consulta de seqüência em banco de dados biológicos

Hoje, um método adequado para inferir a função biológica de um gene (ou a proteína que ele codifica) é pela procura de similaridade em banco de dados de DNA e proteínas. A procura por similaridade é uma das principais técnicas usadas pelos biólogos. As ferramentas mais conhecidas para esses propósitos são o BLAST (Basic Local Alignment Search Tool) (Altschul, 1990) e o FASTA (Pearson, 1998), que efetuam comparações entre pares de seqüências, procurando por regiões de similaridade local. O BLAST tem sido mais usado na análise de similaridade devido ao tempo de execução ser menor quando comparado ao FASTA.

O BLAST consiste em um conjunto de programas de busca de similaridade criado para explorar todos os bancos de dados de seqüências disponíveis em relação a proteína e o DNA Ele executa comparações de seqüências em pares, procurando regiões de similaridade local, ao invés de alinhamentos globais ótimos entre as seqüências inteiras. Uma pesquisa do BLAST em um banco de dados de seqüências dá como resultado uma lista de candidatos similares à seqüência submetida juntamente com os alinhamentos dos segmentos correspondentes. O BLAST fornece três informações que permitem a interpretação dos resultados: pontuações brutas, pontuações de bits e valores E (‘e-value’) (Astchul et al., 1990; http:// www.ncbi.hlm.nih.gov).

A pontuação bruta para um alinhamento de seqüência local é a soma das pontuações de pares de segmentos de pontuação máxima (MSPs) que compõem o alinhamento. Devido a diferenças entre matrizes de pontuação, as pontuações brutas nem sempre são comparáveis diretamente. As pontuações de bit são pontuações brutas convertidas a partir da base de registro 2. Este novo escalonamento permite que as pontuações de bit sejam comparadas entre os alinhamentos (Gibas & Jambeck, 2001).

A significância de cada alinhamento pode ser estimada pelos valores expressos como “valores E”, uma vez que cada alinhamento pode ocorrer aleatoriamente. Um valor “E” indica o número de alinhamento que pode ser encontrado com uma pontuação maior do que ou igual à pontuação de alinhamento observada em uma pesquisa de um banco de dados utilizado na busca. Quanto menor o valor E, maior a garantia da similaridade entre as seqüências. Porém, essa análise requer um exame criterioso antes que seja aceita como significativa, uma vez que altas pontuações podem ocorrer devido ao pareamento de regiões com baixa complexidade decorrentes de erros no sequenciamento ou regiões repetitivas ( www.ncbi.hlm.nih.gov/BLAST).

32 O BLAST disponível no NCBI apresenta cinco subtipos de programas desenvolvidos para buscar similaridades entre seqüências de nucleotídeos e proteínas nos bancos de dados biológicos. O BLASTn analisa a seqüência de nucleotídeo gerada, comparando-a com seqüências de nucleotídeos depositadas no banco de dados; já no BLASTx, a seqüência de nucleotídeo é traduzida nas seis possíveis fases de leitura e a análise é feita contra banco de proteínas; o BLASTp compara a seqüência de proteína submetendo-a a outras seqüências de proteínas dos bancos; o TBLASTx, traduz a seqüência de nucleotídeos nas seis possíveis fases de leitura e faz a análise contra um banco de nucleotídeos também traduzidos nas seis fases de leitura; e por fim, o TBLASTn, compara a seqüência da proteína contra bancos de nucleotídeos traduzido nas seis fases de leitura.

O alinhamento simultâneo de muitos nucleotídeos ou seqüências de aminoácidos é hoje uma ferramenta essencial em biologia molecular. Alinhamentos múltiplos são usados para caracterizar famílias de proteínas, detectar ou demonstrar homologia entre novas seqüências e famílias existentes de seqüências, desenhar primers para PCR (Reação em Cadeia de Polimerase), como um prelúdio essencial para análises moleculares evolucionárias. Um programa utilizado para este propósito é o CLUSTALW (Thompson et al., 1994) que está gratuitamente disponível para uma grande variedade de computadores e sistemas operacionais.

1.4.4 Linguagens de programação

Há uma grande variedade de ferramentas de software para bioinformática, como as citadas acima, mas em certas situações desenvolver o seu próprio programa pode tornra a análise dos dados mais rápida, uma vez que este programa irá extrair apenas as informações necessárias para esta situação. Existem muitas linguagens de programação para este propósito. Gibas & Jambeck (2001) avaliaram os softwares de bioinformática escritos em Java, C, FORTRAN e PERL, e concluíram que PERL é a linguagem mais prática para escrever programas que analisem uma grande quantidade de dados textuais, pois é necessário um tempo menor de programação para extrair dados utilizando PERL do que C ou Java.

33 PERL (Practical Extraction and Report Language – Linguagem Prática para Extração e Relatórios) é uma linguagem de programação criada por Larry Wall em 1987, muito usada em áreas como a bioinformática e programação de web. Muitos dos programas de bioinformática desenvolvidos em PERL são específicos para um laboratório ou instituição em particular e são escritos para uso imediato. Porém em 1995, surgiu um projeto denominado BIOPERL que reúne programas rotineiramente usados em bioinformática na análise e anotação de dados biológicos e que estão disponíveis gratuitamente na WEB. Para Stajich e colaboradores (2002) os módulos do BIOPERL têm sido usados com sucesso por reduzir tarefas complexas a códigos com poucas linhas.

1.4.5 Desenvolvimento de Marcadores Moleculares com o uso da Bioinformática

Genomas, principalmente de eucariotos, contêm um grande número de seqüências repetitivas, como os microsatélites, os quais são utilizados como marcadores moleculares. Para a busca dessas seqüências no genoma de um organismo, programas como Tandem Repeat Occurence Locator (TROLL) (Castelo et al, 2002) e Sputnik (Abajian, 1994) foram desenvolvidos, possibilitando o desenvolvimento de marcadores moleculares.

34 2. Justificativa

Como já foi dito anteriormente, este trabalho se integra ao projeto de “Busca de genes de resistência contra pragas e patógenos em germoplasma selvagem de Arachis do Brasil”, apoiado pela Comunidade Européia e pelo PRODETAB (“The Agricultural Technology Development Project for Brazil”). Um dos objetivos do referido projeto é identificar, em espécies selvagens de amendoim, fontes de resistência contra pragas e doenças na América do Sul. As pragas e doenças visadas são as causadas pelos fungos Cercospora arachidicola (mancha castanha, brown spot), Cercosporidium personatum (mancha preta, black spot), Puccinia arachidis (ferrugem, rust) e pelos nematóides do gênero Meloidogyne. As construções de bancos de dados de ESTs deverão resultar na identificação de genes que possam desempenhar importantes funções, incluindo genes envolvidos na resistência a pragas e patógenos, e no desenvolvimento de marcadores moleculares. A espécie escolhida para este trabalho foi A. stenosperma, pois tem mostrado significativa resistência aos fungos C. personatum e C. arachidicola e aos nematóides do gênero Meloidogyne.

35 3. Objetivos

• Propor uma metodologia para o desenvolvimento de marcadores moleculares baseados em introns utilizando ESTs de Arachis stenosperma não inoculado e inoculado por Bradyrhizobium sp. e de A. hypogaea.

• Desenvolvimento de uma ferramenta computacional para automatizar o processo de busca de marcadores moleculares baseados em introns.

36 4. Material e Métodos

A planta utilizada nas construções das bibliotecas de cDNA de folhas e raízes foi Arachis stenosperma acesso V10309. A semente fazia parte da coleção mantida na Embrapa Recursos Genéticos e Biotecnologia. Os procedimentos para a germinação da semente incluíram lavagem em uma solução fungicida (Thiran 0,05%) e, em seguida lavagem com Ethrel 1% para quebra da dormência e indução da germinação. A semente foi colocada em papel filtro umedecido com água destilada e levada para uma câmara com 100% de umidade e temperatura 25o.C. Após 10 dias, a plântula recém germinada foi transferida para um vaso definitivo.

4.1 Construção de biblioteca de cDNA de folhas de Arachis stenosperma

Embrapa Recursos Genéticos e Biotecnologia

Extração do RNA

O RNA total de folhas (100 mg) foi extraído com a utilização do Rneasy Plant Mini kit (Qiagen/USA). O RNA foi analisado em sua qualidade pela eletroforese em gel de agarose 1% em TAE (Tris-acetato 40mM e EDTA pH 8,0 1mM) corado com brometo de etídeo (1%). Como foi observada a presença de uma banda de DNA no gel, foi feita uma limpeza com DNAse (Pharmacia).

Banco de cDNA

A construção do banco de cDNA foi feito com SMART cDNA Library Construction Kit (Clontech/UK), desenvolvido para a construção de bibliotecas a partir de pequena quantidade de RNA. O kit SMART (Switching Mechanism At 5’ end of RNA Transcript) apresenta dois protocolos para obtenção da biblioteca dependendo do material a ser usado ( RNA total ou mRNA) : Long-Distance PCR (LD-PCR) e Primer Extension . Para esse trabalho foi escolhido o LD-PCR, pois foi utilizado RNA total (1 µg). A primeira etapa consiste na síntese da primeira fita, na qual foram usados 3 µl de RNA total. Um primer oligo (dT), denominado 3’CDS III PCR primer, é utilizado na síntese da fita simples de cDNA. Quando a transcriptase reversa (RT – MMLV – “Moloney murine

37 leukemia virus) alcança a extremidade 5’ do mRNA, é adicionado uma pequena quantidade de citosinas a fita complementar ao mRNA. Então, o oligonucleotídeo SMART IV contendo guanina na extremidade 3’ pareia com a extensão contendo citosina, criando um novo molde para a enzima RT. Essa enzima liga os moldes e continua sintetizando até o final do oligonucleotídeo. A fita simples de cDNA contém a extremidade 5’ completa do mRNA, assim como a seqüência complementar ao oligonucleotídeo SMART IV, que então serve um adaptador, o qual possui um sítio para anelamento do primer 5’ na amplificação por LD- PCR. Somente esses cDNAs contendo adaptadores na extremidade 5’ podem servir como molde e podem ser amplificados. Por meio dos oligonucleotídeos 3’CDS III PCR primer e do SMART IV, o cDNA fita dupla tem incorporado sítios de restrição assimétricos ( A e B) para a enzima de restrição Sfi I nas extremidades 3’ e 5’.

Tabela 2: Oligonucleotídeos do kit de construção de biblioteca de cDNA SMART IV

Oligonucleotídeo SMART IV

5’ AAGCAGTGGTATCAACGCAGAGTGGCCATTACGGCCGGG 3’

CDS III/3’ PCR primer

5’ ATTCTAGAGGCCGAGGCGGACATG –d(T)30 N-1N 3’ 5’ PCR primer

5’ AAGCAGTGGTATCAACGCAGAGT 3’

A reação de LD-PCR inicia-se com a desnaturação a 95 ºC por 2 minutos, seguido de um número de ciclos por 10 segundos a 95 ºC (desnaturação) e 6 minutos a 68 ºC (anelamento). O número de ciclos variou de 18 a 26 ciclos. Amostras dos produtos desses ciclos foram retiradas e observadas em gel de agarose (1%) com brometo de etídio em tampão TAE 1X, para visualizar qual era o menor número de ciclo capaz de produzir um produto para ser visualizado, evitando assim, amplificação excessiva dos transcritos mais expressos. Para a inativação da atividade da DNA polimerase, o cDNA fita dupla foi tratado com a proteinase K conforme o protocolo do fabricante. Já na purificação e concentração do cDNA houve uma modificação do protocolo, substituindo o fenol:clorofórmio:álcool

38 isoamílico por uma coluna de purificação da Amicon – Millipore. Com o produto purificado foi feita a digestão enzimática com Sfi I. O fracionamento do cDNA foi feito em cromatografia de gel de filtração (CHROMA SPIN – 400, Clontech). Dezessete frações da cromatografia foram coletadas e analisadas em gel de agarose (1%)/brometo de etídio em tampão TAE 1X. As frações selecionadas foram reunidas. Com 1.5 µl de cDNA concentrado, foi feita a ligação deste ao vetor λTriplEx2 que contém as extremidades assimétricas para ligação dos fragmentos gerados pela digestão com Sfi I. Para o empacotamento do fago lambda recombinante, foi adicionado 5 µl da ligação ao extrato de empacotamento (Gigapack III Gold Packaging Extract – Stratagene) seguindo a orientação do fabricante. Para a titulação e amplificação dos bancos de cDNA, foram utilizadas células de Escherichia coli XL – 1 Blue, cultivadas em meio LB sólido com tetraciclina (15 µg/ml). A partir dessa cultura, uma colônia isolada foi transferida para 15 ml de LB líquido com MgSO4 10 mM e maltose 0,2% em shaker a 37oC durante à noite. As células foram centrifugadas a

5000 rpm por 5 minutos e o pellet ressuspendido em 6 ml de MgSO4 10 mM. Antes do uso, as células foram diluídas para uma concentração determinada por uma leitura em 600 nm,

OD600 = 0,5 em MgSO4 10 mM. Em tampão SM foram feitas diluições 1:10 as bibliotecas de cDNA. Foram adicionados 1µl, 5µl e 10µl da diluição a 200 µl de células a uma OD600 = 0,5 e a 3 ml de top o ágar a 45 C. Essas amostras foram vertidas em placas de petri com LB + MgSO4 , deixadas durante 10 minutos em temperatura ambiente, e incubadas a 37oC por 7 horas, para visualização das placas de lise isoladas. O título obtido na construção do banco de cDNA ficou em torno de 109 pfu/ml. As placas de lise isoladas foram coletadas aleatoriamente utilizando-se ponteiras de micropipeta de 200 µl cortadas. Os clones foram colocados em 50 µl de SM em microplaca de policarbonato de 96 poços acrescidos de 3 µl de clorofórmio. Os fagos foram eluídos durante a noite a 4 oC. Duas bibliotecas de cDNA de raízes foram construídas como parte da tese de doutorado da aluna Karina Proite pela Universidade de Brasília. Uma biblioteca foi montada com raiz inoculada por uma bactéria nitirificante, do gênero Bradyrhizobium e a outra com raiz não inoculada. Alguns dados do sequenciamento de ESTs dessas bibliotecas foram cedidos para a busca de marcadores moleculares baseados em introns.

39 4.2 Sequenciamento

Laboratório de Biotecnologia Genômica - UCB

A partir da solução de eluição dos fagos em tampão SM foi feita uma reação em cadeia de polimerase (PCR), a qual será utilizada para a reação de sequenciamento. Os primers utilizados na reação de PCR foram primers específicos que flanqueiam a região de inserção do cDNA no vetor, são eles: PT2F2 (5’ GCGCCATTGTGTTGGTACCC 3’) e PT2R2 (5’ CCGCATGCATAAGCTTGCTC 3’). Para a reação, foi utilizado: 1,5 µl da suspensão de fagos eluídos a partir de uma placa de lise; 0,5 µl do primer PT2F2 (10µm) (Invitrogen); 0,5 µl do primer PT2R2(10µm) (Invitrogen); 0,25 µl de dNTP (20mM); 1U Taq Polimerase Recombinante (Pht); 1,5 µl Tampão 10X IB (Pht) em 25 µl volume final da reação. A reação foi feita no formato de microplacas de 96 poços nos termocicladores Mastercycler Gradient e GeneAmp com o seguinte programa: 3 minutos a 75oC, denaturação inicial a 94oC por 3 minutos, seguidos de 32 ciclos de 1 minuto a 94oC, 1 minuto a 49oC, 3 minutos a 72oC, e após os ciclos, 2 minutos a 72oC. Após a reação de amplificação, a porcentagem de clones amplificados foi verificada em gel de agarose (1%) corado com brometo de etídio em tampão TBE 1X. O produto do PCR foi utilizado diretamente na reação de sequenciamento. Esta reação foi realizada de acordo com os seguintes parâmetros: 1 µl do produto de PCR; 1 µl do primer PT2F2 (3,2 pmol/µl), 2 µl do “premix” do kit DYEnamic ET – Dye terminator cycle sequencing kit (Amersham - Pharmacia), volume final de 10 µl da reação. A reação foi submetida a amplificação por PCR a 25 ciclos de 20 segundos a 95o.C, 15 segundos a 50o.C e 1 minuto a 60 oC. O sequenciamento foi feito no sequenciador ABI 377 (Applied Biosystems).

40 4.3 Análise computacional de ESTs

Laboratório de Bioinformática - UCB

As seqüências de ESTs resultantes do sequenciamento foram analisadas no Laboratório de Bioinformática da Universidade Católica de Brasília, o qual está equipado com computadores operando em sistema Linux, o qual é uma versão gratuita e de código aberto do Unix. Para a análise dessas foi desenvolvida uma ferramenta computacional para automatizar o processo de busca por seqüências genômicas homólogas às de ESTs contendo introns em banco de dados públicos. Para a montagem dessa ferramenta foram instalados no computador os seguintes programas: PHRED, CROSS_MATCH, CAP3, CLUSTALW, GDE e módulos do BIOPERL, os quais estão disponíveis gratuitamente na web. A ferramenta computacional foi desenvolvida em PERL e consiste de quatro etapas denominadas pipeline1, pipeline2, pipeline3 e pipeline 4 (ANEXO). Nessas etapas, o usuário pode alterar alguns parâmetros de acordo com o resultado que ele quer obter, como por exemplo, o “e value” (extreme value distribution), o qual é um parâmetro do BLAST, que tem importância na análise de similaridade entre seqüências. Na primeira etapa (pipeline 1), os cromatogramas resultantes do sequenciamento são processados com o programa PHRED. As seqüências com boa qualidade (pelo menos 250 bases com pontuação acima ou igual 20) são então processadas pelo programa CROSS_MATCH para retirada de possíveis vetores. Então, as seqüências mascaradas são montadas pelo programa CAP3 que gera agrupamentos baseados na similaridade das seqüências, e obtém como resultado arquivos com seqüências consenso (contigs) e seqüências únicas (singlets) em formato FASTA (Figura 3). O resultado do pipeline 1 é a entrada para o pipeline2, o qual roda o BLASTn remoto contra DNA genômico e obtém arquivos do tipo gb (Genbank) e gff ('Gene-Finding Format' ou 'General Feature Format') correspondente as seqüências homólogas (Figura 4). Nessa etapa, para cada seqüência homóloga com boa pontuação (e-value <= 1e-10), seu registro Genbank correspondente é buscado e armazenado localmente. É feita então a conversão do formato genbank para o formato gff, para facilitar a busca por característica de cada seqüência, como por exemplo, a localização de introns. Nessa etapa (pipeline 3) (Figura 5), com os resultados do BLASTN gerados na fase anterior é montado um relatório com as informações de cada seqüência homóloga. Para cada resultado BLAST, cada uma das ocorrências (hits), assim como os pares de segmentos

41 com pontuação máxima (HSP’s – High-scoring Segment Pair) são analisados. Quando um hit é analisado, o arquivo gff da seqüência em questão também é analisado para verificar se existe região anotada como codificadora (CDS) nas vizinhanças do HSP. Caso seja, é verificado se existe intron anotado também. Caso positivo, os HSPs subseqüentes são analisados quanto a sua posição relativa ao HSP anterior. O programa procura por HSPs flanqueando introns. Como resultado desta fase, a ferramenta produz arquivos, formato FASTA, com seqüências homólogas às do ESTs (contigs e singletons), e arquivos contendo seqüências formadas por fragmentos (correspondentes aos HSPs) de ESTs concatenadas com introns obtidos das seqüências genômicas homólogas. Com os arquivos gerados no pipeline3 foram utilizados os programas ClustalW, Primer3 e Mview, para a produção de alinhamento múltiplo e desenho de primers, flanqueando a região intrônica, respectivamente. Nesta etapa também é produzido um arquivo auxiliar com a posição dos introns obtidos das seqüências genômicas homólogas (Figura 6). Na etapa descrita acima, houve uma intervenção manual no ajuste dos parâmetros para que os primers adequados fossem obtidos. Antes de fazer o alinhamento múltiplo, as seqüências geradas foram traduzidas nas seis leituras no programa EMBOSS Transeq (http://www.ebi.ac.uk/emboss/transeq/). Então, todas as seis leituras foram alinhadas com as seqüências homológas. A leitura com melhor alinhamento foi escolhida para o desenho de primers. Com as ESTs da biblioteca de folhas, considerando PHRED > 20 e número de bases >= 250, foram inferidas as funções dessas ESTs executando BLASTX contra os bancos de proteínas nr (não redundante) do NCBI. Atualmente 1346 seqüências no formato FASTA de A. hypogaea estão depositadas no banco de dados dbEST, essas também foram utilizadas para o desenvolvimento de marcadores moleculares baseados em introns.

Figura 3: Fluxograma representando o pipeline 1.

43 Contigs + Singlets

Blastn vs DNA genômico

Descatada e < 1e-10

Arquivos do tipo .gb

Converte arquivo .gb em .gff

Armazena em um único arquivo

Figura 4: Fluxograma representando o pipeline 2.

Falso Enquanto existir resultados blast Fim Verdadeiro

Lê próximo resultado blast

Falso Enquanto existir ocorrências (hits)

Verdadeiro

Lê próximo hit

Lê arquivo gff correspondente ao hit e armazena características

Seleciona somente características vizinhas ao hit

Não Existe sequência codificadora (CDS) na região?

Sim

Não Existe intron na região delimitada pelo CDS?

Sim

Enquanto existir Falso HSP faça

Verdadeiro

HSP é oposto ao Armazena proteína Não primeiro HSP com Sim correspondente e cria um intron no meio? máscara para visualizar introns no alinhamentos

Figura 5: Fluxograma representando o pipeline 3.

Arquivo multi- Arquivo resultado Arquivo fasta com fasta com do blast para contig/singleton sequências de contigs e acrescido de intron proteínas singletons

Roda Roda MVIEW Roda PRIMER3 C LUSTALW

Figura 6: Fluxograma representando o pipeline 4

5. Resultados

5.1 Construção da biblioteca de cDNA de folha

Na extração da amostra de RNA total pelo protocolo da Qiagen, houve contaminação com DNA (Figura 8), o qual foi retirado com DNase (Pharmacia). As bandas mais fortes representam o RNA ribossomal.

DNA

Figura 7: Gel de agarose (1%/brometo de etídio) de quantificação referente à extração de RNA total. Poço 01 marcador 1Kb ladder e Poço 02 amostra de RNA total.

Na realização do LD-PCR o número de ciclos variou de 18 a 26. Apenas os produtos das reações de 26 ciclos apresentaram uma boa visualização em gel de agarose 1%./brometo de etídio, o mesmo foi utilizado para dar continuidade ao procedimento da construção da biblioteca de cDNA. Foram obtidas 17 frações da cromatografia de gel de filtração (Chroma Spin 400) e analisadas em gel de agarose 1%/brometo de etídio. As frações maiores visualizadas no gel nos poços de 8-10 foram reunidas para a construção da biblioteca (Figura 9).

Figura 8: Gel de agarose 1% referente as frações obtidas da cromatografia de gel de filtração. Poço 01: marcador 1 kb ladder, Poços 08, 09 e 10 : frações da cromatografia de gel de filtração.

5.2. Sequenciamento

Para fazer o PCR a partir da solução de eluição dos fagos obtidos dos bancos de cDNA, foram construídos 2 primers que flanqueavam o sítio de clonagem do cDNA : PT2F2 e PT2R2 (Figura 9).

PT2F2

PT2R2

Figura 9: Esquema mostrando como foi feito o desenho de primers.

Após a amplificação, os produtos foram visualizados em gel de agarose 1%/brometo de etídio para a estimar a porcentagem de clones amplificados, como pode ser observado na figura 10. De um total de 404 reações, somente 161 foram usadas para a reação de sequenciamento, pois os produtos de PCR apresentavam a quantidade de massa de DNA entre 10-20 ng.

Folha

Figura 10: Análise em gel de agarose 1% dos produtos da reação de PCR,utilizando-se os primers PT2F2 e PT2R2. Poços 16, 45,71 e 90: marcador Low DNA Mass Ladder.

5.3 Análise Computacional das ESTs

A ferramenta computacional desenvolvida para a análise das ESTs de raízes e folha possibilitou automatizar o processo de busca de marcadores moleculares baseados em introns, reduzindo com isso o tempo de análise. Para a análise das ESTs, os cromatogramas foram reunidos em três arquivos de acordo com o tecido : PlacaML (folha), PlacaRI (raiz inoculada) e PlacaRN (raiz não inoculada). Na primeira etapa do processamento (pipeline 1), 161 cromatogramas de ESTs de folhas ; 192 de raiz inoculada e 318 de raiz não inoculada, resultantes da reação de sequenciamento, foram analisadas no programa PHRED, considerando as seqüências de boa qualidade com pelo menos 250 bases com pontuação >=20 (Tabela 2).

Tabela 2: ESTs geradas de Arachis stenosperma No. de fragmentos de ESTs Seqüenciadas Após PHRED Placa ML 161 81 Placa RN 318 154 Placa RI 192 95 TOTAL 671 330

Após a verificação da qualidade de cada base, e retirada das seqüências de baixa qualidade, foi realizado o mascaramento do vetor pelo programa Cross_Match. Poucas seqüências continham vetor, pois os primers desenhados flanqueavam os sítios de clonagem e evitaram a contaminação com o vetor. No passo seguinte foi feita a montagem pelo programa CAP3 que produziu agrupamento (cluster) baseados na similaridade das seqüências. Dois resultados foram produzidos: contigs e singlets (Tabela 3).

Tabela 3: Agrupamento de ESTs após CAP3 No. de No. de fragmentos de ESTs ESTs Seqüenciadas Após PHRED Placa ML 81 161 81 Placa RN 95 318 154 Placa RI 154 192 95 TOTAL 330 671 330

No resultado da PlacaML dos 10 contigs, 7 contigs foram formados com 2 seqüências, 1 com 5 seqüências e 1 com 8 seqüências (ANEXO). Na Placa RI tiveram 7 contigs com 2 seqüências, 4 contigs com 3 seqüências e 1 contig com 5 seqüências. Já na PlacaRN, dos 22 contigs, 18 contigs tiveram 2 seqüências, 5 contigs com 3 seqüências e 2 contigs com 5 seqüências.

Os arquivos no formato FASTA dos contigs e singlets foram utilizados como entrada para o pipeline3. Neste pipeline, houve a busca de seqüências homólogas aos contigs e singlets. Os parâmetros escolhidos para essa busca foram: e-value = 1e-10; Banco de dados não redundante (nr) contra DNA genômico e BLASTn. As seqüências homólogas obtidas tiveram seu registro Genbank correspondente (Figura 11), armazenado localmente, e logo em seguida, convertido para arquivo do tipo gff (Figura 12) que armazena características, como posição de introns.

Figura 11: Exemplo de arquivo do tipo Genbank (.gb)

LOCUS GTU39858 1084 bp DNA linear PLN 29-NOV- 1995 DEFINITION Glycine tabacina ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit precursor (rbcS) gene, nuclear gene encoding chloroplast protein, complete cds. ACCESSION U39858 VERSION U39858.1 GI:1079739 KEYWORDS ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit; rbcS. SOURCE Glycine tabacina ORGANISM Glycine tabacina Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; rosids; eurosids I; Fabales; Fabaceae; Papilionoideae; Phaseoleae; Glycine. REFERENCE 1 (bases 1 to 1084) AUTHORS Cao,K., Ji,J. and Gu,Q. TITLE Cloning and Structure Analysis of rbcS Gene from Two Wild Soybean (G.tabacina & G.tomenella) JOURNAL Unpublished (1995) REFERENCE 2 (bases 1 to 1084) AUTHORS Xiao,C. TITLE Direct Submission JOURNAL Submitted (02-NOV-1995) Chuan Xiao, Fudan University, Biochemistry, Handan Road 220#, Shanghai, 200433, People's Republic of China FEATURES Location/Qualifiers source 1..1084 /tissue_type="leaf" /clone="pBG43" /strain="pw0043" /organism="Glycine tabacina" /db_xref="taxon:44016" /mol_type="genomic DNA" gene 17..1084 /gene="rbcS" mRNA join(17..235,425..559,838..>1084) /gene="rbcS" exon 17..235 /gene="rbcS" 5'UTR 17..64 /gene="rbcS" CDS join(65..235,425..559,853..1083) /product="ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit precursor" /gene="rbcS" /EC_number="4.1.1.39" /protein_id="AAA82071.1" /codon_start=1 /translation="MASSMISSPAVTTVNRAGAGTVAPFTGLKSMAGFPTRKTNNDIA

SIASNGGRVQCMQVWPTTGKKKFETLSYLPDLDDAQLAKEVEYLLRKGWIPCLEFELE

HGFVYREHHRSPGYYDGRYWTMWKLPMFGCTDASQVLKELQEAKTAYPNAFIRIIGFD NVRQVQCISFIAYKPPSF" /db_xref="GI:1079740" transit_peptide 65..229 /gene="rbcS" mat_peptide join(230..235,425..559,853..1080) /product="ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit" /gene="rbcS" /EC_number="4.1.1.39" intron 236..424 /gene="rbcS" exon 425..559 /gene="rbcS" intron 560..852 /gene="rbcS" exon 853..>1084 /gene="rbcS" BASE COUNT 308 a 240 c 218 g 318 t ORIGIN 1 gagcagaagc ttggatatct ggcagcagaa aaacaagaag ttgcgaacta agaaggagaa 61 ggaaatggct tcctcaatga tctcctcccc agctgttacc accgtcaacc gtgccggtgc 121 cggcacggtt gctccattca ctggcctcaa atccatggct ggcttcccca ccaggaagac 181 caacaatgac attgcctcca ttgctagcaa cggtggaaga gtgcaatgca tgcaggtaag 241 acaactctac acatatacac acatgaggca ccaaaacgtt taaaattcac tattcacatt 301 tatttagctc ctaaatgtta cttaaattca catgattgca tatggttaaa ttaaaatgat 361 tgcatatgga aaatgtgcac atgtgcatgt ttgttaactc acttttcttc atgcaaatta 421 ctaggtgtgg ccaacaactg gcaagaagaa gttcgagact ctttcctact tgccagacct 481 cgatgatgcc caattggcaa aggaagtcga ataccttcta aggaagggat ggattccttg 541 cttggaattc gagttggagg tcaatttctt gtaacccctt ttggtttaat catagatttt 601 cttagtctta gtttgtttca acttaatttc aagaaataat cgcttctctt gctaccgtgc 661 taaaagtact tttggaaaca aaacaaaaaa tggttttgtt ccaaaatcta agtttattta 721 acagattttt ctatctgaga gttatcaata tgtatcaaat ctattcctat ctccgaccaa 781 atgctattct tccaaaacaa gcacttggtt ttgaggtttg atggttgatc tgtttgttgt 841 gtttgtttac agcacggttt tgtgtaccgt gagcaccaca ggtcaccagg atactatgat 901 ggacgctact ggaccatgtg gaagctgcct atgtttggct gcactgatgc ttctcaggtg 961 ttgaaggagc ttcaagaggc taagactgca taccccaacg ccttcatccg tatcatcgga 1021 ttcgacaacg ttcgccaagt gcaatgcatc agcttcatcg cctacaagcc cccaagcttc 1081 taag //

Figura 12: Exemplo de arquivo Gene Finding Format (.gff)

SEQ EMBL/GenBank/SwissProt source 1 1084 . + . tissue_type leaf

; clone pBG43 ; strain pw0043 ; organism "Glycine tabacina" ; db_xref "taxon:44016" ; mo l_type "genomic DNA" SEQ EMBL/GenBank/SwissProt gene 17 1084 . + . gene rbcS SEQ EMBL/GenBank/SwissProt mRNA 17 1084 . + . gene rbcS SEQ EMBL/GenBank/SwissProt exon 17 235 . + . gene rbcS SEQ EMBL/GenBank/SwissProt 5'UTR 17 64 . + . gene rbcS SEQ EMBL/GenBank/SwissProt CDS 65 1083 . + . product "ribulos e 1,5-bisphosphate carboxylase/oxygenase small subunit precursor" ; gene rbcS ; EC_number "4. 1.1.39" ; protein_id "AAA82071.1" ; codon_start 1 ; translation MASSMISSPAVTTVNRAGAGTVAPFTG LKSMAGFPTRKTNNDIASIASNGGRVQCMQVWPTTGKKKFETLSYLPDLDDAQLAKEVEYLLRKGWIPCLEFELEH GFVYREHHRSPGYYDGRYWTMWKLPMFGCTDASQVLKELQEAKTAYPNAFIRIIGFDNVRQVQCISFIAYKPPSF ; db_xref "GI:1079740" SEQ EMBL/GenBank/SwissProt transit_peptide 65 229 . + . gene rbc SEQ EMBL/GenBank/SwissProt mat_peptide 230 1080 . + . product "ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit" ; gene rbcS ; EC_number "4.1. 1.39" SEQ EMBL/GenBank/SwissProt intron 236 424 . + . gene rbcS SEQ EMBL/GenBank/SwissProt exon 425 559 . + . gene rbcS SEQ EMBL/GenBank/SwissProt intron 560 852 . + . gene rbcS SEQ EMBL/GenBank/SwissProt exon 853 1084 . + . gene rbcS

O resultado do Blastn da PlacaML mostrou que 32 singlets e 4 contigs não apresentaram similaridade com outras seqüências depositadas no banco de dados nr. Pôde-se observar que mais de 60% das seqüências homólogas é da mesma família do Arachis stenosperma, a família das leguminosas; e se referem a informações genéticas contidas no cloroplasto (ANEXO). O programa utilizado para busca de proteínas similares foi o BLASTx e o banco de dados não redundantes considerando o valor do e-value 1e-10. As seqüências submetidas a esta análise apresentaram similares a outras seqüências depositadas nestes bancos de dados. Das 53 seqüências únicas (singlets), 34 apresentaram similaridade; e dos 10 contigs, 7 apresentaram similaridade. A maioria das seqüências apresentou similaridade com informações genéticas relacionadas a fotossíntese (ANEXO). A partir das seqüências de ESTs de A. hypogaea foram obtidas nove candidatos a marcadores moleculares baseados em introns. Os resultados de BLASTn e BLASTx das seqüências das Placas RN e RI não serão descritos e só foram usados como testes da metodologia descrita acima.

6. Discussão

O protocolo LD-PCR do kit SMART IV utilizado na construção da biblioteca de cDNA permite a utilização de RNA total, o que pode gerar clones com seqüências de RNA ribossomal, como pôde ser observado no resultado do BLASTx – nr da Placa ML. A contaminação pode ser evitada utilizando RNA mensageiro na construção da biblioteca. O resultado do BLASTx pode ter sido influenciado pelo número de ciclos do LD-PCR, pois pelo protocolo acima citado, com a quantidade de RNA total obtida, o número de ciclos sugerido seria entre 18 – 20, mas como não foi visualizado nenhum produto no gel de agarose, aumentou-se o número de ciclos até 26 ciclos, podendo assim, visualizar o produto. O aumento no número de ciclos do LD-PCR muda a proporção de diferentes cDNAs, por exemplo, seqüências menores são mais representadas. Este estudo investigou 161 ESTs de folha, 192 ESTs de raiz inoculada com Bradyrhizobium sp. e 318 de raiz não inoculada, porém em torno de 50 % das seqüências de cada tecido, foram rejeitadas na primeira etapa de análise quando usados os parâmetros PHRED>20 e tamanho de seqüência de pelo menos 250 bases. Este fato pode ser devido as ESTs serem geradas diretamente dos produtos de PCR, sem fazer uma purificação antes do sequenciamento. Na busca de seqüências homólogas as ESTs de folha no BLASTx, foi observado que as funções dessas seqüências homólogas, em sua maioria, estão relacionadas com fotossíntese, a qual ocorre no cloroplasto. Cada célula vegetal tem em média, de 10 a 100 cloroplastos, que reflete a importância da fotossíntese nas folhas. Cada cloroplasto contém um genoma de DNA, uma molécula circular que contém genes para a fotossíntese, transporte de elétrons e síntese de proteínas do cloroplasto. O cpDNA é transmitido maternalmente na maioria das plantas, exceto nas gimnosperma onde a herança é paterna (Suzuki et al,1992). Embora, a maioria das proteínas é codificada no núcleo e tem herança Mendeliana. Isso demonstra que marcadores para mapeamento genético devem ser derivados de DNA nuclear. Segundo Carrer (1998) o sequenciamento do genoma do cloroplasto tem importância fundamental para o conhecimento dos genes que participam dos caminhos metabólicos, no estudo da interação dos genes nucleares que se expressam nos cloroplastos e apresenta fundamentos para análise do sistema evolutivo da organela nos vegetais. Existem pelo menos de 500 a 1000 genes nucleares que se expressam nos

cloroplastos após síntese pré-protéica nos ribossomos do citoplasma. Dos genes codificados no plastídio, em torno de 50 estão envolvidos na transcrição dos genes plastidiais como rRNA, tRNA, genes de proteínas ribossomais e gene da RNA polimerase. Os genes relacionados com o metabolismo vegetal são aproximadamente 40 e formam complexos com genes nucleares, codificando componentes do sistema fotossintético. Dos ESTs encontrados neste trabalho com funções relacionadas com fotossíntese podemos destacar as seguintes ESTs com similaridade a: rubisco, fotossistema I e II, plastocianina e ubiquitina. Nos últimos anos, o uso de ESTs para desenvolver marcadores moleculares tem sido descrito em vários trabalhos ( Harushima et al., 1998; Morgante et al., 2002; Broughton et al., 2003). Em alguns trabalhos ( Powell et al., 1995;Doyle et al, 1998) os autores descrevem a busca de marcadores baseados em microssatélites do DNA do cloroplasto (cpDNA) para estudos de variação genética, para entender padrões de diferenciações entre populações de plantas. O RFLP também tem sido usado na análise de cpDNA, Parducci & Szmidt (1999) estudaram esse método para detectar variação interespecífica no gênero Abies e para estudar como a variação foi distribuída em diferentes regiões do genoma. Marcadores moleculares baseados em introns não são muito estudados, e isto foi visto quando foi feita a revisão bibliográfica sobre esse assunto e somente foi encontrado um trabalho com milho e aveia feito por Holland e colaboradores (2001), no qual eles utilizaram banco de dados de seqüências para a construção de marcadores moleculares baseados em introns, exons e regiões promotoras. Os procedimentos de construção de bibliotecas de cDNAs e análise destas utilizando ferramentas da bioinformática para automatizar o processo, permitiram investigar a possibilidade de usar ESTs para buscar marcadores moleculares baseados em introns. Para essa investigação foi escolhida a espécie Arachis stenosperma, uma espécie selvagem do gênero Arachis que apresenta resistência a pragas e patógenos. Além disso, foi desenvolvido um programa para análise dos dados. Algumas questões devem ser discutidas antes da construção de um programa para análise de dados biológicos, como por exemplo, qual a linguagem que o programa deve ser escrito, quais os parâmetros que devem ser considerados para obter um resultado confiável, se existem programas já desenvolvidos para este tipo de problema, entre outros.

Para o desenvolvimento do programa, nesse estudo foi escolhida a linguagem PERL, pois tem uma sintaxe flexível (Gibas & Jambeck, 2001), necessitaria de um tempo menor de programação e programas já escritos poderiam ser utilizados, como módulos do BIOPERL (Stajich et al, 2002). Outro parâmetro discutido foi a escolha do tipo de BLAST a ser usado na busca de similaridade no pipeline 2. O BLASTn foi escolhido devido a possibilidade de restringir a busca somente para DNA genômico, o que facilitou encontrar as seqüências homólogas que apresentavam regiões intrônicas. O resultado da busca de seqüências homólogas que continham introns monstrou que quatro ESTs de A. stenosperma e nove ESTs de A. hypogaea possuíam seqüências homólogas, que puderam ser utilizadas na busca de marcadores moleculares baseados em introns (Tabelas 4 e 5). Nos resultados do pipeline 3 e 4, ajustes manuais tiveram que ser feitos a fim de minimizar falhas na edição do programa no alinhamento múltiplo da seqüência de EST com as seqüências homólogas para assim, poder inferir o local de retirada de um intron na seqüência de mRNA, e com isso desenhar primers que flanqueiam essa região para testá-los em DNA genômico.

Tabela 4: Desenho do primer flanqueando introns – A. stenosperma

Seqüências Forward Primer Reverse Primer

As1ML1P1D12 – Placa ACTCGCCGATTACAA TCATCTTATCCTGATT ML CATCC GTAT Contig 4 – Placa ML TGGAAGAGTCCAATG TCGTTCAGGTCTGGC CATGA AAGTA

AS1RI2P1D02 – Placa RI AGGAAGGAATCCCAC AGCCATCAAAGAAGG CTGAT CTCAA

Contig22 – Placa RN GCGAGCACATGACTG TCTGTTCTTGATCTGT ATCTC GTTCTTTCA

Tabela 5: Desenho do primer flanqueando introns – A. Hypogaea

Seqüências Forward Primer Reverse Primer

CD038286 TGGAATGGATGATGG GGGGCTTTTCTGGGT AGATG AGTCT CD038517 TTGTTGGTGATGCTG CGAAAAGTTTTGGCT GTGTT GCTGT CD038536 CTGTGCAGCAAAGGC TGACCATCATCCATC TGATA ACAAGA CD038473 GCAGGAGCTAAGGCA GTGTGGTTGAGGTTG CD038568 GCTCGATGCTCAACC ACCTTGCAATCGTAC TGAGT CCAAG CD038575 TTTCTTCTCCCTCGTC ACACCACCTCCCAGA

CD 038835 TCACTGTTGGTGATG AATTCACAGTGCTCC GTGCT CATCC Contig 38 CCTGCCACCTATGAC GTAACCAAGGATGCC GAAAT CTTCA Contig 168 CAACGGTGGAAGAGT GGAACCCATCCCTTC CCAAT CTTAG

7. Conclusão

Os singlets e contigs, relativos a biblioteca de cDNA de folhas, foram submetidos à análise de similaridade em bancos de dados (BLASTx –nr) e 38 apresentaram similaridade com outras proteínas já depositadas, e dessas cerca de 50% tiveram similaridade com proteínas envolvidas na fotossíntese.

Embora o número de seqüências geradas (81 ESTs) obtido foi baixo, este estudo pode fornecer informações que ainda não consta no banco de dados do dbEST para a espécies A. stenosperma, uma vez que no dbEST só há seqüências depositadas para a espécie A. hypogaea (1346 ESTs – outubro de 2003).

Nesse estudo, a bioinformática possibilitou a automatização de tarefas exaustivas, como comparar seqüências de DNA e gerar resultados potencialmente significativos. A interação entre pesquisadores da área da ciência da computação e da ciência biológica auxiliou no desenvolvimento de uma ferramenta computacional para a análise dos dados, visto que a intervenção de um especialista em uma das áreas, em certos momentos, foi necessário no ajuste de alguns parâmetros para se obter um bom resultado.

Nesse trabalho foi desenhado primers a partir da inferência de posições de retirada de introns em mRNAsbaseados em regiões conservadas entre as seqüências homólogas e os ESTs. Para chegar a conclusão final de que ESTs de Arachis stenosperma possam ser usados como marcadores moleculares baseados em introns, é necessário testar esses primers. Esta etapa será feita posteriormente dentro do projeto de “Busca de genes de resistência contra pragas e patógenos em germoplasma selvagem de Arachis do Brasil”.

8. Referências Bibliográficas

ABJIAN, C. (1994) Sputinik. http: //abajian.net/sputnik/.

ADAMS, M. D., et al. (1991). Complementary DNA Sequencing: Expressed Sequence Tags and Human Genome Project. Science 252: 1651-1656.

ALTSCHUL, S. F., et al. (1990) Basic Local Alignment Search Tool. J. Mol Biol 215: 403-410.

BELL, C. J., et al. (2001). The Medicago Genome Initiative: a model legume database. Nucleic Acids Research 29: 114 – 117.

BENSON, D.A., et al. (2000). GenBank. Nucleic Acids Research 28 (1): 15-18.

BERNAL, A.; EAR, U.; NIKOS, K. (2001). Genomes OnLine Database (GOLD): a monitor of genome projects world-wide. Nucleic Acids Research 29: 126-127.

BOGUSKI, M.S.; LOWE, T.M.J.; TOLSTOSHEV, C.M.(1993) dbEST – database for “expressed sequence tags” Nature Genetics 4: 332-333.

BROUGHTON, W.J., et al. (2003). Beans (Phaseolus spp.) – model legumes. Plant and Soil 252: 55-128.

BROWN, T.A. (2003). Clonagem Gênica e Análise de DNA : Uma Introdução. Artmed Editora S.A. Porto Alegre, RS. 375p.

BUROW, M. D., et al. (1996). Identification of peanut (Arachis hypogaea L.) RAPD markers diagnostic of root-knot nematode (Meloidogyne arenaria (Neal) Chitwood) resistance. Molecular Breeding 2: 369-379.

CARRER, H. (1998). Transformação de Cloroplastos. Revista Biotecnologia Ciência e Desenvolvimento. Ano1, número 5 – Março/Abril.

CASTELO, A. T.; MARTINS, W.; Gao, G.R.(2002). TROLL - Tandem Repeat Occurence Locator. Bioinformatics Applications Note 18 : 634-636.

COOKE, R., et al. (1996). Further progress towards a catalogue of all Arabidopsis genes: analysis of a set of 5000 non-redundant ESTs. The Plant Journal 9(1): 101-124.

DOYLE, J.J., et al. (1998). Size Homology in Chloroplast Microsatellites of Wild Perennial Relatives of Soybean (Glycine Subgenus Glycine). Mol. Biol. Evol. 15(2): 215-218.

EWING, B., et al (1998). Base-Calling of Automated Sequencer Traces Using Phred . I. Accuracy Assessment. Genome Research 8 : 175-185.

EWING, B.; GREEN, P. (1998) Base-Calling of Automated Sequencer Traces Using Phred .II. Error Probabilities. Genome Research 8 : 186-194.

EWING, R.B., et al. (1999) Large-Scale Statistical Analyses of Rice ESTs Reveal Correlated Patterns of Gene Expression. Genome Research 9: 950-959.

FERREIRA, M.E., GRATTAPAGLIA, D.(1998). Introdução ao uso de marcadores moleculares em análise genética. Embrapa Produção de Informação. Brasília,DF.220p.

GARCIA, G.M.; STALKER, H.T.; KOCHART, G. (1995). Introgression analysis of an interespecific hybrid population in peanuts (Arachis hypogaea) using RFLP and RAPD marker. Genome 38(1): 166-76.

GARCIA, G. M., et al. (1996). Identification of RAPD, SCAR, and RFLP markers tightly linked to nematode resistance genes introgressed from Arachis cardenasii into Arachis hypogea. Genome 39: 836-845.

GIBAS, C.; JAMBECK, P. (2001). Desenvolvendo Bioinformática: ferramentas de software para aplicações em Biologia. Editora Campus. Rio de Janeiro, RJ. 440p.

GILBERT,W. (1978). Why genes in pieces? Nature 271(9): 501.

GODOY, I.J.; SANTOS, R.C. (1999) Melhoramento do amendoim. p. 51-94. In: BORÉM, Melhoramento de espécies cultivadas. Viçosa: UFV. 817p.

GOODMAN, N. (2002) Biological data becomes computer literature: new advances in bioinformatics. Current Opinion in Biotechnology 13: 68-71.

GREEN, P. (1999). Documentation for PHRAP and Cross_match (version 0.990319). http://www.phrap.org/phrap.docs/phrap.html

GROSSO, N. R.; NEPOTE, V.; GUZMÁN C. A. (2000). Chemical Composition of Some Wild Peanut species (Arachis L.) Seeds. J. Agric. Food Chem. 48: 806- 809.

Halward, T., et al. (1992). Use of single-primer DNA amplification in genetic studies of peanut (Arachis hypogaea L.) Plant Molecular Biology 18: 315-325.

HARUSHIMA, Y., et al. (1998). A high-density rice genetic linkage map with 2275 markers using a single F2 population. Genetics. 1998 Jan;148(1):479-94

HE, G., et al. (2003). Microsatellites as DNA markers in cultivated peanut (Arachis hypogaea L.). BMC Plant Biology 3:3.

HOFTE, H., et al. (1993) An inventory of 1152 expressed sequence tags obtained by partial sequencing of cDNAs from Arabidopsis thaliana. The Plant Journal 4(6): 1051-1061.

HOLLAND, J.B., et al. (2001). Polymorphism of PCR-based markers targeting exons, introns, promoter regions, and SSRs in maize and introns and repeat sequences in oat. Genome 44: 1065-1076.

HUANG, X.; MADAN, A. (1999). CAP3: A DNA Sequence Assembly Program. Genome Research 9: 868-877.

INGHAM, E.R.; HOLTSFORD, T.P.; WALKER, J. (2000). Bioinformatics: using phylogenetics and database to investigate plant protein phosphorylation. Advances in Botanical Research 32:45-65.

KOCHERT, G., et al. RFLP variability in peanut (Arachis hypogaea) cultivars and wild species. (1991) Theor. Appl. Genetic. 81:565-570

KRAPOVICKAS,A.; GREGORY, W. C. (1994) Taxonomia del género Arachis (Leguminosae). Bonplandia (1-4): 1-186.

LANHAM, P.G., et al. (1992). Detection of polymorphic loci in Arachis germplasm using random amplified polymorphic DNA. Genome 35(5) : 885- 889.

LEAL-BERTIOLI, S. C. M., et al. (1999) Busca de resitência ao nematóide das galhas Melodoygine spp. e seqüências análogas a genes de resitência em acessos silvestres de Arachis. Boletim de Pesquisa – série EMBRAPA. No. 20.

LIANG, F., et al. (2000). An Optimized Protocol for Analysis of EST sequences. Nucleic Acids Research Vol. 28 (18): 3657-3665.

LUSCOMBE, N. M. ; GREENBAUM, D.; GERSTEIN, M. (2001). What is bioinformatics? An introduction and overview. For IMIA 2001 Yearbook. New Haven, USA.

MATTHEWS, B.F., et al. (2001). Incorporation of Sequenced cDNA and Genomic Markers into the Soybean Genetic Map. Crop Science 41: 516-521.

MILACH, S.C.K. (1998). Marcadores de DNA. Revista Biotecnologia Ciência e Desenvolvimento. Ano1, número 5 – Março/Abril.

MILACH, S.C.K.; SILVA, P.R.; SERAFIM, D. (2002). Novos Marcadores Moleculares na Era do Sequenciamento de DNA. In: Brommer, S. P & Iorczeski, E. J. ed. Atualização em Técnicas Celulares Moleculares Aplicadas ao Melhoramento Genético Vegetal. Embrapa Trigo. Passo Fundo, RS. Disponível via World Wide Web: http://www.cnpt.embrapa.br/livros/biotecnologia/

MILLER, C.J. ; ATTWOD, T.K. (2003). Bioinformatics goes back to the future. Nature Reviews Molecular Cell Biology 4: 157-162.

MOUNT, D. W. (2001). Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press. New York, NY. 564p.

MORGANTE, M.; HANAFEY, M.; POWELL, W. (2002). Microsatellites are prefentially associated with nonrepetitive DNA in plant genomes. Nature Genetics 30: 194-200.

NELSON, C. S.; SIMPSON, C. E.; STARR, J. L. (1989). Resistance to Melodogyne arenaria in Arachis spp. Germplasm. Supplement to Journal of Nematology 21 No. 45: 654-660.

NCBI [http://www.ncbi.nlm.nih.gov] (último acesso: setembro de 2003).

NUTTER, F. W., Jr., SHOKES, F. M. (1995). Management of Foliar Diseases Caused by Fungi. in: Peanut Health Management, eds. H. A. Melouk and F. M. Shokes. APS Press, St. Paul, MN. p 65-73.

OLIVEIRA, T., et al. (2003) An integrated genetic data environment (GDE)- based LINUX interface for analysis of HIV-1 and other microbial sequences. Bioinformatics 19: 153-154.

PARDUCCI, L.; SZMIDT, A. E. (1999). PCR-RFLP analysis of cpDNA in the genus Abies. Theor. Appl. Genet. 98: 802-808.

PATANJALI, S.R.; PARIMOO, S.; WEISSMAN, S.M. (1991). Construction of a uniform-abundance (normalized) cDNA library. Proc. Natl. Acad. Sci. (88): 1943-1947.

PEARSON, W. R. (1998). Flexible Sequence similarity searching with the FASTA 3 program package. Departament of Biochemistry, University of Virginia, Charlottesville, VA.

PERTEA, M. ; SALZBERG, S.L. (2002). Computacional gene finding in plants. Plant Mol Biol. Jan: 48(1-2): 39-48.

POULSEN, C. ; PODENPHANT, L. (2002). Expressed Sequence Tags from Roots and Nodule Primordia of Lotus japonicus Infected with Mesorhizobium loti. Molecular Plant-Microbe Interactions 4: 376-379.

POWELL, W., et al. (1995). Polymorphic simple sequence repeat regions in chloroplast genomes: Applications to the population genetics of pines. Proc. Natl. Acad. Sci. USA Vol. 92 : 7759-7763.

RAFALSKI, J.A., et al. (1996). Generating and Using DNA Markers in Plants. In: Analysis of Non-nomalian genomes – A pratical guide. Birren,B. & Lou, E. (eds) Academic Press, New York. p. 75-134

RAINA, S.N., et al. (2001). RAPD and ISSR fingerprints as useful genetic markers for analysis of genetic diversity, varietal identification, and

phylogenetic relationships in peanut (Arachis hypogaea) cultivars and wild species. Genome 44: 763-772.

RODRIGUES, M.C. (2001). Descoberta de genes do carrapato bovino, Bophilus microplus (Canestrinne, 1887), a partir da análise de ESTs (Expressed Sequence Tags) de ovário.Tese de Mestrado em Biologia Molecular, Universidade de Brasília.

ROUNSLEY, S. D., et al. (1996). The Construction of Arabidopsis Expressed Sequence Tag Assemblies. Plant Physiol. 112: 1177-1183.

SALISBURY, F. B.; ROSS, C.W. (1992). Plant Physiology. Wadsworth Publishing Company. 4th ed. Belmont, California. 682p.

SANTOS, R. C. (1999). Utilização de recursos genéticos e melhoramento de Arachis hypogaea L. no Nordeste Brasileiro. In: Queiróz,M. A. de; Goedert, C. O.; Ramos, S.R.R., ed. Recursos Genéticos e Melhoramento de Plantas para o Nordeste brasileiro. Petrolina-PE: Embrapa Semi-Árido / Brasília-DF: Embrapa Recursos Genéticos e Biotecnologia. Disponível via World Wide Web http://www.cpatsa.embrapa.br

SIMPSON, A.J., et al. (2000).The genome sequence of the plant pathogen Xylella fastidiosa. The Xylella fastidiosa Consortium of the Organization for Nucleotide Sequencing and Analysis. Nature. Jul 13;406(6792):151-7

SIMPSON, C.E.; KRAPOVICKAS, A.; VALLS, F.M. (2001). History of Arachis Including Evidence of A. hypogaea L. Progenitors. Peanut Science 28 : 78-80.

SOMERVILLE, C.; SOMERVILLE, S. (1999). Plant Functional Genomics. Science 285: 380-383.

SOUSA, M. V., et al. (2001).Gestão da Vida? Genoma e Pós Genoma. Editora UnB. Brasília, DF. 144p.

STALKER, H.T. (1992). Utilizing Arachis Germplasm Resources. Groundnut – a global perspective: proceedings of an international workshop, 25-29 Nov 1991. ICRISAT Center, India.

STALKER, H.T., et al. (1994)Variation of isozyme patterns among Arachis species. Theor. Appl. Genet. 87: 746-755.

STALKER, H. T.; MOZINGO, L. G. (2001) Molecular Markers of Arachis- Assisted Selection. Peanut Science 28: 117-123.

STEVEN, R.; SKALETSKY, H.J. (2000). Primer3 . In: Krawetz S, Misener S (eds) Bioinformatics Methods and Protocols: Methods in Molecular. Humana Press, Totowa, NJ, pp 365-386. Disponível na World Wide Web http://www- genome.wi.mit.edu/genome_software/other/primer3.html

SUBRAHMANYAM, P.; MOSS, J. P. ; RAO, V. R. (1983). Resistance to Peanut Rust in Wild Arachis Species. Plant Disease 67: 209-212.

SUTTON, G.S., et al. (1995). TIGR assembler: a new tool for assemblying large shotgun sequencing projects. Genome Sci Technol 1: 9-19.

SUZUKI, D. T, et al. (1992) Introdução à Genética. Editora Guanabara Koogan S.A. 4a. ed. Rio de Janeiro, RJ. 633p

TELLES, G.P., et al. (2001). Bioinformatics of the surgane EST project. Genetics and Molecular Biology (24): 9-15.

THIEL, T., et al. (2003). Exploiting EST databases for the development and characterization of gene-derived SSR-markers in barley ( Hordeum vulgareL.). Theor. Appl. Genet. 106: 411-422.

THOMPSON, J.D.; HIGGINS, D.G.; GIBSON, T.J. (1994). CLUSTALW: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Research 22 (22) : 4673-4680.

TIGR [http://www.tigr.org] (último acesso: setembro de 2003)

TISDALL, J.D. (2001). Beginning Perl for Bioinformatics. O’Reilly & Associates, Inc. Gravenstein Highway North, Sebastopol, CA. 370p.

VALLS, J. F. M. (1997). O gênero Arachis L. (Leguminosae): Importante fonte de proteínas na pré-história sul-americana? Arqueologia em Conexão no 4.

VARSHNEY, R.K., et al. (2002). In silico Analysis on Frequency and Distribution of Microsatellites in ESTs of Some Cereal Species. Cellular & Molecular Biology Letters 7: 537-546.

VEIGA, R. F. A., et al. (2001). Caracterização morfológica de acessos de germoplasma de quatro espécies brasileiras de amendoim silvestre. Bragantia,Campinas 60(3) : 167-176.

WALL, L.; CHRISTIANSEN, T.; ORWANT, J. (2001). Programação Perl. Editora Campus. 3a. ed . Rio de Janeiro, RJ. 179p.

WYNE, J. C.; BEUTE, M.K.; NIGAM, S. N. Breeding for disease resistance in peanut (Arachis hypogaea L.). Annu. Ver. Phytopathol. 29: 279-303.

WOLFSBERG, T. G. ; LANDSMAN, D. (1997). A comparison of expressed sequence tags (ESTs) to human genomic sequences. Oxford University Press 1626-1632.

ANEXO

Pipeline 1

#!/usr/bin/perl

###################################################################### # Programa: pipeline1.pl # # Autores: Simone Vasconcelos e Wellington Martins # # Descrição: nomea bases, remove vetores e agrupa sequencias # # Entrada: cromatogramas (.esd ou .ab1) armazenados num diretório # # Saída: arquivos de Contigs e Singletons em formato FASTA # ###################################################################### use Bio::DB::GenBank; use Bio::SeqIO; use Bio::Tools::Run::RemoteBlast; use Bio::Tools::GFF; use strict;

###################################################################### # Arquivo que contem vetores # ###################################################################### my $VECTOR_FILE = "/usr/local/genome/lib/screenLibs/UniVec";

###################################################################### print "\nEste programa roda phred, crossmatch e cap3.\n\n"; my $base_dir = $ARGV[0]; if ($#ARGV < 0) { die "Uso: perl pipeline1.pl DIRETORIO\n\n"; } if (! -e $base_dir){ die "Erro: diretorio inexistente\n"; }

###################################################################### # Verifica se o arquvivo de vetores existe # ###################################################################### ### while (!(-e $VECTOR_FILE)) { print "\n\nEntre com o diretorio do arquivo de vetores (UniVec): "; $VECTOR_FILE = ; chomp $VECTOR_FILE; }

###################################################################### # Nome dos diretórios que receberão os resultados dos programas # ###################################################################### my $acedir = $base_dir."_ace"; my $bstdir = $base_dir."_bst"; my $alndir = $base_dir."_aln"; my $quadir = $base_dir."_qua"; my $seqdir = $base_dir."_seq"; my $scrdir = $base_dir."_scr";

###################################################################### # Testa se os diretórios já existem # ###################################################################### if (-e $base_dir."/".$acedir){ print "Esta placa ja foi processada.\n"; print "Deseja remover diretorios e processar novamente (S/N)? "; my $resposta = ; chomp($resposta); $resposta = uc($resposta); if ($resposta eq "S") { system "rm -rf ./$base_dir/*.seq"; system "rm -rf ./$base_dir/*.qual"; system "rm -rf ./$base_dir/*.out"; system "rm -rf ./$base_dir/$acedir"; system "rm -rf ./$base_dir/$bstdir"; system "rm -rf ./$base_dir/$alndir"; system "rm -rf ./$base_dir/$quadir"; system "rm -rf ./$base_dir/$seqdir"; system "rm -rf ./$base_dir/$scrdir"; } else { print "Placa processada anteriormente. Finalizando programa ...\n"; exit; } }

###################################################################### # Abri o diretório e verifica se todos arquivos são cromatogramas # # (.esd ou .ab1) # ###################################################################### opendir (DIR,"$base_dir") or die "Diretório não existe"; my @dir = readdir (DIR); closedir (DIR);

my $countfasta = 0; my $countesd = 0; my $countab1 = 0; foreach my $fname (@dir){ unless (-d "./$base_dir/".$fname) { my @piece = split(/\./,$fname); if ($piece[1] ne "esd") { if ($piece[1] ne "ab1") { if ($piece[1] eq "fasta") { $countfasta++; } } else { $countab1++; } } else { $countesd++; } } }

###################################################################### # Cria diretórios onde os resultados serão colocados # ###################################################################### system "mkdir ./$base_dir/$acedir"; system "mkdir ./$base_dir/$bstdir"; system "mkdir ./$base_dir/$alndir"; system "mkdir ./$base_dir/$quadir"; system "mkdir ./$base_dir/$seqdir"; system "mkdir ./$base_dir/$scrdir";

###################################################################### # Remove sequencias do arquivo FASTA e coloca no diretorio _seq # ###################################################################### print "\nForam encontrados $countesd arquivo(s) ESD, $countab1 arquivo(s) AB1 "; print "e $countfasta arquivo(s) FASTA\n"; my $allseqs = "allseqs"; if ($countfasta =! 0) { print "\nExtraindo sequencinas ."; foreach my $fname (@dir){ unless (-d "./$base_dir/$seqdir/$fname") { if ($fname =~ /\.fasta$/) { my $fstream = Bio::SeqIO->new(-file => "<$base_dir/$fname" , '-format' => 'Fasta'); while ( my $fseq = $fstream->next_seq() ) { my $fid = $fseq->display_id;

$fid =~ s/^.*\|//; #$fid =~ s/\|.*$//; #print "\n$fid\n"; my $fseqstr = $fseq->seq(); my $foutname = $fid.".seq"; my $foutseq = Bio::SeqIO->new(-file => ">$base_dir/$seqdir/$foutname" , '-format' => 'Fasta'); my $seqobj = Bio::Seq->new( -display_id => $fid, -seq => $fseqstr); $foutseq->write_seq($seqobj); system "cd ./$base_dir/$seqdir; cat $foutname >> ../$acedir/$allseqs"; print "."; } }

} } print " pronto!\n"; }

###################################################################### # Roda Phred para fazer nomeação de bases e atribuição de qualidades # ###################################################################### opendir (DIR,"$base_dir") or die "Diretório não existe"; @dir = readdir (DIR); closedir (DIR); unless ( ($countesd == 0) && ($countab1 == 0) ) { print "Rodando phred. Aguarde "; foreach my $fname (@dir){ unless (-d "./$base_dir/".$fname) { if ($fname =~ /\.(ab1|esd)$/) { my $seqname = $fname.".seq"; # Seqüência em formato FASTA my $seqnamequa = $seqname.".qual"; # Seqüência com valores de qualidade my $allseqs = "allseqs"; my $allseqsqua = "allseqs.qual";

print "."; system "cd ./$base_dir; phred $fname -trim_fasta -trim_alt \"\" -s $seqname -q $seqnamequa >/dev/null; mv $seqname ./$seqdir; mv $seqnamequa ./$quadir"; my $seqstream = Bio::SeqIO->new(-file => "<$base_dir/$seqdir/$seqname" , '- format' => 'Fasta'); my $seqreg = $seqstream->next_seq; my $seqlen = $seqreg->length(); if ($seqlen > 250) { # nao inclui se tamanho for zero e remove arquivos seq e qual system "cd ./$base_dir/$seqdir; cat $seqname >> ../$acedir/$allseqs"; system "cd ./$base_dir/$quadir; cat $seqnamequa >> ../$acedir/$allseqsqua"; } else {

system "cd ./$base_dir/$seqdir; rm -f $seqname"; system "cd ./$base_dir/$quadir; rm -f $seqnamequa"; } } } } print " pronto!\n";

} # end of if

###################################################################### # Roda Crossmatch para remover vetoress # ###################################################################### opendir (DIR,"$base_dir/$seqdir") or die "Diretório não existe"; @dir = readdir (DIR); closedir (DIR); print "Rodando cross_math. Aguarde "; my $allseqsscr = "allseqs.screen"; # Qualidade de todas sequências da placa my $NMXS = 20; # porcentagem maxima de contaminacao por vetor (X) permitida foreach my $fname (@dir){ unless (-d "./$base_dir/$seqdir/$fname") { if ($fname =~ /\.seq$/) { my $seqname = $fname; # Seqüência em formato FASTA my $seqnamescr = $seqname.".screen"; # Seqüência com vetores mascarados my $seqnamelog = $seqname.".log";

my $vectorfile = $VECTOR_FILE; # aponta para o arquivo de vetores

print "."; my $out = `cd ./$base_dir/$seqdir; cross_match $seqname $vectorfile -screen 2>/dev/null; mv $seqnamescr ../$scrdir`; my $seqstring = "$base_dir/$scrdir/$seqnamescr"; my $seqstream = Bio::SeqIO->new(-file => "<$seqstring" , '-format' => 'Fasta'); my $seqobj = $seqstream->next_seq(); my $nxs = $seqobj->seq =~ tr/Xx//; # conta o numero de Xs my $pct = ($nxs / $seqobj->length) * 100; if ($pct <= $NMXS) { system "cd ./$base_dir/$scrdir; cat $seqnamescr >> ../$acedir/$allseqsscr"; } system "cd ./$base_dir/$seqdir; rm -f $seqnamelog"; } } }

print " pronto!\n";

###################################################################### # Roda Cap3 para realizar montagem (agrupamento) # ###################################################################### print "Rodando cap3. Aguarde ... "; system "cd ./$base_dir/$acedir; cap3 $allseqsscr >/dev/null";

#Concatena o arquivo de Contigs com o arquivo de Singletons my $contigs = $allseqsscr.".cap.contigs"; my $singlets = $allseqsscr.".cap.singlets"; my $allcap3 = $allseqsscr.".cap.all"; system "cd ./$base_dir/$acedir; cat $contigs $singlets >> $allcap3"; print " pronto!\n";

###################################################################### # FIM # ######################################################################

Pipeline 2

#!/usr/bin/perl

###################################################################### # Programa: pipeline2.pl # # Autores: Simone Vasconcelos e Wellington Martins # # Descrição: roda blast remoto e obtem arquivos genbank # # Entrada: arquivos formato FASTA no diretorio placa_seq # # Saída: resultados blast e arquivos genbank de sequencias similares # ###################################################################### use Bio::DB::GenBank; use Bio::SeqIO; use Bio::Tools::Run::RemoteBlast; use Bio::Tools::GFF; use strict;

###################################################################### # Nome do diretorio que armazenara os arquivos genbank # ###################################################################### my $GBDIR = "./genbank_files";

###################################################################### print "\nEste programa roda blast e obtem arquivos genbank\n\n";

###################################################################### # Nome dos diretórios que receberão os resultados dos programas # ###################################################################### my $base_dir = $ARGV[0]; my $acedir = $base_dir."_ace"; my $bstdir = $base_dir."_bst"; my $alndir = $base_dir."_aln"; my $quadir = $base_dir."_qua"; my $seqdir = $base_dir."_seq"; my $scrdir = $base_dir."_scr"; my $allseqsscr = "allseqs.screen"; # Qualidade de todas sequências da placa my $allcap3 = $allseqsscr.".cap.all";

###################################################################### # Verifica uso correto do programa # ######################################################################

if ($#ARGV < 0) { die "Uso: perl pipeline2.pl DIRETORIO\n\n"; } if (! -e $base_dir){ die "Erro: diretorio inexistente\n"; }

###################################################################### # Verifica se o diretorio de arquivos genbank existe # ###################################################################### while (!(-e $GBDIR)) { print "\n\nDiretorio de arquivos genbank inexistente. Criando diretorio $GBDIR"; print "\nTecle para continuar"; my $waitinput = ; system "mkdir $GBDIR"; }

###################################################################### # Verifica quantas sequencias a placa possui, quantos agrupamentos # # foram formados, e quantas sequencias ainda precisam ser blasteadas # ###################################################################### opendir (DIR,"$base_dir") or die "Diretório não existe"; my @dir = readdir (DIR); closedir (DIR); my $nchromats = 0; foreach my $fname (@dir){ unless (-d "./$base_dir/$fname") { if ($fname =~ /\.esd$/ || $fname =~ /\.ab1$/) { $nchromats++; } } } print "\nEsta placa possui $nchromats cromatogramas"; opendir (DIR,"$base_dir/$seqdir") or die "Diretório não existe"; my @dir = readdir (DIR); closedir (DIR); my $nseqs = 0; foreach my $fname (@dir){ unless (-d "./$base_dir/$seqdir/$fname") { if ($fname =~ /\.seq$/) { $nseqs++; } } }

print "\nTotalizando $nseqs sequencias com boa qualidade"; my $ftoblast = "./$base_dir/$acedir/$allcap3"; my $str = Bio::SeqIO->new('-file' => "$ftoblast", '-format' => 'fasta' ); my $ncontigs = 0; my $nsinglets = 0; while (my $input = $str->next_seq()){ if ($input->id() =~ /Contig/) { $ncontigs++; } else { $nsinglets++; } } my $nseqstobebst = $ncontigs + $nsinglets; print "\nOriginando $nseqstobebst clusters ($ncontigs contigs e $nsinglets singletons)"; opendir (DIR,"$base_dir/$bstdir") or die "Diretório não existe"; my @dir = readdir (DIR); closedir (DIR); my $nseqsbst = 0; foreach my $fname (@dir){ unless (-d "./$base_dir/$bstdir/$fname") { if ($fname =~ /\.bst$/) { $nseqsbst++; } } } if ($nseqsbst == 0) { print "\nNenhuma cluster foi blasteado!"; } else { if ( ($nseqsbst+1) > $nseqstobebst) { print "\nTodos os clusters ja foram blasteados!\n\n"; exit; } print "\nOs $nseqsbst primeiros clusters ja foram blasteados"; } $nseqsbst++; my $nseqslimit = $nseqsbst + 34; # o numero maximo de 35 sequencias # foi obtido experimentalmente. if ($nseqslimit > $nseqstobebst) { $nseqslimit = $nseqstobebst; } my $begin = -1; my $end = 99999; while ($begin < $nseqsbst || $end > $nseqslimit) {

print "\nEntre com a faixa (entre $nseqsbst e $nseqslimit) a ser processada"; print "\nInicio: "; $begin = ; print "Fim: "; $end = ; } my $rangesize = $end - $begin + 1;

###################################################################### # Roda Blast remoto para cada sequência da placa e obtem o arquivo # # genbank e gff correspondente às sequências homôlogas # ###################################################################### my $prog = 'blastn'; my $db = 'nr'; my $e_val= '1e-10'; my @params = ( '-prog' => $prog, '-data' => $db, '-expect' => $e_val, '-readmethod' => 'SearchIO' );

# blasteia somente contra DNA genomico $Bio::Tools::Run::RemoteBlast::HEADER{'ENTREZ_QUERY'} = 'biomol genomic[PROP]'; my $v = 1; #$v controla apresentacao de mensagens my $ftoblast = "./$base_dir/$acedir/$allcap3"; my $str = Bio::SeqIO->new('-file' => "$ftoblast", '-format' => 'fasta' ); my $blast_failed = 1; my $cont = 1; my $contseq = 0; while (my $input = $str->next_seq()){

if ($begin <= $cont && $end >= $cont ) {

$contseq++; while ($blast_failed) {

my $factory = Bio::Tools::Run::RemoteBlast->new(@params); my $r = $factory->submit_blast($input);

print "rodando $prog para a sequencia ", $input->id(), " ($contseq/$rangesize)\n"; print STDERR "aguarde..." if( $v > 0 ); sleep 10; while ( my @rids = $factory->each_rid ) { foreach my $rid ( @rids ) {

my $rc = $factory->retrieve_blast($rid); if( !ref($rc) ) { if( $rc < 0 ) { $factory->remove_rid($rid); $blast_failed = 1; } print STDERR "." if ( $v > 0 ); sleep 10; } else { $blast_failed = 0; my $result = $rc->next_result(); my $filename = "./$base_dir/$bstdir/".$result->query_name().".bst"; $factory->save_output($filename); $factory->remove_rid($rid); print "\n$prog para ", $result->query_name(), " pronto!\n"; print "Agora obtem arquivos genbank para sequencias similares (hits)...\n"; while ( my $hit = $result->next_hit ) { next unless ( $v > 0); $a = $hit->accession(); $b = "$GBDIR/".$a.".gb"; unless (-e $b) { print "obtendo $a ... "; my $out = new Bio::SeqIO(-file => ">$b", -format => 'genbank'); $db = new Bio::DB::GenBank(); my $seq = $db->get_Seq_by_acc($a); $out->write_seq($seq); $out->close(); sleep 10; # o formato gff e usado pois facilita print "pronto!\n"; # a busca de caracteristicas numa faixa print "convertendo $b para formato gff ... "; my $seqio = new Bio::SeqIO(-format => 'genbank', -file => $b); my $count = 0; while( my $seq = $seqio->next_seq ) { $count++; my $fname = $seq->accession.".gff"; $fname = "$GBDIR/".$fname; my $gffout = new Bio::Tools::GFF(-file => ">$fname" , -gff_version => 2); foreach my $feature ( $seq->top_SeqFeatures() ) { $gffout->write_feature($feature); } $gffout->close(); } print "pronto!\n"; } } } } } } $blast_failed = 1; }

$cont++; } $str->close();

###################################################################### # FIM # ######################################################################

Pipeline 3

#!/usr/bin/perl -w

###################################################################### # Programa: pipeline3.pl # # Autores: Simone Vasconcelos e Wellington Martins # # Descrição: analisa resultados do blast, gera relatorio e cria # # arquivos para alinhamento multiplo. # # Entrada: resultados do blast fornecidos por pipeline2.pl # # Saída: relatorio informando Introns encontrados e arquivos para # # para alinhamento multiplo # ###################################################################### use Bio::DB::GenBank; use Bio::SeqIO; use Bio::SearchIO; use Bio::SeqFeature::Collection; use Bio::SeqFeature::Generic; use Bio::Location::Simple; use Bio::Tools::GFF; use Bio::Root::IO; use strict; ###################################################################### # Nome do diretorio que armazenara os arquivos genbank # ###################################################################### my $GBDIR = "./genbank_files";

###################################################################### print "\nEste programa analisa resultados de blast, gera relatorio,"; print " \ne cria arquivos para alinhamento multiplo e desenho de primers\n\n";

###################################################################### # Verifica uso correto do programa # ###################################################################### my $base_dir = $ARGV[0]; if ($#ARGV < 0) { die "Uso: perl pipeline3.pl DIRETORIO\n\n"; } if (! -e $base_dir){ die "Erro: diretorio inexistente\n"; }

my $acedir = $base_dir."_ace"; my $bstdir = $base_dir."_bst"; my $alndir = $base_dir."_aln"; my $quadir = $base_dir."_qua"; my $seqdir = $base_dir."_seq"; my $scrdir = $base_dir."_scr";

###################################################################### # Verifica se ja existe relatorio para esta placa # ###################################################################### if (-e "./$base_dir/$base_dir"."_relatorio.out"){ print "Ja existe um relatorio para esta placa.\n"; print "Deseja novo relatorio (S/N)? "; my $resposta = ; # my $resposta = "S"; chomp($resposta); $resposta = uc($resposta); if ($resposta ne "S") { print "\nRelatorio sera mantido\n\n"; exit; } } system "rm -f ./$base_dir/$alndir/*";

###################################################################### # Verifica se todas as sequencias ja foram blasteadas # ###################################################################### my $allseqsscr = "allseqs.screen"; my $allcap3 = $allseqsscr.".cap.all"; my $ftoblast = "./$base_dir/$acedir/$allcap3"; my $str = Bio::SeqIO->new('-file' => "$ftoblast", '-format' => 'fasta' ); my $ncontigs = 0; my $nsinglets = 0; while (my $input = $str->next_seq()){ if ($input->id() =~ /Contig/) { $ncontigs++; } else { $nsinglets++; } } my $nseqstobebst = $ncontigs + $nsinglets; opendir (DIR,"$base_dir/$bstdir") or die "Diretório não existe"; my @dir = readdir (DIR); closedir (DIR); my $nseqsbst = 0; foreach my $fname (@dir){

unless (-d "./$base_dir/$bstdir/$fname") { if ($fname =~ /\.bst$/) { $nseqsbst++; } } } if ($nseqsbst < $nseqstobebst) { print "\n\nAinda faltam clusters a serem blasteados!"; print "\nE necessario rodar o programa pipeline2.pl primeiramente.\n\n"; exit; }

###################################################################### # Gera relatorio e cria arquivos para alinhamento multiplo # ###################################################################### opendir (DIR,"./$base_dir/$bstdir") or die "Diretório não existe"; @dir = readdir (DIR); closedir (DIR); print "\n\nGerando relatorio para a placa $base_dir \n"; my $frel = "./$base_dir/$base_dir"."_relatorio.out"; open (REL, ">$frel"); print REL "\n\n===== Resultados da Placa $base_dir =====\n\n"; my @protein_id; my $protein_id; my @gene; my $gene; my $product; my @product; my $query; my $nofile; my $firsthit=0; foreach my $fname (@dir){ # analisa cada um dos relatorios BLAST do diretorio placa_bst unless (-d "./$base_dir/".$fname) { if ($fname =~ /\.bst/) {

$nofile = 1; # controla a criacao do arquivo de entrada para o CLUSTAW (extensao .maln)

my $blast_report = new Bio::SearchIO ('-format' => 'blast', '-file' => "./$base_dir/$bstdir/$fname"); my $result = $blast_report->next_result; $query = $result->query_name(); print REL "\n\n------\n"; print REL "Hits for query: ", $query, "\n";

print REL "------\n"; # analisa cada ocorrencia (hit) encontrado while ( my $hit = $result->next_hit ) { print REL "\n==> ", $hit->accession, " -- ", $hit->description, " <==";

print REL "\nHIT_RANGE\t\tSCORE\tEVALUE\tQUERY_RANGE\n"; my $hsp = $hit->next_hsp; my ($first_hit_beg, $first_hit_end) = $hsp->range('hit'); # o primeiro hit eh o com melhor evalue e eh tomado como base my ($fqbeg, $fqend) = $hsp->range('query'); print REL $first_hit_beg, "-", $first_hit_end; print REL "\t", $hsp->score; print REL "\t", $hsp->evalue(); print REL "\t", $fqbeg, "-", $fqend;

my $intron = 0; my $cds = 0; my $fmask =""; my $cur_gb = $hit->accession; # preparacao para procurar informacao de introns my $fgb = "$GBDIR/".$hit->accession.".gb"; my $fgff = "$GBDIR/".$hit->accession.".gff"; my $gffio = Bio::Tools::GFF->new(-file => $fgff, -gff_version => 2); my @features = (); while(my $feature = $gffio->next_feature()) { # armazena toda informacao de anotacao (features) numa colecao push @features, $feature; } $gffio->close(); my $col = new Bio::SeqFeature::Collection(); my $totaladded = $col->add_features(\@features); # cria um subconjunto com as informacoes de anotacao presentes # na vizinhanca da regiao da ocorrencia (hit) my @subset = $col->features_in_range(-start => $first_hit_beg, -end => $first_hit_end, -contain => 0); # 0 pega sobreposicao tambem

my $cds_beg; my $cds_end; my $intron_beg; my $intron_end; my @subsetcds; foreach my $feat ( @subset ) { # caso a vizinhanca contenha informacao de sequencia codificadora (CDS), armazene coordenadas if ($feat->primary_tag() eq 'CDS') { $cds_beg = $feat->start; $cds_end = $feat->end; @subsetcds = $col->features_in_range(-start => $cds_beg,

-end => $cds_end, -contain => 0); # 0 gets overlaps as well foreach my $feat ( @subsetcds ) { # verifica se exite algum intron na regiao delimitada por CDS if ($feat->primary_tag() eq 'intron') { $intron_beg = $feat->start; $intron_end = $feat->end; $intron = 1; } } $cds = 1; } }

my $found = 0; my $qbeg; my $qend; my $left; # para cada proximo hit verifica se ele se encontra a direita ou esquerda do intron e oposto ao primeiro hit if ($intron && $cds) { until ( !($hsp = $hit->next_hsp) || $found ) { my ($hit_beg, $hit_end) = $hsp->range('hit'); ($qbeg, $qend) = $hsp->range('query'); if ($hit_beg >= $cds_beg && $hit_end <= $cds_end) { if ($intron_beg > $first_hit_end) { if ($intron_end < $hit_beg) { $found = 1; $left = 1; } } if ($intron_end < $first_hit_beg) { if ($intron_beg > $hit_end) { $found = 1; $left = 0; } } } print REL "\n", $hit_beg, "-", $hit_end; print REL "\t", $hsp->score; print REL "\t", $hsp->evalue(); print REL "\t", $qbeg, "-", $qend; } } # Encontrou. Agora pega as informacoes necessarias if ($found) { print REL "\nIntron found at ($intron_beg-$intron_end) -- for sequence $query\n"; print REL "Corresponding protein, gene, product and location:\n"; foreach my $feat ( @subsetcds ) { if ($feat->has_tag('translation')) { if ($feat->has_tag('protein_id')) { @protein_id = $feat->each_tag_value('protein_id');

$protein_id = $protein_id[0]; } elsif ($feat->has_tag('gene')) { @gene = $feat->each_tag_value('gene'); $protein_id = $gene[0]; } else { $protein_id = ""; } if ($feat->has_tag('gene')) { @gene = $feat->each_tag_value('gene'); $gene = $gene[0]; } else { $gene = ""; } if ($feat->has_tag('product')) { @product = $feat->each_tag_value('product'); $product = $product[0]; } else { $product = ""; } my $fpath = "./$base_dir/$alndir"; my $desc = "$protein_id *** $gene *** $product ***"; $desc .= " (" . $feat->start . "," . $feat->end . ")"; $desc =~ s/\s+/ /g; my @translation = $feat->each_tag_value('translation'); # pega proteina correspondente print REL "> $desc\n"; if ($nofile) { my $faln = "$fpath/$query".".maln"; # cria arquivo para alinhamento multiplo com CLUSTALW open(ALN, ">$faln"); $nofile = 0; $firsthit = 1; } print ALN ">$desc\n", $translation[0],"\n"; $fmask = "$query".".aln.gde.imask"; my $ftmp = "$fpath/$protein_id".".gb"; my $faapip = "$cur_gb".".aa.gde.imask"; my $lgb = $cur_gb.".gb"; system "cd $fpath; cp ../../$fgb ."; system "cd $fpath; pip $lgb -p $protein_id"; # roda programa pip.pl para criar mascara com informacoes sobre introns opendir (PIPDIR,"$base_dir/$alndir") or die "Diretório não existe"; my @pipdir = readdir (PIPDIR); closedir (PIPDIR); foreach my $pipdir (@pipdir) { unless (-d "./$base_dir/$bstdir/$pipdir") { if ($pipdir =~ /^($cur_gb)(.*)\.aa\.gde\.imask$/) { $faapip = $pipdir; } } } my $fmasktmp = "$query".".aln.gde.imask";

open (FPIP, ">>$fpath/$fmask") or die "Arquivo $fmask não existe"; open (FTMP, "<$fpath/$faapip") or die "Arquivo $faapip não existe";; my @ftmp = ; print FPIP "name:$protein_id\n"; shift @ftmp; print FPIP @ftmp; close (FTMP); close (FPIP); if ($firsthit) { # prepara arquivo para desenhar primers com PRIMER3 my $seg1; my $seg3; my $seqsstr = Bio::SeqIO->new('-file' => "$ftoblast", '-format' => 'fasta' ); while (my $input = $seqsstr->next_seq()){ if ($input->id() =~ /$query/) { $seg1 = $input->subseq($fqbeg, $fqend); $seg3 = $input->subseq($qbeg, $qend); } } # a sequencia eh montada com 3 segmentos: seg1 e seg3 do EST e seg2 do intron my $fcurgb = "./$base_dir/$alndir/$lgb"; my $fp3seq = "./$base_dir/$alndir/$query".".p3seq"; my $p3seq = Bio::SeqIO->new(-file => ">$fp3seq" , '-format' => 'Fasta'); my $curgb = Bio::SeqIO->new(-file => "<$fcurgb" , '-format' => 'genbank'); my $seqgb = $curgb->next_seq(); my $seg2 = $seqgb->subseq($intron_beg, $intron_end); my $segt; my $startp3; my $lengthp3; if ($left) { # a ordem pode ser seg1,seg2,seg3 ou seg3,seg2,seg1 dependendo se o primeiro hit estiver a direita ou esquerda do intron $segt = $seg1."N".$seg2."N".$seg3; $startp3 = $fqend - $fqbeg + 2; $lengthp3 = $intron_end - $intron_beg + 1; } else { $segt = $seg3."N".$seg2."N".$seg1; $startp3 = $qend - $qbeg + 2; $lengthp3 = $intron_end - $intron_beg + 1; } my $idp3 = $query."-$startp3-$lengthp3"; my $seqobj = Bio::Seq->new( -display_id => $idp3, -seq => $segt); $p3seq->write_seq($seqobj); $firsthit = 0; } system "cd $fpath; rm -f $cur_gb*"; } } } }

} if ($nofile == 0) { close ALN; } } } close (REL); print "\nPronto! O relatorio esta em ./$base_dir/$base_dir"."_relatorio.out\n\n";

###################################################################### # FIM # ######################################################################

Pipeline 4 #!/usr/bin/perl

###################################################################### # Program: pipeline.pl # # Author: Simone Vasconcelos e Wellington Martins # # Descrição: determinar introns sendo flanqueados por ESTs # # Entrada: cromatogramas (.esd ou .ab1) armazenados num diretório # # Saída: relatório com informações dos homólogos dos ESTs # ###################################################################### use Bio::DB::GenBank; use Bio::SeqIO; use Bio::Tools::Run::RemoteBlast; use Bio::Tools::GFF; use strict; print "\nEste programa gera alinhamentos usando clustalw e mview\n\n"; my $base_dir = $ARGV[0]; if ($#ARGV < 0) { die "Uso: perl pipeline4.pl DIRETORIO\n\n"; } if (! -e $base_dir){ die "Erro: diretorio inexistente\n"; }

###################################################################### # Abri o diretório e verifica se ja existem arquivos .aln # ###################################################################### opendir (DIR,"$base_dir/$alndir") or die "Diretório não existe"; my @dir = readdir (DIR); closedir (DIR); my $foundaln = 0; my $totmaln = 0;

foreach my $fname (@dir){ unless (-d "./$base_dir/".$fname) { if ($fname =~ /\.aln$/) { $foundaln = 1; } if ($fname =~ /\.maln$/) { $totmaln++; } } } if ($foundaln) { print "Ja existem arquivos de alinhamento para esta placa.\n"; print "Deseja remover estes arquivos e processar novamente (S/N)? "; my $resposta = ; chomp($resposta); $resposta = uc($resposta); if ($resposta eq "S") { system "rm -f ./$base_dir/$alndir/*.aln"; system "rm -f ./$base_dir/$alndir/*.gde"; system "rm -f ./$base_dir/$alndir/*.dnd"; system "rm -f ./$base_dir/$alndir/*.html"; } else { print "Placa processada anteriormente. Finalizando programa ...\n"; exit; } } print "\nTotal de arquivos a serem processados: $totmaln\n\n"; print "Rodando clustalw e mview ..."; my $count = 1; my $totp3 = 0; foreach my $fname (@dir){ unless (-d "./$base_dir/$alndir/$fname") { if ($fname =~ /\.maln$/) { print "\n==> $count / $totmaln "; $count++; my $fgde = $fname; $fgde =~ s/maln/aln/; $fgde .= ".gde"; system "cd ./$base_dir/$alndir; clustalw $fname >/dev/null"; system "cd ./$base_dir/$alndir; clustalw ./$fname -output=gde -outfile=$fgde >/dev/null"; my $fmview = $fname; $fmview =~ s/maln/html/; my $fbst = $fname; $fbst =~ s/maln/bst/; $fbst = "../$bstdir/$fbst"; system "cd ./$base_dir/$alndir; mview -in blast -hsp all -ruler on -html head - coloring identity -bold -symcolor gray -gapcolor gray $fbst > $fmview";

} if ($fname =~ /\.p3seq$/) { $totp3++; } } } print "\npronto!\n\n";

print "\n\nRodando primer3 para desenhar primers ..."; my $count = 1; my $p3name; my $p3start; my $p3length; foreach my $fname (@dir){ unless (-d "./$base_dir/$alndir/$fname") { if ($fname =~ /\.p3seq$/) { print "\n==> $count / $totp3 "; $count++; my $fp3in = $fname; $fp3in =~ s/p3seq/p3in/; my $fp3out = $fname; $fp3out =~ s/p3seq/p3out/; my $p3stream = Bio::SeqIO->new(-file => "<$base_dir/$alndir/$fname" , '- format' => 'Fasta'); my $p3seq = $p3stream->next_seq; my $p3id = $p3seq->display_id; if ($p3id =~ /(\S+)-(\d+)-(\d+)/) { $p3name = $1; $p3start = $2; $p3length = $3; } my $seqstr = $p3seq->seq(); open (PRIMERIN,">./$base_dir/$alndir/$fp3in"); print PRIMERIN "PRIMER_SEQUENCE_ID=$p3name\nSEQUENCE=$seqstr\n"; print PRIMERIN "PRIMER_PRODUCT_SIZE_RANGE=100-280\n"; print PRIMERIN "TARGET=",$p3start,",",$p3length,"\n"; print PRIMERIN "PRIMER_MAX_END_STABILITY=250\n=\n"; close(PRIMERIN);

# roda primer3

system "cd ./$base_dir/$alndir; primer3_core <$fp3in > $fp3out"; } } } print "\npronto!\n\n";

Resultado referente ao Blastn Placa ML

Banco de Dados – Arachis stenosperma Contigs (Blastn – non redundant(nr) )

Contigs Seqüências Seqüências homólogas Contig1 As1ML0P1S26 S45033 -- rubisco activase, ribulosebisphosphate As1ML0P1S30 carboxylase/oxygenase activase {alternatively As1ML1P1D05 AF052424 -- Datisca glomerata rubisco activase precursor, gene, As1ML3P1C12 partial cds Beta vulgaris clone RAC109UNI ribulose bisphosphate carboxylase activase (Rca) gene, partial sequence AF528497 -- Gossypium hirsutum rubisco activase alpha (RCA) gene, partial cds Contig2 As1ML1P1E04 AP006396 -- Lotus corniculatus var. japonicus genomic DNA, As1ML1P1C12 chromosome 3, clone:LjT26P21, TM0279b, complete sequence Contig3 As1ML1P1E06 ***** No hits found ****** As1ML1P1B03 Contig4 As1ML4P1H05 U39858 -- Glycine tabacina ribulose 1,5-bisphosphate As1ML4P1A08 carboxylase/oxygenase small subunit precursor (rbcS) gene As1ML2P1B10 U39857 -- Glycine tomentella ribulose 1,5-bisphosphate As1ML4P1H01 carboxylase/oxygenase small subunit precursor (rbcS) gene As1ML1P1G05 U39856 -- Glycine soja ribulose 1,5-bisphosphate carboxylase small As1ML1P1G10 subunit precursor (rbcS) gene, nuclear As1ML3P1E09 M16889 -- Soybean ribulose 1,5-bisphosphate carboxylase small As1ML4P1G06 subunit (SRS4) gene, complete cds V00458 -- Glycine max gene encoding ribulose-1,5-bisphosphate carboxylase small subunit X07515 -- Rice rbcS gene for ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit AP006376 -- Lotus corniculatus var. japonicus genomic DNA, chromosome 1, clone:LjT23D08, TM0220, complete sequence AF028707 -- Phaseolus vulgaris ribulose 1,5-bisphosphate carboxylase/oxygenase small subunit (rbcS2) gene and promoter region, nuclear gene encoding chloroplast protein, partial cds AL731739 -- Oryza sativa chromosome 12, . BAC OSJNBa0056I18 of library OSJNBa from chromosome 12 of cultivar Nipponbare of ssp. japonica of Oryza sativa (rice), complete sequence X69763 -- S.tuberosum rbcS3 gene for ribulose-(1,5)-bisphosphate carboxylase/oxygenase small subunit Contig5 As1ML4P1C09 ***** No hits found ****** As1ML3P1A07 Contig6 As1ML3P1B03 AF347627 -- Glycine max ribosomal protein S8 (rps8) gene, partial As1ML3P1F05 cds, and ribosomal protein L36 (rpl36), complete cds; chloroplast genes for chloroplast products Y00468 -- Pea chloroplast rpl36 gene for ribosomal protein L36 AP002983 -- Lotus corniculatus var. japonicus chloroplast DNA, complete genome AC093544 -- Medicago truncatula chloroplast, complete genome, complete sequence AJ428413 -- Calycanthus fertilis var. ferax complete chloroplast genome AF536226 -- Vigna angularis chloroplast S10A operon, partial sequence AF347622 -- Mesembryanthemum crystallinum translation initiation factor IF1 (infA) chloroplast pseudogene, complete sequence; and ribosomal protein L36 (rpl36) gene, complete cds; chloroplast gene for chloroplast product AJ271079 -- Oenothera elata subsp. hookeri chloroplast plastome I, complete sequence Z00044 -- Nicotiana tabacum chloroplast genome DNA AJ316582 -- Atropa belladonna complete chloroplast genome, strain Ab5p(kan) Contig7 As1ML3P1C06 AJ428413 -- Calycanthus fertilis var. ferax complete chloroplast As1ML3P1B06 genome AF284694 -- Carpobrotus chilensis ribulose-1,5-bisphosphate carboxylase/oxygenase large subunit (rbcL) gene, partial cds; acetyl-CoA carboxylase subunit (accD), PSI reaction center subunit VIII (psaI), and ycf4 (ycf4) genes, complete cds; and cemA (cemA) gene, partial cds; chloroplast genes for chloroplast products AJ400848 -- Spinacia oleracea complete chloroplast genome Z00044 -- Nicotiana tabacum chloroplast genome DNA AJ316582 -- Atropa belladonna complete chloroplast genome, strain Ab5p(kan) AJ271079 -- Oenothera elata subsp. hookeri chloroplast plastome I, complete sequence

AP000423 -- Arabidopsis thaliana chloroplast genomic DNA, complete sequence, strain:Columbia AJ271079 -- Oenothera elata subsp. hookeri chloroplast plastome I, complete sequence X62118 -- A.crassa chloroplast genes rbcL, psaI, ORF 185 and ORF 230 for large subunit of ribulose 1,5 bisphosphate carboxylase/oxygenase and apoprotein I X86563 -- Zea mays complete chloroplast genome Contig8 As1ML4P1A02 ***** No hits found ****** As1ML4P1A03 Contig9 As1ML4P1E01 AP002983 -- Lotus corniculatus var. japonicus chloroplast DNA, complete genome As1ML3P1A09 AC093544 -- Medicago truncatula chloroplast, complete genome, complete sequence AJ316582 -- Atropa belladonna complete chloroplast genome, strain Ab5p(kan) Z00044 -- Nicotiana tabacum chloroplast genome DNA AJ428413 -- Calycanthus fertilis var. ferax complete chloroplast genome AJ400848 -- Spinacia oleracea complete chloroplast genome AJ271079 -- Oenothera elata subsp. hookeri chloroplast plastome I, complete sequence X86563 -- Zea mays complete chloroplast genome X56673 -- Maize chloroplast rpl33 and rps18 genes for ribosomal proteins L33 and S18 AB042240 -- Triticum aestivum chloroplast DNA, complete genome Contig10 As1ML4P1H07 ***** No hits found ****** As1ML4P1H12

Banco de Dados – Arachis stenosperma Singlets (Blastn – non redundant(nr))

Seqüências As1ML1P1A12.esd ***** No hits found ****** As1ML1P1C09.esd ***** No hits found ****** As1ML1P1D03.esd AC093544 -- Medicago truncatula chloroplast, complete genome, complete sequence AC124958 -- Medicago truncatula clone mth2-18i11, complete sequence AP002983 -- Lotus corniculatus var. japonicus chloroplast DNA, complete genome AJ400848 -- Spinacia oleracea complete chloroplast genome As1ML1P1D04.esd ***** No hits found ****** As1ML1P1D06.esd AL161946 -- Arabidopsis thaliana DNA chromosome 5, BAC clone F7A7 (ESSA project) X71878 -- A.thaliana Lhcb4 gene As1ML1P1D07.esd ***** No hits found ****** As1ML1P1D12.esd X58253 -- Tomato ubi3 gene for ubiquitin AC119288 -- Oryza sativa (japonica cultivar-group) chromosome 5 clone OSJNBa0017J22, complete sequence AY225193 -- Camelus dromedarius polyubiquitin gene, partial cds M60176 -- Barley ubiquitin (mub2) gene, complete cds M60175 -- Barley ubiquitin (mub1) gene, complete cds D16248 -- Glycine max Subi-1 gene for ubiquitin, complete cds D63782 -- Cricetulus sp. gene for polyubiquitin, complete cds Z54175 -- Bovine viral diarrhea virus TGAC-B1 RNA Z54176 -- Bovine viral diarrhea virus cpA2 RNA Z24723 -- P.chrysosporium ubiquitin gene, complete CDS As1ML1P1F02.esd ***** No hits found ****** As1ML1P1F07.esd AJ429666 -- Apodytes dimidiata chloroplast atpE gene (partial), tRNA-Val gene (partial) and tRNA-Met gene AJ429527 -- Cyrilla racemiflora chloroplast atpE gene (partial), tRNA- Met gene and tRNA-Val gene AB112759 -- Humulus japonicus chloroplast DNA, downstream region of trnM, Japanese wild AB112758 -- Humulus lupulus chloroplast DNA, downstream region of trnM, North American wild, haplotype:NA3 AB112757 -- Humulus lupulus chloroplast DNA, downstream region of trnM, North American wild, haplotype:NA1 AB112756 -- Humulus lupulus chloroplast DNA, downstream region of AB112755 -- Humulus lupulus chloroplast DNA, downstream region of trnM, North American wild, haplotype:NA4 trnM, North American wild, haplotype:NA2 AB112754 -- Humulus lupulus chloroplast DNA, downstream region of trnM, Japanese wild, haplotype: AB112753 -- Humulus lupulus chloroplast DNA, downstream region of trnM, Chinese wild, haplotype:SC AB112752 -- Humulus lupulus chloroplast DNA, downstream region of trnM, Chinese wild, haplotype:NC As1ML1P1F09.esd ***** No hits found ****** As1ML1P1G02.esd ***** No hits found ****** As1ML1P1G03.esd ***** No hits found ****** As1ML1P1G04.esd AJ223291 -- Sesbania rostrata mRNA for putative chalcone reductase AC127020 -- Medicago truncatula clone mth2-9p1, complete sequence As1ML1P1G07.esd AP006378 -- Lotus corniculatus var. japonicus genomic DNA, chromosome 1, clone:LjT44A10, TM0223, complete sequence As1ML1P1H03.esd X58909 -- N.tabacum mRNA for photosystem II oxygen evolving complex 23 kDa polypeptide X58910 -- N.tabacum gene for photosystem II oxygen evolving complex 23 kDa polypeptide As1ML1P1H06.esd ***** No hits found ****** As1ML1P1H08.esd ***** No hits found ****** As1ML2P1B06.esd AC093544 -- Medicago truncatula chloroplast, complete genome, complete sequence AP002983 -- Lotus corniculatus var. japonicus chloroplast DNA, complete genome AC124958 -- Medicago truncatula clone mth2-18i11, complete sequence AJ316582 -- Atropa belladonna complete chloroplast genome, strain Ab5p(kan) AJ271079 -- Oenothera elata subsp. hookeri chloroplast plastome I, complete sequence Z98202 -- AJ400848 -- Spinacia oleracea complete chloroplast genome Chenopodium quinoa partial chloroplast genome X00181 -- Tobacco chloroplast tRNA-Ser and tRNA-Gln genes Z00044 -- Nicotiana tabacum chloroplast genome DNA X12786 -- Spinacia oleracea chloroplast psbK gene for low-molecular mass protein K of photosystem II

X61674 -- S.cereale psbK, psbI and trnS genes AJ428413 -- Calycanthus fertilis var. ferax complete chloroplast genome As1ML2P1B07.esd ***** No hits found ****** As1ML2P1C12.esd ***** No hits found ****** As1ML2P1D08.esd ***** No hits found ****** AS1ML3P1A08.esd AP004948 -- Lotus corniculatus var. japonicus genomic DNA, chromosome , clone:LjT35I07, TM0121b, complete sequence AS1ML3P1B02.esd AF068686 -- Glycine max geranylgeranyl hydrogenase (Ggh) and nodule- enhanced malate dehydrogenase (Mdh) genes, complete cds AF461200 -- Medicago truncatula nodule-enhanced malate dehydrogenase gene, exons 1 and 2 and partial cds Y14044 -- Arabidopsis thaliana mRNA for geranylgeranyl reductase AC011765 -- Arabidopsis thaliana chromosome 1 BAC F1M20 genomic sequence, complete sequence AF461198 -- Medicago sativa nodule-enhanced malate dehydrogenase gene, exons 1 and 2 and partial cds

AS1ML3P1C02.esd ***** No hits found ****** AS1ML3P1D06.esd ***** No hits found ****** AS1ML3P1D11.esd ***** No hits found ****** AS1ML3P1E03.esd ***** No hits found ****** AS1ML3P1E04.esd ***** No hits found ****** AS1ML3P1E08.esd AF222407 -- Elaeodendron orientale 26S ribosomal RNA gene, partial sequence AF222406 -- Elaeodendron xylocarpum 26S ribosomal RNA gene, partial sequence AF222359 -- Celastrus racemosus 26S ribosomal RNA gene, partial sequence AF479112 -- Brexia madagascariensis 26S ribosomal RNA gene, comple AF222408 -- Brexia madagascariensis 26S ribosomal RNA gene, partial sequence te sequence AF222366 -- Rzedowskia tolantonguensis 26S ribosomal RNA gene, partial sequence AF222361 -- Gyminda tonduzii 26S ribosomal RNA gene, partial sequence AF479113 -- Euonymus alatus 26S ribosomal RNA gene, complete sequence ==> AF156675 -- Arachis hypogaea 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene and internal transcribed spacer 2, complete sequence; and 25S ribosomal RNA gene, partial sequence AS1ML3P1E06.esd AP002983 -- Lotus corniculatus var. japonicus chloroplast DNA, complete genome AB061306 -- Citrus jambhiri mitochondrial ACRS gene for ACR toxin- sensitivity inducing protein, complete cds AF355762 -- Ceriops tagal 23S ribosomal RNA gene, complete sequence; chloroplast gene for chloroplast product AP000423 -- Arabidopsis thaliana chloroplast genomic DNA, complete sequence, strain:Columbia M75722 -- Alnus incana chloroplast 23S ribosomal RNA (23S rRNA) gene AF355764 -- Rhizophora mangle 23S ribosomal RNA gene, complete sequence; chloroplast gene for chloroplast product AJ316582 -- Atropa belladonna complete chloroplast genome, strain Ab5p(kan) AY123764 -- Nicotiana tabacum chloroplast 16S ribosomal RNA-23S ribosomal RNA intergenic spacer region and 23S ribosomal RNA gene, partial sequences Z00044 -- Nicotiana tabacum chloroplast genome DNA AF355760 -- Rhizophora mucronata 23S ribosomal RNA gene, complete sequence; chloroplast gene for chloroplast product AS1ML3P1E07.esd AP002983 -- Lotus corniculatus var. japonicus chloroplast DNA, complete genome AP000423 -- Arabidopsis thaliana chloroplast genomic DNA, complete sequence, strain:Columbia AJ316582 -- Atropa belladonna complete chloroplast genome, strain Ab5p(kan) Z00044 -- Nicotiana tabacum chloroplast genome DNA AJ271079 -- Oenothera elata subsp. hookeri chloroplast plastome I, complete sequence AJ400848 -- Spinacia oleracea complete chloroplast genome AC093544 -- Medicago truncatula chloroplast, complete genome, complete sequence AJ428413 -- Calycanthus fertilis var. ferax complete chloroplast genome M81884 -- Epifagus virginiana chloroplast, complete genome X86563 -- Zea mays complete chloroplast genome AS1ML3P1F04.esd ***** No hits found ****** AS1ML3P1F07.esd AB008266 -- Arabidopsis thaliana genomic DNA, chromosome 5, P1 clone:MHJ24 AS1ML3P1H10.esd ***** No hits found ****** AS1ML4P1A04.esd U74247 -- Arachis hypogaea ribulose 1,5-bisphosphate carboxylase- oxygenase large subunit (rbcL) gene, choloroplast gene encoding chloroplast protein, partial cds

AB045796 -- Cranocarpus martii chloroplast rbcL gene for ribulose 1,5- bisphosphate carboxylase-oxygenase large subunit, partial cds AB045788 -- Brya ebenus chloroplast rbcL gene for ribulose 1,5- bisphosphate carboxylase-oxygenase large subunit, partial cds U74248 -- Machaerium lunatum ribulose 1,5-bisphosphate carboxylase- oxygenase large subunit (rbcL) gene, choloroplast gene encoding chloroplast protein, partial cds U74254 -- Adesmia exilis ribulose 1,5-bisphosphate carboxylase-oxygenase large subunit (rbcL) gene, choloroplast gene encoding chloroplast protein, partial cds AB045784 -- Aeschynomene americana chloroplast rbcL gene for ribulose 1,5-bisphosphate carboxylase-oxygenase large subunit, partial cds U74236 -- Dalbergia hupeana ribulose 1,5-bisphosphate carboxylase- oxygenase large subunit (rbcL) gene, choloroplast gene encoding chloroplast protein, partial cds AF308701 -- Aeschynomene indica ribulose-1,5-bisphosphate carboxylase large subunit (rbcL) gene, partial cds; chloroplast gene for chloroplast product AF181930 -- Amphicarpaea bracteata rbcL gene, partial cds; chloroplast gene for chloroplast product Z70137 -- M.amurensis chloroplast rbcL gene AS1ML4P1A05.esd AC093544 -- Medicago truncatula chloroplast, complete genome, complete sequence X53396 -- L.esculentum chloroplast trnY & trnD genes for tRNA-Tyr & tRNA-Asp X02217 -- Tobacco chloroplast genes for tRNA-Glu(UUC), tRNA-Tyr(GUA) and tRNA-Asp(GUC) Z00044 -- Nicotiana tabacum chloroplast genome DNA AJ271079 -- Oenothera elata subsp. hookeri chloroplast plastome I, complete sequence AP002983 -- Lotus corniculatus var. japonicus chloroplast DNA, complete genome AP000397 -- Beta vulgaris subsp. vulgaris mitochondrial genomic DNA, complete sequence, section 2/2 X15901 -- Oryza sativa complete chloroplast genome X86563 -- Zea mays complete chloroplast genome AB027572 -- Triticum aestivum chloroplast DNA, 21.1-kb fragment bearing RNA polymerase subunit (rpo) genes AS1ML4P1A06.esd ***** No hits found ****** AS1ML4P1B05.esd AP006424 -- Lotus corniculatus var. japonicus genomic DNA, chromosome 6, clone:LjT13E04, TM0314, complete sequence AS1ML4P1B07.esd AC093544 -- Medicago truncatula chloroplast, complete genome, complete sequence AY077881 -- Phaseolus vulgaris haplotype P ndhA gene, intron; chloroplast gene for chloroplast product AY077880 -- Phaseolus vulgaris haplotype O ndhA gene, intron; chloroplast gene for chloroplast product AY077879 -- Phaseolus vulgaris haplotype N ndhA gene, intron; chloroplast gene for chloroplast product AY077878 -- Phaseolus vulgaris haplotype M ndhA gene, intron; chloroplast gene for chloroplast product AY077877 -- Phaseolus vulgaris haplotype L ndhA gene, intron; chloroplast gene for chloroplast product AY077876 -- Phaseolus vulgaris haplotype K ndhA gene, intron; chloroplast gene for chloroplast product AY077875 -- Phaseolus vulgaris haplotype J ndhA gene, intron; chloroplast gene for chloroplast product AY077874 -- Phaseolus vulgaris haplotype I ndhA gene, intron; chloroplast gene for chloroplast product AY077873 -- Phaseolus vulgaris haplotype H ndhA gene, intron; chloroplast gene for chloroplast product AS1ML4P1B08.esd AP006076 -- Lotus corniculatus var. japonicus genomic DNA, chromosome 6, clone:LjT19M07, TM0114, complete sequence AS1ML4P1C04.esd ***** No hits found ****** AS1ML4P1D01.esd AP002983 -- Lotus corniculatus var. japonicus chloroplast DNA, complete genome AJ316582 -- Atropa belladonna complete chloroplast genome, strain Ab5p(kan) Z00044 -- Nicotiana tabacum chloroplast genome DNA AJ400848 -- Spinacia oleracea complete chloroplast genome AJ428413 -- Calycanthus fertilis var. ferax complete chloroplast genome AC093544 -- Medicago truncatula chloroplast, complete genome, complete sequence M81884 -- Epifagus virginiana chloroplast, complete genome X04465 -- Marchantia polymorpha chloroplast genome DNA AP000423 -- Arabidopsis thaliana chloroplast genomic DNA, complete sequence, strain:Columbia AB022325 -- Arabidopsis thaliana chloroplast genes for pClpP and 30S ribosomal protein, complete and partial cds

AS1ML4P1D02.esd ***** No hits found ****** AS1ML4P1D06.esd ***** No hits found ****** AS1ML4P1E02.esd ***** No hits found ****** AS1ML4P1E06.esd ***** No hits found ****** AS1ML4P1F02.esd AP004629 -- Lotus corniculatus var. japonicus genomic DNA, chromosome 3, clone:LjT07I01b, TM0091b, complete sequence AS1ML4P1F07.esd ***** No hits found ****** AS1ML4P1H02.esd ***** No hits found ****** AS1ML0P1S29.ab1 ***** No hits found ****** AS1ML0P1S32.ab1 ***** No hits found ****** AS1ML0P1S34.ab1 ***** No hits found ****** AS1ML0P1S36.ab1 ***** No hits found ******

ResultadodoBlastxdaPlacaML

ResultadodoB lastxdaPlacaML

Banco de Dados – Arachis stenosperma Singlets (Blastx)

Placa ML Seqüências FUNÇÕES As1ML1P1A12.esd ***** No significant similarity found ************ As1ML1P1C09.esd ***** No significant similarity found ************ As1ML1P1D03.esd ***** No significant similarity found ************ As1ML1P1D04.esd ***** No significant similarity found ************

As1ML1P1D06.esd gi|4689382|gb|AAD27878.1|AF139466_1 chlorophyll a/b binding protein CP29 [Vigna radiata] 286 4e-77 gi|7443231|pir||T02986 chlorophyll a/b-binding protein CP29 precursor - maize 280 2e-75 gi|7443230|pir||T02877 probable chlorophyll a/b-binding protein – rice 280 4e-75 gi|15231990|ref|NP_187506.1| chlorophyll a/b-binding protein -related [Arabidopsis thaliana] 279 5e-75 gi|20260162|gb|AAM12979.1| chlorophyll a/b-binding protein CP29 [Arabidopsis thaliana] 279 5e-75 As1ML1P1D07.esd ***** No significant similarity found ************ As1ML1P1D12.esd gi|322750|pir||S28420 ubiquitin / ribosomal protein CEP52 - wood tobacco 3e-64 gi|485518|pir||S33633 ubiquitin / ribosomal protein CEP52 – rice 5e-64 18404062|ref|NP_565836.1| ubiquitin extension protein (UBQ2)/60S ribosomal protein L40 (RPL40A) [Arabidopsis thaliana] 5e-64 gi|421867|pir||S34662 ubiquitin / ribosomal protein CEP52 – turnip 1e-63 gi|70654|pir||UQKM ubiquitin / ribosomal protein CEP52 - Chlamydomonas reinhardtii 2e-61 As1ML1P1F02.esd gi|33520421|gb|AAQ21122.1| ultraviolet-B-repressible protein [Trifolium pratense] 1e-15 gi|18476498|gb|AAL50314.1| ultraviolet-B-repressible protein [Pisum sativum] 6e-13 gi|18396349|ref|NP_565335.1| expressed protein [Arabidopsis thaliana] 9e-12 gi|22831147|dbj|BAC16008.1| putative ultraviolet-B-repressible protein [Oryza sativa (japonica cultivar-group)] 2e-09 As1ML1P1F07.esd gi|22795903|emb|CAD23907.1| ATP synthase epsilon subunit [Barringtonia asiatica] 1e-33 gi|22795905|emb|CAD23924.1| ATP synthase epsilon subunit [Camellia sinensis] 2e-33 gi|22795887|emb|CAD22403.1| ATP synthase epsilon chain [Clethra alnifolia] 2e- 33 gi|22796601|emb|CAD23908.1| ATP synthase epsilon subunit [Lissocarpa guianensis] 3e-33 gi|22797133|emb|CAD23909.1| ATP synthase epsilon subunit [Marcgravia sp.

Anderberg s.n.] 3e-33 As1ML1P1F09.esd gi|15230544|ref|NP_190075.1| 50S ribosomal protein L9, chloroplast precursor (CL9) [Arabidopsis thaliana] 2e-12 gi|71256|pir||R5PM9 ribosomal protein L9 precursor, chloroplast - garden pea 2e- 12 gi|1173069|sp|P11894|RK9_PEA 50S RIBOSOMAL PROTEIN L9, CHLOROPLAST PRECURSOR (CL13) 2e-12 gi|22204126|gb|AAM92711.1| putative plastid ribosomal protein CL9 [Triticum aestivum] 3e-10 As1ML1P1G02.esd ***** No significant similarity found ************ As1ML1P1G03.esd ***** No significant similarity found ************ As1ML1P1G04.esd gi|2792155|emb|CAA11226.1| chalcone reductase [Sesbania rostrata] 2e-71 gi|2129899|pir||S57993 chalcone reductase homolog - Sesbania rostrata (fragment) 5e-63 gi|6478216|gb|AAF13742.1|AF108438_1 putative NADPH-dependent oxidoreductase [Papaver somniferum] 2e-43 gi|2792295|gb|AAB97005.1| unknown [Fragaria x ananassa] 8e-42 gi|27357979|gb|AAO06971.1| Putative NADPH-dependent oxidoreductase [Oryza sativa (japonica cultivar-group)] 4e-41 As1ML1P1G07.esd gi|25456171|pir||T51863 probable RNA binding protein [imported] - Arabidopsis thaliana 5e-55 gi|25454619|pir||T52072 hypothetical protein g5bf [imported] - Arabidopsis thaliana 5e-55 gi|15217485|ref|NP_172405.1| RNA-binding protein -related [Arabidopsis thaliana] 5e-55 gi|17064988|gb|AAL32648.1| g5bf protein [Arabidopsis thaliana] 5e-55

gi|21593201|gb|AAM65150.1| putative RNA-binding protein [Arabidopsis thaliana] 1e-54 As1ML1P1H03.esd gi|19896|emb|CAA41713.1| photosystem II 23 kDa polypeptide [Nicotiana tabacum] 4e-57 gi|417604|emb|CAA45699.1| 23 kDa polypeptide of water-oxidizing complex of photosystem II [Nicotiana tabacum] 4e-57 gi|7443216|pir||S17446 photosystem II oxygen-evolving complex protein 2 precursor - common tobacco 4e-57 gi|1345550|emb|CAA44292.1| 23-kDa ploypeptide of photosystem II oxygen- evolving complex [Nicotiana tabacum] 9e-57 gi|20003|emb|CAA44291.1| 23-dDa polypeptide of Photosystem II oxygen- evolving complex [Nicotiana tabacum] 9e-57 As1ML1P1H06.esd gi|548746|sp|P36688|RK12_NICSY 50S RIBOSOMAL PROTEIN L12, CHLOROPLAST PRECURSOR (CL12) 2e-10 gi|133088|sp|P24929|RK12_TOBAC 50S RIBOSOMAL PROTEIN L12, CHLOROPLAST PRECURSOR (CL12) 2e-10 gi|20020|emb|CAA44226.1| ribosomal protein L12-1a [Nicotiana tabacum] 2e-10

As1ML1P1H08.esd ***** No significant similarity found ************ As1ML2P1B06.esd gi|131360|sp|P10347|PSBK_SINAL Photosystem II reaction center protein K precursor (PSII-K) 4e-22 gi|7525016|ref|NP_051042.1| photosystem II protein K [Arabidopsis thaliana] 7e- 22 gi|13518445|ref|NP_084805.1| photosystem II protein K [Lotus corniculatus var. japonicus] 4e-20 gi|13518338|ref|NP_084697.1| photosystem II protein K [Oenothera elata subsp. hookeri] 5e-20 gi|28261700|ref|NP_783215.1| photosystem II protein K [Atropa belladonna] 4e- 19

As1ML2P1B07.esd gi|7487519|pir||T05865 hypothetical protein T29A15.90 - Arabidopsis thaliana 6e- 51 gi|21595460|gb|AAM66103.1| carbohydrate kinase-like protein [Arabidopsis thaliana] 6e-51 gi|18417026|ref|NP_567780.1| pfkB type carbohydrate kinase protein family [Arabidopsis thaliana] 6e-51 gi|12643048|gb|AAK00437.1|AC060755_7 putative adenosine kinase [Oryza sativa] 4e-43 gi|24214092|ref|NP_711573.1| ribokinase [Leptospira interrogans serovar lai str. 56601] 1e-12 As1ML2P1C12.esd gi|11994739|dbj|BAB03068.1| aminotransferase-like protein [Arabidopsis thaliana] 1e-11 gi|18403295|ref|NP_566700.1| 4-aminobutyrate aminotransferase (gamma-amino- N-butyrate transaminase/GABA transaminase/beta-alanine--oxoglutarate aminotransferase) [Arabidopsis thaliana] 1e-11 gi|14030435|gb|AAK52899.1|AF351125_1 gamma-aminobutyrate transaminase subunit precursor [Arabidopsis thaliana] 1e-11 gi|29837282|gb|AAO92255.1| gamma-aminobutyrate transaminase subunit precursor isozyme 1 [Lycopersicon esculentum] 3e-10 gi|29837286|gb|AAO92257.1| gamma-aminobutyrate transaminase subunit precursor isozyme 3 [Lycopersicon esculentum] 6e-10 As1ML2P1D08.esd gi|1628478|emb|CAA67149.1| variant histone H2A.Zl2 [Xenopus laevis] 2e-16 gi|15219078|ref|NP_175683.1| histone H2A, putative [Arabidopsis thaliana] 2e-16 gi|22773254|gb|AAN06860.1| Putative histone H2A [Oryza sativa (japonica cultivar-group)] 4e-16 gi|30024110|emb|CAC84677.1| putative histone H2A [Pinus pinaster] 7e-16 gi|17738227|ref|NP_524519.1| Histone H2A variant CG5499-PA [Drosophila melanogaster] 2e-15 AS1ML3P1A08.esd gi|130271|sp|P17340|PLAS_LYCES Plastocyanin, chloroplast precursor 5e-46 gi|1709651|sp|P00299|PLAS_POPNI Plastocyanin A, chloroplast precursor 2e-45 gi|1709654|sp|P11970|PLAT_POPNI Plastocyanin B, chloroplast precursor 3e-44 gi|130285|sp|P00289|PLAS_SPIOL Plastocyanin, chloroplast precursor 5e-44 gi|130282|sp|P07030|PLAS_SILPR Plastocyanin, chloroplast precursor 2e-43 AS1ML3P1B02.esd gi|19749359|gb|AAD28640.2| geranylgeranyl hydrogenase [Glycine max] 1e-49 gi|3821254|emb|CAA07683.1| geranylgeranyl reductase [Nicotiana tabacum] 3e- 47 gi|7484614|pir||T12299 geranylgeranyl hydrogenase (EC 1.3.1.-) - common ice plant 4e-44 gi|15221261|ref|NP_177587.1| geranylgeranyl reductase [Arabidopsis thaliana] 7e- 44 gi|23397035|gb|AAN31803.1| putative geranylgeranyl reductase [Arabidopsis thaliana] 7e-44 AS1ML3P1C02.esd gi|18378947|ref|NP_563648.1| expressed protein [Arabidopsis thaliana] 2e-50 gi|7435783|pir||T06413 cathepsin B-like cysteine proteinase (EC 3.4.22.-) - wheat (fragment) 1e-49 gi|2317912|gb|AAC24376.1| cathepsin B-like cysteine proteinase [Arabidopsis thaliana] 2e-49 gi|18378945|ref|NP_563647.1| cathepsin B-like cysteine protease, putative [Arabidopsis thaliana] 2e-49 gi|30678927|ref|NP_849281.1| cathepsin B-like cysteine protease, putative [Arabidopsis thaliana] 1e-48 AS1ML3P1D06.esd ***** No significant similarity found ************ AS1ML3P1D11.esd gi|18416229|ref|NP_567689.1| expressed protein [Arabidopsis thaliana] 9e-12 gi|21555600|gb|AAM63895.1| unknown [Arabidopsis thaliana] 1e-11

AS1ML3P1E03.esd gi|18390492|ref|NP_563730.1| expressed protein [Arabidopsis thaliana] 9e-33 AS1ML3P1E04.esd gi|31433654|gb|AAP55138.1| putative DnaJ domain containg protein [Oryza

sativa (japonica cultivar-group)] 5e-28 gi|12643065|gb|AAK00454.1|AC060755_24 unknown protein [Oryza sativa]5e-28 gi|7485402|pir||T02646 hypothetical protein At2g26890 [imported] - Arabidopsis thaliana 7e-25 gi|30683301|ref|NP_180257.2| DnaJ domain-containing protein [Arabidopsis thaliana] 7e-25 AS1ML3P1E06.esd gi|27363942|ref|NP_759470.1| Unknown [Vibrio vulnificus CMCP6]3e-13 gi|27364365|ref|NP_759893.1| Unknown [Vibrio vulnificus CMCP6] 7e-13 AS1ML3P1E07.esd gi|13518460|ref|NP_084820.1| ribosomal protein S18 [Lotus corniculatus var. japonicus] 2e-31 gi|11465981|ref|NP_054523.1| ribosomal protein S18 [Nicotiana tabacum] 2e-30 gi|13518355|ref|NP_084714.1| ribosomal protein S18 [Oenothera elata subsp. hookeri] 2e-30 gi|7525055|ref|NP_051081.1| ribosomal protein S18 [Arabidopsis thaliana] 3e-30 gi|11497549|ref|NP_054957.1| ribosomal protein S18 [Spinacia oleracea] 5e-30 AS1ML3P1E08.esd ***** No significant similarity found ************ AS1ML3P1F04.esd gi|18416804|ref|NP_568258.1| dihydropyrimidinase [Arabidopsis thaliana] 4e-62 gi|9759387|dbj|BAB10038.1| dihydropyrimidinase [Arabidopsis thaliana]4e-62 gi|13872973|dbj|BAB44078.1| putative dihydropyrimidinase [Oryza sativa (japonica cultivar-group)]4e-55 gi|25143134|ref|NP_740889.1| dihydropyrimidinase, ancestor of CRMP and dihydropyrimidinase, dihydroorotase family (53.8 kD) (dhp-1) [Caenorhabditis elegans]1e-29 gi|23062845|ref|ZP_00087603.1| COG0044: Dihydroorotase and related cyclic amidohydrolases [Pseudomonas fluorescens PfO-1]5e-29 AS1ML3P1F07.esd gi|28629385|gb|AAO49652.1| photosystem I-N subunit [Phaseolus vulgaris] 4e-46 gi|15237593|ref|NP_201209.1| photosystem I reaction center subunit PSI-N precursor (PSI-N) [Arabidopsis thaliana] 4e-44 gi|400879|sp|P31093|PSAN_HORVU Photosystem I reaction centre subunit N, chloroplast precursor (PSI-N)9e-42

gi|3914466|sp|O65107|PSAN_MAIZE Photosystem I reaction centre subunit N, chloroplast precursor (PSI-N)1e-41

gi|11134150|sp|Q9SBN5|PSAN_VOLCA Photosystem I reaction centre subunit N, chloroplast precursor (PSI-N)1e-24

AS1ML3P1H10.esd ***** No significant similarity found ************ AS1ML4P1A04.esd gi|2342884|gb|AAB67895.1| ribulose 1,5-bisphosphate carboxylase-oxygenase large subunit [Arachis hypogaea] 2e-63 gi|6525077|gb|AAF15318.1| rbcL [Amphicarpaea bracteata] 2e-63 gi|9909591|emb|CAC04283.1| ribulose 1,5-bisphosphate carboxylase [Bernardia incana] 2e-63 gi|460644|gb|AAC41638.1| ribulose 1,5 bisphosphate carboxylase 3e-63

gi|6525085|gb|AAF15322.1| rbcL [Neonotonia wightii] 3e-63 AS1ML4P1A05.esd ***** No significant similarity found ************ AS1ML4P1A06.esd ***** No significant similarity found ************ AS1ML4P1B05.esd gi|23092567|gb|AAN08440.1| hypothetical protein [Arabidopsis thaliana] 2e-20 gi|30687119|ref|NP_181275.2| expressed protein [Arabidopsis thaliana] 2e-20 gi|29124116|gb|AAO65857.1| unknown protein [Oryza sativa (japonica cultivar- group)] 7e-20 gi|11358213|pir||T48281 hypothetical protein T22P11.190 - Arabidopsis thaliana

7e-20 gi|18413973|ref|NP_568105.1| heavy metal binding protein - related [Arabidopsis thaliana] 7e-20 AS1ML4P1B07.esd ***** No significant similarity found ************ AS1ML4P1B08.esd gi|11386111|gb|AAG33924.1| auxin-repressed protein [Robinia pseudoacacia]1e- 34 gi|18396748|ref|NP_564305.1| dormancy-associated protein -related [Arabidopsis thaliana]1e-33 gi|13430203|gb|AAK25768.1|AF336307_1 auxin-repressed protein like-protein [Malus x domestica]1e-31 gi|7488798|pir||T06255 dormancy-associated protein - garden pea 4e-31 gi|7488618|pir||T17003 dormancy-associated protein [similarity] - apple tree 1e-30

AS1ML4P1C04.esd gi|30682358|ref|NP_850050.1| prolylcarboxypeptidase -related [Arabidopsis thaliana] 7e-25 gi|22328106|ref|NP_201377.2| hydrolase, alpha/beta fold family [Arabidopsis thaliana] 2e-23 gi|10177334|dbj|BAB10683.1| lysosomal Pro-X carboxypeptidase [Arabidopsis thaliana]2e-23 gi|22535587|dbj|BAC10762.1| putative Pro-X carboxypeptidase homolog [Oryza sativa (japonica cultivar-group)]4e-19 gi|30688688|ref|NP_851059.1| prolylcarboxypeptidase-related protein [Arabidopsis thaliana] 1e-18

AS1ML4P1D01.esd ***** No significant similarity found ************ AS1ML4P1D02.esd ***** No significant similarity found ************ AS1ML4P1D06.esd gi|18396441|ref|NP_566192.1| expressed protein [Arabidopsis thaliana] 1e-67 gi|12039363|gb|AAG46149.1|AC018727_1 putative ubiquinone oxidoreductase subunit [Oryza sativa]1e-62 gi|34334022|gb|AAQ64638.1| NADH:ubiquinone oxidoreductase B17.2-like subunit [Chlamydomonas reinhardtii] 8e-15 gi|13543559|gb|AAH05936.1| 13kDa differentiation-associated protein [Homo sapiens] 1e-14

gi|10092657|ref|NP_061326.1| 13kDa differentiation-associated protein; NADH: ubiquinone oxidoreductase [Homo sapiens]1e-14 AS1ML4P1E02.esd gi|30268668|dbj|BAC76005.1| RelA-SpoT like protein RSH4 [Nicotiana tabacum] 4e-35 gi|30684538|ref|NP_188374.2| calcium-binding EF-hand family protein [Arabidopsis thaliana] 1e-25 gi|9294134|dbj|BAB02036.1| contains similarity to (p)ppGpp synthase (GTP pyrophosphokinase)~gene_id:MKP6.2 [Arabidopsis thaliana] 1e-25 gi|12583663|dbj|BAB21485.1| chloroplast RelA homologue 2 [Oryza sativa (japonica cultivar-group)]4e-23 AS1ML4P1E06.esd gi|15233990|ref|NP_192705.1| AX110P -related protein [Arabidopsis thaliana] 2e- 21 gi|21954073|gb|AAK76525.2| putative AX110P protein [Arabidopsis thaliana]2e- 21 gi|25518452|pir||C86466 hypothetical protein F23M19.12 [imported] - Arabidopsis thaliana 1e-14 gi|18399170|ref|NP_564441.1| expressed protein [Arabidopsis thaliana]1e-14 gi|15218937|ref|NP_176787.1| oxidoreductase -related [Arabidopsis thaliana]5e- 12 AS1ML4P1F02.esd gi|18402631|ref|NP_564545.1| expressed protein [Arabidopsis thaliana]6e-12 AS1ML4P1F07.esd ***** No significant similarity found ************ AS1ML4P1H02.esd gi|400198|sp|P31336|PST2_GOSHI Photosystem II 5 kDa protein, chloroplast precursor (PSII-T) (Light-regulated unknown 11 kDa protein) 7e-15

AS1ML0P1S29.ab1 gi|7488729|pir||T09593 CIC protein, cold-inducible – alfalfa 1e-23 gi|8745402|gb|AAF78903.1|AF248055_1 proline-rich protein [Glycine max]2e-23 gi|18406723|ref|NP_566036.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family [Arabidopsis thaliana]8e-19 gi|9211012|dbj|BAA99575.1| DC2.15 like protein [Daucus carota] 1e-17 gi|15235383|ref|NP_192984.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family [Arabidopsis thaliana] 2e-16 AS1ML0P1S32.ab1 ***** No significant similarity found ************ AS1ML0P1S34.ab1 ***** No significant similarity found ************ AS1ML0P1S36.ab1 ***** No significant similarity found ************

Banco de Dados – Arachis stenosperma Contigs (Blastx )

Placa ML Contigs Seqüências FUNÇÕES Contig1 As1ML0P1S26 gi|13430336|gb|AAK25800.1|AF338239_1 rubisco activase [Zantedeschia As1ML0P1S30 aethiopica] As1ML1P1D05 gi|13430332|gb|AAK25798.1|AF338237_1 rubisco activase [Zantedeschia As1ML3P1C12 aethiopica] gi|12620883|gb|AAG61121.1|AF329935_1 ribulose-1,5-bisphosphate carboxylase/oxygenase activase 2 [Gossypium hirsutum] gi|8918359|dbj|BAA97583.1| RuBisCO activase large isoform precursor [Oryza sativa (japonica cultivar-group)] gi|32481065|gb|AAP83929.1| Rubisco activase alpha form precursor [Larrea tridentata]

Contig2 As1ML1P1E04 gi|3914472|sp|Q40519|PSBR_TOBAC Photosystem II 10 kDa polypeptide, As1ML1P1C12 chloroplast precursor gi|28207611|gb|AAO32060.1| photosystem II 10kDa polypeptide [Brassica rapa subsp. pekinensis] gi|33694227|gb|AAQ24852.1| 10 kDa photosystem II polypeptide [Trifolium pratense] gi|131399|sp|P06183|PSBR_SOLTU Photosystem II 10 kDa polypeptide, chloroplast precursor (Light inducible tissue-specific ST-LS1 protein) gi|21491|emb|CAA27989.1| unnamed protein product [Solanum tuberosum] Contig3 As1ML1P1E06 ****** No significant similarity found ************* As1ML1P1B03 Contig4 As1ML4P1H05 gi|1055368|gb|AAA81328.1| ribulose-1,5-bisphosphate carboxylase small As1ML4P1A08 subunit [Glycine max] As1ML2P1B10 gi|10946379|gb|AAG24884.1|AF303941_1 ribulose-1,5-bisphosphate As1ML4P1H01 carboxylase small subunit rbcS3 [Glycine max] As1ML1P1G05 gi|132153|sp|P24007|RBS_PYRPY Ribulose bisphosphate carboxylase As1ML1P1G10 small chain, chloroplast As1ML3P1E09 precursor (RuBisCO small subunit) As1ML4P1G06 gi|132086|sp|P00865|RBS1_SOYBN Ribulose bisphosphate carboxylase small chain 1, chloroplast precursor (RuBisCO small subunit 1) gi|4689388|gb|AAD27881.1|AF139469_1 ribulose-1,5-bisphosphate carboxylase small subunit [Vigna radiata] Contig5 As1ML4P1C09 gi|3183088|sp|Q43681|NLTP_VIGUN Probable nonspecific lipid-transfer As1ML3P1A07 protein AKCS9 precursor (LTP) gi|14423789|sp|P82353|NLT2_PRUAR Nonspecific lipid-transfer protein 2 (LTP 2) gi|24745959|dbj|BAC23052.1| putative lipid transfer protein [Solanum

tuberosum] gi|543565|pir||JQ2342 hypothetical 10.0K protein - Zinnia elegans gi|543650|pir||JQ2343 P48h-10 protein precursor - Zinnia elegans (cv. Envy) Contig6 As1ML3P1B03 ****** No significant similarity found ************* As1ML3P1F05 Contig7 As1ML3P1C06 gi|28261728|ref|NP_783243.1| photosystem I assembly protein Yc4 [Atropa As1ML3P1B06 belladonna] gi|11465968|ref|NP_054510.1| photosystem I assembly protein Ycf4 [Nicotiana tabacum] gi|18202918|sp|Q9GDV1|YCF4_CARCL Photosystem I assembly protein ycf4 gi|11497539|ref|NP_054947.1| photosystem I assembly protein Ycf4 [Spinacia oleracea] gi|13518343|ref|NP_084702.1| photosystem I assembly protein Ycf4 [Oenothera elata subsp. hookeri] Contig8 As1ML4P1A02 ****** No significant similarity found ************* As1ML4P1A03 Contig9 As1ML4P1E01 gi|13518459|ref|NP_084819.1| ribosomal protein L33 [Lotus corniculatus As1ML3P1A09 var. japonicus] gi|11497548|ref|NP_054956.1| ribosomal protein L33 [Spinacia oleracea] gi|32480864|ref|NP_862775.1| ribosomal protein L33 [Calycanthus floridus var. glaucus] gi|7525054|ref|NP_051080.1| ribosomal protein L33 [Arabidopsis thaliana] gi|11465980|ref|NP_054522.1| ribosomal protein L33 [Nicotiana tabacum] Contig10 As1ML4P1H07 gi|4973264|gb|AAD35009.1|AF144391_1 thioredoxin-like 5 [Arabidopsis As1ML4P1H12 thaliana] 2e-36 gi|18415285|ref|NP_568172.1| thioredoxin family [Arabidopsis thaliana] 2e-36 gi|5006625|gb|AAD37584.1|AF144393_1 thioredoxin-like 5 [Arabidopsis thaliana] 9e-33 gi|9759297|dbj|BAB09803.1| thioredoxin-like [Arabidopsis thaliana] 4e-32 gi|22326600|ref|NP_196046.2| thioredoxin family [Arabidopsis thaliana] 5e-27

Resultado da busca de marcadores moleculares baseados em introns

Dados referentes a Placa ML – As1ML1P1D12

Alinhamento Múltiplo – CLUSTALW

CLUSTAL W (1.81) Multiple Sequence Alignments

Sequence type explicitly set to Protein Sequence format is Pearson Sequence 1: CAA80851.1 381 aa Sequence 2: As1ML1P1D12.esd_2 131 aa Start of Pairwise alignments Aligning...

Sequences (1:2) Aligned. Score: 58.7786 Sequences (2:2) Aligned. Score: 100 Guide tree file created: [clustalw.dnd] Start of Multiple Alignment There are 1 groups Aligning... Group 1: Sequences: 2 Score:1059 Alignment Score 405 CLUSTAL-Alignment file created [clustalw.aln] CLUSTAL W (1.81) multiple sequence alignment

CAA80851.1 MQIFVKTLTGKTITLEVESSDTIDNVKAKIQDKEGIPPDQQRLIFAGKQLEDGRTLSDYN As1ML1P1D12.esd_2 ------

CAA80851.1 IQKESTLHLVLRLRGGMQIFVKTLTGKTITLEVESSDTIDNVKAKIQDKEGIPPDQQRLI As1ML1P1D12.esd_2 ------

CAA80851.1 FAGKQLEDGRTLSDYNIQKESTLHLVLRLRGGMQIFVKTLTGKTITLEVESSDTIDNVKA As1ML1P1D12.esd_2 ------EKERSRKQRKMQIFVKTLTGKTITLEVESSDTIDNVKA : * : ****************************

CAA80851.1 KIQDKEGIPPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLRLRGGMQIFVKTLTGKT As1ML1P1D12.esd_2 KIQDKEGIPPDQQRLIFAGKQLEDGRTLADYNIQKESTLHLVLRLRGGIIEPSLMALAR- ****************************:*******************: .:

CAA80851.1 ITLEVESSDTIDNVKAKIQDKEGIPPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLR As1ML1P1D12.esd_2 ------KYNQDKMICRKCYAR .** :* : *

CAA80851.1 LRGGMQIFVKTLTGKTITLEVESSDTIDNVKAKIQDKEGIPPDQQRLIFAGKQLEDGRTL As1ML1P1D12.esd_2 LHPRAVNCRKKKCGHSNQL------*: *. *:: *

CAA80851.1 SDYNIQKESTLHLVLRLRGGL As1ML1P1D12.esd_2 ------

(CAA80851.1:0.20611,As1ML1P1D12.esd_2:0.20611);

As1ML1P1D12 + Intron

>As1ML1P1D12.esd(2) GGAGAAAGAGAGAAGTAGAAAACAAAGAAAGATGCAGATCTTCGTGAAAA CCCTAACAGGGAAGACCATCACCCTGGAGGTGGAATCTAGTGACACCATC GATAACGTCAAGGCCAAGATTCAGGACAAGGAAGGGATTCCGCCGGACCA GCAGAGGTTGATCTTCGCCGGAAAGCAGCTTGAGGATGGCCGTACACTCG CCGATTACAACATCCAAAAGGAGTCGACATTGCATGTGAGTTCGTTGCAT GTATGCGGCCTTTCCCACGCTAATGTATGACGTAGCTTGTTTTGAGGCTT CGTGGTGGAATTATTGAGCCATCTTTGATGGCATTGGCCAGGAAATACAA TCAGGATAAGATGATCTGCCGCAAGTGTTATGCACGTTTGCACCCTCGTG CTGTCAACTGCAGGAAAAAGAAGTGCGGGCACAGCAACCAGCTGAG

Desenho de Primer

Primer3 Output (primer3_www_results.cgi v 0.2)Primer3 Output

No mispriming library specified Using 1-based sequence positions OLIGO start len tm gc% any 3' seq LEFT PRIMER 196 20 59.96 50.00 5.00 0.00 ACTCGCCGATTACAACATCC RIGHT PRIMER 394 20 60.04 50.00 4.00 2.00 GGTGCAAACGTGCATAACAC SEQUENCE SIZE: 446 INCLUDED REGION SIZE: 446

PRODUCT SIZE: 199, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 0.00 TARGETS (start, len)*: 236,50

1 GGAGAAAGAGAGAAGTAGAAAACAAAGAAAGATGCAGATCTTCGTGAAAACCCTAACAGG

61 GAAGACCATCACCCTGGAGGTGGAATCTAGTGACACCATCGATAACGTCAAGGCCAAGAT

121 TCAGGACAAGGAAGGGATTCCGCCGGACCAGCAGAGGTTGATCTTCGCCGGAAAGCAGCT

181 TGAGGATGGCCGTACACTCGCCGATTACAACATCCAAAAGGAGTCGACATTGCATGTGAG >>>>>>>>>>>>>>>>>>>> *****

241 TTCGTTGCATGTATGCGGCCTTTCCCACGCTAATGTATGACGTAGCTTGTTTTGAGGCTT *********************************************

301 CGTGGTGGAATTATTGAGCCATCTTTGATGGCATTGGCCAGGAAATACAATCAGGATAAG <<<<<<<<<<<<<<<<

361 ATGATCTGCCGCAAGTGTTATGCACGTTTGCACCCTCGTGCTGTCAACTGCAGGAAAAAG <<<<

421 AAGTGCGGGCACAGCAACCAGCTGAG

KEYS (in order of precedence):

****** target >>>>>> left primer <<<<<< right primer

ADDITIONAL OLIGOS

start len tm gc% any 3' seq

1 LEFT PRIMER 179 20 60.13 55.00 4.00 2.00 CTTGAGGATGGCCGTACACT RIGHT PRIMER 394 20 60.04 50.00 4.00 2.00 GGTGCAAACGTGCATAACAC PRODUCT SIZE: 216, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 0.00

2 LEFT PRIMER 191 20 59.75 50.00 5.00 2.00 CGTACACTCGCCGATTACAA RIGHT PRIMER 394 20 60.04 50.00 4.00 2.00 GGTGCAAACGTGCATAACAC PRODUCT SIZE: 204, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 0.00

3 LEFT PRIMER 214 20 60.64 50.00 6.00 2.00 CCAAAAGGAGTCGACATTGC RIGHT PRIMER 394 20 60.04 50.00 4.00 2.00 GGTGCAAACGTGCATAACAC PRODUCT SIZE: 181, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 1.00

4 LEFT PRIMER 196 20 59.96 50.00 5.00 0.00 ACTCGCCGATTACAACATCC RIGHT PRIMER 381 20 59.30 45.00 5.00 2.00 ATAACACTTGCGGCAGATCA PRODUCT SIZE: 186, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 0.00

Statistics con too in in no tm tm high high high sid many tar excl bad GC too too any 3' poly end ered Ns get reg GC% clamp low high compl compl X stab ok Left 1866 0 0 0 0 0 462 948 0 1 0 32 423 Right 1164 0 0 0 0 0 216 679 1 3 0 29 236 Pair Stats: considered 19, unacceptable product size 11, ok 8 primer3 release 0.9

(primer3_www_results.cgi v 0.2)

An investigation: Can ESTs (Expressed Sequence Tag) be used for the development of molecular markers based on introns?

Simone de Sá Vasconcelos1, David J. Bertioli1, Wellington Santos Martins2

1Pós Graduação em Ciências Genômicas e Biotecnologia, Universidade Católica de Brasília. 2 Dept. de Ciências da Computação, Universidade Católica de Goiás

Abstract. In the context of large-scale sequencing and genomic programmes, a large set of expressed sequence tags (ESTs) is being generated, which can be used to identify potential molecular markers. The main purpose of this work was to investigate the possibility of molecular markers development based on introns from Arachis stenosperma and Arachis hypogaea ESTs. In order to automate the marker searching process, it was developed a software tool for homologues sequences finding that have annotated introns, as well as the alignment between them and their correspondent ESTs. From 330 ESTs of A.stenosperma, we were able to find 4 markers candidates based on introns, while from 1346 A. hypogaea, we identified 9 candidates. Key words: ESTs, Molecular Markers, introns, Arachis

ESTs (Expressed Sequence Tags) are short sequences varying in an average of 200 – 800 bases pairs that are generated from the construction of cDNA libraries that corresponds to a mRNA (Adams et al., 1991). They provide a highly cost-effective method to access and identify expressed genes. In the last few years, the use of ESTs to develop molecular markers has been described in studies of genetic variation, to understand patterns of differentiation among plant populations (Harushima et al.,1998). Public databases can also be efficiently explored when developing molecular markers. Holland and et al (2002) used DNA genomic sequences from public databases to develop molecular markers, based on exons, introns, promoter regions and microsatelites in maize; and introns and repeat sequences in oats, which made the polymorphism detection possible when primers flanking these specific regions were used. In the present work, we produced, sequenced and computer analysed ESTs obtained from A stenosperma leaves cDNA databanks, as well as developed a molecular marker candidate search methodology based on introns. ESTs of A.stenosperma root inoculated or not with Bradirhyzobium assigned by Dra. Patrícia Guimarães

(EMBRAPA Recursos Genéticos e Biotecnologia), as well as ESTs A. hypogaea sequences of dbEST databank, were used in this study. Total RNA was extracted from leaf with the use of Rneasy Plant Mini kit (Qiagen/USA); it was then used in the construction of the cDNA librarie made with SMART cDNA Library Construction Kit (Clontech/UK), using the Long-Distance PCR (LD-PCR) protocol. The resulting DNA was packed into λ phages using Gigapack III Gold Packaging Extract – Stratagene. For the titer and enlargement of cDNA library, Escherichia coli XL – 1 Blue cells were used, cultivated in solid LB with tetracycline (15 µg/ml). From this culture, an isolated colony was transferred to 15ml of liquid LB with MgSO4 10 mM and maltose 0,2% in shaker at 37°C overnight. The cells where centrifuged at 5000 rpm for 5 minutes and the pellet was ressuspended in 6ml of MgSO4 10 mM. Before usage, the cells were diluted to a concentration determined by a reading in 600nm, OD600 = 0,5 in

MgSO4 10 mM. In lambda dilution buffer, dilutions were made 1:10 the cDNA libraries. 1µl, 5µl and 10µl of the dilution at 200 µl of cells were added to an OD600 = 0,5 and at 3 ml of o top agar at 45 C. These samples were poured in agar plates with LB + MgSO4 , left in room temperature for 10 minutes, and incubate at 37°C for 7 hours, to the visualization of the isolated plaques. The titer obtained in the cDNA library was set around 109 pfu/ml. The clones were put in 50 µl of lambda dilution buffer into a 96 well culture plate added with 3 µl of chloroform. The phage were stored at 4°C overnight. From the amplified library,a polimerase chain reaction (PCR) was made using specific primers that flanking the cDNA insertion region in the vector, they are: PT2F2 (5’ GCGCCATTGTGTTGGTACCC 3’) e PT2R2 (5’ CCGCATGCATAAGCTTGCTC 3’). The product of the PCR was directly used in the sequencing reaction, which was taken in effect in the Applied Biosystems 377 sequencer using DYEnamic ET Terminator Cycle Sequencing Kit (Amersham Pharmacia Biotech).

The sequences of ESTs of A. stenosperma and A. hypogaea were analyzed by a software tool developed to automate the process of searching for homologous genomic sequences which have been previously annotated as having intronic regions. The tools receives as input the EST chromatograms or FASTA files and produces a list of primers flanking intronic regions of homologous sequences, as well as multiple alignments of homologous gene products with intron information. From the outcome of this search, 4 molecular markers candidates were obtained, out of the 330 ESTs and out of the 1346 ESTs of A. hypogaea, 9 candidates were obtained. Primers pairs were

designed using the Primer 3 software http://www-genome.wi.mit.edu/cgi- bin/primer/primer3_www.cgi. (Table 1).

Table 1: Primers designs for Arachis stenosperma and Arachis hypogaea

Sequences Forward Primer Reverse Primer A. stenosperma As1ML1P1D12 – ACTCGCCGATTACAACATC TCATCTTATCCTGATTGTAT leaf C Contig 4 – leaf AACGGTGGAAGAGTCCAA GTTCTCACGGTACGGGAATC TG AS1RI2P1D02 AGGAAGGAATCCCACCTG AGCCATCAAAGAAGGCTCAA Inoculated AT root Contig22 - GCGAGCACATGACTGATCT TCTGTTCTTGATCTGTGTTCTTTCA Not Inoculated C root A.

hypogaea CD038286 TGGAATGGATGATGGAGA GGGGCTTTTCTGGGTAGTCT TG CD038517 TTGTTGGTGATGCTGGTGT CGAAAAGTTTTGGCTGCTGT T CD038536 CTGTGCAGCAAAGGCTGAT TGACCATCATCCATCACAAGA A

CD038473 GCAGGAGCTAAGGCAGCT GTGTGGTTGAGGTTGGCTTT AT

CD038568 GCTCGATGCTCAACCTGAG ACCTTGCAATCGTACCCAAG T CD038575 TTTCTTCTCCCTCGTCTTCG ACACCACCTCCCAGAACTTG CD 038835 TCACTGTTGGTGATGGTGC AATTCACAGTGCTCCCATCC T

Contig 38 CCTGCCACCTATGACGAAA GTAACCAAGGATGCCCTTCA T Contig 168 CAACGGTGGAAGAGTCCA GGAACCCATCCCTTCCTTAG AT

Therefore, through the preliminary results obtained from the present investigation, there is evidence that it is possible to use Arachis EST data to develop molecular markers based on introns.

REFERENCE

ADAMS, M. D.; KELLEY, J.M.; GOCAYNE, J. D.; DUBNICK, M.; POLYMEROPOULOS, M. H.; XIAO, H.; MERRIL, C.R.; WU, A.; OLDE, B.; MORENO, R. F.; KERLAVAGE, A.R.; MCCOMBIE, W.R. & VENTER, J.C. 1991. Complementary DNA sequencing: expressed sequence tags and human genome project. Science 252: 1651-1656

BROUGHTON, W.J.; HÉRNANDEZ, G.; BLAIR, M.; BEEBE, S.; GEPTS, P. & VANDERLEYDEN, J. 2003. Beans (Phaseolus spp.) – model legumes. Plant and Soil 252: 55-128.

HARUSHIMA Y, YANO M, SHOMURA A, SATO M, SHIMANO T, KUBOKI Y, YAMAMOTO T, LIN SY, ANTONIO BA, PARCO A, KAJIYA H, HUANG N, YAMAMOTO K, NAGAMURA Y, KURATA N, KHUSH GS, SASAKI T. 1998. A high-density rice genetic linkage map with 2275 markers using a single F2 population. Genetics. 1998 Jan;148(1):479-94

HOLLAND, J.B.; HELLAND, S.J.; SHAROPOVA, N. & RHYNE, D.C. 2001. Polymorphism of PCR-based markers targeting exons, introns, promoter regions, and SSRs in maize and introns and repeat sequences in oat. Genome 44: 1065-1076.

KRAPOVICKAS,A. & GREGORY, W. C. 1994 Taxonomia del género Arachis (Leguminosae). Bonplandia (1-4): 1-186.

MORGANTE, M.; HANAFEY, M. & POWELL, W. 2002. Microsatellites are prefentially associated with nonrepetitive DNA in plant genomes. Nature Genetics 30: 194-200.

NCBI [http://www.ncbi.nlm.nih.gov] (último acesso: setembro de 2003).

STEVEN, R. & SKALETSKY, H.J. 2000. Primer3 . In: Krawetz S, Misener S (eds) Bioinformatics Methods and Protocols: Methods in Molecular. Humana Press, Totowa, NJ, pp 365-386. Disponível na World Wide Web http://www- genome.wi.mit.edu/genome_software/other/primer3.html