INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA – INPA Programa de Pós-Graduação em Genética, Conservação e Biologia Evolutiva/INPA

Anotação do transcriptoma parcial de (Nyssorhynchus) darlingi Root, 1926

GILSON MARTINS DE AZEVEDO JUNIOR

Manaus, Amazonas maio, 2011 i

GILSON MARTINS DE AZEVEDO JUNIOR

Anotação do transcriptoma parcial de Anopheles (Nyssorhynchus) darlingi Root, 1926

ORIENTADORA: Dra. Míriam Silva Rafael (INPA) Co-orientador: Dr. Renato Vicentini (UNICAMP)

Dissertação apresentada ao Instituto Nacional de Pesquisas da Amazônia como parte dos requisitos para obtenção do título de Mestre em Genética, Conservação e Biologia Evolutiva.

Manaus, Amazonas maio, 2011

ii

Ficha catalográfica

A994 Azevedo Junior, Gilson Martins de Anotação do transcriptoma parcial de Anopheles (Nyssorhynchus) darlingi Root, 1926 / Gilson Martins de Azevedo Junior.--- Manaus : [s.n.], 2011. xi, 66 f. : il. color.

Dissertação (mestrado)-- INPA, Manaus, 2011 Orientador : Míriam Silva Rafael Co-orientador : Renato Vicentini Área de concentração : Genética, Conservação e Biologia Evolutiva

1. cDNA. 2. Anopheles darlingi. 3. Anopheles gambiae. 4. Aedes aegypti. 5. Culex quinquefasciatus. 6. Transcriptoma. I. Título.

CDD 19. ed. 595.770415

Sinopse:

Genes expressos de Anopheles darlingi, a partir da Bioinformática foram anotados, analisados e comparados entre genomas de da família Culicidae, tais como Anopheles gambiae, Aedes aegypti e Culex quinquefasciatus.

Palavras chave: cDNA, Evolução, Anopheles darlingi, Anopheles gambiae, Aedes aegypti, Culex quinquefasciatus, Transcriptoma.

iii

Aos meus pais Gilson e Maria Elzir e ao Lucas, meu filho, Dedico.

iv

Agradecimentos

Agradeço a Deus pelas energias que me foram dadas nos momentos de fraqueza, pelas forças que não me deixaram desistir

Agradeço aos meus pais, Gilson e Maria Elzir, por serem meu porto seguro e pelos ensinamentos de vida e aos meus irmãos, Juliano e Ana, pelo companheirismo e incentivo. Minha vó Nelzi, tia Naná e tia Lúcia, enfim, a todos os meus familiares, agradeço!

Ao Lucas, meu filho, que contribuiu muitíssimo para a conclusão dessa dissertação, lembrando-me que eu não devo desistir.

À professora doutora Míriam Rafael, minha orientadora, por acreditar, confiar em mim, pelos ensinamentos, que possibilitaram o desenvolvimento dessa dissertação. Obrigado!

Ao professor doutor Renato Vicentini, pelos ensinamentos no aprendizado de Bioinformática e análise de dados, pela amizade e por co-orientar esse trabalho de dissertação.

Ao Programa Curso de Pós-Graduação em Genética, Conservação e Biologia Evolutiva (GCBEv/INPA), Dr. Jorge Porto (Coordenador), Dra. Vera Scarpassa (ex- Coordenadora), membros do Conselho que deram as condições necessárias para a realização do meu mestrado; e ao corpo docente, pelo aprendizado recebido nas disciplinas ministradas.

Ao Ministério da Ciência e Tecnologia (MCT)/Instituto Nacional de Pesquisas da Amazônia (INPA), pela infra-estrutura e apoio técnico recebidos para o desenvolvimento dessa dissertação

À Kelly pela compreensão, cumplicidade e palavras de apoio e incentivo durante a redação dessa dissertação

v

Ao professor doutor Wanderli Pedro Tadei, pelo apoio e incentivo logístico que foram decisivos no desenvolvimento deste trabalho.

À Giselle Guimarães, grande amiga e colega de trabalho que também contribuiu com a sua experiência acerca do sequenciamento de ESts de An. darlingi. Obrigado pela amizade e pelo apoio!

À Alessandra e Tamara, muito obrigado pela presteza nos trabalhos na Secretaria do GCBEv.

À Kyara Formiga de Aquino e Jacqueline da Silva Batista pelos auxílios no Laboratório Temático de Biologia Molecular-LTMB/INPA

Ao professores doutores Míriam Silva Rafael e Wanderli Pedro Tadei, Letícia Bridi (MS.c), mestrandas Ketlen Nunes de Souza e Giselle Guimarães (Laboratório de Malária e Dengue/INPA), Spártaco Astolfi Filho e Carlos Gustavo Nunes da Silva e aos colegas Rogério Meireles, Enedina, Johnson (Laboratório de DNA do Centro de Apoio Multidisciplinar-CAM/UFAM), Dra. Ildinete (UNB), CENARGEN, Drs. Mauro Carneiro e Felipe da Silva, pela construção e sequenciamento das bibliotecas de ESTs de larvas e adultos de A. darlingi.

À CAPES, pela disponibilização da bolsa de estudo para a realização desta dissertação.

À colega e amiga Letícia pelas palavras amigas e por ter cedido gentilmente dados sobre mapeamento in situ que foram necessários em análise de sintenia.

A todos os colegas de Laboratório, Mellina, Letícia, Giselle, Kethlen, Pedro, Sabrina e Lumara pela cooperação e companheirismo.

A todos os técnicos do Laboratório de Vetores da Malária e Dengue, pelos auxílios nas coletas e identificação de mosquitos. Ao Gláubio pelas ajudas e ensinamentos sobre cuidados com os mosquitos.

vi

Adelina, Maria e Zilá, muito obrigado pela amizade e apoio desde minha chegada a Manaus.

Aos colegas da turma de Mestrado/2009, pelos momentos de solidariedade e companheirismo durante os momentos de agonia. Obrigado pelo espírito de coletividade de todos!

Aos companheiros de república, Chico Mário, Daniel Fagundes e Marcos Bento, obrigado pela amizade.

E a todos que de alguma forma contribuíram, seja com palavras de incentivo, palavras amigas e/ou conhecimentos específicos da área! Se eu fosse citar o nome de todas as pessoas, eu precisaria de mais folhas! Obrigado a todos, mesmo!

vii

RESUMO

Insetos transmissores de doenças têm sido estudados para caracterização de diversos aspectos biológicos e evolutivos. Sequenciamentos de genomas inteiros têm permitido comparações entre sequências gênicas de espécies diferentes, fornecendo dados moleculares. Citam-se os mosquitos Anopheles gambiae (subfamília Anophelinae), principal vetor da malária na África, cujo genoma contém 278.253.050 pares de bases (pb), o Aedes aegypti, transmissor do Dengue, com 1.310.090.344 pb e Culex quinquefasciatus, vetor de arboviroses, com 579.042.118 pb, ambos da (subfamília Culicinae). No Brasil, o Anopheles darlingi (subfamília Anophelinae) é o principal vetor da malária, cuja bibliotecas de ESTs (Expressed SequenceTags) parcial de adultos e larvas previamente obtidas foram analisadas no presente trabalho. Sequências gênicas de An. gambiae, Ae. aegypti e Cx. quinquefasciatus foram analisadas quanto a presença de genes em comum e genes ortólogos, nesses mosquitos em comparação com An. darlingi. ESTs (568 Unigenes) de An. darlingi foram mapeadas virtualmente em cromossômos de An. gambiae. Em seguida, foram realizadas análises de expressão diferencial gênica, o que permitiu quantificar estatisticamente os níveis de expressão de cada gene, no transcriptoma de An. darlingi. As sequências de An. darlingi foram mapeadas nos termos ontológicos do Gene Ontology (GO) e as sequências diferencialmente expressas, com bons valores estatísticos que indicam ortologia, foram analisadas manualmente, segundo a literatura. Os resultados mostraram que, 61% das sequências de An. darlingi são ortólogas em An. gambiae e o mapeamento cromossômico in silico mostrou que os 568 Unigenes de An. darlingi estão representados em 793 regiões cromossômicas do An. gambiae, corroborando estudos evolutivos de que as duas espécies são próximas evolutivamente. As sequências de An. darlingi analisadas no programa GO foram associadas a 1.249 níveis e subníveis de ontologias que descrevem um gene de acordo com sua função e localização celular. Análises de expressão diferencial de alguns produtos gênicos mostraram-se mais intensas em larvas do que em adultos de An. darlingi. Realizaram-se, ainda, a análise filogenética do gene da Glutationa-S-Transferase (GST) de An. darlingi, um gene de resistência a inseticidas bem conservado em termos evolutivos em An. gambiae, Ae. aegypti e Cx. quinquefasciatus. A árvore filogenética agrupou o gene da GST de An. darlingi com An. gambiae como espécies irmãs, estando estas proximamente relacionadas evolutivamente do que em relação ao Ae. aegypti e Cx. quinquefasciatus. O Phlebotomus papatasi, constou como grupo externo, para enraizamento dessa árvore. A anotação manual de ESTs de An. darlingi auxiliou na compreensão da expressão gênica e aspectos evolutivos desse em relação ao An. gambiae, Ae. aegypti e Cx. quinquefasciatus, além de fornecer dados importantes para estudos posteriores sobre funções gênicas individuais de An. darlingi transmissor da malária no Brasil.

viii

Abstract

Disease-transmitting have been studied to characterize several biological and evolutionary aspects. Whole Genome sequencing has been allowing comparisons between the gene sequences of different species, providing molecular data. The mosquitoes Anopheles gambiae (subfamily Anophelinae), the most important vector of malaria in Africa, whose genome contains 278.253.050 base pairs (bp), Aedes aegypti, transmitter of Dengue, with 1.310.090.344 bp and Culex quinquefasciatus, vector of arbovirus, with 579.042.118 bp, both of (subfamily Culicinae) are cited. In Brazil, the Anopheles darlingi (subfamily Anophelinae) is the most important malaria vector, whose partial EST (Expressed Sequences Tags) libraries of adults and larvae previously obtained were analyzed in this study. Genic sequences of An. gambiae, Ae. aegypti and Cx. quinquefasciatus were analyzed for the presence of orthologous genes, in these mosquitoes in comparison with An. darling. An. darlingi’s ESTs (568 Unigenes) were virtually mapped in An. gambiae’s chromosomes. After that, differential gene expressions were analyzed, which allowed to statistically quantify the levels of differential expression of each gene, in the transcriptome of An. darlingi. The An. darlingi sequences were mapped according to onthologic terms of Gene Ontology (GO) and the sequences differentially expressed, with good statistical value that indicates the orthology were manually analyzed, according to the literature.The studies showed that 61% of An. darlingi are orthologous in An. gambiae and the in silico chromosomal mapping showed that the An. darling’s 568 Unigenes are represented in 793 chromosomal regions of An. gambiae, corroborating with evolutionary studies that say that the two species are evolutionarily close. An. darlingi sequences mapped in GO were associated with 1249 ontholgy levels and sublevels that describe a gene according to its function and cellular location. Differential expression analysis of some gene products was found more intense in larvae than in An. darlingi adults. Phylogenetic analysis of the An. darlingi glutathione-s-transferase (GST) gene was also done, an insecticide resistance gene which is well conserved, evolutionarily speaking, in An. gambiae, Ae. aegypti and Cx. quinquefasciatus. The Phylogenetic tree grouped An. darlingi and An. gambiae as sister species, because they are more evolutionarily related than Ae. aegypti and Cx. quinquefasciatus. In this analyses, the Phlebotomus papatasi was used as an external group, as the root of the tree. The manual annotation of An. darlingi ESTs sequences helped to understand the gene expression and evolutionary aspects of this mosquito related with An. gambiae, Ae. aegypti and Cx. quinquefasciatus, and also provided important data for further studies about individual genes of this malaria-transmitting species in Brazil.

ix

SUMÁRIO

1. Introdução ...... 1 1.1 Família Culicidae...... 1 1.2 Gênero Anopheles ...... 1 1.3 Anopheles darlingi ...... 2 1.4 Malária e seus agente etiológicos ...... 2 1.5 Caracterização de An. darlingi ...... 3 1.6 Transcriptoma ...... 4 1.7 Formato FASTA ...... 5 1.8 Alinhamento de sequências e o algorítimo BLAST ...... 6 1.8.1 Homologia, Similaridade e Identidade ...... 7 1.9 Inferência sobre funções gênicas ...... 8 1.9.1 Genes expressos e suas funções biológicas ...... 8 1.9.2 Genômica comparativa ...... 9 2. OBJETIVOS ...... 12 2.1 Geral ...... 12 2.2 Específicos ...... 12 3. MATERIAL E MÉTODOS ...... 13 3.1 Mapa local de coletas ...... 13 3.2 Bibliotecas de ESTs de larvas e adultos de An. darlingi ...... 13 3.3 Alinhamento de sequências ...... 14 3.5 Mapeamento in silico de ESTs de An. darlingi nos cromossomos de An. gambiae ...... 16 3.6 Seleção de genes diferencialmente expressos ...... 16 3.7 Curadoria manual da anotação automática ...... 17 3.8 Filogenia da Glutationa -S Transferase (GST), classe Sigma ...... 18 4. Resultados e Discussão...... 19 4.1 Compartilhamento de sequências homólogas por espécies ...... 19 4.2 Mapeamento in silico de ESTs de An. darlingi em cromossomos de An. gambiae ...... 21 4.3 Mapeamento das sequências ESTs de An. darlingi pelo Gene Ontology ...... 22 4.4 Expressão diferencial de genes em larvas e adultos de An. darlingi ...... 23 4.5 Avaliação manual de sequências expressas diferencialmente ...... 24 4.6 Inferências de funções de genes ortólogos ...... 30

x

4.7 Filogenia da Glutationa S Transferase, Classe Sigma ...... 37 5. Conclusão ...... 38 6. Referências Bibliográficas ...... 39 ANEXOS ...... 60 Tabela 1: Algorítmos derivados do programa BLAST ...... 60 Tabela 2: Comparação da Glutathiona S-transferase (GST) entre sequências de An. darlingi e An. gambiae, quanto ao mapeamento in silico...... 60 Tabela 3: Contigs diferencialmente expressos e seus respectivos valores normalizados em cada biblioteca (larvas e adultos de An.darlingi). O valor de p-value indica a confiança estatística dos dados amostrados e, valores maiores que 1 % foram rejeitados, por isso, estes não foram inseridos nesta Tabela...... 61 Tabela 4: Contigs mais expressos em adultos de An. darlingi, que apresentaram HSP/HIT >=65%...... 63 Tabela 5: Contigs mais expressos em larvas de An. darlingi que apresentaram HSP/HIT >=65%. 65

xi

1. Introdução

1.1 Família Culicidae A família Culicidae pertence à ordem Diptera classe Insecta e, engloba algumas espécies de interesse epidemiológico. Entre essas encontram-se os mosquitos Culex quinquefasciatus, transmissor da filariose e vírus do oeste do Nilo e Aedes aegypti, transmissor do vírus da febre amarela e dengue. Esses dois insetos partilham hábitos comuns, como por exemplo, são cosmopolitas e suas larvas apresentam uma estrutura morfológica denominada sifão respiratório que é responsável pela respiração aérea, enquanto que as larvas de mosquitos da subfamília Anophelinae realizam a respiração aérea através de placas espiraculadas presentes no VIII segmento abdominal (Consoli e Oliveira, 1994). Os adultos estão presentes em regiões temperadas e tropicais bem como no Círculo Polar Ártico, mas são muito diversos em ambientes de florestas (Foley et al., 2007). Na subfamília Anophelinae, encontram-se duas espécies, dentre outras, de importância médica e de saúde pública mundial, Anopheles darlingi e Anopheles gambiae transmissoras dos agentes etiológicos da malária no Brasil e África, respectivamente. Mosquitos da família Culicidae apresentam algumas semelhanças entre si, dentre elas o hábito hematófago entre as fêmeas, que necessitam da alimentação sanguínea para a maturação de seus ovos, além de partilharem a capacidade vetorial, que pode variar dependendo da região geográfica (Morse, 1995; Molyneux, 1997). A família Culicidae teve uma origem ancestral, provavelmente no Jurássico (Edwards 1932; Bertone et al., 2008), consistente com o registro fóssil de seu grupo irmão, a família Chaoboridae (Borkent, 1993). Lucashevich (2008) mostrou caracteres morfológicos de larvas da família Culicidae, corroborando o trabalho de Kalugina (1977) que concluiu que “os Culicideos derivam dos Chaoboridae”. A família Culicidae deu origem a duas subfamílias denominadas, Culicinae e Anophelinae. Essa divergência ocorreu há aproximadamente 120 milhões de anos, no início do Cretáceo (Moreno et al., 2010).

1.2 Gênero Anopheles O gênero Anopheles Meigen 1818 compreende espécies transmissoras do agente etiológico causador da malária. A radiação das espécies dentro do gênero se deu há aproximadamente 79 milhões de anos, no final do Cretáceo (Moreno et al., 2010), originando os dois maiores vetores da malária tropicais, o An. gambiae e An. 1 darlingi, no velho mundo e novo mundo, respectivamente. Essas duas espécies partilham aspectos e hábitos comuns, como a morfologia, a antropofilia das fêmeas que é caracterizada pela preferência em alimentar-se de sangue humano característica essencial a um vetor eficiente (Tadei et al., 1998), a preferência na oviposição, estrutura dos ovos (Consoli e Oliveira, 1994), cariótipo (Rafael e Tadei, 1998), resistência a inseticidas (Soderlund e Knipple, 2003), além da capacidade de transmitir o agente etiológico da malária de um ser humano a outro (Service, 1996), e outras características biológicas do mosquito.

1.3 Anopheles darlingi

Há cerca de 500 espécies de mosquitos anofelinos e 70 transmitem parasitas da malária e, cerca de 20 são importantes vetores da malária humana (Service, 1996). Para que um anofelino transmita a malária ao ser humano, é necessário que a fêmea adulta se alimente de sangue humano e que o seu ciclo de vida (sobrevivência e longevidade) seja compatível com o ciclo gametocítico do parasita. Além disso, aspectos como a densidade populacional e a proporção de picadas do mosquito em humanos são fatores importantes na determinação da sua capacidade vetorial numa determinada região (Dye, 1986). Na região neotropical, o An. darlingi é o vetor da malária mais eficaz (Mirabello et al., 2008), e na Amazônia brasileira, é o vetor primário da doença (Deane, 1986; Arruda et al., 1986; Tadei et al., 1998). Um dos principais fatores biológicos que concorrem para que esta espécie seja a principal vetora da malária é a sua acentuada preferência em alimentar-se com sangue humano (Tadei et al., 1998), pois assim os ovos da fêmea entram em maturação e, também, a sua alta susceptibilidade à infecção pelos Plasmodium falciparum e (Zimmermam 1992).

1.4 Malária e seus agente etiológicos

A malária é causada por espécies de protozoários do gênero Plasmodium, que podem ser transmitidas ao hospedeiro vertebrado pela picada de alguns mosquitos infectados do gênero Anopheles (Marrelli, 2000). A patologia é caracterizada principalmente por febre intermitente, cefaléia, anemia e 2 esplenomegalia. É causada pelo P. vivax, P. falciparum e Plasmodium malariae (Rachou, 1958; Consoli e Oliveira, 1994) e Plasmodium ovale, sendo que este último ocorre somente nos países africanos. Dentre estas espécies, P. falciparum pode ocasionar malária grave e óbito (Sucen, 2006). Alguns mosquitos do gênero Anopheles quando infectados, transmitem espécies de plasmódios a indivíduos que além de infectar as suas células sanguíneas, infectam também as células hepáticas (Marelli, 2000), onde se reproduzem assexuadamente levando as células ao rompimento e liberando, quase que simultaneamente, compostos tóxicos, como a hemozoína que é liberada pelo parasita da malária, causando picos de calafrios e febre, característica da malária (Tortora et al., 2000). A malária ou paludismo é considerada em muitos países um grave problema de saúde pública, onde cerca de 3,2 bilhões de pessoas (40% da população mundial) estão expostas ao risco de contágio. A malária infecta de 350 a 500 milhões de pessoas anualmente levando a óbito cerca de 1 milhão de pessoas (WHO, 2005). No Brasil, aproximadamente 99% dos casos de malária se concentram na região da Amazônia legal (estados do Acre, Amapá, Amazonas, Pará, Rondônia, Roraima e Tocantins, Maranhão e, Mato Grosso). A região é considerada área endêmica do país para a malária (MS/SVS, 2005). Em 2010 foram notificados 316.355 casos da doença na Amazônia Legal (MS/SVS, 2010).

1.5 Caracterização de An. darlingi Considerando o transmissor da malária no Brasil, alguns estudos vêm sendo feitos para a melhor compreensão de An. darlingi, como inversões em cromossomos politênicos e cariótipo (Kreutzer et al., 1972; Tadei et al., 1982; Rafael et al., 1998; Rafael et al., 2010), comportamento e DNA mitocondrial (Rosa-Freitas et al., 1992; Freitas-Sibajev et al., 1995), RAPD-ITS2 (Manguin et al., 1999), DNA repetitivo e genes de sequência única (Rafael et al, 2003, 2004, 2005), DNA microssatélites e estrutura de população (Scarpassa e Conn, 2007; Mirabello et al., 2008; Lima et al., 2010), transcriptoma da glândula salivar (Calvo et al., 2009), e mais recentemente o sequenciamento parcial do transcriptoma de larvas e adultos de An. darlingi (Rafael et al., 2005; 2008; Souza et al., 2007), os mapeamentos cromossômicos in situ e in silico de ESTs (Expressed Sequences Tags) desse transcriptoma (Bridi, 2009). Esses estudos têm auxiliado na caracterização genética e evolutiva de An. darlingi.

3

1.6 Transcriptoma O Transcriptoma compreende regiões do DNA que são transcritas em RNA mensageiro e traduzidas em aminoácidos que formam as proteínas e/ou enzimas que constituem o organismo. Em estudos de transcriptomas são construídas bibliotecas de cDNA (DNA complementar). O cDNA é sintetizado a partir do RNA mensageiro maduro, por meio da enzima transcriptase reversa, garantindo que o DNA complementar tenha a cópia do gene transcrito. A molécula recém sintetizada é inserida em um DNA plasmidial bacteriano, que por sua vez é inserido em bactérias. Usam-se técnicas de engenharia genética, para a clonagem do DNA complementar de interesse. No interior da bactéria, o plasmídeo recombinante se replica utilizando a maquinaria celular, já que as bactérias, quando em ambiente adequado, se multiplicam, replicando assim seu material genético. Após a replicação das bactérias, os plasmídeos recombinantes são extraídos e tratados com uma reação de sequenciamento, utilizando o método Dideoxi (Sanger et al., 1977), que consiste na adição de ddNTPs (didesoxinucleotídeos), que não possuem o grupo hidroxila (OH) no carbono 1’, o que impede a adição de outro nucleotídeo, interrompendo assim o alongamento da molécula a ser sequenciada e isso irá originar moléculas que diferem em tamanho por apenas um nucleotídeo. Esses ddNTPs são ligados a uma molécula fluorescente e quando passam pelo capilar finíssimo do sequenciador, um feixe de laser é acionado originando cores diferentes para cada uma das quatro bases presentes na molécula de DNA. Além disso, o sequenciamento de bibliotecas de cDNA, para gerar ESTs tem sido considerado uma abordagem versátil, rápida e econômica, para a descoberta de genes, preferencialmente aqueles expressos em certos tecidos ou células de organismos multicelulares (Adams et al., 1991; Liew et al., 1994, Adams et al., 1995; MacCarter et al., 2003). As ESTs representam cópias de sequências do cDNA oriundas de projetos transcriptomas e são regularmente depositadas em bancos de dados, como o dbEST (The International Expressed Sequence Tags Database: www.ncbi.nlm.nih.gov/dbEST), o maior banco de dados de ESTs do mundo. Considerando os mosquitos vetores de importância epidemiológica citados nessa dissertação, este banco conta, atualmente, com 68.068.662 ESTs, onde 153.293 são de An. gambiae, 301.596 de Ae. aegypti e 205.274 de Cx. quinquefasciatus contra apenas 2.576 de An. darlingi (dbEST, 2011). Isso evidencia a necessidade de caracterizar mais sequências gênicas de An.

4 darlingi, principal vetor da malária no Brasil. Transcriptomas são sequências denominadas ESTs (Expressed Sequence Tags), representativas de genes expressos em uma determinada etapa de desenvolvimento do organismo, e possuem um tamanho médio entre 100-700pb (Adams et al., 1991), e por apresentar sequências gênicas fragmentadas, elas passam por um processo de agrupamento ou clusterização. Cada sequência de cDNA gerado, também pode ser denominada reads, que é uma nomenclatura usual em Bioinformática. Após o término de um projeto transcriptoma, os reads passam por um processo de agrupamento, onde são sequenciados, alinhados e aquelas sequências que se sobrepõem, são agrupadas em sequências maiores, formando uma sequência consenso ou Contig, também denominadas de cluster gênico, e sequências que não se agrupam em Contigs, chamadas de singlets (Huang e Madan, 1999). Nesse processo de clusterização eliminam-se a redundância das sequências, para posterior inferência de funções aos produtos gênicos. Posteriormente, as sequências são submetidas ao programa ph2fasta, um software acoplado ao sequenciador MegaBace1000, que faz a conversão dessas sequências para um arquivo de computador no formato FASTA.

1.7 Formato FASTA A sequência no formato FASTA é um requisito para diversos programas de Bioinformática, como o programa de comparação entre sequências BLAST (Basic Local Alingment Seach Tools) (Altschul et al., 1997), a ser discutido mais adiante. O formato FASTA geralmente inclui três partes: (1) uma linha de comentário sobre a sequência identificado pelo caracter “>” na primeira coluna, seguido pelo nome da sequência e origem; (2) a sequência de aminoácido ou nucleotídica; (3) a sequência pode vir com o caracter “*”, indicando o fim da sequência, o uso do asterisco é opcional, alguns programas de bioinformática exigem essa formatação (Mount,

2001). O uso do caracter “*” é desnecessário nesse trabalho, conforme um exemplo de arquivo de sequência no formato FASTA a seguir:

>Contig367; 424 1 618 LEN=736; translated (60s ribosomal protein L9) PRVRLNVEVVLSDLIMRTINSNQTVTVPKGVAVKVHSRVVTVDGPRGRLIKNFRHLP MDIYKVSKKKLRVEKWFGSKKEIAAVRTVCSHVENMIKGVTKGFQYKMRAVHAHFPI 5

NCVISENNSLVEIRNFLGEKHIRRVKMQPGVTVVNSAKQKDELVLEGNDIEAVSLSA ALIQQSTTVRNKDIRKFLDGLYVSEKTTVVQEEE

1.8 Alinhamento de sequências e o algorítimo BLAST Após a clusterização e a conversão das sequências para o formato FASTA, as sequências não redundantes geradas em projetos de sequenciamento em via de regra são submetidas ao processo de alinhamento, por meio da inspeção visual dos alinhamentos locais contra bancos de dados de nucleotídeos e proteínas, usando a Ferramenta de Busca Básica de Alinhamento Local (Basic Local Alignment Search Tools - BLAST) (Altschul et al., 1997). Alinhar sequências significa colocar duas ou mais sequências lado a lado permitindo emparelhamento de resíduos idênticos (matches) ou desemparelhamentos (mismatches) entre seus caracteres (bases nitrogenadas), assim como a inclusão de espaços vazios, gaps (usualmente representados por hífens) (Prosdocime et al., 2002). Matches, mismatches e gaps gerados, são utilizados em análises estatísticas para gerar valores de qualidade ao alinhamento das sequências, como valor de score e e-value (“Expectation value”), os dois valores estatísticos mostram a qualidade do alinhamento. O primeiro valor, quanto mais alto, melhor, pois representa um valor positivo. O valor de e-value quanto mais próximo de “zero” indica o melhor alinhamento (Baxevanis e Oullette, 2001). O alinhamento pode ser global ou local. O alinhamento global é frequentemente utilizado para determinar regiões mais conservadas de sequências homólogas e em análises filogenéticas; o alinhamento local é geralmente utilizado na procura por sequências similares e/ou idênticas para a busca de sequências homólogas em banco de dados. Essas buscas podem ser entre nucleotídeos ou entre peptídeos (proteínas). O algorítimo BLAST é uma abordagem usual para busca de regiões de similaridade entre sequências (Altschul et al., 1990). O programa BLAST compara sequências nucleotídicas ou peptídeos fazendo comparações entre pares de sequências, procurando por regiões de similaridade, além de calcular a significância estatística dos matches (sequências alinhadas). A tecnologia BLAST pode ser usada também para inferir relações evolutivas entre sequências bem como ajudar a identificar membros de famílias gênicas (http://www.ncbi.nlm.nih.gov/BLAST). Existem alguns tipos de algorítimos derivados da tecnologia BLAST e que são usados para comparação entre tipos específicos de sequências, como mostra a 6

Tabela 1 (anexo).

1.8.1 Homologia, Similaridade e Identidade Uma abordagem utilizada pelo BLAST é o estudo da homologia entre sequências de um determinado organismo contra outras sequências registradas em bancos de dados públicos, importantes para identificar genes de diversos organismos (Kanehisa, 2002). Em alinhamentos entre sequências, procura-se uma relação de ancestralidade comum, que seja significativa, e essas sequências são denominadas homólogas. Genes homólogos ou sequências homólogas são produtos de duplicação gênica, cujo resultado evolutivo pode acumular mutações, originando novos genes (Haldane, 1932; Muller, 1936). A duplicação gênica é uma das principais causas da evolução e pode gerar divergência evolutiva. O termo homologia é o mais importante em alinhamento e comparação de biossequências, pois se refere à relação evolutiva entre as sequências, ou seja, se possuem ou não ancestrais comuns. O aparecimento de novos genes por duplicação é muito comum, principalmente em eucariontes. Esses genes, após a duplicação, seguem sem pressão seletiva, até que por deriva genética adquirem nova função, ou qualquer modificação que os torne positivamente selecionados, podendo ser fixados em determinada espécie. Como consequência dessas duplicações, sequências homólogas são classificadas em genes ortólogos e parálogos (Pearson, 2001). Genes ortólogos, estão presentes em espécies diferentes, provavelmente, por processos de especiação, e normalmente mantêm a mesma função biológica. Genes parálogos são sequências geradas a partir de eventos de duplicação gênica, e estão incluídas em um mesmo genoma e que não apresentam necessariamente a mesma função. Esse processo pode levar à formação de famílias multigênicas, com alta similaridade entre elas. Para que uma predição de sequência protéica seja confiável é necessário inferir relações de ortologia entre genes de diferentes espécies (Tatusov et al., 2000). A homologia é deduzida em função da similaridade e identidade entre resíduos de aminoácidos ou nucleotídeos presentes em uma molécula. Resíduos de aminoácidos são similares quando apresentam características físico-químicas similares, o mesmo volume e caráter de proteínas hidropáticas (que possuem regiões hidrofóbicas e hidrofílicas). Identidade entre resíduos de aminoácidos ou nucleotídeos referem-se à porcentagem de resíduos idênticos entre duas sequências. Identidade e similaridade são variáveis que podem 7 ser medidas, ao contrário da homologia (Campos et al., 2008). Similaridade não se aplica a nucleotídeos. No cálculo do valor de similaridade entre peptídeos, consideram-se os resíduos idênticos e similares.

1.9 Inferência sobre funções gênicas A busca por similaridade entre sequências em bancos de dados é um procedimento útil, para inferência de funções biológicas de um gene ou seus produtos. Genes derivados evoluíram de genes ancestrais, que devem ter função, estrutura e sequências relacionadas, no caso de sequências homólogas de organismos evolutivamente relacionados, que derivaram de sucessivas mutações, de um ancestral comum (Bedell et al., 2003). Os genes ortólogos encontrados em bancos de dados curados, em processo de anotação, podem fornecer dados sobre a sequência gênica, tal como a função em que está inserida e até mesmo dados estruturais. Bancos de dados curados ou secundários são websites, onde as sequências passaram por anotação automática e manual, para agregar o máximo de informações possíveis às sequências biológicas. Citam-se o banco de dados do consórcio Gene Ontology (GO) (www.geneontology.org), que fornece informações mais criteriosas sobre as sequências depositadas. Ao contrário dos bancos de dados secundários, os bancos primários, como o GenBank não fornecem muitas informações biológicas sobre as sequências depositadas.

1.9.1 Genes expressos e suas funções biológicas A anotação de genes expressos consiste em um processo múltiplo, onde uma ou mais sequências de DNA ou aminoácidos são analisadas para atribuir significado biológico às sequências (Stein, 2001). As ESTs obtidas por sequenciamento devem ser anotadas, por processo que nomeará e associará as sequências às suas prováveis funções (Kanehisa, 2002). A predição da função, ou anotação, de uma determinada sequência codificante de proteína é baseada em propriedades bioquímicas, fisiológicas e físicas aliadas à bioinformática (Weir, 1996). Genes ortólogos encontrados em bancos de dados públicos fornecem informações a serem adicionadas às ESTs de vários organismos, cujas sequências derivam de um ancestral comum e, portanto, têm a mesma função. O consórcio GO permite a anotação das sequências ESTs obtidas em projetos transcriptomas. No site http://www.geneontology.org/ encontram-se

8 informações de produtos gênicos de diferentes organismos. Esta interface da bioinformática teve início com bancos de dados de organismos como os genomas de Drosophila melanogaster, Saccharomyces Genome Database (SGD) e genoma de camundongo (MGD) em 1998. Desde então, o consórcio GO expandiu-se para incluir bancos de dados de plantas, animais, genomas microbianos e outros. O GO descreve produtos gênicos em três processos: processos biológicos associados, componentes celulares e funções moleculares em uma dada espécie de maneira independente. O primeiro, processo biológico, é uma série de eventos realizados por um ou mais conjuntos ordenados de funções moleculares, são processos fisiológicos ou celulares de transdução de sinal. O segundo, denominado de componentes celulares, refere-se a componentes de uma célula, mas com a ressalva de que é parte de algum objeto maior, o que pode ser uma estrutura anatômica (por exemplo, núcleo ou o retículo endoplasmático rugoso) ou de um grupo de produtos de genes (por exemplo, ribossomo, proteosoma ou um dímero de proteína). O terceiro, funções moleculares, diz respeito às funções e atividades catalíticas ou obrigatórias que ocorrem a nível molecular, podendo geralmente ser executadas por produtos de genes individuais. Quando ocorrer a leitura equivocada do nome de um produto com a sua função genética molecular, muitas funções moleculares são anotadas com a palavra "atividade" (www.geneontology.org/cgi-bin/references.cgi).

1.9.2 Genômica comparativa Os genomas de An. gambiae, Ae. aegypti e Cx.quinquefasciatus estão bem caracterizados. Foram sequenciados os genomas do An. gambiae com cerca de 278.253.050 pares de bases (pb) (Holt et al., 2002), Ae. aegypti contendo 1.310.090.344 pb (Nene et al., 2007) e Cx. quinquefasciatus com 579,042,118 (http://cquinquefasciatus.vectorbase.org/Culex_quinquefasciatus/Info/Index). A comparação dessas sequências, por meio de alinhamento local de sequências contra as ESTs de An. darlingi, faz-se necessária uma vez que esses mosquitos são de importância epidemiológica e partilham algumas características em comum além de serem proximamente relacionados evolutivamente. O alinhamento entre sequências gênicas de duas espécies pode ser feito, também, utilizando o Software SIM4, que realiza o mapeamento de sequências ESTs em DNA genômico, de forma que as sequências se alinhem com o máximo de identidade entre elas, delimitando a posição cromossômica onde a sequência está localizada (Florea et al., 1998). 9

Outra abordagem comparativa de ESTs vem sendo utilizada, por meio da Citogenética, como em An. gambiae, cujo foto mapa dos cromossomos politênicos, contendo 2 pares de autossomos e 1 par sexual foi útil para o mapeamento in silico de ESTs de An. darlingi (196 sequências) (Bridi, 2009). Os dados gerados pela autora forneceram algumas informações importantes sobre sintenia gênica entre as duas espécies, considerando que dados do mapeamento in situ dos cromossomos de An. darlingi ainda são escassos. A geração de ESTs de tecidos específicos de mosquitos, incluindo estômago, glândulas salivares, antenas e corpos gordurosos, de mosquitos anofelinos e culicíneos, têm gerado centenas de ESTs, que em análises computacionais mostram centenas de produtos protéicos específicos. Em fêmeas Ae. aegypti, sequenciaram cerca de 456 clones de glândula salivar (Valenzuela et al., 2002). Cada clone contém cópias idênticas do fragmento sequenciado, formando 238 clusters, sendo que cada cluster ou Contig representa ESTs com alta identidade entre si, que foram agrupadas gerando sequências consenso, com diferentes transcritos. Esses transcritos codificaram para 118 proteínas de manutenção, 38 produtos secretados e 82 proteínas com função desconhecida. Em An. gambiae, o transcriptoma de glândulas salivares gerou 691 ESTs (Francischetti et al., 2002), e o banco de ESTs da glândula salivar de An. darlingi gerou 593 clones (Calvo et al., 2004), enquanto que o transcriptoma da glândula salivar de Cx. quinquefasciatus, originou 503 clones (Ribeiro et al., 2004). O trancriptoma da glândula salivar do An. darlingi foi comparado com sequências da glândula salivar do An. gambiae. Os autores mostraram significante divergência de proteínas salivares entre essas espécies (Calvo et al., 2009). Vários produtos proteicos identificados nas glândulas salivares desses mosquitos desempenham papéis importantes na alimentação sanguínea do mosquito fêmea, como também, na transmissão dos plasmódios da malária (Ribeiro e Francischetti, 2003). Considerando o transcriptoma da glândula salivar de An. darlingi vários produtos gênicos foram identificados. Citam-se células com molécula T, com função imunomodulatória; dentre os 288 clusters, a detecção de produtos protéicos de genes com regiões conservadas ou similares a outros genes conhecidos (putative proteins) foram classificadas em três categorias: (S) produtos secretados (52,7%), (H) produtos de manutenção (25,1%) e (U) produto com local e função desconhecida (22%). Dentre essas proteínas, foram anotadas as enzimas secretoras relacionadas à alimentação com açúcar (alfa glucosidases e alfa

10 amilases) e proteínas relacionadas ao metabolismo (Calvo et al., 2004). A comparação entre as categorias das proteínas (S ) e (H) entre An. darlingi e An. gambiae revelaram que as proteínas salivares são menos conservadas do que as proteínas de manutenção (housekeeping), e que apresentam mudança evolutiva com certa rapidez. Posteriormente, Calvo et al., (2009) confirmaram essa significante divergência de proteínas salivares entre esses dois mosquitos, corroborando os dados obtidos anteriormente. Dentre essas, apenas 53% de proteínas salivares são conservadas, enquanto que 86% das proteínas de manutenção são idênticas. É crescente o número de genomas funcional e estrutural de diversos insetos disponíveis em bancos de dados, contendo caracterizações funcional, biológica e evolutiva de sequências geradas e analisadas pela Bioinformática. Considerando dados de alinhamentos globais, estes têm sido analisados por meio de abordagens filogenéticas, para confirmação de resultados da bioinformática (Torres, 2006). Na geração de árvores filogenéticas, destacam-se os métodos estatísticos de Máxima Parsimônia, Matriz de Distâncias Genéticas e Máxima Verosimilhança. Análises filogenéticas, a partir de alinhamentos globais entre genes têm estabelecido relações evolutivas entre sequências gênicas (Torres, 2006). Porém, considerando a filogenia do gene da Glutationa S Transferase (GST), classe Sigma, a partir de alinhamentos globais, a literatura não registra estudos filogenéticos envolvendo essa classe de GST em An. darlingi, An. gambiae, Cx. quinquefasciatus e Ae. aegypti. Dados sobre genes expressos e seus produtos protéicos podem servir como ferramentas úteis para pesquisas básicas, comparativas e estudos de desenvolvimento biológico e evolutivo. Considerando o An. darlingi, há escassez de transcritos e de genes anotados de An. darlingi, cerca de 2.500 ESTs depositadas no NCBI (www.ncbi.nlm.nih.gov/dbEST). Por isso, foi realizado o sequenciamento das moléculas de cDNAs das bibliotecas de larvas e adultos de An. darlingi (Rafael et al., 2005; 2008; Souza et al., 2007). No presente trabalho, propõem-se a anotação comparativa automática do transcriptoma parcial de An. darlingi contra sequências de An. gambiae, Cx. quinquefasciatus e Ae. aegypti (Holt et al., 2002; Nene et al., 2007), para o aumento do número de sequências caracterizadas e enriquecer estudos sobre produtos gênicos e a biologia de An. darlingi.

11

2. OBJETIVOS

2.1 Geral Anotar e analisar o transcriptoma parcial de Anopheles darlingi.

2.2 Específicos  Fazer a anotação funcional de cerca de 1.360 reads de An. darlingi;

 Realizar a análise comparativa do transcriptoma de An. darlingi contra sequências de An. gambiae, Ae. aegypti e Cx. quinquefasciatus;

 Montar uma árvore filogenética da Glutationa -S Transferase, classe Sigma, de An. darlingi, comparando com a GST Sigma de An. gambiae, Ae. aegypti, Cx. quinquefasciatus e, como grupo externo, o Phlebotomus papatasi;

 Desenvolver um banco de dados e um Website, contendo a anotação funcional de ESTs de An. darlingi e disponibilizá-lo para acesso pela comunidade científica.

12

3. MATERIAL E MÉTODOS

3.1 Mapa local de coletas

Figura 1. Local de coleta de amostras de An. darlingi, utilizadas para as bibliotecas de ESTs de larvas e adultos, município de Coari, AM (Rafael et al., 2005; 2008; Souza et al., 2007).

3.2 Bibliotecas de ESTs de larvas e adultos de An. darlingi A partir de amostras de An. darlingi coletadas no município de Coari (4º6’S, 63º3’W), estado do Amazonas, conforme licença nº.17524 (IBAMA) foram construídas bibliotecas de cDNA, utilizando-se 100 mg de larvas de 1º e 2º estádios e 100 mg adultos de An. darlingi emergidos após 8 horas e não alimentados (Rafael et al., 2005; 2008; Souza et al., 2007). Os clones foram sequenciados pelo método Dideoxi (Sanger et al., 1977) e as sequências submetidas à anotação automática. As estratégias utilizadas na bioinformática, para processar as ESTs, foram por trimagem (limpeza de sequências contaminantes, como vetores, adaptadores) e clusterização ou agrupamento de sequências. Após o processamento das ESTs pelos Programas Phred (www.phrap.org) e phd2fasta (www.phrap.org) (Telles e Silva, 2001), a anotação automática das ESTs para análise de qualidade e armazenamento das sequências, clusterização ou agrupamento foi realizada no Laboratório Nacional de

13

Ciências da Computação–LNCC (www.darlingi.lncc.br), Embrapa Recursos Genéticos de Biotecnologia (https://valine.cenargen.embrapa.br) e Centro de Biologia Molecular e Engenharia Genética- CBMEG/UNICAMP e Instituto Nacional de Pesquisas da Amazônia- INPA. Na anotação automática, cada grupo de sequências foi obtido pelo CAP3 e analisado por outras ferramentas de anotação, tendo o programa BlastX como base de análise. A análise de similaridade foi contra os bancos não redundantes do GenBank, o Gene Ontology e o banco de nucleotídeos e peptídeos preditos no genoma de An. gambiae (VectorBase). Cada grupo foi categorizado funcionalmente mediante os resultados de maior significância estatística após a comparação das sequências nos bancos de dados genômicos de An. gambiae, Ae. aegypti, Cx. quinquefasciatus e outros organismos, para obtenção das possíveis funções dos produtos de cada EST sequenciada.

3.3 Alinhamento de sequências Considerando os alinhamentos entre sequências é mais seguro utilizar o sistema operacional Linux para executar o BLAST, a fim de buscar sequências homólogas, devido à rapidez dos alinhamentos e à confiabilidade dos dados, evitando que sequências ainda não publicadas se tornem públicas, como por exemplo, o alinhamento de sequências feitas pelo BLAST, usando o NCBI ou outros programas do Windows. Assim, não é recomendado o alinhamento de sequências usando Windows, se as sequências ainda não foram publicadas, como é o caso das ESTs de An. darlingi. No presente estudo, utilizaram-se a linha de comando do sistema Linux, para executar os alinhamentos de 568 Unigenes das bibliotecas de cDNA de larvas e adultos de An. darlingi (Rafael et al., 2005; 2008; Souza et al., 2007), pelo BLASTx, para buscar sequências homólogas em bancos de dados genéticos do Centro de Biologia Molecular e Engenharia Genética (CBMEG), da Universidade Estadual de Campinas (UNICAMP), Estado de São Paulo. Os Unigenes são sequências referentes a um único gene e que foram previamente agrupadas a partir de 1360 ESTs geradas nas bibliotecas de cDNA de An. darlingi, pelo projeto transcriptoma de larvas e adultos (Rafael et al., 2005; 2008; Souza et al., 2007). No presente estudo, os alinhamentos dessas sequências foram executados em linha de comando do sistema Linux.

14

3.4 Anotação e mapeamento de Unigenes pelo Gene Ontology Os 568 Unigenes de An. darlingi, alinhados pelo programa BLASTx foram submetidos ao programa Blast2go (Conesa et al., 2005), para a anotação e mapeamento dos termos do vocabulário de ontologias do Gene Ontology (Processos Biológicos, Função Biológica e Componentes Celulares). O mapeamento incluiu, também, vias metabólicas disponíveis no programa KEGG (Kyoto Encyclopedia of Genes and Genomes) (http://www.genome.jp/kegg/pathway.html) no caso de sequências que codificam para enzimas. A Figura 2 mostra o Contig404 e o mapeamento dos termos do consórcio GO, seguido do tamanho, número de hits encontrados para cada gene e seus valores de e-value, bem como o endereço da enzima referente ao gene. O Blast2go identificou, também, proteínas ortólogas por meio de outro banco de dados chamado UNIPROT. O UNIPROT (http://www.uniprot.org), contém sequências protéicas curadas e associadas aos termos de ontologia atribuídos pelo programa Gene Ontology Annotation (GOA) (Harris et al., 2004). No procedimento de anotação e mapeamento dos termos ontológicos, o blast2go mostra o número de acesso dos produtos gênicos fazendo link com o UNIPROT. Esse banco de dados é o resultado da união de esforços entre os grupos responsáveis por PIR, Swiss-Prot e TrEMBL (Apweiler et al., 2004), que conta com informações de todas as sequências protéicas sequenciadas no mundo. O UNIPROT faz link com vários bancos curados manualmente (VectorBase, KEEG, Gene Ontology, PFAM) e com bancos dados primários (EMBL e NCBI). As informações coletadas nesses bancos podem ser encontradas na Website provisória de An. darlingi: http://sysbiol.cbmeg.unicamp.br/adarlingi.

15

Figura 2: Interface Blast2go, mostrando as sequências gênicas de An. darlingi e suas respectivas ontologias, a partir de alinhamentos do Blastx.

3.5 Mapeamento in silico de ESTs de An. darlingi nos cromossomos de An. gambiae Foi realizado download de sequências do genoma de An. gambiae para o servidor sysbiol, do CBMEG, UNICAMP. Em seguida os 568 Unigenes de An. darlingi foram mapeados in silico nos cromossomos de An. gambiae, utilizando-se o programa SIM4.

3.6 Seleção de genes diferencialmente expressos Dos 568 Unigenes de An. darlingi, 347 Contigs foram selecionados e analisados pelo programa Identification Differentially Expressed Genes (IDEG6), a partir dos Contigs mais expressos e na contagem de ESTs das bibliotecas de larvas e adultos, baseando-se nos valores do teste estatístico de Audic & Claverie estabelecidos por essas contagens (Audic e Claverie, 1997), com correção de Bonferroni (Bonferroni, 1936). O teste estatístico de Audic & Claverie é baseado na comparação par a par de ESTs entre bibliotecas de cDNA. A necessidade do emprego desse teste no presente estudo é porque as bibliotecas de An. darlingi possuem tamanhos diferentes, sendo necessário normalizar esses dados antes de se fazer as comparações estatísticas. 16

3.7 Curadoria manual da anotação automática Após o alinhamento de ESTs usando o BLASTx, os Contigs diferencialmente expressos em larvas e adultos de An. darlingi, definidos pelo programa IDEG6, passaram por um processo de inspeção visual para seleção de sequências com o HSP/HIT (high scoring pair/HIT) com valores maiores ou iguais a 65%, a fim de encontrar sequências protéicas completas e, portanto, mais significativas e informativas. Sequências com valores menores que 65% foram armazenadas para estudos posteriores, pois essas sequências representam apenas um fragmento muito curto de genes encontrados em bancos de dados. Assim, isso pode gerar uma falsa hipótese de gene a ser analisado. O valor de HSP/HIT quantifica o quanto a sequência de consulta, nesse caso Unigenes de An. darlingi, cobre o gene ortólogo encontrado em bancos de dados, denominado Hit ou subject (sequência consultada em banco de dados). Dessa forma, cada sequência selecionada tem 65% a 100% de sua extensão representada nos genes de An. darlingi. Sequências com HSP/HIT maior ou igual a 65% e suas ORFs (Open Reading Frame) foram confirmadas pelo programa ORF Finder para posterior comparação das sequências de aminoácidos de An. darlingi contra sequências peptídicas disponíveis no GenBank. Isso possibilitou a comparação de resíduos de aminoácidos em quantidades entre as sequências de An. darlingi (query ou sequência de consulta) e sequências de bancos de dados (subject), confirmando os alinhamentos, e os domínios protéicos dessas moléculas, previamente gerados. Após essa etapa, foram inferidas funções às sequências de An. darlingi, a partir de genes ortólogos encontradas em bancos de dados. A Figura 3 mostra a interface do consórcio GO (http://www.geneontology.org/), que associa termos ontológicos à função protéica.

17

Figura 3. Interface para busca de genes e suas funções ontológicas, estabelecidas pelo consórcio do Gene ontology.

3.8 Filogenia da Glutationa -S Transferase (GST), classe Sigma

Sequências do gene Glutationa -S Transferase (GST) foram comparadas pelo programa ClustalW, por meio do alinhamento global entre as sequências homólogas (Thompson et al., 1994). No presente estudo, construiram-se a árvore filogenética da GST, classe Sigma, de An. darlingi, An. gambiae, Ae. aegypti, Cx. quinquefasciatus e Phlebotomus papatasi. Esta última espécie foi utilizada para enraizamento da árvore filogenética. Foi utilizado método de Neighbor Joining que se baseia em métodos de distâncias genéticas (Saitou e Nei, 1987), utilizando o Software Mega4.0 (Tamura et al., 2007). Este último realiza análises de Bootstrap (Felsenstein, 1985) que são valores estatísticos, que testam o grau de confiabilidade dos nós das árvores geradas.

18

4. Resultados e Discussão

4.1 Compartilhamento de sequências homólogas por espécies O Blastx executado comparou a homologia das sequências de aminoácidos traduzidas, a partir das bibliotecas de ESTs de larvas e adultos de An. darlingi contra os bancos de dados de diversos organismos, incluindo o An. gambiae, Ae. aegypti, Cx. quinquefasciatus, previamente acessadas no bancos de dados do CBMEG, UNICAMP. Anopheles gambiae, Ae. aegypti, Cx. quinquefasciatus compartilharam números significativos de sequências homólogas com An. darlingi. Outras espécies não compartilharam mais que cinco biossequências, com An. darlingi (Figura 4).

Sequências Homólogas

350 300 250 Sequências 200 compartilhadas 150 100 50 0 Sequencias Homólogas

Aedes aegypti Outras espécies Anopheles darlingi Anopheles gambiae

Culex quinquefasciatus Espécies

Figura 4. Compartilhamento de sequências homólogas de An. darlingi com An. gambiae, Ae. aegypti, Cx. quinquefasciatus e outras espécies. Os nomes das espécies são mostradas no eixo x e o número de sequências homólogas, best hits, no eixo y.

Esses resultados mostram que dos 568 Unigenes de An. darlingi alinhados pelo Blastx em bancos de dados, 61% das sequências (349 Unigenes) são mais semelhantes às sequências de An. gambiae, 10% das sequências (55 Unigenes) alinharam com sequências de An. darlingi, oriundas de outros projetos de sequenciamento, 10% (55 genes) alinharam com sequências Ae. aegypti, 8% (49 Unigenes) alinharam com sequências de Cx. quinquefasciatus e 11% (55 Unigenes) restantes mostraram alinhamento com outras espécies. Estas últimas não foram discutidas neste trabalho por não apresentarem relação evolutiva recente com An. 19 darlingi. Somente sequências com valor de corte do e-value igual ou maior que 10-5 foram analisadas. Dos 568 Unigenes de An. darlingi, a detecção de 61% das sequências compartilhadas com An. gambiae era esperado, considerando a ocorrência dessas duas espécies no gênero Anopheles. O compartilhamento de 8% de sequências em Ae. aegypti e 11 % em Cx. quinquefasciatus com An. darlingi sugerem uma relação evolutiva mais distante, corroborando estudos de Reidenbach et al. (2009) e Moreno et al. (2010), onde mostraram que o tempo de divergência entre anofelinos e culicíneos data de 120 milhões de anos, no início do Cretáceo. No entanto, Moreno et al. (2010) comparou o DNA mitocondrial de An. darlingi de duas localidades, Manaus, Amazonas (America do Sul) e Belize, peníssula de Yucatán (America Central) com An. gambiae, Anopheles funestus, Anopheles quadrimaculatus. Esses autores mostraram que a radiação entre An. gambiae, Anopheles funestus, Anopheles quadrimaculatus e An. darlingi data de aproximadamente 79 milhões de anos atrás. Registros fósseis da família Culicidae não são comuns, embora alguns espécimens tenham sido encontrados preservados em âmbar (Zavortink e Poinar, 2000). Anopheles (Nyssorhynchus) dominicanus é o registro fóssil mais antigo da subfamília Anophelinae, encontrado no novo mundo e sua idade é controversa, sendo estabelecida entre 15 a 20 milhões de anos, baseando-se em marcadores de resgistros fósseis, como indivíduos da ordem foraminífera (Iturralnde-Vincent e MacPhee, 1996) e no âmbar de 30 a 45 milhões de anos (Schlee, 1990). Dessa forma, as relações evolutivas entre esses mosquitos têm sido estabelecidas baseando-se no tempo de divergência entre Anopheles e Drosophila que data de 259.9 milhões de anos (Gaunt e Miles, 2002). Nesse sentido, abordagens evolutivas relacionando dados de DNA mitocondrial (Moreno et al., 2010) associado a estudos de genes nucleares, podem futuramente ajudar na estimativa da real idade de divergência entre espécies do gênero Anopheles, por exemplo, An. darlingi e An. gambiae. Esses autores mencionaram a importância do genoma nuclear para corroborar hipóteses evolutivas dessas espécies. Assim, a análise de sequências do DNA nuclear de An. darlingi pode contribuir com a relação evolutiva entre An. darlingi e An. gambiae.

20

4.2 Mapeamento in silico de ESTs de An. darlingi em cromossomos de An. gambiae O mapeamento in silico mostrou que as sequências de An. darlingi estão representadas em 793 regiões dos cromossomos de An. gambiae, podendo uma sequência ter hibridizado em mais de uma região cromossômica. A barra que representa o cromossomo UNKN, provavelmente, são sequências de An. gambiae que não tiveram suas regiões definidas dentro do genoma. Assim sendo, 91 sequências de An. darlingi alinharam com essas sequências desconhecidas de An. gambiae (Figura 5). Esses dados, adicionados ao mapeamento físico e in silico de ESTs de An. darlingi em cromossomos de An. gambiae (Bridi, 2009), futuramente, podem ser úteis, para análises de sintenia entre os cromossomos de An. darlingi e An. gambiae, mutações cromossômicas, translocações, outros rearranjos cromossômicos e evolução desses anofelinos.

250

200

150

100 Sequencias

50

0 Br. 2L Br. 2R Br. 3L Br. 3R X Y UNKN Cromossomos

Figura 5: Número de sequências ESTs de An. darlingi (eixo y) representadas em cromossomos de An. gambiae (eixo x).

A Tabela 2 (anexo) mostra uma comparação entre a localização do gene da GST em cromossomos de An. darlingi e An. gambiae, que foram alinhadas pelo programa SIM4 e o tamanho dessa sequência em nucleotídeos. Bridi (2009) identificou por mapeamento in situ ESTs de An. darlingi, e observou que o gene da GST hibridizou no braço esquerdo do cromossomo politênico 2 de An. darlingi. No presente trabalho, a GST foi mapeada in silico no braço esquerdo do cromossomo politênico 3, de An. gambiae. Esse resultado, pode sugerir um rearranjo cromossômico nessas duas espécies. Inversões paracêntricas têm sido extensivamente documentadas em algumas espécies de Anopheles por

21 causa da existência de pontos de quebra em seus cromossômos politênicos (Dideco et al., 1978; Suguna et al., 1981, 1994; Green et al., 1992; Subbarao et al., 1994, 2000; Poopittayasataporn e Baimai, 1995; Atrie et al., 1999; Pili e Marchi, 1999; Cornel e Collins, 2000; Ramirez & Dessen, 2000a,b; Coluzzi et al., 2002; Michel et al., 2005). Em An. gambiae, inversões paracêntricas podem ser um mecanismo de diferenciação inter e intra específica (Coluzzi et al., 1979; Coluzzi et al., 1985). A maioria das inversões polimórficas em An. gambiae é detectada nos braços esquerdo e direito do cromossomo politênico 2 (Coluzzi et al., 2002).

4.3 Mapeamento das sequências ESTs de An. darlingi, pelo Gene Ontology

Os 568 Unigenes de An. darlingi foram mapeados segundo as ontologias do Gene Ontology (Componente Celular, Função Molecular e Processos Biológicos), utilizando o programa Blast2go, totalizando 1249 níveis de ontologias obtidas a partir desses Unigenes. As sequências gênicas podem estar envolvidas em um ou em mais níveis de ontologias do GO. O termo Função Molecular está associado a 39 % (486) das sequências, seguido dos termos Processos Biológicos com 31% (382) das sequências e Componente Celular, sendo representado por 30% (381) das sequências. O número de sequências está bem distribuído nas três ontologias do GO (Figura 6).

600

500

400

300

Sequencias 200

100

0

Função Molecular Componente Celular Processos Biológicos Ontologias GO

Figura 6: Distribuição das ESTs de An. darlingi em Componente Celular, Função Molecular e Processos Biológicos. O Eixo y representa o número de Unigenes de An. darlingi e o eixo x representa as ontologias do GO.

22

O mapeamento de sequências gênicas utilizando-se ontologias associa os termos do vocabulário do GO, que podem ser aplicados a vários organismos, para a representação da descrição de genes e papéis de proteínas em células, além de facilitar buscas futuras sobre o gene em questão (Sales et al., 2008). O procedimento de se associar genes ortólogos às suas funções celulares é uma etapa fundamental durante o processo de anotação funcional de genes (Gotz et al., 2008). Na anotação funcional de genes da glândula salivar de Ae. aegypti, Valenzuela et al., (2002) anotaram 238 clusters, identificando 118 proteínas de manutenção; 38 produtos secretados e 82 proteínas com funções desconhecidas. Em An. gambiae, o transcriptoma de glândulas salivares gerou 691 ESTs divididas em 403 proteínas secretoras, 165 proteínas de manutenção e 123 com funções desconhecidas (Francischetti et al., 2002). Em proteínas salivares de An. darlingi, Calvo et al., (2009) analisaram 797 ESTs, onde 50% das sequências estão associadas a proteínas secretoras, 34% correspondem a proteínas de manutanção e 16% são classes protéicas ainda desconhecidas. No presente estudo, os 568 Unigenes de An. darlingi estão associados às seguintes ontologias: função molecular (39%), processos biológicos (31%) e componente celular (30%). Análises de ontologias associadas a genes permitem a comparação entre classes gênicas, como será abordado no 4.5

4.4 Expressão diferencial de genes em larvas e adultos de An. darlingi

A triagem de genes diferencialmente expressos foi feita usando somente 347 Contigs, onde 20 genes são mais expressos em adultos, 71 genes mais expressos em larvas e 256 são expressos em ambas etapas do desenvolvimento de An. darlingi (Figura 7).

Ad 71 20 256 Ad La La

Figura 7: Análises de expressão diferencial dos 347 Contigs de An. darlingi, pelo IDEG6. Em adultos (Ad) foram observados 20 Contigs mais expressos; em larvas (La) foram mais expressos 71 Contigs e, em adultos e larvas (Ad e La) foram mais expressos em comum 256 Contigs.

23

Essa diferença entre os genes diferencialmente expressos em larvas e adultos sugere que a atividade gênica na fase imatura é mais intensa que na fase alada do mosquito. Durante o desenvolvimento das larvas, é maior a mudança de estrutura do corpo em períodos curto de tempo e maior a produção de hormônios necessários para ativação de genes específicos, como genes envolvidos na transcrição, tradução e em estruturas ribossômicas (Lewin, 1994). Genes diferencialmente expressos, seja em diferentes tecidos, ou durante diferentes fases do desenvolvimento de um organismo, ou até mesmo durante patologias específicas são o principal interesse em pesquisas básicas e farmacêuticas (Audic e Claverie, 1997), e os dados da Figura 7 fornecem informações em que fase do desenvolvimento do organismo, fica mais fácil se localizar um determinado gene. Na Tabela 3 (anexo) estão representados os Contigs diferencialmente expressos, seguidos do valor de suas bibliotecas normalizadas bem como os valores estatísticos de p-value que quantificam o grau de confiabilidade das análises de expressão diferencial.

4.5 Avaliação manual de sequências expressas diferencialmente

Entre as sequências diferencialmente expressas de larvas e adultos de An. darlingi, 36 foram selecionadas em função de seu valor de HSP/HIT ser maior ou igual a 65%. A Figura 8 mostra a distribuição das ontologias (Função Molecular, Processo Biológico e Componente Celular) e os genes envolvidos nesses termos ontológicos do GO. As sequências selecionadas de larvas e adultos de An. darlingi estão distribuídas nessas ontologias, com suas respectivas funções. Em larvas, 35%, 33% e 32% dos genes estão envolvidos em Função Molecular, Processo Biológico e Componente Celular , respectivamente (Figura 8). Em adultos, 35%, 26% e 38% do genes estão envolvidos em Função Molecular, Processo Biológico e Componente Celular, respectivamente (Figura 8).

24

18 16 14 12

10 Adultos 8 Larvas

Sequencias 6 4 2 0

Função molecular Processo biológico Componente celular

Figura 8: Distribuição das sequências por ontologias dos termos do Gene Ontology em larvas e adultos de An.darlingi. As sequências são observadas em uma ou nas três ontologias. Todas as sequências mostradas têm HSP/HIT >= 65%.

Comparações de genes e ontologias que descrevem a função do gene na célula podem fornecer uma melhor compreensão das atividades gênicas nas etapas do desenvolvimento do organismo. A comparação entre sequências de classes protéicas, relacionadas a proteínas de manutenção e proteínas secretoras entre o transcriptoma da glândula salivar de An. darlingi e An. gambiae mostrou que 53% das proteínas salivares são idênticas, enquanto que 86% das proteínas de manutenção são idênticas entre as duas espécies (Calvo et al., 2009). Porém, esses autores inferiram que as proteínas de manutenção são mais conservadas em relação a proteínas salivares. Na comparação de ontologias de larvas e adultos de An. darlingi realizadas nesta dissertação, a ontologia Processo Biológico é mais abundante em larvas (33%) em relação a mesma ontologia em adultos (26%). Em adultos, a ontologia Componente Celular é mais abundante (38%) em relação a mesma ontologia em larvas (32%). Os genes usados nessas análises são específicos, nas fases de larva e adulto de An. darlingi e apresentam 65% ou mais de cobertura contra as sequências alinhadas em bancos de dados, aumentando a confiabilidade da anotação de genes completos. Todas as sequências, envolvidas em ontologias possuem funções mais específicas, como mostram as figuras 9, 10, 11 representando as ontologias: Processo Biológico, Função Molecular e Componente Celular, associadas às sequências de An. darlingi adulto. Esses genes possuem HSP/HIT >=65%. 25

Figura 9: Genes de An. darlingi adultos e subníveis da ontologia Processo Biológico (P).

Figura 10: Genes de An. darlingi adultos e subníveis da ontologia Função Molecular (F).

26

Figura 11: Genes de An. darlingi adultos e subníveis da ontologia Componente Celular (C).

Os Contigs mais expressos em adultos e que possuem HSP/HIT >=65% são mostrados na Tabela 3 (anexo), juntamente com o código de identificação do gene ortólogo em banco de dados, código de acesso da proteína em banco de dados UNIPROT, que possui sequências curadas, assim como seus respectivos valores estatísticos (Score , E-value e HSP/HIT).

As mesmas análises foram realizadas, também, com os genes de An. darlingi mais expressos em larvas classificando-os segundo as ontologias em que estão inseridos. As Figuras 12, 13 e 14 representam as ontologias (Processos Biológicos; Função Molecular e Componente Celular, respectivamente) e as subfunções nas quais os produtos gênicos estão envolvidos.

27

Figura 12: Genes de larvas de An. darlingi e subfunções da ontologia Processo Biológico (P).

Figura 13: Genes de larvas An. darlingi e subfunções da ontologia Função Molecular (F).

28

Figura 14: Genes de larvas An. darlingi e subfunções da ontologia Componente Celular (C).

Os Contigs mais expressos em larvas com o HSP/HIT >=65% são mostrados na Tabela 4 (anexo), que incluem os códigos de identificação do gene ortólogo em banco de dados e de acesso da proteína em banco de dados UNIPROT, que possuem sequências curadas, assim como seus respectivos valores estatísticos (Score, E-value e HSP/HIT). É importante ressaltar que, considerando os genes expressos em adultos e larvas mostrados nas Tabelas 3 e 4 (anexo), os maiores valores de e-value encontrados foram os referentes aos hits dos Contigs 253 (1.732 e-7), 259 ( 1.080 e- 17) e Contig 75 (2.05 e-16), sendo que os dois primeiros são mais expressos em larvas e o terceiro expresso em adulto. Excetuando-se esses valores, os cálculos de e-value dos outros Contigs diferencialmente expressos variaram de e-31 a e= 0.0. Os alinhamentos das sequências mostraram Hits (sequências homólogas) com bons valores estatísticos, e a inspeção manual e escolha dos Hits com valores de cobertura maior ou igual a 65%. Esses dados permitiram certa confiabilidade, para a inferência de funções para as sequências com genes ortólogos, já que são sequências peptídicas completas encontradas em outros organismos. Os valores estatísticos e a localização desses genes estão nas Tabelas 4 e 5 (anexo).

29

4.6 Inferências de funções de genes ortólogos

As funções de genes ortólogos diferencialmente expressos em larvas e adultos de An. darlingi, com HSP/HIT >=65% foram pesquisadas na literatura, e cada produto gênico pode estar inserido em uma ou mais das três ontologias (Componente Celular, Processo Biológico, Função Molecular) do consórcio GO. As informações sobre cada produto estão descritas a seguir. Proteínas homólogas de membrana vitelínica (Vitelline membrane protein homolog). O Contig253 de An. darlingi apresentou homologia com a Vitelline membrane protein 15a-2 de Ae. aegypti, cuja proteína está bem caracterizada, com 97 resíduos de aminoácidos. No mosquito Ae. aegypti, essa molécula tem uma atividade oostática. É expressa no ovário, região anterior do folículo celular (Borovsky et al., 1990; Borovsky, 2003) e, posteriormente, circula na hemolinfa. Inibe a biossíntese da tripsina em células do epitélio intestinal que indiretamente reduz a concentração da vitelogenina na hemolinfa resultando em inibição do desenvolvimento do oocisto. Pertence à família das proteínas de membrana. Na espécie An. darlingi essa proteína está associada à região extracelular no termo Componente Celular (UNIPROT), conforme as ontologias do GO. Actina (Actin). Os Contigs 629 e 68 apresentaram homologia com An. gambiae que possui cinco genes da actina (Salazar et al., 1994), Ae. aegypti, com quatro genes bem caracterizados (Smartt e Erickson, 2008) e dois genes da actina em Cx. pipiens L. (Kim et al., 2006). A Actina é o maior componente do citoesqueleto em células eucarióticas. Apresenta papel estrutural e participa de processos de mobilidade celular. É uma proteína abundante e altamente conservada em células eucariotas (Sheterline et al., 1991). Os produtos protéicos de duplicação dos genes de actina são tipicamente conservados ao nível de aminoácidos (Roper et al., 2005). Filamentos de actina ativam a atividade miosina Mg2 + ATPase e o movimento ao longo dos filamentos produz força para a contração muscular, movimento celular e cromossômico, fagocitose e sinalização intracelular (Machesky e Insall, 1999; deRouvroit e Goffinet, 2001; Pollard et al., 2000; Fox, 2001). Além disso, a actina é importante nos processos biológicos, tais como o desenvolvimento embrionário e na cicatrização. Em contraste com a alta conservação de suas sequências de aminoácidos, a actina tem um amplo espectro de funções. A função da actina na estrutura do 30 citoesqueleto da célula inclui a determinação da forma celular, motilidade celular, citocinese, transporte intracelular, e contratilidade muscular (Pollard et al., 1984). Está presente, também, no sarcômero muscular participando da construção de microfibrilas em células musculares (He e Haymer 1994) e nos estágios iniciais da transcrição (Egly et al., 1984). No processo de anotação da actina em An. darlingi, esse gene está descrito em Componente Celular, onde está representado no citoplasma, citoesqueleto; e em Função Molecular participa das ligações da molécula de ATP e de proteína ou complexo protéico. Protease de Serina (Serine Protease). Os Contigs242 e 605 tiveram homologia com Serina Protease de An. gambiae. Esta proteína é encontrada em todos os reinos, incluindo vírus (Hedstrom, 2002). É um grupo de enzimas proteolíticas importante, que cliva esqueletos de peptídeos usando a “Tríade Catalítica” de histidina , serina e ácido aspártico, que são conservados entre os membros da família (Pearson, 2001). Tem um importante papel em processos biológicos, como sinalização celular, defesa e desenvolvimento (Zhao et al., 2010). As proteases de serinas estão relacionadas à imunidade e têm sido investigadas quanto em An. gambiae, onde ela pode estar envolvida na defesa contra o parasita causador da malária (Christophides et al., 2002). O genoma de Ae. aegypti possui 369 genes similares à Protease de Serina, dos quais 66 são putative trypsin (Venancio et al., 2009). Entretanto, somente cinco foram caracterizadas no intestino de fêmeas adultas desse mosquito. Diversos fatores podem contribuir para essa grande discrepância. As proteases de serinas são conhecidas como enzimas importantes na digestão; estão envolvidas, também, em outros processos, como imunidade, reprodução, desenvolvimento, sinal de transdução e cicatrização de feridas (Barros et al., 1996; Coughlin, 2000; Hedstrom, 2002; Joseph et al., 2001; LeMosy et al., 1999; Neurath, 1984). Um pequeno grupo destas enzimas foi encontrado em glândulas salivares de fêmeas adultas de An. gambiae, o que indica também um papel na alimentação sanguínea, talvez ativando as vias antiinflamatórias (Ribeiro et al., 2007). Em An. darlingi a Serina Protease está envolvida em Componente Celular, na região extracelular e em Processo Biológico, onde atua em resposta à defesa a protozoário. tpa_inf: hdc00331. O gene ortólogo ao Contig14 com o melhor hit a esse Contig, é a proteína AGAP009526-PA de An. gambiae, localizada no braço direito, do cromossomo 3, desse vetor da malária africana. Essa é uma proteína completa, e

31 possui 74 resíduos de aminoácido, com massa molecular de 7.974,63, ponto isoelétrico de 10.3028 e seu transcrito tem 569 pares de base. Está envolvida em Componente Celular, participa da cadeia respiratória da mitocôndria, e em Função Molecular, participa das atividades de transporte de elétrons (site Vector Base). Receptor de rodopsina putativo 3 (putative rhodopsin receptor 3) (AGAP001163-PA). Essa sequência, Contig16, é ortóloga em An. gambiae e está localizada no braço direito do cromossomo 2. É uma proteína completa, com 370 resíduos de aminoácidos. A Rodopsina (Rhodopsin), da família das proteínas Opsina, está presente nos olhos compostos de insetos; é um fotoreceptor e está presente na célula da retínula (Spaethe e Briscoe, 2004). Apresenta o domínio receptor transmembrana 7 (transmembrane receptor domain 7) e está representada nas três ontologias do consórcio GO. Em An. darlingi, essa proteína está inserida em Função Molecular, subfunções G-protein coupled receptor activity, receptores de transdução de sinais extracelulares, através da membrana celular. No lado externo, esses receptores recebem um ligante (um fóton), e no lado citosólico eles ativam um nucleotídeo da proteína ligante de guanina (G). Tais receptores são proteínas hidrofóbicas que atravessam a membrana por sete vezes. Na subfunção de atividade fotoreceptora, atuam absorvendo e respondendo às radiações eletromagnéticas incidentes, especialmente à luz visível. A resposta pode envolver uma mudança de conformação da proteína. Está envolvida também em Processos Biológicos, subfunção fototransdução, ocorre uma sequência de reações dentro de uma célula necessária para converter os fótons absorvidos em um sinal molecular; na subfunção proteína ligada a cromóforo (Protein-chromophore linkage), ocorre a ligação covalente ou não covalente de um cromóforo (molécula que absorve e transmite a energia da luz) a uma proteína; na subfunção percepção visual o organismo recebe um estímulo visual, que é convertido em um sinal molecular, reconhece e caracteriza o sinal. Estímulos visuais são recebidos em forma de fótons e são processados para formar uma imagem. Está presente em Componente Celular, subfunção membrana total, indica que a totalidade ou parte da sequência de peptídeos é incorporada na membrana celular. Proteína 30s unidade ribossomal 40s (40s ribosomal protein s30). O Contig260 apresentou homologia a essa proteína. A proteína 30s unidade ribossomal 40s foi alinhada a partir da fusão da proteína 30s da unidade ribossomal 40s com a proteína ubiquitina, cujas sequências tiveram origem da glândula salivar

32 de An. darlingi (Calvo at al., 2009). A proteína completa possui 132 resíduos de aminoácidos e está envolvida em Componente Celular, ribossomo, que é o sitio da biossíntese de proteínas resultantes da tradução do RNA mensageiro (RNAm); Função Celular, onde participa do componente estrutural do ribossomo; Processo Biológico e tradução, que é um processo metabólico celular em que uma proteína é formada, usando a sequência de uma molécula de RNAm maduro para especificar a sequência de aminoácidos de uma cadeia polipeptídica. Detectada também na glândula salivar de An. gambiae mostrou uma alta similaridade com a sequência peptídica de An. darlingi, apresentando um e-value de 5.56346e-41. Em An. gambiae, esta proteína esta localizada no cromossomo X. O endereço AD-239 é uma proteína de manutenção (HouseKeeping protein), com 131 resíduos de aminoácidos (Calvo et al., 2009), e tem um ponto isoelétrico de 10.7792 e sua massa molecular é igual a 14.256,33. Miosina de Cadeia leve 2 (Myosin light chain 2). Em An. darlingi, o gene ortólogo com o melhor hit ao Contig584 é o da Miosina de cadeia leve 2, de Cx. quinquefasciatus, uma proteína completa, que possui 210 resíduos de aminoácidos, tanto em An. darlingi como em Cx. quinquefasciatus, conforme visto nos resultados do Blast2go. Em Cx. quinquefasciatus, essa proteína possui um ponto isoelétrico igual a 4.3776 e sua massa molecular é de 22.852,17 (vectorbase). Filamentos de actina ativam a atividade miosina Mg2 + ATPase e o movimento ao longo dos filamentos produz força para a contração muscular, movimento celular e cromossômico, fagocitose e sinalização intracelular (Machesky e Insall, 1999; deRouvroit e Goffinet, 2001; Pollard et al., 2000; Fox, 2001). Em An. darlingi, esta proteína está envolvida na ontologia Função Molecular, subfunção atividade motora de microfilamento (microfilament motor activity), catálise de movimento ao longo de um microfilamento, acoplado à hidrólise de um nucleosídeo trifosfato (ATP normalmente); subfunção íon ligante de cácio (calcium ion binding), interação seletiva, não covalente, com íons Ca2+. Proteínas de choque ao calor (Heat Shock Proteins = HSPs). Em An. darlingi, a sequência ADLSDA03024A08.g00 encontrou o melhor Hit com HSPs de Ae. aegypti. As HSPs respondem a muitos tipos de estresse ambiental (Parsell e Lindquist, 1993; Feder e Hofmann, 1999; Rinehart et al., 2007). Em estudos em An. gambiae, Ae. aegypti e Cx. pipiens foi observado que proteínas de choque térmico contribuem na tolerância à desidratação (Benoit et al., 2010). Os genes HSP60 e

33

HSP90 foram nocauteados (knocked down) por RNA de interferência (RNAi) e as amostras dos mosquitos submetidas à perda de água. Em seguida a comparação foi feita com um grupo controle, verificando a taxa de mortalidade dos mosquitos sem os genes HSP60 e HSP90. Avaliando-se as taxas de perda de água, esses autores concluíram que Ae. aegypti é a espécie mais resistente à desidratação, seguida de Cx. pipiens e o An. gambiae. Em An. darlingi, esta proteína esta inserida em Função Molecular, em ligação ao ATP; participa também do Componente Celular, diretamente no citoplasma; em Processo Biológico, participa em resposta ao estresse celular e em processo de conformação de proteína celular. Hexamerina (Hexamerin) ou arilforina (arylphorin-like protein). Em An. darlingi, o Contig211 encontrou o melhor Hit com Hexamerina de An. gambiae. Hexamerina é uma proteína de estoque de grande importânica para insetos holometábulos; é sintetizada no corpo gorduroso primariamente no término do estágio larval, e secretada na hemolinfa (Jinwal et al., 2006). Ao final do estágio larval, a síntese protéica é interrompida abruptamente (Kanost et al.,1990; Telfer e Kuntel., 1991), reaparecendo na fase adulta de An. gambiae, mas em níveis menores (Zakharkin et al., 1997). Essa proteína é rica em aminoácidos aromáticos, como a Fenilalanina (Phe) e a Tirosina (Try) (21% Phe + Tyr), servindo de reserva de aminoácidos na pupa, fase em que ocorre a diapausa, acompanhada de interrupção na alimentação desse imaturo (Jinwal et al., 2006). A Hexamerina tem papel importante na maturação do sistema reprodutor de mosquitos, cuja falta reduz significativamente a fertilidade de indivíduos adultos. Zakharkin et al. (1997) mapearam o gene da Hexamerina de An. gambiae (AgHex-1.1), e o sinal da hibridização in situ desse gene ocorreu na região cromossômica do braço 2L. Nesta dissertação, o mapeamento in silico da Hexamerina em cromossomos de An. gambiae mostrou-se compatível com o mapeamento in situ obtido por por Zakharkin et al. (1997). Em resultados da Hexamerina de An. darlingi obtidos pelos Blast2go, essa proteína está envolvida em Componente Celular, atuando especificamente na matriz extracelular; Função Molecular, atuando no transporte de oxigênio e em atividades de reservas de nutrientes. Arrestina. Em An. darlingi, o Contig637 teve homologia com Arrestina de An. gambiae. Essa proteina têm sido caracterizadas e divididas em duas grandes categorias, que têm suas funções presumidas a partir de seus papéis funcionais (Craft et al., 1995). A primeira, está relacionada às Arrestinas visuais, que têm

34 apresentado expressão gênica quase exclusivamente em fotoreceptores, e interagem com a rodopsina para o término do estímulo visual (Kiselev et al., 1997; Gurevit, 1998). A segunda, compreende arrestinas não visuais, expressas em uma variedade de tecidos (excluindo fotoreceptores), as quais podem interagir com diversas proteínas receptoras de acoplamento (protein-coupled receptor-GPCRs-G) (Gurevit et al., 1995). Merrill et al. (2001) isolaram a arrestina 1 de antenas de An. gambiae (AgArr1), para estudar o seu potencial papel na regulação de sinais olfatórios. Mas, o papel da Arrestina na regulação de sinais olfatórios em An. gambiae não foi bem esclarecido. A expressão da arrestina em estágios iniciais de larvas até a idade adulta de An. gambiae foi observada por Merril et al. (2001), que sugeriram que este gene além de funcionar em vias sensoriais, pode atuar em outras vias metabólicas, durante todo o ciclo de vida do mosquito. Em An. darlingi, esta proteína participa do Processo Biológico diretamente em resposta a estímulos químicos, percepção sensorial e transdução de sinal. Genes de resistência a inseticidas. Estudos genéticos sobre resistência a inseticidas têm indicado a existência de três grandes famílias de genes, que são citocromo P450 (CYP), Glutationa S-transferase (GST) e carboxyl esterase (COE) (Ranson et al., 2002). Citocromo c oxidase. Citocromo c oxidase ou complexo IV é um amplo complexo de proteínas transmembrana encontrado na mitocôndria e está envolvido na cadeia transportadora de elétrons, onde tem importante papel na geração de ATP durante a fosforilação oxidativa (Pridgeon et al., 2009). Em eucariotos, três subunidades (i-iii) de citocromo c oxidase são codificadas no DNA mitocondrial, formando o núcleo funcional da enzima citocromo c oxidase (Wikstrom e Casey, 1985). Esses autores estudaram os genes mitocondriais que codificam para o citocromo oxidase subunidade c (cytochrome c subunit), citocromo oxidase subunidade ii (cytochrome oxidase subunit ii), citocromo mitocondrial oxidase c subunidade 5b, isoforma 1 (mitochondrial cytochrome c oxidase subunit 5b isoform 1), citocromo oxidase subunidade iii (cytochrome c oxidase subunit iii). No transcriptoma de An. darlingi, a proteína está representada pelos Contigs 423, 439, 514, 589, respectivamente. Está envolvida nas ontologias Componente Celular, especificamente na membrana interna da mitocondria, cadeia respiratória; Função Molecular, atividade transportadora de elétrons; Processos Biológicos, especificamente em transporte de elétrons na mitocondria.

35

Glutathione S-transferase (GST), classe Sigma (GSTs). O Contig404 de An. darlingi encontrou homologia com a GST Sigma de Ae. aegypti. A família das enzimas GSTs consiste de 31 genes (Srivastava et al., 2010). É uma família de enzimas multifuncionais e está presente unicamente em organismos aeróbicos, plantas e animais (Wang et al., 2008). As GSTs catalizam compostos endógenos e exógenos, sendo que suas principais funções são a síntese e degradação de drogas, detoxificação de compostos xenobióticos, incluindo poluentes ambientais, químicos e pesticidas (Ranson et al., 2005). Estão envolvidas, ainda, no combate ao estresse oxidativo (Collins et al., 2004). São bem conhecidas por conferir resistência ao inseticida DDT [1,1,1-trichloro-2,2-bis-(p-chlorophenyl) ethane] (Prapanthadara et al., 1993). Seis classes de GSTs de insetos têm sido identificadas: classes Delta (GSTd), Epsilon (GSTe), Ômega (GSTo), Sigma (GSTs), Theta (GSTt) e Zeta (GSTz) (Tang e Tu, 1994; Huang et al., 1998; Ortelli et al., 2003). As classes Delta e Epsilon são encontradas exclusivamente em insetos, e membros dessas duas classes estão envolvidos na resistência aos inseticidas organofosforados, organoclorados e piretróides (Fournier et al., 1992; Grant e Hammock, 1992; Kostaropoulos et al., 2001; Vontas et al., 2001; Ranson et al., 2004). Perfis de expressão de genes GSTs Epsilon indicam que cinco destes são super expressos em linhagens de An. gambiae resistentes ao DDT. Entre eles, o gene agGSTe2, presente na ontologia Função Molecular, participa da atividade transferase da GST. Sua expressão ocorre em cerca de oito vezes e tem uma comprovada capacidade de metabolização do DDT. Essa amostragem evidencia que agGSTe2 é a enzima mais importante na desintoxicação do DDT, que no caso do An. gambiae pode ser 350 vezes mais eficaz em relação ao gene agGST1-6, classe delta (Wang et al., 2008). GSTd1 e GSTs1 (GSTs Delta e Sigma) são genes ortólogos em An. gambiae e Ae. aegypti, cuja diferença ocorre em função de variações no splicing alternativo. A conservação nos sítios de splicing sugere que o splicing alternativo nestes genes tem ocorrido desde antes da divergência entre os gêneros Aedes e Anopheles (Lumjuan et al., 2007). O papel da GSTs1 como resistente à inseticida é desconhecido, mas essa classe exerce a função de a detoxificar o estresse oxidativo, gerado pelos músculos de vôos dos insetos (Clayton et al., 1998). GSTs Theta e Omega foram reportadas em An. gambiae (Ding et al., 2003). Em Ae. aegypti GST Theta não está relacionada a resistência ao inseticida DDT (Lumjuan et al., 2005). Em Drosophila essa classe foi associada a funções em

36 respostas ao estresse oxidativo (Toung et al., 1993). No bicho da seda, a GST, classe Theta também são associadas com mescanismos contra estresse oxidativo e, ainda, a metabolismos de produtos da peroxidação de lipídeos (Yamamoto et al., 2005). GSTs classe Omega são encontradas em Anopheles cracens, e estão associadas ao estresse oxidativo (Wongtrakul et al., 2010). Em An. darlingi, gene GST, classe Sigma, está representado na ontologia Função Molecular na atividade transferase da GST. Os resultados deste trabalho mostraram que, a homologia do Contig404 com a GST de Ae. aegypti apresenta um e-value 3.90142 e-104; já An. gambiae esse gene apresenta um e-value 8.69147 e-103. Esses valores de e-value mostram a alta similaridade que esses genes tem com o Contig404 de An. darlingi. As análises feitas pelo alinhamento global e filogenia do presente trabalho agrupou o Contig404 com a GST, classe Sigma, de An. gambiae no mesmo ramo, mostrando que nessas espécies, as GSTs são mais relacionadas evolutivamente, como será discutido no item a seguir.

4.7 Filogenia da Glutationa S Transferase, Classe Sigma O gene da GST é encontrado na maioria dos insetos (Fournier et al., 1992; Grant e Hammock, 1992; Kostaropoulos et al., 2001; Vontas et al., 2001; Ranson et al., 2004), tal como em An. darlingi. Segundo os autores Petsko e Ringe ( 2003) sequências da mesma proteína, mas de espécies diferentes podem ser comparadas a fim de deduzir relações evolutivas. Aquelas sequências gênicas, que evoluíram recentemente de um gene ancestral ainda terão relativa semelhança. Porém, genes que têm um ancestral comum mais distante terão acumulado muito mais mutações, e sua relação evolutiva será menos óbvia e difícil de deduzir somente através de determinada sequência. Nesse sentido, compararam-se filogeneticamente a GST, classe Sigma, de An. darlingi contra genes ortólogos, cujos valores de e-value foram em An. gambiae (2.52 e-102), Ae. aegypti (8.9 e-103 e 3.9 e-103) e Cx. quinquefasciatus (2.52 e-102), previamente confirmadas pelos alinhamentos do BlastX. A sequência GST Sigma de Phlebotomus papatasi, que teve seu e-value igual a 7.39 e-86 foi usada para enraizamento da árvore filogenética por não ser nem tão distante e nem tão próxima evolutivamente da sequência GST de An. darlingi, visto que sequências muito relacionadas não irão fornecer muita informação evolutiva e sequências muito distantes podem fornecer dados evolutivos não muito confiáveis devido às múltiplas mutações em um ou em vários sítios da molécula (Ridley, 2006). A árvore gerada é mostrada na Figura 15. 37

Figura 15: Análise filogenética do Gene Glutationa-STransferase, segundo o método de Neighbor Joining - NJ (Saitou e Nei, 1987) e o software MEGA 4.0 (Tamura et al., 2007).

Nessa análise foram observados dois ramos. O primeiro formado por Phlebotomus papatasi e o segundo por Cx. quinquefasciatus, An. darlingi, An. gambiae e Ae. aegypti. As sequências de Ae. aegypti, An. gambiae e An. darlingi tiveram um ancestral comum e a sequência de Cx. quinquefasciatus divergiu antes dessas três espécies de mosquito. O gene mais relacionado evolutivamente com o gene de An. darlingi é a GST de An. gambiae, que na análise acima estão agrupadas em um mesmo ramo como espécies irmãs. Os valores de Bootstrap (Felsenstein, 1985) igual ou maiores que 95 % mostram o grau de confiança nos nós da árvore que conectam as OTUs (Unidades taxonômicas operacionais), nesse caso, as sequências gênicas.

5. Conclusão

Dos 568 Unigenes de An. darlingi 61% tiveram homologia com sequências de An. gambiae, mostrando que essas duas espécies estão mais próximas entre si, evolutivamente, do que ao Ae. aegypti e Cx. quinquefasciatus. Os 568 Unigenes de An. darlingi foram hibridizados in silico, em 793 regiões cromossômicas, no cariótipo de An. gambiae disponível no banco de dados vectorbase. A anotação manual e análise dos genes diferencialmente expressos foi a partir de 1.360 reads do banco de ESTs de An. darlingi. A expressão diferencial de ESTs foi maior em larvas do que em adultos de An. darlingi, talvez em função das transformações morfológicas e fisiológicas características dessa fase larvária. Esses dados associados a bancos de ESTs e à literatura em geral são importantes, para a 38 compreensão da expressão gênica e aspectos evolutivos do An. darlingi em relação ao An.gambiae, Ae. aegypti e Cx. quinquefasciatus. A análise filogenética do gene GST mostrou o agrupamento dessa sequência gênica de An. darlingi com An. gambiae em um mesmo ramo, mostrando que a sequência dessas duas espécies evoluíram a partir de um ancestral comum.

6. Referências Bibliográficas

Adams, M. D.; Kelley, J. M.; Gocayne, J. D.; Dubnick, M.; Polymeropoulos, M. H.; Xiao, H.; Merril, C. R.; Wu, A.; Olde, B.; Moreno, R.; Kerlavage, A. R.; McCombie, W. R.; Venter, J. C. 1991. Complementary DNA sequencing: “expressed sequence tags” and the human genome project. Science, 252: 1651- 1656.

Adams, M. D.; Kerlavage, A. R.; Fleischmann, R. D.; Fuldner, R. A.; Bult, C. J.; Lee, N. H.; Kirkness, E. F.; Weinstock, K. G.; Gocayne, J. D.; White, O. 1995. Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature 377, (6547 Suppl) : 3-147.

Altschul, S. F.; Gish, W.; Miller, W.; Myers, E.W.; Lipman, D.J. 1990. Basic local alignment search tool. Jour. Mol. Biol., 215 (3): 403-10.

Altschul, S. F.; Madden, T. L.; Schaffer, A. A.; Zhang, J.; Zhang, Z.; Miller , W. D. J. 1997. "Gapped BLAST and PSI-BLAST: a new generation of proteindatabase search programs", Nucleic. Acids Res., 25:3389-3402.

Apweiler R., Bairoch A., Ferro S., Natale D. A., Yeh L.S. et al.. 2004. UNIPROT: the Universal Protein Knowledgebase. Nucleic Acids Res. 32: D115-D119,

Arruda, M.; Carvalho, M. B.; Nussenzweig, R. S.; Maracic, M.; Ferreira, A. W.; Cochrane, A. H. 1986. Potential vectors of malaria and their different susceptibility to Plasmodium falciparum and Plasmodium vivax in Northern Brazil identified by immunoassay. Am. J. Trop. Med. Hyg., 35 (5): 873-881.

39

Atrie, B.; Subbarao, S. K.; Pillai, M. K. K.; Rao, S. R. V. and Sharma, V.P. 1999. Population cytogenetic evidence for sibling species in Anopheles annularis (Diptera : Culicidae). Ann Entomol Soc Am 92: 243–249.

Audic, S.; Claverie, J. M. 1997. The significance of digital gene expression profiles. Genome Res., 7: 986-995

Barros, C.; Crosby, J. A.; Moreno, R. D. 1996. Early steps of sperm–egg interactions during mammalian fertilization. Cell Biology International, 20: 33–39.

Baxevanis, D. A.; Ouellette, F. F. B. 2001. Bioinformatics. A Pratical Guide to the analysis of Genes and Proteins. University of British Columbia, Canada.

Bedell, J.; Korf, I. e Yandell, M. 2003. BLAST. O’Reilly

Benoit, J. B.; Lopez-Martinez, G.; Phillips, Z. P.; Patrick, K. R.; Denlinger, D. L. 2010. Heat shock proteins contribute to mosquito dehydration tolerance. Journal of Phisiology. 56: 151-156.

Bertone, M. A.; Courtney, G. W.; Wiegmann, B. M. 2008. Phylogenetics and temporal diversification of the earliest true (Insecta: Diptera) based on multiple nuclear genes. Syst Entomol. 33: 668-687.

Bonferroni, C. E. "Teoria statistica delle classi e calcolo delle probabilità." Pubblicazioni del R Istituto Superiore di Scienze Economiche e Commerciali di Firenze 8, 3-62, 1936.

Borkent, A. 1993. A world catalogue of fossil and extant Corethrellidae and Chaoboridae (Diptera), with a listing of references to keys, bionomic information and descriptions of each known life stage. Entomol Scand 24:1-24.

Borovsky, D.; Carlson, D. A.; Griffin, P. R.; Shabanowitz, J.; Hunt, D.F. 1990. Mosquito oostatic factor: a novel decapeptide modulating trypsin-like enzyme

40

biosynthesis in the midgut. FASEB, J. 4:3015-3020

Borovsky D. 2003. Trypsin-modulating oostatic factor: a potential new larvicide for mosquito control. J. Exp. Biol. 206:3869-3875

Bridi, L. C. 2009. Mapeamento de genes expressos de Anopheles darlingi Root, 1926 e sua análise in silico em Anopheles gambiae Giles, 1902 (Diptera: Culicidae). Dissertação apresentada ao Instituto Nacional de Pesquisas da Amazônia para obtenção do titulo de mestre. Manaus. 99pp

Calvo, E.; Andersen, J.; Francischetti, I.M; Capurro, M. deL.; deBianchi, A.G.; James, A.A.; Ribeiro, J.M.C.; Marinotti, O. 2004. The transcriptome of adult female Anopheles darlingi salivary glands. Insect Molecular Biology. 13 (1): 73–88

Calvo, E.; Pham, V. M.; Marinotti, O.; Andersen, F. J.; Ribeiro, J. M. C. 2009. The salivary gland transcriptome of the neotropical malaria vector Anopheles darlingi reveals accelerated evotion of genes relevant to hematophagy. BMC Genomics. 10:57

Campos, M. A.; Silva, R. M. A.; Paiva, L. V.; Junior, A. C.; Lima, C. S. 2008. Bioinformática: Do sequenciamento a função biológica. Universidade Federal de Lavras, Minas Gerais, Brasil. 32pp.

Christophides, G. K.; Zdobnov, E.; Barillas-Mury, C.; Birney, E.; Blandin, S.; Blass, C.; Brey, P. T.; Collins, F. H.; Danielli, A.; Dimopoulos, G. et al. 2002. Immunity- related genes and gene families in Anopheles gambiae. Science. 298(5591):159- 165

Clayton, J.D.; Cripps, R.M.; Sparrow, J.C.; Bullard, B. 1998. Interaction of troponin-H and glutathione S-transferase-2 in the indirect flight muscles of Drosophila melanogaster. J Muscle Res Cell Motil. 19:117-27.

Collins, A.M.; Williams, V.; Evans,J.D. 2004. Sperm storage and antioxidative enzyme expression in the honey bee, Apis mellifera. Insect Mol. Biol. 13 :141–

41

146.

Coluzzi, M.; Sabatini, A.; Petrarca, V.; DiDeco, M. A. 1979. Chromosomal differentiation and adaptation to human environments in the Anopheles gambiae complex. Trans. Royal Soc. Trop. Med. Hyg. 73(5): 483-497.

Coluzzi, M.; Petrarca, V.; Di Deco M. A. 1985. Chromosomal inversion intergradation and incipient speciation in Anopheles gambiae. Boll Zool 52: 45–63.

Coluzzi, M.; Sabatini, A.; dellaTorre, A.; DiDeco, M. A.; Petrarca, V. 2002. A polytene chromosome analysis of the Anopheles gambiae species complex. Science 298: 1415–1418.

Conesa, A.; Götz, S.; García-Gómez, J.M.; Terol, J. Talón, M.; Robles. M. 2005. Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics Applications Note, 21(18): 3674–3676.

Consoli, R.; Oliveira, R. L. 1994. Principais mosquitos de importância sanitária no Brasil. Ed. Fiocruz, 225p.

Consoli, R.; Oliveira, R. L. 1994. Principais mosquitos de importância sanitária no Brasil. Universidade Federal de Minas Gerais. 33 pp.

Consoli, R.; Oliveira, L. R. 1994. Principais mosquitos de importância sanitária no Brasil. Ed. Fiocruz, 225p.

Cornel, A..J.; Collins, F.H. 2000. Maintenance of chromosome arm integrity between two Anopheles mosquito subgenera. J Hered 91: 364–370.

Coughlin, S.R. 2000. Thrombin signalling and protease-activated receptors. Nature 407, 258-264 Craft, C.M.; Whitmore, D.H. 1995. The arrestin superfamily: cone arrestins are a fourth family.

42

Deane, L. M. 1986. Malária vectors in Brazil. Memórias do Instituto Oswaldo Cruz, 81: 5-14. deRouvroit, C. L.; Goffinet, A. M. 2001. Neuronal migration. Mechanisms of Development 105: 47–56.

Dideco, M.; Cancrini, G.; Coluzzi, M.; Bullini, A. P. B.; Cianchi, R.; Bullini, L. 1978. Linkage studies between chromosome inversions and enzyme loci in mosquito Anopheles stephensi. Heredity 40: 457-458.

Ding, Y.; Ortelli, F.; Rossiter, L.C.; Hemingway, J.; Ranson, H. 2003. The Anopheles gambiae glutathione transferase supergene family: annotation, phylogeny and expression profiles. BMC Genomics 4: 35-50.

Dye, C. 1986.Vectorial capacity: Must be measured all its components? Parasitology Today, 2:203-209

Egly, J. M. N. G.; Miyamoto, V.; Moncollin, P.; Chambon. 1984. Is actin a transcription initiation factor for RNA polymerase B? EMBO J. 3: 2363-2371.

Edwards, F. W. 1932. Genera Insectorum. Diptera, Fam. Culicidae. Fascicle 194. Desmet-Verteneuil, Brussels.

Feder, M. E.; Hofmann, G. E. 1999. Heat-shock proteins, molecular chaperones, and the stress response: evolutionary and ecological physiology. Annual Review of Physiology. 61: 243–282.

Felsenstein, J. 1985. Confidence limits on phylogenies: An approach using the bootstrap. Evolution, 39.

Florea, L.; Hartzell, G.; Zhang, Z.; Rubin, G. M.; Miller, W. A. 1998. A computer program for aligning a cDNA sequence with a genomic DNA sequence. Genome Res. 8 (9): 967-74.

43

Foley, D,H.; Rueda, L, M.; Wikerson, R,C. 2007. Insight into global mosquito biogeography from country species records. J. Med. Entomol. 44:554-567.

Fournier, D.; Bride, J. M.; Hoffmann, F.; Karch, F. 1992. Acetylcholinesterase. Two types of modifications confer resistance to insecticide. J. Biol. Chem. 267, 14270–14274.

Fox, J. E. 2001. Cytoskeletal proteins and platelet signalling. Journal of Thrombosis and Haemostasis 86, 198–213.

Francischetti, I. M.; Valenzuela, J. G.; Pham, V. M.; Garfield, M. K.; Ribeiro, J. M. 2002. Toward a catalog for the transcripts and proteins (sialome) from the salivary gland of the malaria vector Anopheles gambiae. J. Exp. Biol. 205: 2429- 2451.

Freitas-Sibajev, M. G. R.; Conn, J.; Mitchell, S. E.; Cockburn, A. F.; Seawright, J. A.; Momen, H. 1995. Mitochondrial DNA and morphological analyses of Anopheles darlingi populations from Brazil (Diptera: Culicidae). Mosq. Syst., 27(2): 78-99.

Gaunt, M.W.; Miles, M.A. 2002. An insect molecular clock dates the origin of the insects and accords with palaeontological and biogeographic landmarks. Mol Biol. Evol, 19:748-761.

Grant, D.F.; Hammock, B.D., 1992. Genetic and molecular evidence for a trans- acting regulatory locus controlling glutathione S-transferase-2 expression in Aedes aegypti. Mol. Gen. Genet. 234, 169–176.

Green, C.A.; Rattanarithikul, R.; Charoensub, A. 1992. Population genetic confirmation of species status of the malaria vectors Anopheles willmori and An. pseudowillmori in Thailand and chromosome phylogeny of the maculatus group of mosquitos. Med. Vet. Entomol., 6: 335–341.

Gurevich, V.V.; Dion, S.B.; Onorato, J.J.; Ptasienski, L.; Kim, C.M.; Stene-Marr, R.; Hosey, M.M.; Benovic, J.L. 1995. Arrestin interactions with G protein-coupled

44

receptors. Journal Biology Chemistry. 270, 720–731

Gurevich, V.V. 1998. The selectivity of visual Arrestin for light-activated phosphorhodopsin is controlled by multiple nonredundant mechanisms. Journal of Biological Chemestry. 273(25) 15501-15506.

Haldane, J. B. S. 1932. The Causes of Evolution. Longmans, Green, New York. 60pp.

Harris M. A.; Clark J.; Ireland, A.; Lomax J.; Ashburner, M.; Wood, V.; White, R. et al; 2004. The Gene Ontology (GO) database and informatics resource”. Nucleic Acids Res., D258-61,

He, M., and D. S. Haymer. 1994. The actin gene family in the oriental fruit Bactrocera dorsalis. Muscle specific actins. Insect Biochem. Mol. Biol. 24: 891- 906.

Hedstrom, L., 2002. Serine protease mechanism and specificity. Chemical Reviews 102, 4501–4523

Holt, R. A.; Subramanian, G. M.; Halpern, A.; Sutton, G. G.; Charlab, R.; Nusskern, D. R.; Wincker, P.; Clark, A. G.; Ribeiro, J. M.; Wides, R.; Salzberg, S. L.; Loftus, B.; Yandell, M.; Majoros, W. H.; Rusch, D. B.; Lai, Z.; Kraft, C. L.; Abril, J. F.; Anthouard, V.; Arensburger, P.; Atkinson, P. W.; Baden, H.; Berardinis, V.; Baldwin, D.; Benes, V.; Biedler, J.; Blass, C.; Bolanos, B. D.; Barnstead, M.; Cai, S.; Center, A.; Chatuverdi, K.; Christophides, G. K.; Chrystal, M. A.; Clamp, M.; Cravchik, A.; Curwen, V.; Dana, A.; Delcher, A.; Dew, I.; Evans, C.A.; Flanigan, M.; Grundschober-Freimoser, A.; Friedli, L.; Gu, Z.; Guan, P.; Guigo, R.; Hillenmeyer, M. E.; Hladun, S. L.; Hogan, J. R.; Hong, Y. S.; Hoover, J.; Jaillon, O.; Ke, Z.; Kodira, C.; Kokoza, E.; Koutsos, A.; Letunic, I.; Levitsky, A.; Liang, Y.; Lin, J. J.; Lobo, N. F.; Lopez, J. R.; Malek, J. A.; McIntosh, T. C.; Meister, S.; Miller, J.; Mobarry, C.; Mongin, E.; Murphy, S. D.; O'Brochta, D. A.; Pfannkoch, C.; Qi, R.; Regier, M. A.; Remington, K.; Shao, H.; Sharakhova, M. V.; Sitter, C. D.; Shetty, J.; Smith, T. J.; Strong, R.; Sun, J.; Thomasova, D.; Ton, L. Q.;

45

Topalis, P.; Tu, Z.; Unger, M.F.; Walenz, B.; Wang, A.; Wang, J.; Wang, M.; Wang, X.; Woodford, K. J.; Wortman, J. R.; Wu, M.; Yao, A.; Zdobnov, E. M.; Zhang, H.; Zhao, Q.; Zhao, S.; Zhu, S.C.; Zhimulev, I.; Coluzzi, M.; Torre, D. A.; Roth, C. W.; Louis, C.; Kalush, F.; Mural, R. J.; Myers, E. W.; Adams, M. D.; Smith, H. O.; Broder, S.; Gardner, M. J.; Fraser, C. M.; Birne, E.; Bork, P.; Brey, P. T.; Venter, J. C.; Weissenbach, J.; Kafatos, F. C.; Collins, F. H.; Hoffman, S.L. 2002. The genome sequence of the malaria mosquito Anopheles gambiae. Science, 298: 129-149.

Huang, H. S.; Hu, N. T.; Yao, Y. E.; Wu, C. Y.; Chiang, S. W.; Sun, C. N. 1998. Molecular cloning and heterologous expression of a glutathione S-transferase involved in insecticide resistance from the diamondback moth Plutella xylostella. Insect Biochem. Mol. Biol. 28, 651–658.

Huang e Madan, A. 1999. CAP3: A DNA sequence assembly program. Genome Research. 9 (9) 868-877.

Iturralde-Vincent MA, MacPhee RDE: Age and paleogeographical origin of Dominican amber. 1996. Science, 273:1850-1852.

Jinwal, U. K.; Zakharkin, S. O.; Litvinova, S.; J; Benes. 2006. Sex-, stage- and tissue- specific regulation by a mosquito hexamerin promoter. Insect Molecular Biology. 15(3): 301-311.

Joseph, K.; Ghebrehiwet, B.; Kaplan, A. P. 2001. Activation of the kinin-forming cascade on the surface of endothelial cells. Biological Chemistry 382, 71–75

Kalugina, N.S. 1977. The paleontological data and some problems of the evolution of and Chironomoidea (Diptera). Taxonomy and evolution of dipteran insects (Leningrad): 25–30.

Kanehisa, M. 2002. Post-Genome Informatics. Oxford University Press. 148p.

Kanost, M.; Kawooya, J.; Law, J.; Ryan, R.; VanHeusden, M.; Ziegler, R. 1990.

46

Insect hemolymph proteins, Adv. Insect Physiol. 22, 298-396.

Kim, M.; Robich, R.M.; Rinehart, J.P.; Denlinger, D.L. 2006. Upregulation of two actin genes and redistribution of actin during diapause and cold stress in the northern mosquito, Culex pipiens. Journal of Insect Physiology 52, 1226–1233.

Kiselev, A.; Subramaniam, S. 1997. Studies of Rh1 motarhodopsin stabilization in wild-type Drosophila and in mutants lacking one or both arrestins. biochimestry. 36, 2188-2196.

Kostaropoulos, I.; Papadopoulos, A.I.; Metaxakis, A.; Boukouvala, E.; Papadopoulou- Mourkidou, E., 2001. Glutathione S-transferase in the defence against pyrethroids in insects. Insect Biochem. Mol. Biol. 31, 313–319.

Kreutzer R. D.; Kitzmiller J. B.; Ferreira, E. 1972. Inversion polymorphism in the salivary gland chromosomes of Anopheles darlingi Root. Mosq. News, 32:555– 565.

LeMosy, E.K.; Hong, C.C.; Hashimoto, C. 1999. Signal transduction by a protease cascade. Trends in Cell Biology 9, 102–107.

Lewin, B. 1994. Genes V. Oxford University Press. 1260pp.

Li, J.; Riehle, M. M.; Zhang, Y.; Xu, J.; Oduol, F.; Gomez, M. S.; Eiglmeier, K.; Ueberheide, M. B.; Shabanowitz, J.; Hunt, F. D.; Ribeiro, C. M. J.; Vernick, D. K. 2006. Anopheles gambiae genome reannotation through syntesis of ab initio and comparative gene prediction algorithms. Genome biology, 7: R24 1-12.

Liew, C. C.; Hwang, D. M.; Fung, Y. U.; Laurenssen, C.; Cukerman, E.; Tsui, S.; Lee, C. Y. 1994. Catologue of genes in the cardiovascular system as identified by expressed sequence tags. Proc. Natl. Acad. Sci. U.S.A., 91 (22): 10645 – 10649.

Lima, G.N.; Batista, J.S.; Formiga, K.M.; Cidades, F.W.; Rafael, M.S.; Tadei, W.P.;

47

Santos, J.M.M. 2010. New 24 polymorphic DNA microsatellite loci for the major malaria vector Anopheles darlingi and transpecies amplification with another anophelines. Conservation Genet Resour. DOI 10.1007/s12686-010-9237-y.

Lucashevich, D. E. 2008. Larvae – a key to evolution of Culicoidea (Diptera) in the Mesozoic. Alavesia. 2: 59-72.

Lumjuan, N.; McCarroll, L.; Prapanthadara, L.; Hemingway, J.; Ranson, H. 2005. Elevated activity of an epsilon class glutathione transferase confers DDT resistance in the dengue vector, Aedes aegypti. Insect Biochem. Molec. Biol. 35: 861-871.

Lumjuan, N.; Stevenson, B.J.; Prapanthadarab, L. Somboon, P.; Brophy, P.M.; Loftus, B.J.; Severson, D.W.; Ranson, H. 2007. The Aedes aegypti glutathione transferase family. Insect Biochemistry and Molecular Biology 37: 1026–1035.

Manguin, S.; Wilkerson, R. C.; Conn, J. E.; Rubio-Palis, Y.; Danoff-Burg, J. A. & Roberts, D. R. 1999. Population Structure of the primary malaria vector in South America, Anopheles darlingi, using isozyme, random amplified polymorphic DNA, internal transcribed spacer 2, and morphologicmarkers. American Journal of Tropical Medicine and Hygiene, 60: 364-376.

Machesky, L. M., Insall, R. H. 1999. Signaling to actin dynamics. Journal of Cell Biology 146, 267–272.

Marrelli, M. T. 2000. Anopheles oswaldoi (Díptera, Culicidae): Análise do segundo espaçador interno transcrito (ITS2) do DNA ribossômico e da susceptibilidade à infecção com Plasmodium vivax. Tese apresentada ao Instituto de Ciências Biomédicas da Universidade de São Paulo para a obtenção do título de Doutor em Ciências. São Paulo. 67pp.

McCarter J. P.; Mitreva, M. D.; Martin, J.; Dante, M.; Wylie, T.; Rao, U. 2003. Analysis and functional classification of transcripts from the nematode Meloidogyne incog-nita. Genome Biol;4:R26.

48

Merril, C.E.; Riesgo-Escovar, J.; Pitts, R.J.; Kafatos, F.C.; Carlson, J.R.; Zwiebel, L.J. 2002. Visual arrestins in olfactory pathways of Drosophlila and the malaria vector mosquito Anopheles gambiae. Neurobiology. 99(3): 1633-1638.

Michel, A.P., Guelbeogo, W.M., Grushko, O., Schemerhorn, B.J., Kern, M., Willard, M.B. et al. (2005) Molecular differentiation between chromosomally defined incipient species of Anopheles funestus. Insect Mol Biol 14: 375–387.

Mirabello, L.; Vineis, J. H.; Yanoviak, S. P.; Scarpassa, V. M.; Póvoa, M. M.; Padilla, N.; Achee, N. L.; Conn, E. J. 2008. Microssatélite data suggest significante population structure and differentiation within the malaria vector Anopheles darlingi in Central and South America. BMC Ecology. 8:3.

Molyneux, D.H. Patterns of change in vector-borne diseases. 1997. Ann. Trop. Med. & Parasitol., 91:827-39.

Morse, S.S. 1995. Factors in the emergence of infectious diseases. Emerg. Infect. Dis., 1:7-15.

Moreno, M.; Marinotti, O.; Krzywinski, J.; Tadei, W. P.; James, A. A.; Achee, L. N.; Conn, E. J. 2010. Complete mtDNA genomes of Anopheles darlingi and an approach to anopheline divergence time. Malaria Journal, 9:27.

Mount, D. W. 2001. Bioinformátics: Sequence and Genome Analysis. University of Arizona, Tucson. USA. 31-32pp.

MS/SVS. 2005. Guia de vigilância epdemiológica. Ministério da Saúde, Secretaria de Vigilância em Saúde. (6) 521-540.

MS/SIVEP, 2010. SIVEP (http://dw.saude.gov.br/portal/page/portal/sivep_malaria/TAB99449:tab_resumo_ n?Ano_n=2010) . Acesso: 27/02/2011.

49

Muller, K.J. 1936. Bar duplication. Science 83: 528-530.

NCBI, 2011. dbEST (www.ncbi.nlm.nih.gov/dbEST/dbEST). Acesso: 04/02/2011.

Nene, V.; Wortman, J. R.; Lawson, D.; Haas, B.; Kodira, C.; Tu, Z. J.; Loftus, B.; Xi, Z.; Megy, K.; Grabherr, M.; Ren, Q.; Zdobnov, E. M.; Lobo, N. F.; Campbell, K. S.; Brown, S. E.; Bonaldo, M. F.; Zhu, J.; Sinkins, S. P.; Hogenkamp, D. G.; Amedeo, P.; Arensburger, P.; Atkinson, P. W.; Bidwell, S.; Biedler, J.; Birney, E.; Bruggner, R. V.; Costas, J.; Coy, M. R.; Crabtree, J.; Crawford, M.; DeBruyn, B.; DeCaprio, D.; Eiglmeier, K.; Eisenstadt, E.; El-Dorry, H.; Gelbart, W. M.; Gomes, S. L.; Hammond, M.; Hannick, L. I.; Hogan, J. R.; Holmes, M. H.; Jaffe, D.; Johnston, J. S.; Kennedy, R. C.; Koo, H.; Kravitz, R.; Kriventseva, E. V.; Kulp, D.; LaButti, K.; Lee, E.; Li, S.; Lovin, D. D.; Mao, C.; Mauceli, E.; Menck, C. F. M.; Miller, J. R.; Montgomery, P.; Mori, A.; Nascimento, A. L.; Naveira, H.F.; Nusbaum, C.; O’Leary, S.; Orvis, J.; Pertea, M.; Quesneville, H.; Reidenbach, K. R.; Rogers, W. Y.; Roth, C. H.; Schneider, J. R.; Schatz, M.; Shumway, M.; Stanke, M.; Stinson, E. O.; Tubio, J. M. C.; VanZee, J. P.; Verjovski-Almeida, S.; Werner, D.; White, O.; Wyder, S.; Zeng, Q.; Zhao, Q.; Zhao, Y.; Hill, C. A.; Raikhel, A. S.; Soares, M. B.; Knudson, D. L.; Lee, N. H.; Galagan, J.; Salzberg, S. L.; Paulsen, I. T.; Dimopoulos, G.; Collins, F. H.; Birren, B.; Fraser-Liggett, C. M.; Severson, D. W. 2007. Genome Sequence of Aedes aegypti, a Major Arbovirus Vector. Science. 316: (5832) 1718 – 1723

Neurath, H., 1984. Evolution of proteolytic enzymes. Science 224, 350–357.

Ortelli, F., Rossiter, L.C., Vontas, J., Ranson, H., Hemingway, J., 2003. Heterologous expression of four glutathione transferase genes genetically linked to a major insecticide resistance locus, from the malaria vector Anopheles gambiae. Biochem. J. 373, 957–963.

PAHO - Pan American Health Organization. 2005. Malaria: Step up the fight. PAHO Today, Washington DC, p. 5.

Parsell, D. A.; Lindquist, S. 1993. The function of heat-shock proteins in stress

50

tolerance: degradation and reactivation of damaged proteins. Annual Review of Genetics 27, 437–496.

Pearson, W. R. 2001. Protein sequence comparison and Protein evolution. Tutorial- ISMB2000, 1-53

Pearson, W. R. 2001. Training for bioinformatics and computational biology. Editorial.Bioinf., 17(9): 761-762.

Petsko, G. A.; Ringe, D.; Protein Structure and Function. 2003.New Science Press Ltd, Walthan, MA.

Pili, E. and Marchi, A. (1999) Chromosome evolution in treehole breeding Anopheles (Diptera, Culicidae). Italian J Zool 66: 33–37.

Pollard, T. D., S. C. Selden, and P. Maupin. 1984. Interaction of actin filaments with microtubules. J. Cell Biol. 99: 33s-37s.

Pollard, T.D., Blanchoin, L., Mullins, R.D., 2000. Molecular mechanisms controlling actin filament dynamics in nonmuscle cells. Annual Review of Biophysics and Biomolecular Structure 29, 545–576.

Poopittayasataporn, A. and Baimai, V. 1995. Polytene chromosome relationships of 5 species of the Anopheles dirus complex in Thailand. Genome 38: 426–434.

Prapanthadara, I.; Hemingway, J.; Ketterman, A, J.; 1993. Partial purification and characterization of glutathione S transferase involved in DDT resistance from mosquito Anopheles gambiae. Pest. Biochem. Physiol. 47: 119-133.

Pridgeon, W. J.; Becnel, J. J.; Clark, G. G.; Linthicum, J. K. 2009. Permethrin Induces Overexpression of Cytochrome c Oxidase Subunit 3 in Aedes aegypti. J. Med. Entomol. 46(4): 810-819.

Prosdocimi, F.; Cerqueira, C. G.; Binneck, E.; Silva, F. A.; Reis, N. A.; Junqueira, M.

51

C. A.; Santos, F. C. A.; Junior, N. A.; Wust, I. C.; Filho, C. F.; Kessedjian, L. J.; Petretiski, H. J.; Camargo, P. L.; Ferreira, M. G. R.; Lima, P. R.; Pereira, M. R.; Jardim, S.; Sampaio, S. V.; Folgueras-Flatschart, V. A. 2002. Bioinformática: Manual do usuário. Biotecnologia Ciência & Desensolvimento-nº 29: 12-25.

Rachou, R.G. 1958. Anofelinos do Brasil. Comportamento das espécies vetoras de malária. Rev Bras Malariol Doenças Trop. 10: 145-181.

Rafael, M. S.; Tadei, W. P. 1998. Metaphase Karyotipes of Anopheles (Nyssorhynchus) darlingi Root and A. (N) nuneztovari Galbadón (Diptera: Culicidae). Genetics and Biology. 21(4): 351-354.

Rafael, M. S.; Tadei, W. P.; Recco-Pimentel, S. M. 2003. Ribosomal genes location in chromosomes of Anopheles darlingi and A. nuneztovari (Diptera: Culicidae), Amazônia, Brazil. Mem Inst Oswaldo Cruz, 98: 629-635.

Rafael, M. S.; Tadei, W. P.; Hunter, F. F. 2004. The physical gene Hsp70 map on polytene chromosomes of Anopheles darlingi from the Brazilian Amazon. Genetica. 121: 89-94.

Rafael, M. S.; Nunes-Silva, C. G.; Astolfi-Filho, S.; Tadei, W. P. 2005. Biblioteca de cDNA DE Anopheles darlingi (Diptera; Culicidae). In: 51o Congresso Brasileiro de Genética, 2005, Águas de Lindóia, SP. 51o Congresso Brasileiro de Genética. Águas de Lindóia-SP: Zeppelini Editorial & Comunicação. v. CD. p. 145-145.

Rafael, M. S.; Nunes-Silva, C. G.; Azevedo Junior, G. M.; Guimarães, G. M.; Bridi, L.C.; Assução, E. N.; Astolfi-Filho, S.; Tadei, W. P. 2008. Banco de Genes Expressos de Anopheles darlingi adulto (Diptera; Culicidae), Coari, Amazonas. In: 54o Congresso Brasileiro de Genética, 2008, Salvador. 54o Congresso Brasileiro de Genética. Ribeirão Preto : Editora da SBG.

Rafael, M. S.; Rohde, C.; Bridi, L. C.; Valente Gaiesky, V. L. D. S.; Tadei, W. P. 2010. Salivary Polytene Chromosome Map of Anopheles darlingi, the Main

52

Vector of Neotropical Malaria. The American Journal of Tropical Medicine and Hygiene. 83: 241-249.

Ramirez, C.C.L. and Dessen, E.M.B. (2000a) Chromosomal evidence for sibling species of the malaria vector Anopheles cruzii. Genome 43: 143–151.

Ramirez, C.C.L. and Dessen, E.M.B. (2000b) Chromosome differentiated populations of Anopheles cruzii: evidence for a third sibling species. Genetica 108: 73–80.

Ranson, H.; Claudianos, C.; Ortelli, F.; Abgrall, C.; Hemingway, J.; Sharakhova, M. V.; Unger, M. F.; Collins, F. H.; Feyereisen, R. 2002. Evolution of supergene families associated with insecticide resistance. Science 298(5591):179-181.

Ranson, H., Paton, M.G., Jensen, B., McCarroll, L., Vaughan, A., Hogan, J.R., Hemingway, J., Collins, F.H., 2004. Genetic mapping of genes conferring permethrin resistance in the malaria vector, Anopheles gambiae. Insect Mol. Biol. 13, 379–386.

Ranson, H.; Hemingway, J. 2005. Glutathione transferases. In: Gilbert, L.I.; Iatrou, K.; Gill, S.S. (Eds.), Comprehensive Molecular Insect Science. Elsevier, Oxford, pp. 383–402.

Reidenbach, K.R.; Cook, S.; Bertone, M.A.; Harbach, R. E.; Wiegmann, B. M.; Besansky, N. J. 2009. Phylogenetic analysis and temporal diversification of mosquitoes (Diptera: Culicidae) based on nuclear genes and morphology. BMC Evol Biol, 9:298.

Ribeiro, J. M. C.; Francischetti, I. M. B. 2003. Role of salica in blood feedings: Sialome an post-sialome perspectives. Annual Review of Entomology. 48: 73-88.

Ribeiro, J.M.C.; Topalis, P.; Louis, C. 2004. AnoXcel: an Anopheles gambiae protein database. Insect Molecular Biology. 13: 449-457.

53

Ribeiro, J. M. C .; Arcà, B.;Lombardo, Fabrizio.; Calvo, Eric.; Phan, V. M.; Chandra, P. K.; Wikel, S. K. 2007. An annotated catalogue of salivary gland transcripts in the adult female mosquito, Aedes aegypti. BMC Genomics. 8:6.

Ridley, M. 2004. Reconstuição da filogenia. In: Ferreira, H.B.; Passaglia, L.; Fischer, Rivo. (Eds). Evolução. Universidade de Oxford, UK. p. 447-490.

Rinehart, J. P.; Li, A.; Yocum, G. D.; Robich, R. M.; Hayward, S.A.L.; Denlinger, D. L. 2007. Up-regulation of heat shock proteins is essential for cold survival during insect diapause. Proceeding of the National Academy of Sciences of the United States of America 104, 11130–11137.

Roberts, D. B.; Jowett, T.; Hughes, J.; Smith, D. F.; Glover, D. M. 1991. The major serum protein of Drosophila larvae, larval serum protein 1, is dispensable, Eur: J. Biochem. 195, 195-201.

Roper, K., Mao, Y.; Brown. N. H. 2005. Contribution of sequence variation in Drosophila actins to their incorporation into actin-based structures in vivo. J. Cell Sci. 118: 3937-3948.

Rosa-Freitas, M. G.; Broomfield, G.; Priestmann, A.; Milligan, P.; Momen, H.; Molyneux, D. H. 1992. Studies on cuticular components, isoenzymes and behaviour of 3 populations of Anopheles darlingi from Brazil. J. Am. Mosq. Control Assoc., 8: 357-366.

Saitou, N., Nei, M. 1987. The neighbor-joining method: a new method for reconstructing phylogenetic trees. Mol. Biol. Evol. 4, 406–425.

Scarpassa, V. M.; Conn, J. E. 2007. Population genetic structure of the major malaria vector Anopheles darlingi (Diptera : Culicidae) from the Brazilian Amazon, using microsatellite markers. Memórias do instituto Oswaldo Cruz. 319-327..

Salazar, C. E., D. M. Hamm, D. M. Wesson, C. B. Beard, V. Kumar, and F. H. Collins. 1994. A cytoskeletal actin gene in the mosquito Anopheles gambiae.

54

Insect Mol. Biol. 3: 1-13.

Sales, L. F.; Campos, M. L. A.; Gomes, H. E. 2008. Ontologias de domínio: Um estudo das relações conceituais. Perspectivas em ciência da Informação . 3, 62- 76.

Sanger, F.; Nicklen, S.; Coulson, A. R. 1977. DNA sequencing with chain- terminating inhibitors. Biochemistry, 74(12), 5463-5467.

Schlee D. 1990. Das Bernstein-Kabinett. Sttutg Beitr Naturk C, 28:100.

Service, M. W., 1996. Medical Entomology. First Edition. London: Chapman & Hall.

Scheneider, H. 2007. Métodos de análise filogenética. Edição Sociedade Brasileira de Genética. 123pp.

Sheterline, P.; Handel, S. H.; Hendry, K. A. 1991. Reorganization and turnover of actin filament architectures in cells. Biochem. Soc. Trans. 19: 1120-1124.

Smartt. C.T.; Erickson, J. 2008. CNAct-1 Is Differentially Expressed in the Subtropical Mosquito Culex nigripalpus (Diptera: Culicidae), the Primary West Nile Virus Vector in Florida. Journal Medical Entomology. 45(5): 877-884.

Soderlund, D.M.; Knipple, D.C. 2003. The molecular biology of knockdown resistance to pyrethroid insecticides. Insect Biochem. Mol. Biol. 33:563-577.

Souza, K. C.; Silva, C. G. N.; Tadei, W. P.; Rafael, M. S. 2007. Sequenciamento de genes expressos de larvas de 1º e 2º estádios de Anopheles darlingi (Diptera: Culicidae), da Amazônia. In: As mudanças climáticas e o futuro da Amazônia, 2007, Manaus. XVI Jornada de Iniciação Científica PIBIC/CNPq/FAPEAM/INPA. Manaus. v. 16. p. 273-274.

Spaethe, J.; Briscoe, A. D. 2004. Early Duplication and Functional Diversification of the Opsin Gene Family in Insects. Mol. Biol. Evol. 21(8):1583–1594.

55

Srivastava, H.; Sharma, M.; Dixit, J.; Das, A. 2010. Evolutionary insights into insecticide resistance gene families of Anopheles gambiae. Infection, Genetics and Evolution. 10: 620-628.

Stein, L. 2001. Genome annotation: from sequence to biology. Nat. Rev Genet. 2(7): 493-503.

Subbarao, S.K., Kumar, K.V., Nanda, N., Nagpal, B.N., Dev, V.; Sharma, V.P. 2000. Cytotaxonomic evidence for the presence of Anopheles nivipes in India. J Am Mosq Cont Assoc 16: 71–74.

Subbarao, S.K., Nanda, N., Vasantha, K., Dua, V.K., Malhotra, M.S., Yadav, R.S. et al. 1994. Cytogenetic evidence for 3 sibling species in Anopheles fluviatilis (Diptera, Culicidae). Ann Entomol Soc Am 87: 116–121.

Sucen, 2006. Superintendência de controle de endemias (www.sucen.sp.gov.br). Acesso: 13/09/2009.

Suguna, S.G., Seawright, J.A., Joslyn, D.J.; Rabbani, M.G. 1981. Homozygous pericentric inversions and other studies of inversions on chromosome-3 in the mosquito Anopheles albimanus. Can J Genet Cytol 23: 57–64.

Suguna, S.G., Rathinam, K.G., Rajavel, A.R.; Dhanda, V. 1994. Morphological and chromosomal descriptions of new species in the Anopheles subpictus complex. Med Vet Entomol 8: 88–94.

Tadei, W. P.; Santos, J. M. M.; Rabbani, M. G. 1982. Biologia de anofelinos amazônicos. V. Polimorfismo cromossômico de Anopheles darlingi Root (Díptera: Culicidae). Acta Amaz, 12: 353-369.

Tadei, W. P.; Dutary-Thatcher, B.; Santos, J. M. M.; Scarpassa, V. M.; Rodrigues, I. B.; Rafael, M. S. 1998. Ecologic observations on anopheline vectors of malaria in the Brazilian Amazon. American Journal of Tropical Medicine and Hygiene,

56

59:325-335.

Tang, A.H.; Tu, C.P. 1994. Biochemical characterization of Drosophila glutathione Stransferases D1 and D21. J. Biol. Chem. 269, 27876–27884.

Tamura, K.; Dudley, J.; Nei, M.E.; Kumar, S. 2007. MEGA4: Molecular Evolutionary Genetics Analysis (MEGA) software version 4.0. Molecular Biology and Evolution 24:1596-1599. (Publication PDF at http://www.kumarlab.net/publications).

Tatusov, R. L.; Galperin, M. Y.; Natale, D.A.; Koonin, E. V. 2000. The COG database: a tool for genome-scale analysis of protein functions and evolution. Nuc. Ac. Res, 28(1): 33-36.

Telles, G.P.; Silva, F.R. 2001. Triming and clustering sugarcane ESTs. Gen. Mol. Biol.,24(14): 17-23.

Telfer, W. H.; Kunkel, J. G. 1991 The function and evolution of insect storage hexarners, Annu. Rev. Entomol. 36, 205-228.

Thompson, J.D.; Higgins, D.G.; Gibson, T.J.; 1994. ClustalW-improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22:4673–4680.

Torres, J.A. 2004. Protein Classification Tool: Uma ferramenta para anotação de proteínas utilizando bases secundárias. Dissertação apresentada a Universidade Federal de Minas Gerais. 86pp.

Tortora, G. J.; Funke, B. R.; Case, C. L. 2000. Microbiologia. Edição universitária. 620 pp.

Toung, Y.P.S.; Hsieh, T. S.; Tu, C.P.D. 1993. The glutathione S-transferase D genes. A divergently organized, intronless gene family in Drosophila melanogaster. J. Biol. Chem. 268: 9737-9746.

57

Valenzuela, J. G.; Pham, V. M.; Garfield, M. K.; Francischetti, I. M.; Ribeiro, J. M. C. 2002. Toward a description of the sialome of the adult female mosquito Aedes aegypti. Insect Biochem Mol. Biol. 32: 1101–1122.

Venancio, T.M., Cristofoletti, P.T., Ferreira, C., Verjovski-Almeida, S., Terra, W.R. 2009. The Aedes aegypti larval transcriptome: a comparative perspective with emphasis on trypsins and the domain structure of peritrophins. Insect Molecular Biology 18, 33–44.

Vontas, J.G.; Small, G.J.; Hemingway, J. 2001. Glutathione S-transferases as antioxidant defence agents confer pyrethroid resistance in Nilaparvata lugens. Biochem. J. 357, 65–72.

Wang, Y.; Qiu, L.; Ranson, Hilary.; Lumjuan, N.; Hemingway, J.; Setzer, W. N.; Meehan, E. J.; Chen, L. 2008. Structure of an insect epsilon class glutathione S- transferase from the malaria vector Anopheles gambiae provides an explanation for the high DDT-detoxifying activity. Journal of Structural Biology 164: 228–235

Weir, B.S. 1996. Genetic Data Analysis II. Sinauer Associates Inc. Publishers. Sunderland, Massachusetts. 445p.

WHO (WORLD HEALTH ORGANIZATION) World malária situations in 1994. 1997. Parti I. Population at risk. Weekly Epidemiological Record, 72:269-274.

Who. 2005. World malaria report. 2005. World Health Organization UNICEF. Who Library Cataloguing in Publication Date, Geneva, Switzerland. P. 294.

Wikstrom, M.; Casey, R. P. 1985. What is the essential proton-translocating molecular machinery in cytochrome oxidase? J. Inorg. Biochem. 23: 327-334.

Wongtrakul, J.; Pongjaroenkit, S.; Leelapat, P.; Nachaiwieng, W.; Prapanthara, L.; Ketterman, A. J. 2010. Expression and Characterization of Three New Glutathione Transferases, an Epsilon (AcGSTE2-2), Omega (AcGSTO1-1), and

58

Theta (AcGSTT1-1) From Anopheles cracens (Diptera: Culicidae), a Major Thai Malaria Vector. J. Med. Entomol. 47(2): 162-171.

Yamamoto, K.; Zhang, P.; Miake, F.; Kashige, N.; Aso, Y.; Banno, Y.; Fujii, H. 2005. Cloning, expression and characterization of theta-class glutathione S-transferase from the silkworm, Bombyx mori. Comp. Biochem. Physiol. 141: 340-346.

Zakharkin, S. O.; Gordadze, A. V.; Korochkina, S. E.; Mathiopoulos, K. D.; Della Torre, A.; Benes, H. 1997. Molecular cloning and expression of a hexamerin cDNA from the malaria mosquito, Anopheles gambiae. Eur. J. Biochem. 246, 719-726.

Zavortink TJ, Poinar GO Jr. 2000. Anopheles (Nyssorhynchus) dominicanus sp. n. (Diptera: Culicidae) from Dominican amber. Ann Entomol Soc Am 93:1230-1235.

Zhao, P.; Wang, Gen-Hong.; Dong, Zhao-Ming.; Duan, Jun.; Xu, Ping-Zhen.; Cheng, Ting-Cai.; Xiang, Zhong-Huai.; Xia, Qing-You. 2010. Genome-wide identification and expression analysis of serine proteases and homologs in the silkworm Bombyx mori. BMC Genomics. 11:405.

Zimmerman, R. H. 1992. Ecology of malaria vectors in the Americas and future direction. Mem Inst Oswaldo Cruz 87: 371-383.

59

ANEXOS

Tabela 1: Algorítmos derivados do programa BLAST Programa Descrição Compara uma sequência (query) de aminoácidos contra um banco de Blastp dados de sequências de proteínas Compara uma sequência (query) de nucleotídeos contra um banco de Blastn dados de sequências de nucleotídeos Compara uma sequência (query) de nucleotídeos traduzida em todas Blastx as seis fases de leitura contra um banco de dados de sequências de proteínas Compara uma sequência (query) de proteína contra um banco de Tblastn dados de sequências de nucleotídeos dinamicamente traduzido em todas as fases de leitura Compara as traduções das seis fases de leitura de uma sequência Tblastx (query) de nucleotídeos contra as traduções das seis fases de leitura de um banco de dados de sequências de nucleotídeo.

Tabela 2: Comparação da Glutathiona S-transferase (GST) entre sequências de An. darlingi e An. gambiae, quanto ao mapeamento in silico.

Tamanho Sequências (pares de Gene Cromossomo de An. gambiae bases) GST de An. darlingi 1060 Glutathione S- Braço esquerdo do cromossomo 3: transferase 2781203- 2783301 GST de An. gambiae 1343 Glutathione S- Braço esquerdo do cromossomo 3: transferase 2779188-2784335

60

Tabela 3: Contigs diferencialmente expressos e seus respectivos valores normalizados em cada biblioteca (larvas e adultos de An.darlingi). O valor de p-value indica a confiança estatística dos dados amostrados e, valores maiores que 1 % foram rejeitados, por isso, estes não foram inseridos nesta Tabela.

Contigs Biblioteca Biblioteca Biblioteca larva Biblioteca adulto p-value (Número) Larva Adulto normalizada normalizada 14 0 27 0 61.0 0.003289 16 0 28 0 63.3 0.002874 198 2 0 31.3 0 0.002020 201 2 0 31.3 0 0.002020 202 2 0 31.3 0 0.002020 203 4 0 62.5 0 0.000032 206 2 0 31.3 0 0.002020 207 2 0 31.3 0 0.002020 208 5 0 78.1 0 0.000004 209 2 0 31.3 0 0.002020 211 2 0 31.3 0 0.002020 212 2 0 31.3 0 0.002020 213 9 2 140.6 4.5 0.000000 216 5 0 78.1 0 0.000004 217 6 0 93.8 0 0.000001 221 2 0 31.3 0 0.002020 223 2 0 31.3 0 0.002020 225 7 0 109.4 0 0.000000 226 5 7 78.1 15.8 0.001255 228 2 0 31.3 0 0.002020 229 5 0 78.1 0 0.000004 230 2 0 31.3 0 0.002020 232 5 3 78.1 6.8 0.000152 233 2 0 31.3 0 0.002020 237 2 0 31.3 0 0.002020 238 2 1 31.3 2.3 0.005294 239 2 1 31.3 2.3 0.005294 240 4 0 62.5 0 0.000032 241 5 0 78.1 0 0.000004 242 3 0 46.9 0 0.000255 244 2 0 31.3 0 0.002020 245 2 0 31.3 0 0.002020 246 4 1 62.5 2.3 0.000141 251 3 0 46.9 0 0.000255 252 4 0 62.5 0 0.000032

61

Contigs Biblioteca Biblioteca Biblioteca larva Biblioteca adulto p-value (Número) Larva Adulto normalizada normalizada

253 3 0 46.9 0 0.000255 254 3 0 46.9 0 0.000255 255 3 0 46.9 0 0.000255 256 3 0 46.9 0 0.000255 258 5 0 78.1 0 0.000004 259 3 1 46.9 2.3 0.000892 260 3 4 46.9 9.0 0.005205 262 3 0 46.9 0 0.000255 264 3 0 46.9 0 0.000255 266 4 0 62.5 0 0.000032 267 3 0 46.9 0 0.000255 269 3 0 46.9 0 0.000255 270 3 0 46.9 0 0.000255 273 3 1 46.9 2.3 0.000892 275 3 0 46.9 0 0.000255 302 8 6 125 13.6 0.000011 32 0 20 0 45.2 0.008471 404 0 26 0 58.8 0.003765 423 0 20 0 45.2 0.008471 439 1 132 15.6 298.4 0.000000 46 2 2 31.3 4.5 0.009249 481 13 26 203.1 58.8 0.000064 514 0 27 0 61.0 0.003289 584 3 153 46.9 345.9 0.000000 587 1 84 15.6 189.9 0.000016 589 4 145 62.5 327.8 0.000002 606 5 12 78.1 27.1 0.004988 624 0 20 0 45.2 0.008471 627 3 1 46.9 2.3 0.000892 629 0 28 0 63.3 0.002874 630 3 0 46.9 0 0.000255 633 8 1 125 2.3 0.000000 634 3 0 46.9 0 0.000255 635 3 0 46.9 0 0.000255 636 3 0 46.9 0 0.000255 637 8 2 125 4.5 0.000000 638 3 0 46.9 0 0.000255

62

Contigs Biblioteca Biblioteca Biblioteca larva Biblioteca adulto P-value (Número) Larva Adulto normalizada normalizada 641 2 0 31.3 0 0.002020 642 2 0 31.3 0 0.002020 644 2 0 31.3 0 0.002020 646 2 1 31.3 2.3 0.005294 649 4 2 62.5 4.5 0.000369 650 4 0 62.5 0 0.000032 654 2 0 31.3 0 0.002020 655 2 1 31.3 2.3 0.005294 656 2 0 31.3 0 0.002020 658 2 0 31.3 0 0.002020 661 2 0 31.3 0 0.002020 662 2 0 31.3 0 0.002020 663 4 0 62.5 0 0.000032 664 2 0 31.3 0 0.002020 665 2 0 31.3 0 0.002020 68 0 42 0 94.10 0.000433 69 0 45 0 101.7 0.000289 75 0 22 0 49.7 0.006465 8 9 25 140.6 56.5 0.001863

Tabela 4: Contigs mais expressos em adultos de An. darlingi, que apresentaram HSP/HIT >=65%. Contigs ID. Hits/Espécie Score HSP/HIT UNIPROT e-value Domínios An. darlingi Contig14 XP_310165.4 97% 93% Q7QG65 3.91e-31 PF02238. COX7a. EAA05894.4 An. gambiae Contig16 XP_001238570.2 97% 89% A0NH89 0.0 PF00001. 7tm_1. EAU75740.2 An. gambiae Contig260 ACI30193.1 90% 100% B6DE46 6.98e-60 PF04758. Ribosomal_S30. An. darlingi Contig404 XP_001661871.1 96% 100% Q16P78 3.90e-103 PF00043. GST_C. EAT36156.1 PF02798. GST_N. Ae. aegypti

Contig423 XP_316821.4 97% 100% Q7Q4V9 1.25e-57 PF02046. COX6A EAA12143.4

63

A. gambiae Contigs ID. Hits/Espécie Score HSP/HIT UNIPROT e-value Domínios An. darlingi

Contig439 AAX51251.1 88% 98% Q58HN3 1.51e-99 PF00116. COX2. PF02790. AAX51252.1 COX2_TM AAX51253.1 ACC95833.1 An. tesselatus Contig514 XP_314835.2 100% 100% Q7Q8A5 8.93e-66 PF01215. COX5B EAA10211.2 An. gambiae Contig584 XP_001867790.1 98% 69% B0XDR8 2.12e-74 Não EDS45595.1 Cx. quinquefasciatus

Contig587 ACI30080.1 77% 100% B6DDU2 1.00e-84 PF00119. ATP-synt_A An. darlingi Contig589 ACI30087.1 B6DDU9 2.69e-103 PF00510. COX3 86% 96% An. darlingi Contig606 ACI30104.1 100% 85% B6DDV8 1.91e-131 PF00327. Ribosomal_L30 An. darlingi PF08079. Ribosomal_L30_N Contig624 XP_313357.3 91% 100% Q7QAP1 2.07e-96 PF00213. OSCP EAA08884.3 An. gambiae Contig629 XP_315270.4 97% 82% Q7Q7K5 1.27e-160 PF00022. Actin EAA10671.4 An. gambiae Contig68 XP_321420.4 97% 100% Q7PXZ8 0.0 PF00022. Actin CAJ14142.1 EAA00917.4 An. gambiae Contig69 XP_001655930.1 94% 100% Q16MS5 6.02e-76 Não EAT35633.1 Ae. aegypti Contig75 NP_008075.1 53% 82% P34850 2.05e-16 PF00507. Oxidored_q4 P34850.1 AAD12196.1 An. gambiae Contig8 ACI30080.1 80% 100% B6DDU2 3.19e-88 PF00119. ATP-synt_A An. darlingi

64

Tabela 5: Contigs mais expressos em larvas de An. darlingi que apresentaram HSP/HIT >=65%. Contigs ID. Hits/Espécie Score HSP/HIT UNIPROT e-value Domínios An. darlingi Contig213 ABD60748.1 72% 71% Q1A732 6.93e-87 An. funestus Contig230 XP_320958.3 83% 100% Q7PYS3 2.43e-67 EAA01028.3 An. gambiae Contig242 XP_319624.3 73% 77% Q7PWR2 1.01e-34 EAA14972.3 An. gambiae Contig253 P19425.2 P19425 1.73e-7 AAB51283.1 41% 109% Ae. aegypti

Contig258 XP_001238545.2 A0NH65 1.12e-70 PF08534.3 Redoxin EAU75715.2 83% 92% An. gambiae Contig259 XP_001238440.1 Q52P91 1.08e-17 AAX86007.1 90% 100% EAU75609.1 An. gambiae Contig269 XP_311967.3 Q7QD36 5.48e-94 PF01398 Mov34 Q7QD36.3 90% 67% EAA07604.3 An. gambiae Contig302 ACI30071.1 B6DDT3 4.61e-34 PF00428 Ribosomal_60s 70% 100% An. darlingi Contig627 XP_306771.3 Q7PE12 2.39e-100 PF02807 ATP- EAA45915.3 gua_PtransN An. gambiae PF00217. ATP- 97% 81% gua_Ptrans

Contig637 XP_319289.2 Q95NF3 0.0 PF02752. Arrestin_C. CAC39103.2 PF00339. Arrestin_N. 95% 98% AAG54081.1 EAA13874.3

65

An. gambiae

Contigs ID. Hits/Espécie Score HSP/HIT UNIPROT e-value Domínios An. darlingi Contig650 XP_311376.4 Q7QE44 3.59e-74 PF03722. Hemocyanin_N EAA07034.4 85% 89% An. gambiae Contig655 XP_316939.3 Q7Q4N9 8.10e-58 PF04930. FUN14 EAA12863.3 87% 100%

Contig665 XP_318603.3 Q9NGZ1 2.71e-38 PF00085. Thioredoxin AAF68382.1 82% 97% EAA14367.3 An. gambiae

66