UNIVERSIDADE ESTADUAL DE CAMPINAS INSTITUTO DE BIOLOGIA DEPARTAMENTO DE BIOLOGIA VEGETAL

HELENA AUGUSTO GIOPPATO

Identificação e caracterização dos genes da família MADS-box em Passiflora organensis

ORIENTADOR: MARCELO CARNIER DORNELAS

CAMPINAS 2019

HELENA AUGUSTO GIOPPATO

Identificação e caracterização dos genes da família MADS-box em Passiflora organensis

Dissertação apresentada ao Instituto de Biologia da Universidade Estadual de Campinas como parte dos requisitos exigidos para a obtenção do título de Mestra em Biologia Vegetal.

Orientador: Marcelo Carnier Dornelas

Este trabalho corresponde à versão final dissertação defendida pela aluna Helena Augusto Gioppato e orientada pelo Prof. Dr. Marcelo Carnier Dornelas

CAMPINAS 2019

FICHA CATALOGRÁFICA

BANCA EXAMINADORA

Prof. Dr. Marcelo Carnier Dornelas

Prof. Dr. Fábio Pinheiro

Prof. Dr. Jean Carlos Cardoso

A Ata da defesa com as respectivas assinaturas dos membros encontra-se no SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria do Programa da Unidade.

AGRADECIMENTOS

À Universidade Estadual de Campinas - UNICAMP, aos seus professores, alunos e funcionários, que tornam possível a expansão da formação acadêmica para a formação pessoal. Ao Instituto de Biologia da Unicamp pelos cursos em Ciências Biológicas e Mestrado em Biologia Vegetal, que me trouxeram até esta dissertação. Ao CNPq por ter financiado este projeto de pesquisa. Ao Centro de Energia Nuclear na Agricultura – CENA/ ESALQ – Universidade de São Paulo, por todo apoio desde o cultivo das plantas e análises de biologia molecular até as amizades que lá encontrei, uma delas a doutoranda Tatiana de Souza Moraes, com quem aprendi e ainda aprendo muito sobre biologia e sobre a vida. Ao orientador Prof. Dr. Marcelo Carnier Dornelas que desde a iniciação científica me orienta, me ensina e me incentiva a ir além, sempre confiando muito em meu trabalho, por toda a dedicação em me orientar este tempo todo e em especial neste projeto. Ao Prof. Dr. Diego Ismael Rocha, por todos os ensinamentos durante minha iniciação científica, os quais com toda certeza foram fundamentais para que chegasse até aqui. Às Profas. Dras. Sandra Maria Carmello-Guerreiro e Adriana Martinelli Pinheiro, convidadas para as bancas examinadoras de etapas anteriores à defesa, por todas as sugestões e contribuições para o melhor desenvolvimento do trabalho. Aos Profs. Drs. Fábio Pinheiro e Jean Carlos Cardoso, convidados para a banca examinadora, por aceitarem o convite e contribuírem com o trabalho. Ao meu pai Silvio por ter me apresentado desde pequena o universo da ciência e pelo incentivo em permanecer na área, sempre contribuindo para a minha formação pessoal e intelectual, à minha mãe Georgete pelo amor incondicional e por todo apoio e incentivo que me dá para seguir em frente com minhas escolhas, e aos meus irmãos Gustavo e Fernando pela amizade e lições de vida que temos juntos. Às amizades que me acompanham desde a graduação pela companhia e apoio constantes, que sempre fizeram a diferença no meu dia a dia. Agradeço especialmente a minha grande amiga Carla Maneira da Silva por estar sempre presente para me apoiar e compartilhar as alegrias e mazelas da vida acadêmica. Às amigas, Jusceley, Tatiane, Mariana e Bruna, companheiras de bancada e campo que alegraram meus dias no laboratório, cada uma a sua maneira.

Aos amigos do Departamento de Biologia Vegetal, especialmente à Natália Volpi, Juan e Franklin Magnum, que comigo compartilharam o conhecimento e a amizade, e me auxiliaram sempre que necessário, por toda a ajuda, pela companhia e aprendizados que tornaram o trabalho ainda mais prazeroso.

RESUMO Uma importante questão da biologia vegetal é como as novidades morfológicas foram produzidas e como elas afetaram o processo evolutivo. Para se estudar essa questão, foi necessário lançar mão de estudos na área da biologia do desenvolvimento. Estes estudos levaram à descrição de diversos genes reguladores que controlam muitos processos de desenvolvimento em todos os organismos. Alguns destes genes fazem parte de uma família multigênica chamada MADS-box, que entre as angiospermas, é responsável por regular vários processos de seu desenvolvimento, dentre eles o desenvolvimento floral. Duplicações ou perdas parálogos de MADS-box podem alterar o padrão de desenvolvimento das estruturas florais. O gênero Passiflora é um dos grupos de angiospermas que possui indivíduos que produzem estruturas complexas cujas origens ainda não foram elucidadas, como os filamentos da corona. Sendo assim, e considerando também o seqüenciamento recente do genoma de uma espécie de Passiflora, Passiflora organensis, o presente trabalho identificou e caracterizou 72 genes da família MADS-box nesta espécie, bem como possíveis expansões ou retrações da família, e a partir destes dados, inferir possíveis explicações para a morfologia floral distinta encontradas dentro do gênero Passiflora. Oito genes foram relacionados ao desenvolvimento de estames e carpelos. Análises da expressão diferencial destes genes revelaram um papel potencial na diversificação das estruturas florais em Passilfora.

ABSTRACT An important issue in biology is how the morphological novelties were produced and how they affected the evolutionary process. In order to study these subjects, it was necessary to use studies in the field of developmental biology. These studies have led to the description of several regulatory genes that control many developmental processes in all organisms. Some of these genes are part of a multigenic family called MADS-box, which among the angiosperms, is responsible for regulating various processes of its development, among them the floral development. Doubling or loss paralogs of MADS-box may alter the pattern of development of floral structures. The genus Passiflora is one of the groups of angiosperms that has individuals that produce complex structures whose origins have not yet been elucidated, such as the corona filaments. The present work identified and characterized 72 genes of the MADS-box family in this species, as well as possible expansions or retractions of the family, and from this data, to infer possible explanations for the distinct floral morphology found within the genus Passiflora. Eight genes were related to the development of stamens and carpels. Analyzes of the differential expression of these genes revealed a potential role in the diversification of floral structures in Passiflora.

LISTA DE ABREVIATURAS E SIGLAS

Genes MADS-box de Arabidopsis thaliana: AP1 APPETALA 1 RT-qPCR e RT-PCR: AP2 APETALA 2 Ct Cycle Threshold (ciclo no AP3 APETALA 3 qual a reação atinge o limiar AG AGAMOUS da fase exponencial) CAL CAULIFLOWER FW Primer no sentido ‘forward’ FUL FRUITFULL RV Primer no sentido ‘reverse’ PI PISTILLATA Tm Temperatura de anelamento STK SEEDSTICK SHP SHATTERPROOF Genes de referência: SEP SEPALLATA CAC Clathrin adaptor complex; TM6 TOMATO 6 ADAPTOR PROTEIN-2 GOA GORDITA SAND SAND family protein; TT16 TRANSPARENT TESTA 16 MONENSIN SENSITIVITY1 Genes MADS-box de Passiflora organensis: PoAP1 APPETALA 1 PoAP2 APETALA 2 PoAP3 APETALA 3 PoAG AGAMOUS PoPIci PISTILLATA com íntrons PoPIsi PISTILLATA sem íntrons PoSTK SEEDSTICK PoSHP SHATTERPROOF PoSEP SEPALLATA PoTM6 TOMATO 6 PoGOA GORDITA PoTT16 TRANSPARENT TESTA 16

SUMÁRIO

RESUMO ABSTRACT LISTA DE ABREVIATURAS E SIGLAS INTRODUÇÃO GERAL ...... 11 OBJETIVOS GERAIS ...... 18 OBJETIVOS ESPECÍFICOS ...... 19 CAPÍTULO I: Identificação dos genes ortólogos aos genes da família MADS-box em Passiflora organensis ...... 20 Resumo ...... 20 Abstract ...... 20 Introdução ...... 21 Objetivos ...... 25 Materiais e métodos ...... 25 Material genômico ...... 25 Identificação dos genes da família MADS-box em Passiflora organensis ...... 25 Caracterização estrutural dos genes MADS-box de Passiflora organensis...... 26 Resultados e discussão ...... 27 Identificação e filogenia dos genes MADS-box de Passiflora organensis...... 27 Estrutura gênica dos genes MADS-box de Passiflora organensis ...... 30

CAPÍTULO II: Identificação dos genes de classe B da família MADS-box em Passiflora organensis ...... 32 Resumo ...... 32 Abstract ...... 32 Introdução ...... 33 Objetivos ...... 34 Materiais e métodos ...... 34 Material genômico ...... 34 Identificação dos genes de classe B da família MADS-box em Passiflora organensis ... 34 Caracterização estrutural dos genes de classe B da família MADS-box de Passiflora organensis ...... 35 Resultados e discussão ...... 36

Filogenia e alinhamentos dos genes de classe B da família MADS-box em Passiflora organensis ...... 36 Estrutura gênica dos genes de classe B de Passiflora organensis ...... 44 CAPÍTULO III: Validação do gene PoPIsi em Passiflora organensis ...... 49 Resumo ...... 49 Abstract ...... 49 Introdução ...... 49 Objetivos ...... 51 Materiais e métodos ...... 51 Resultados e discussão ...... 54 CAPÍTULO IV: Caracterização do padrão de expressão dos genes de classe B da família MADS-box em Passiflora organensis ...... 59 Resumo ...... 59 Abstract ...... 59 Introdução ...... 60 Objetivos ...... 60 Materiais e métodos ...... 60 Material vegetal ...... 60 Microscopia de varredura (MEV) ...... 60 Extração de RNA, síntese de cDNA e RT-qPCR ...... 61 Resultados e discussão ...... 66 Rt-qPCR ...... 66 Conclusões Gerais ...... 81 Bibliografia ...... 81 ANEXOS...... 90

11

INTRODUÇÃO GERAL As angiospermas dominam os ambientes terrestres com um número estimado de 295.383 espécies, as quais representam quase 95,8% de todas as plantas vasculares conhecidas atualmente. Elas fazem parte do grupo vegetal mais diverso e que obteve o maior sucesso evolutivo até hoje (Christenhusz e Byng 2016). Uma série de eventos ao longo da evolução contribuiu para tal sucesso, contudo existe um número considerável de evidências que sugerem que dentre todos os eventos que favoreceram o sucesso das angiospermas, o mais determinante deles foi o desenvolvimento das flores, isso porque elas são as principais responsáveis pela atração de polinizadores. Em outras palavras, as flores foram capazes de ‘terceirizar e fidelizar o processo de polinização’ (Sazima e Sazima 1978; Fenster et al. 2004; Theissen e Melzer 2007; Zhu et al. 2017). As flores são as estruturas reprodutivas das angiospermas, e a maioria delas apresenta uma estrutura típica organizada em quatro círculos concêntricos, chamados verticilos. O primeiro e mais externo desses verticilos é formado pelas sépalas, cuja função geralmente é a proteção dos outros órgãos florais até a antese. Em seguida estão as pétalas, as quais geralmente são pigmentadas e vistosas, uma vez que sua principal função é a atração de polinizadores. Esses dois primeiros verticilos envolvem os dois últimos, formados pelas estruturas reprodutivas masculina e feminina, sendo estas os estames e carpelos, respectivamente (Figura 1a). Essa organização floral é a encontrada em flores de Arabidopsis thaliana (Coen e Meyerowitz 1991). Por ser uma planta de fácil cultivo e manutenção, e principalmente por ter sido a primeira espécie vegetal que teve seu genoma completamente sequenciado (Arabidopsis Genome Initiative 2000), A.thaliana é o organismo modelo para estudos de biologia vegetal. Nos últimos dezoito anos essa espécie foi intensamente estudada o que fez com que inicialmente uma parte considerável dos modelos experimentais fossem desenvolvidos com base nos seus mecanismos genéticos e fisiológicos (Bevan e Walsh 2005). O processo do desenvolvimento floral, portanto, não foi diferente. Em 1991, Coen e Meyerowitz propuseram um modelo molecular para o desenvolvimento floral, chamado de modelo ABC, o qual foi criado com base em estudos de mutantes homeóticos de A.thaliana, nos quais as identidades dos órgãos florais são diferentes. Em A.thaliana existem três classes de mutantes, A, B e C (Figura 1). Os mutantes de classe A apresentam carpelos ao invés de sépalas no primeiro verticilo, e estames ao invés de pétalas no segundo verticilo (Figura1b). Mutantes de classe B têm sépalas no lugar das pétalas no segundo verticilo, e carpelos no lugar dos estames no terceiro verticilo (Figura 1c). Os mutantes de classe C, por sua vez, possuem pétalas no lugar dos estames no terceiro verticilo, e sépalas no lugar dos carpelos no quarto verticilo (Coen e Meyerowitz 1991) (Figura 1d). 12

a b c d

B B B

A C C A C A

S P E C C E E C S S C C S P P S

Selvagem Mutante A Mutante B Mutante C

Adaptado de Vestibular Ufba 2012, segunda fase Figura 1: Representação do modelo molecular ABC e os mutantes homeóticos (Coen and Meyerowitz, 1991). a. Modelo ABC de uma flor tipo selvagem; b. Mutante do tipo A em que os dois primeiros verticilos são afetados com as sépalas sendo substituídas por carpelos e as pétalas por estames; c. Mutante do tipo B no qual o segundo e o terceiro verticilos são afetados: pétalas substituídas por sépalas e os estames substituídos por carpelos; d. Mutante do tipo C no qual os estames do terceiro verticilo são substituídos por pétalas e os carpelos do quarto verticilo substituídos por sépalas.

A partir dos fenótipos dos mutantes de classes A, B e C sugeriu-se a existência de três classes de genes homeóticos (A, B e C) que controlam a identidade dos órgãos florais. Cada uma das três classes de genes afeta dois verticilos adjacentes. Os genes de classe A (AP1 e AP2) quando expressos sozinhos levam à formação de sépalas no primeiro e mais externo dos verticilos. O segundo verticilo, as pétalas, é formado a partir da expressão combinada dos genes de classe A com os genes de classe B (PI e AP3). A combinação da expressão dos genes de 13

classe B com os de classe C (AG) dá origem aos estames no terceiro verticilo. O quarto verticilo com os carpelos, por sua vez, surge a partir da expressão exclusiva dos genes de classe C, completando a estrutura da flor (Figura 1a). Além disso, o modelo ABC possui mais duas premissas: (1) a expressão dos genes de classe B independe da expressão dos genes de classes A e C e atividade dessas duas classes gênicas são mutuamente exclusivas; (2) genes de classe C determinam o meristema floral (Theissen et al. 2000). Posteriormente, através de estudos com transgênicos, descobriu-se que os genes do modelo ABC são necessários, mas não são suficientes para a especificação da identidade dos órgãos florais (Honma e Goto 2001). Além deles, foram incluídas mais duas classes gênicas no modelo inicial, as classes D e E, sendo que os genes de classe D (STK, SHP1 e SHP2) atuam no desenvolvimento dos óvulos no interior dos carpelos, e os genes de classe E (SEPs) participam do desenvolvimento dos quatro verticilos florais (Pelaz et al. 2000; Pinyopich et al. 2003). Dessa forma o modelo original foi expandido para ABCDE (Theißen e Saedler 2001) (Figura 2). Todos os genes do modelo, com exceção de APETALA2 (AP2) pertencem à uma família multigênica chamada MADS-box, que em A.thaliana apresenta 107 membros até o momento (Theißen 2001; Parenicova 2003). Esse número é resultado de pelo menos duas duplicações totais do genoma e diversas outras duplicações gênicas independentes (Purugganan et al. 1995; Theißen e Saedler 2001; Becker e Theißen 2003; Martinez-Castilla e Alvarez- Buylla 2003; Nam et al. 2003; Zahn et al. 2005).

Figura 2: Representação esquemática do modelo molecular ABCDE expandido demonstrando o conjunto de classes de genes envolvidos na determinação da identidade e organização de cada órgão floral (Adaptado de Theißen e Saedler 2001; Zahn et al. 2005).

14

Nas últimas décadas, estudos de biologia genética e evolutiva do desenvolvimento (‘evodevotica’), mostraram que os mecanismos moleculares capazes modificar a morfologia de um indivíduo sempre ocorrem a partir da alteração dos padrões de expressão de genes que atuam na regulação e no controle do desenvolvimento. Existem dois mecanismos principais capazes de alterar o padrão de expressão de um gene. O primeiro deles (1) se dá através da alteração das suas regiões regulatórias com o acumulo de mutações não deletérias. O segundo mecanismo (2), por sua vez, ocorre através da duplicação de genes que codificam fatores de transcrição seguida de diversificação (sub- ou neofuncionalização) das suas regiões regulatórias e/ou codificadoras. Genes duplicados, por sua vez, podem surgir a partir de diferentes formas, sendo que as principais delas são a poliploidização, a duplicação segmentada ou in tandem, e a transposição. Geralmente, após serem duplicados, a maioria das cópias gênicas acumulam mutações deletérias em suas regiões codificadoras ou regulatórias, o que resulta na perda de função ou no seu silenciamento (Nei e Roychoudhury 1973; Lynch 2000). Entretanto, algumas cópias podem ‘sobreviver’. Com mais cópias de um mesmo gene presentes no genoma, existe mais material genético disponível para que novas funções sejam geradas a partir do mecanismo (1) de alteração do padrão de expressão explicado anteriormente, sem que haja a perda da função ‘ancestral’, dando origem a novos genes (Des Marais e Rausher 2008). Em plantas, esses eventos de duplicação que favorecem o “nascimento” de novos genes são bem mais comuns do que em animais: em plantas já foram identificados pelo menos 12 grandes eventos de duplicação enquanto que em animais foram identificados apenas 3 (Murat et al. 2012). A principal hipótese para explicar essa diferença entre as linhagens e a maior plasticidade genômica das plantas é o fato de que em animais, a presença precoce dos sistemas de cromossomos sexuais X/Y ou Z/W em praticamente todas as linhagens deste reino, com exceção de invertebrados, alguns peixes e anfíbios, podem fazer com que eventos de duplicação (principalmente duplicações totais do genoma) tenham efeito deletério, uma vez que os cromossomos sexuais, por não serem homomórficos, ficam sujeitos ao efeito da catraca de Muller mesmo que as populações se reproduzam sexuadamente, pois os cromossomos sexuais não podem sofrer recombinação (Murat et al. 2012). Essa maior plasticidade do genoma vegetal (quando comparado ao genoma animal), portanto, permite que uma rede maior de genes possa interagir de formas diferentes, gerando padrões de expressão distintos que podem afetar o fenótipo das plantas. Isso é observável, por exemplo, no padrão morfológico dos órgãos florais estabelecido pela expressão dos genes da família MADS-box. 15

Em teoria, todas as flores, independente da espécie, deveriam ter seus órgãos florais organizados de acordo com o modelo ABCDE. Contudo, na natureza esse padrão sofre variações em diversos grupos de angiospermas. As espécies de Zingiberaceae apresentam estames petaloides (Bartlett e Specht 2010), orquídeas possuem o labelo (uma pétala modificada) (Mondragón-Palomino e Theißen 2008), etc. Estas estruturas que a princípio não são explicadas pelo modelo molecular ABCDE, podem ser consideradas novidades evolutivas e foram relacionadas com duplicações gênicas seguidas de divergência de função de membros da família gênica MADS-box pertencentes à classe B (Kim et al. 2004; Hernández-Hernández et al. 2007; Rijpkema et al. 2010). Outro exemplo de morfologia floral distinta é encontrado entre as flores do gênero Passiflora. Desde que foram descritas pela primeira vez nas Américas por exploradores europeus no século XVI, e durante o século seguinte, as flores de Passiflora foram motivo de fascínio e interesse principalmente dos colecionadores de plantas. Parte dessa fama era devida a grande diversidade de formas e cores de suas espécies, mas o principal motivo para tamanha evidência na época, na realidade era o simbolismo atribuído às suas flores. Quando foram descritas as primeiras espécies de Passiflora, a morfologia floral destas foi relacionada à crucificação de Cristo (Ulmer e MaCDougal 2004). Algumas ilustrações produzidas durante o século XVII pelos europeus representavam as flores de Passiflora com coroas de espinhos no lugar do que hoje chama-se de filamentos da corona, uma analogia a coroa de espinhos usadas por Cristo no momento de sua crucificação. As cinco pétalas e cinco sépalas representavam os dez discípulos fiéis (Judas e Pedro desconsiderados), os cinco estames, representavam os ferimentos e os três estigmas representavam os três pregos utilizados para pregar Cristo na cruz (Ulmer e MaCDougal 2004). Além disso, muitas espécies florescem de novembro à meados de abril, período no qual ocorrem as celebrações religiosas da Páscoa. Essa relação da morfologia floral com a religião foi tão forte na época, que o nome designado ao gênero dessas plantas foi Passiflora, que em sua etimologia significa ‘flor da paixão’, referente à paixão de Cristo (Ulmer e MaCDougal 2004). Atualmente o gênero Passiflora (Passifloraceae) é representado por mais de 600 espécies, sendo o maior dentro da família Passifloraceae. Inicialmente acreditava-se que o gênero Passiflora poderia ser subdividido em aproximadamente 23 subgêneros (Ocampo et al. 2015), entretanto estudos recentes sugerem que Passiflora pode ser organizado em apenas 4 subgêneros: Astrophea (~60 espécies), Deidamioides (13 espécies), Decaloba (~215 espécies) e Passiflora (~240 espécies) (Hansen et al. 2006; KUBITZKI 2007; Muschner et al. 2012). 16

As plantas de Passiflora são essencialmente tropicais, reconhecidas por sua morfologia floral particular que geralmente apresenta um ou mais verticilos de estruturas filamentosas entre as pétalas e os cinco estames, chamados de corona, e um androginóforo que corresponde a uma coluna no centro da flor que eleva o androceu e o gineceu (Figura 3) (Schmid et al. 1995).

Estigma

Ovário Corona Estame Pétala Androginóforo

Sépala

Figura 3: Esquema de um corte longitudinal de uma flor de Passiflora.

As espécies do subgênero Decaloba (objeto de estudo deste trabalho) geralmente são pequenas trepadeiras, com flores e frutos igualmente pequenos. Entre elas está a Passiflora organensis, uma espécie nativa da Serra dos Órgãos, Rio de Janeiro, Brasil. Suas folhas, durante a fase juvenil, podem ter dois ou três lóbulos e apresentam pontuações ou manchas de cor verde clara ou mesmo prateadas, sobre as três nervuras centrais na face adaxial, além de uma coloração arroxeada na face abaxial (Figuras 4A, 4B).

17

A B

C D Figura 4: Folhas de P.organensis nas fases juvenil (A, B) e adulta (C, D). A. Face adaxial da folha juvenil com as manchas prateadas características da fase juvenil; B. Face abaxial da folha juvenil apresentando coloração arroxeada característica da espécie; C. Face adaxial de folha na fase adulta, sem a presença das manchas prateadas, com gavinha na axila (marcador da fase adulta)e uma fileira na região mediana da folha com as marcas dos nectários extraflorais, sendo um outro marcador da fase adulta; D. Face abaxial de folha na fase adulta, com a presença de nectários extraflorais evidentes e manutenção da coloração roxa. Fotos: Helena A. Gioppato

Durante as fases adultas vegetativa e reprodutiva, as plantas passam a produzir gavinhas, suas folhas passam a ter apenas dois lóbulos, as manchas verde claras ou prateadas desaparecem, e surgem nectários extraflorais na face abaxial (Figuras 4C e 4D). Esses nectários extraflorais atraem outros organismos, como algumas espécies de formigas, que protegem a planta contra ataques de herbívoros ao patrulharem a planta em busca de néctar como recurso alimentar (Coley e Barone 1996; Agosti e Alonso 2000; Cogni et al. 2003; McGarry e Ayre 2012). As flores de P.organensis são pequenas, chegando a no máximo 5 cm de diâmetro, com sépalas e pétalas cremes, enquanto que os filamentos da corona são roxos, com pontas e base brancas (Figura 5) (Ulmer e MaCDougal 2004).

18

Figura 5: Flores de P.organensis. Fotos: Helena A. Gioppato.

Assim como os estames petaloides de espécies de Zingiberaceae e o labelo das orquídeas, os filamentos da corona em Passiflora também não se encaixam no modelo ABCDE e a identidade desse órgão floral ainda não é bem compreendida (Hemingway et al. 2011). Neste contexto e considerando o fato de que P.organensis já possui seu genoma sequenciado por nosso grupo, o presente trabalho pretende identificar e caracterizar ortólogos dos genes da família MADS-box em P.organensis, além de caracterizar o padrão de expressão de alguns genes dessa família. A hipótese central deste trabalho é que variações no padrão de expressão de membros da família MADS-box da classe B estejam relacionadas com o desenvolvimento dos filamentos da corona. Para testar esta hipótese serão empregadas ferramentas apropriadas ao estudo do desenvolvimento floral, que incluem técnicas de bioinformática e análises de expressão gênica.

OBJETIVOS GERAIS

Identificar e caracterizar ortólogos dos genes da família MADS-box em P.organensis, bem como caracterizar o padrão de expressão dos genes de classe B dessa família.

19

OBJETIVOS ESPECÍFICOS A partir da caracterização dos ortólogos da família MADS-box e do padrão de expressão dos genes de classe B desta mesma família gênica, o presente trabalho visa contribuir para a compreensão dos mecanismos moleculares envolvidos no desenvolvimento dos filamentos da corona.

20

4. CAPÍTULO I Identificação dos genes ortólogos aos genes da família MADS-box em Passiflora organensis Resumo Estudos de evodevótica levaram à descrição de vários genes reguladores que controlam diversos processos de desenvolvimento em todos os organismos. Alguns deles fazem parte de uma família multigênica chamada MADS-box. Entre as angiospermas, vários processos de seu desenvolvimento são controlados por genes da MADS-box, os quais atuam como seletores homeóticos. Como exemplo, todos os genes do modelo molecular ABC, com exceção do gene APETALLA2 (AP2), são genes MADS-box e são responsáveis pelo controle das fases vegetativa e reprodutiva, e também pelo desenvolvimento e pela arquitetura floral. Sendo assim, determinou-se que as mudanças na estrutura de um gene MADS-box, no seu padrão de expressão e/ou da sua função foram as principais causas de inovações no desenvolvimento reprodutivo na evolução das plantas. Considerando portanto a grande relevância desta família gênica nos processos de desenvolvimento vegetal, especialmente no desenvolvimento floral, e também o seqüenciamento recente do genoma da espécie Passiflora organensis, este capítulo é inteiramente focado na análise da família MADS-box como um todo em P.organensis. Foram identificados cerca de 70 genes da família MADS-box, com representantes das principais subfamílias já caracterizadas em plantas modelo. Análises de expansão e retração do número de parálogos em cada subfamília aponta para uma possível relação entre a evolução da família MADS-box e a diversificação floral em Passiflora.

Abstract Studies of evodevotics lead to the description of several regulatory genes that control developmental processes in all organisms. Some of them are all part of a multigenic family called MADS-box. Among the angiosperms, several processes of their development are controlled by MADS-box genes that act as a homeotic selector. As an example, all genes of the ABC molecular model, except for the APETALLA2 (AP2) gene, are MADS-box genes and they are responsible for the control of vegetative and reproductive phases, and also for the floral development and architecture. By that information, it has been assumed that changes in MADS- box gene structure, expression pattern and/or function have been the main cause of innovations in reproductive development during plant evolution. Considering the high relevance of the 21

MADS-box gene family in plant developmental processes, especially in floral development, and also the recent genome sequencing of a Passiflora species, Passiflora organensis, by our group, this chapter is entirely focused on the analysis of the MADS-box family as a whole in P.organensis. About 70 genes of the MADS-box gene family were identified, with representatives of the main subfamilies already characterized in model . Analyzes of expansion and retraction of the number of paralogs in each subfamily points to a possible relationship between the evolution of the MADS-box family and floral diversification in Passiflora.

Introdução Inicialmente os estudos de biologia do desenvolvimento e evolução eram duas frentes distintas de abordagens biológicas que não se relacionavam. Além disso, acreditava-se que a evolução era a única responsável pela diversidade das formas da natureza. Contudo, nas últimas três décadas essas duas frentes da biologia (desenvolvimento e evolução) passaram a ser estudadas em conjunto com o auxílio das abordagens genéticas, no que hoje chama-se de genética evolutiva do desenvolvimento, ou ‘evodevótica’. (Theissen et al. 2000). Os estudos nessa área mostraram que existe uma relação entre os genes (genótipo) e as estruturas (fenótipo), além de explicar como essa relação se comporta ao longo da evolução. Dessa forma, todo o processo do desenvolvimento fenotípico de um ser vivo passou a ser interpretado como o resultado de uma rede de genes que dão as instruções sobre a morfologia, em conjunto com sinais, tanto endógenos quanto ambientais, para dar origem às formas que se encontram na natureza (Theissen et al. 2000). Dessa forma é possível dizer que a diversidade e a complexidade dos organismos são o produto resultante não apenas de processos evolutivos como acreditava-se, mas sim da relação entre a evolução e processos do desenvolvimento. Além de tais esclarecimentos, os estudos de evodevótica também levaram a descoberta de que genes regulatórios que codificam fatores de transcrição são responsáveis pelo controle dos processos de desenvolvimento de animais, plantas e fungos (Theissen et al. 2000). Alguns desses genes regulatórios fazem parte de uma família multigênica chamada de família MADS-box. Esta é encontrada tanto em animais e fungos quanto em plantas, fato este que sugere que o ancestral comum desses três grupos provavelmente apresentava ao menos um gene MADS-box e, portanto, a família tem no mínimo 1 milhão de anos (Theißen et al. 1996). Análises filogenéticas estabeleceram que os genes MADS-box de animais e fungos são divididos em dois grupos: MADS-box do tipo SRF (SERUM RESPONSE FACTOR-like), que atuam principalmente na diferenciação celular nos mamíferos; e os MADS-box do tipo MEF2 22

(MYOCYTE ENHANCER FACTOR2-like), que atuam na diferenciação celular de músculos (Theißen et al. 1996; Theissen et al. 2000). Diferentemente dos animais que possuem apenas dois genes MADS-box, as plantas possuem algumas dezenas deles. Com o sequenciamento completo do genoma de A.thaliana (Arabidopsis Genome Initiative 2000) foi possível identificar 107 MADS-box (Theißen 2001; Parenicova 2003). Além de A.thaliana, os genes da família MADS-box foram identificados em diversas outras espécies de plantas, como por exemplo Populus trichocarpa: 102 genes MADS-box (Leseberg et al. 2006); uva (Vitis vinífera): 58 genes (Diaz-Riquelme et al. 2009); arroz (Oryza sativa): 75 genes MADS-box (Arora et al. 2007) ; e maçã (Malus domestica): 146 genes MADS-box (Tian et al. 2015). Isso se deve à uma série de eventos de duplicações gênicas ou até mesmo do genoma todo, pelos quais as plantas passaram ao longo da evolução (Purugganan et al. 1995; Becker e Theißen 2003; Martinez-Castilla e Alvarez-Buylla 2003; Nam et al. 2003) Todos os membros da família MADS-box codificam fatores de transcrição com grande importância nos processos do desenvolvimento (Schwarz-Sommer et al. 1990a; Riechmann e Meyerowitz 1997; Becker e Theißen 2003). Além disso, existe um domínio de reconhecimento e ligação ao DNA, chamado domínio MADS-box, comum a todos os membros da família, e que deu nome à ela, sendo um acrônimo referente aos quatro primeiros membros encontrados e identificados (MCM1 identificado em Saccharomyces cerevisiae; AGAMOUS identificado em Arabidopsis thaliana; DEFICIENS identificado em Antirrhinum majus; SRF identificado em Homo sapiens). Nas plantas, genes MADS-box atuam como reguladores importantes em diversos processos do desenvolvimento vegetal (Schwarz-Sommer et al. 1990b; Riechmann e Meyerowitz 1997; Becker e Theißen 2003). Entre as angiospermas, todos os genes do modelo ABC, com exceção dos gene APETALLA2 (AP2) fazem parte dessa família (Theißen et al. 1996; Riechmann et al. 2000; Theißen 2001; Melzer et al. 2014). Outros grupos vegetais, como briófitas, pteridófitas e gimnospermas, também possuem genes da família MADS-box, entretanto as funções ainda são pouco conhecidas (Becker et al. 2000; Shepard e Purugganan 2002; Chen et al. 2017a; Ruelens et al. 2017). Levando em consideração a relevância e a quantidade de genes que pertencem à família MADS-box em plantas, diversos estudos vêm sendo conduzidos a fim de entender e explicar melhor sua origem, evolução e funções. De acordo com análises filogenéticas, estabeleceu-se que os MADS-box de plantas são divididos em duas linhagens, MADS-box do tipo I e do tipo II, e que os membros de cada linhagem são ortólogos dos genes SRF e MEF2, respectivamente, de animais e fungos 23

(Henschel et al. 2000; Gramzow e Theissen 2010). Cada uma dessas duas linhagens passou por diferentes pressões seletivas ao longo da evolução. Existem evidências de que os genes MADS- box do tipo I tem uma taxa maior de “nascimento e morte” gênicas e estão sob uma menor pressão purificadora do que os MADS-box do tipo II, os quais possivelmente, após eventos de duplicação, adquiriram novas funções em um curto período de tempo enquanto que os genes do tipo I, não (Nam et al. 2004). Dessa forma, deleções de genes redundantes pouco importantes para o desenvolvimento vegetal não gerariam grandes problemas (Nam et al. 2004). Em A.thaliana, os genes MADS-box que fazem parte da linhagem tipo I possuem um ou nenhum íntron e na sua estrutura proteica existem apenas dois domínios: domínio MADS- box, o qual é extremamente conservado; e o domínio C-terminal, muito pouco conservado (Figura 6) (Alvarez-Buylla et al. 2000; De Bodt et al. 2003; Parenicova 2003). Essa linhagem ainda é subdividida em quatro outros subgrupos: Mα, Mγ, Mβ e Mδ (Figura 7) (Parenicova 2003). Em plantas, os genes dessa linhagem também são chamados de ‘M-type genes’ e as funções dos membros de toda essa linhagem foi pouco estudada até o momento. Já os genes MADS-box de tipo II fazem parte da linhagem que em animais corresponde ao gene MEF2 e são divididos em dois subgrupos: MIKCC e MIKC* (Figura 7) (Parenicova 2003). A estrutura proteica destas duas linhagens apresenta quatro domínios bem característicos que se distribuem desde a região N-terminal até a C-terminal, sendo eles: domínio MADS-box (M), que é considerado o mais conservado e que codifica uma região de ligação ao DNA (Riechmann e Meyerowitz 1997); o domínio intermediário (I), domínio queratina-like (K); domínio caboxiterminal (C) que é o mais variável e divergente (Figura 6) (Purugganan et al. 1995). Devido a extrema conservação da organização modular nesses domínios, a linhagem do tipo II também é denominada MIKC (Parenicova 2003). Os genes MIKC (linhagem tipo II), diferentes dos da linhagem tipo I, foram extensamente estudados e, portanto, suas funções já são conhecidas e caracterizadas. Os genes dessa linhagem podem ser divididos em dois clados: MIKCC e MIKC* (Parenicova 2003), com base na divergência das sequências do domínio I, sendo que nos genes do subgrupo MIKC* este domínio é maior (Henschel et al. 2002; Verelst et al. 2006) (Riese et al. 2005).

24

Tipo I

Tipo II

~ 60 aminoácidos ~ 50 aminoácidos ~ 70 aminoácidos ~ 40 aminoácidos

Adaptado de Alvarez-Buylla et al., 2000

Figura 6: Estrutura proteica das duas principais linhagens dos genes da família MADS-box.

Os genes MIKCC já foram identificados na maioria dos principais grupos vegetais (angiospermas, gimnospermas, pteridófitas e briófitas) e vários deles participam do desenvolvimento floral, da regulação das fases vegetativa e reprodutiva e do desenvolvimento de frutos (Bowman et al. 1993; Alvarez-buylla et al. 2000; Theißen 2001; Becker e Theißen 2003; Kaufmann et al. 2005). Já os genes MADS-box MIKC* foram originalmente identificados em exemplares de briófitas, e também estão presentes em A.thaliana (Kofuji et al. 2003). Suas funções não são tão bem compreendidas como as dos genes MIKCC, contudo existem evidências de que A.thaliana possui 6 genes MIKC* que apresentam papel fundamental no desenvolvimento dos grãos de pólen (Verelst et al. 2006, 2007; Adamczyk e Fernandez 2009).

Tipo I Mγ

MADS-box

C MIKC Tipo II ou MIKC

MIKC*

Figura 7: Ilustração das principais linhagens gênicas da família MADS-box. 25

Considerando a grande relevância desta família gênica no desenvolvimento vegetal e principalmente no desenvolvimento floral como apresentado acima, além do recente sequenciamento de uma espécie de Passiflora, Passiflora organensis, por nosso grupo, este capítulo está inteiramente voltado para a análise da família MADS-box como um todo em P.organensis.

Objetivos Os objetivos deste capítulo são a identificação e caracterização de todos os ortólogos dos genes da família MADS-box em Passiflora organensis a partir de comparações com os genes da mesma família de Arabidopsis thaliana em termos filogenéticos e estruturais.

Materiais e métodos Material genômico Nosso grupo obteve recentemente o sequenciamento completo do genoma de três genótipos de P. organensis (Dornelas et al. publicação em preparação). Um genoma consensual para a espécie, com cobertura de pelo menos 80x/base está em fase de anotação, mas já disponível para busca de sequências por similaridade, com o uso do algoritmo BLAST (Altschul et al. 1997; Proost et al. 2009; Van Bel et al. 2012). Os membros da família MADS-box foram obtidos através de uma abordagem já utilizada anteriormente pelo nosso grupo (Dornelas e Rodriguez 2001; Dornelas et al. 2007) através da utilização de bait-sequences e Markov- Montecarlo Chain search, com o uso do consenso da região conservada de reconhecimento de DNA das proteínas MADS, gerada pelo programa COBBLER (Consensus Biasing By Locally Embedding Residues, http://blocks.fhcrc.org/blocks/cobbler.html) com a utilização do Phytozome v. 9.1 (Goodstein et al. 2012) e PLAZA (Van Bel et al. 2012) para a obtenção das sequências conservadas.

Identificação dos genes da família MADS-box em Passiflora organensis A predição total dos genes de P.organensis foi feita através do uso do banco de dados de sequenciamento do genoma dessa espécie (dados ainda não publicados, Prof. Dr. Marcelo Dornelas, IB/UNICAMP) e o software Augustus (versão 3.2.3, Keller, Kollmar, Stanke, & Waack, 2011) para as três bibliotecas existentes. Em seguida, a partir dos modelos gênicos dos genes MADS-box de A.thaliana, foi feita a predição de todos os possíveis genes ortólogos da família MADS-box dentro de cada biblioteca através do uso do algoritmo BLASTp (Altschul et al. 1997) utilizando-se como sequências isca as sequências proteicas de A.thaliana. A partir dos 26

resultados obtidos, cada um dos candidatos a MADS-box foi avaliado através de um BLASTp feito no National Center for Biotechnology Information (https://blast.ncbi.nlm.nih.gov/Blast.cgi). A biblioteca LB15042 foi escolhida como primeira a ser analisada. Após a identificação das sequências corretas, o software BioEdit foi utilizado para a busca dos genes candidatos dentro de cada contig indicado nos resultados das análises anteriores. A partir de um arquivo de texto gerado para as sequências de DNA com tradução dos quadros abertos de leitura, foi possível identificar e caracterizar a estrutura de cada gene estudado. A confirmação da identidade dos genes de P.organensis foi obtida através de uma análise filogenética em que as sequências proteicas resultantes dos genes que foram previamente identificados, foram alinhadas e com as sequências proteicas dos genes da família MADS-box de A.thaliana. A filogenia foi construída a partir de um alinhamento no qual todas as proteínas MADS-box encontradas no genoma de P.organensis foram alinhadas de maneira múltipla global às proteínas MADS-box de A.thaliana usando o algoritmo L-INS-i do software MAFFT v7 (Katoh e Standley 2013). Este algoritmo de alinhamento iterativo permite o melhor alinhamento de genes muito variáveis nas regiões fora dos domínios, reduzindo a penalidade de gaps. O alinhamento das proteínas produtos dos genes MADS-box foi submetido ao ajuste de modelo de substituição de aminoácidos, usando o teste “ModelFinder” (Kalyaanamoorthy et al. 2017) implementado no software IQ-TREE v1.5.4 (Nguyen et al. 2015). Seguindo o critério AKAIKE, o modelo de maior ajuste foi o JTT+F+G4, usado em seguida na reconstrução filogenética. A filogenia, por fim, foi reconstruída pelo método de Máxima Verossimilhança do software IQ-TREE v1.5.4 (Nguyen et al. 2015) com teste de sustentação de ramos por bootstraps, usando 1000 repetições. A partir da filogenia, foi possível inferir possíveis eventos de duplicações ou perdas gênicas nas duas espécies, sendo que os dados apresentados são referentes à comparação entre P.organensis e A.thaliana, ou seja, uma expansão em uma das duas espécies só é uma expansão se comparada à outra incluída na análise, o que não significa que é uma expansão em relação a outros grupos de plantas não incluídos na filogenia.

Caracterização estrutural dos genes MADS-box de Passiflora organensis A caracterização estrutural dos genes MADS-box foi feita a partir de uma busca pela sequência proteica dentro do arquivo de texto com a tradução dos quadros abertos de leitura 27

gerado para cada uma das sequências de DNA correspondentes, seguida pelo estabelecimento das fronteiras entre éxons e íntrons feito de forma manual através dos resultados obtidos inicialmente pelo software AUGUSTUS (versão 3.2.3, Keller et al., 2011). A checagem dessas fronteiras pré-estabelecidas foi feita de forma preditiva pelo servidor NetGene2Server (DTU Bioinformatics). O resultado dessa caracterização é um arquivo que contém as informações sobre a sequência, estrutura e tamanho do gene. A partir desses dados, a estrutura gênica pôde ser representada de forma ilustrativa com a utilização do software GSDS 2.0 Gene Structure Display Gene (Hu et al. 2015).

Resultados e discussão Identificação e filogenia dos genes MADS-box de Passiflora organensis Através da predição gênica feita pelo software AUGUSTUS, foram encontrados 93406 genes na biblioteca LIB15042, 98938 genes na biblioteca LIB15043 e 98068 genes na biblioteca LIB15044. Em média o genoma de P. organensis possui aproximadamente 96.804 genes preditos. Em seguida, foi feita a predição de todos os possíveis genes MADS-box dentro de cada biblioteca através do BLASTp que resultou nos seguintes valores: biblioteca LB15042 possui 104 possíveis genes MADS-box; biblioteca LB15043 possui 110 possíveis genes MADS-box; biblioteca LB15044 possui 106 possíveis genes MADS-box. A partir destes dados iniciais, partimos do princípio de que existem por volta de uma centena de genes desta família em P.organensis, contudo, assim como o número de genes totais, é provável que este valor esteja bem acima da realidade, mas serve como um ponto de partida. Inicialmente as três bibliotecas estavam sendo analisadas de forma simultânea, com uma checagem manual de todos os 320 possíveis MADS-box. Entretanto, por questões de tempo, decidiu-se analisar uma biblioteca por vez, sendo que a primeira a ser totalmente analisada foi a LB15042. A escolha desta como sendo a primeira deve-se a menor presença de sequências incompletas, fato identificado previamente quando as três bibliotecas ainda estavam sendo analisadas em conjunto. A partir da busca pelos ortólogos dos genes MADS-box no banco de dados de P.organensis criado a partir de seu genoma sequenciado, das 104 sequências dos possíveis genes MADS-box sugeridos pela predição gênica na biblioteca LB15042, apenas 72 de fato fazem parte dessa família gênica e estão com suas sequências completas. De acordo com as análises filogenéticas, dos 72 MADS-box encontrados até o momento, 32 deles fazem parte do tipo I e 40 do tipo II. Tanto em P.organensis quanto em 28

A.thaliana, o subgrupo da família MADS-box que mais sofreu expansão foi o Mα, enquanto que P.organensis apresentou mais retrações em relação a A.thaliana (Figura 8, Tabela 1). Por serem mais estudados, expansões e retrações de subgrupos de MADS-box de tipo II são mais significativas para questões biológicas e por isso esse grupo será discutido com mais detalhamento, especialmente os subgrupos que fazem parte do modelo molecular ABC (Parenicova 2003; Litt e Kramer 2010).

Figura 8: Filogenia de todos os genes MADS-box encontrados no genoma de P.organensis juntamente com os genes desta mesma família de A.thaliana. Os clados identificados em tons de azul fazem parte do grupo dos MADS-box de tipo I (Mα, Mγ, Mβ e Mδ) enquanto que os demais fazem parte do grupo de tipo II (MIKC* e MIKCC), divididos em seus subgrupos. Os genes de P.organensis são indicados por cores distintas. Círculos coloridos representam expansões de P.organensis em relação a A.thaliana; círculos pretos representam expansões de A.thaliana em relação a P.organensis; triângulos coloridos representam retrações de P.organensis em relação a A.thaliana; e triângulos pretos representam retrações de A.thaliana em relação a P.organensis.

29

MADS-box do tipo II Dentre os genes deste grupo, foram encontrados 16 ortólogos dos genes que fazem parte do modelo ABCDE em A.thaliana, sendo eles um APETALA 1 – AP1, (classe A), dois PISTILLATAS - PI, três APETALA 3 – AP3, um TRANSPARENT TESTA 16 – TT16, um GORDITA - GOA (classe B), um AGAMOUS - AG (classe C), três SEEDSTICK -STK , e quatro SEPALLATA - SEP (classe E). Em relação à A.thaliana, a classe B de P.organensis foi a que sofreu a maior expansão, pois em A.thaliana existem apenas um gene AP3 e um gene PI. Em relação a retrações, a comparação entre as duas espécies mostra que este tipo de evento ocorreu apenas em P.organensis, sendo uma delas nos MADS-box do tipo I, no subgrupo Mγ, e as outras duas nos MADS-box do tipo II, sendo uma no subgrupo A e outra no subgrupo C/D (Tabela 1).

Tabela 1: Valores de expansões e retrações nos principais grupos das duas grandes linhagens da família MADS- box, tipos I e II, respectivamente. MADS-box do tipo I MADS-box do tipo II EXPANSÕES P.organensis A.thaliana EXPANSÕES P.organensis A.thaliana Alfa 4 6 A - 1 Beta - 1 B 3 - Gama 3 2 C/D 1 1 Delta 1 - E 2 2 RETRAÇÕES P.organensis A.thaliana FLC - 1 Alfa - - SVP 1 - Beta - - SVP-like 1 - Gama 1 - SOC 1 2 Delta - - ANR1-like - 1 RETRAÇÕES P.organensis A.thaliana A 1 - B - - C/D 1 - E - - FLC - - SVP - - SVP-like - - SOC - - ANR1-like - - 30

Estrutura gênica dos genes MADS-box de Passiflora organensis A estrutura de cada um dos 72 genes MADS-box encontrados na biblioteca LIB15042 de P.organensis é condizente com o esperado de acordo com a literatura, sendo os MADS-box de tipo I (M-type), com exceção dos Mδ, apresentam um ou nenhum íntron e sua extensão gênica, agora sem nenhuma exceção, varia de menos de 1kb a até quase 3kb (Parenicova 2003) (Figura 10). Mesmo fazendo parte da linhagem tipo I, os genes do subgrupo Mδ apresentam bem mais de um íntron, fato este também relatado na literatura (Parenicova 2003). Entretanto, suas estruturas proteicas não apresentam os quatro domínios característicos dos MADS-box de tipo II, portanto, mesmo com a presença de mais éxons e íntrons, os genes do subgrupo Mδ fazem parte da linhagem tipo I. Os genes MADS-box de tipo II (MIKC), por sua vez, apresentam vários éxons e íntrons com extensões variando entre pouco mais de 1kb até mais de 15kb (Parenicova 2003) (Figura 9). Em P.organensis, contudo, foi encontrado um gene de classe B que não apresenta nenhum íntron. A veracidade desse dado, assim como suas possíveis origem e consequências para a fisiologia e o desenvolvimento da planta serão abordadas nos próximos capítulos.

Figura 9: Representação gráfica das estruturas gênicas de todos os genes MADS-box do tipo II, também chamados de MIKC, de P.organensis. Os genes deste grupo estão separados nos subgrupos assim como estão dispostos na filogenia da Figura 8. 31

Figura 10: Representação gráfica das estruturas gênicas de todos os genes MADS-box do tipo I, também chamados de M-type, de P.organensis. Os genes deste grupo estão separados e identificados com cores diferentes nos subgrupos que foram identificados na filogenia da Figura 8.

32

5. CAPÍTULO II Identificação dos genes de classe B da família MADS-box em Passiflora organensis

Resumo Os mecanismos moleculares que deram origem às flores, principal órgão das angiospermas, ainda não são bem conhecidos. Entretanto, sabe-se que alguns membros da família gênica MADS-box desempenham papeis fundamentais nos processos de desenvolvimento floral, atuando principalmente na determinação e na identidade dos órgãos florais. Diversos estudos relacionados à evolução dos genes MADS-box em plantas deixam clara a presença de uma quantidade considerável de eventos de duplicação, seguidos de divergência de funções em membros dessa família, principalmente entre os genes do modelo ABC. De acordo com a literatura, algumas dessas duplicações que afetaram principalmente genes de classe B deste modelo contribuíram para a diversificação da morfologia floral das angiospermas. Neste capítulo foram analisados os genes de P.organensis da linhagem de tipo II do subgrupo B, o qual apresentou mais eventos de expansão. Foram encontrados oito genes pertencentes à esse subgrupo, sendo três parálogos AP3, dois parálogos de PI, um parálogo de GOA, um de TT16 e um parálogos de TM6.

Abstract The molecular mechanisms that gave rise to flowers, which are the main organs of angiosperms, are still not well known, but there is no doubt that some members of the MADS-box gene family play key roles in floral development processes. Members of the MADS-box family encode transcription factors that are important for several developmental processes, including the floral arrangement of angiosperms. Several studies related to the evolution of MADS-box genes have uncovered the presence of a considerable amount of duplication events, followed by divergence of functions in members of this family, especially among the genes of the ABC model. According to the literature, some of these duplications that mainly affected class B genes of this model contributed to the diversification of floral morphology of angiosperms. This chapter seeks to analyze in more detail the B class genes of the family MADS-box in P.organensis and to suggest possible implications for the floral structure of this group. Were analyzed the genes of type II lineage of subgroup B in P.organensis, once this gene class presented more expansion 33

events. Eight genes belonging to this subgroup were found, with three AP3 paralogs, two PI paralogs, one GOA paralog, one TT16, and one TM6 paralog.

Introdução Devido ao fato de cada tipo de polinizador possuir diferentes morfologias, habitats, necessidades nutricionais e sistemas sensoriais, houve uma pressão seletiva para que as plantas desenvolvessem características que de alguma forma fossem capazes de atraí-los, garantindo maiores chances de reprodução (Hermann e Kuhlemeier 2011). Dessa forma, as características florais, principalmente aquelas relacionadas a morfologia do perianto, podem ser consideradas adaptações para ‘manipular’ o processo de polinização (Fenster et al. 2004). Como estabelecido pelo modelo ABC, os órgãos que compõem o perianto (sépalas e pétalas) são formados a partir da atividade de genes de três classes do modelo ABCDE clássico, sendo elas as classes A, B e E. As sépalas são resultado da expressão de genes A+E, enquanto que as pétalas são produto da atividade de genes A+E+B (Theißen e Saedler 2001). Análises filogenéticas mostram que genes da função A foram os últimos integrantes do modelo ABC a surgir e provavelmente evoluíram a partir de genes de classe E (a mais antiga das cinco classes). A função desses genes é produzir pétalas, logo apenas as angiospermas possuem genes de classe A. Sendo assim, por serem muito recentes em termos evolutivos, eles fazem parte da classe com função menos conservada (Litt 2007; Pabõn-Mora et al. 2013; McCarthy et al. 2015). Os genes de classe B, por sua vez, são mais antigos que os de classe A, também sendo encontrados em gimnospermas (Theißen e Becker 2004; Lovisetto et al. 2018; Winter et al. 2018), sendo que nas angiospermas eles participam do desenvolvimento dos estames e das pétalas. Nas últimas décadas, diversos estudos mostraram que a grande diversidade de morfologias do perianto, como o das orquídeas e espécies da ordem , está relacionada com a atividade de genes de classe B e suas duplicações (Tsai et al. 2005; Bartlett e Specht 2010; Cantone et al. 2011; Chen et al. 2017b). Dado que as flores de Passiflora apresentam morfologia bastante distinta com características exclusivas do grupo que a princípio não são explicadas pelo modelo ABC clássico, além do registro de que em outros grupos com morfologias florais distintas parte dessa diversificação se deve a duplicações de genes de classe B da família MADS-box (Gioppato e Dornelas 2018), este capítulo está voltado para a análise e caracterização mais detalhadas dos genes MADS-box de classe B já identificados previamente no capítulo anterior.

34

Objetivos Identificar e caracterizar os genes MADS-box de classe B ortólogos em P.organensis e, a partir disso avaliar possíveis eventos de expansão e/ou retração da classe gênica e como tais eventos afetam a morfologia floral.

Materiais e métodos Material genômico Nosso grupo obteve recentemente o sequenciamento completo do genoma de três genótipos de Passiflora organensis (Dornelas et al. publicação em preparação). Um genoma consensual para a espécie, com cobertura de pelo menos 80x/base está em fase de anotação, mas já disponível para busca de sequências por similaridade, com o uso do algoritmo BLAST (Altschul et al. 1997; Proost et al. 2009; Van Bel et al. 2012). Os membros da família MADS- box foram obtidos através de uma abordagem já utilizada anteriormente pelo nosso grupo (Dornelas e Rodriguez 2001; Dornelas et al. 2007) através da utilização de bait-sequences e Markov-Montecarlo Chain search, com o uso do consenso da região conservada de reconhecimento de DNA das proteínas MADS, gerada pelo programa COBBLER (Consensus Biasing By Locally Embedding Residues, http://blocks.fhcrc.org/blocks/cobbler.html) com a utilização do Phytozome v. 9.1 (Goodstein et al. 2012) e PLAZA (Van Bel et al. 2012) para a obtenção das sequências conservadas. As sequências proteicas dos genes MADS-box encontrados no genoma de P.organensis, juntamente com as sequências proteicas dos MADS de Arabidopsis thaliana foram alinhadas com o uso do software Clustal X, com uma matriz de penalidades BLOSUM, gap opening cost = 10 e extended gap cost = 0.1. A árvore filogenética foi construída pelo método de agrupamento dos vizinhos – Neighbor-Joing method (Nei e Saitou 1987) utilizando o software MEGA 7 (Kumar et al. 2016). Valores de bootstrap>80% (1000 reamostragens) foram apresentados nos ramos da árvore filogenética.

Identificação dos genes de classe B da família MADS-box em Passiflora organensis A partir da predição total dos genes de P.organensis que foi feita através do uso do banco de dados de sequenciamento do genoma dessa espécie (dados ainda não publicados, Prof. Dr. Marcelo Dornelas, IB/UNICAMP) e do software AUGUSTUS (versão 3.2.3, Keller, Kollmar, Stanke, & Waack, 2011) para as três bibliotecas existentes, seguida pela predição de todos os possíveis genes ortólogos da família MADS-box dentro de cada biblioteca através do uso do algoritmo BLASTp (Altschul et al. 1997) utilizando-se como sequências isca as 35

sequências proteicas de A.thaliana, foi possível avaliar cada um dos candidatos através de um BLASTp feito no National Center for Biotechnology Information (https://blast.ncbi.nlm.nih.gov/Blast.cgi) a fim de identificar apenas os genes MADS-box de classe B dentro do genoma de P.organensis. Após a identificação das sequências corretas, o software BioEdit foi utilizado para a busca dos genes candidatos dentro de cada contig indicado nos resultados das análises anteriores. A partir de um arquivo de texto gerado para as sequências de DNA com tradução dos quadros abertos de leitura, foi possível identificar e caracterizar a estrutura de cada gene estudado. A confirmação da identidade dos genes de P.organensis foi obtida através de uma análise filogenética em que as sequências proteicas resultantes dos genes que foram previamente identificados, foram alinhadas e com as sequências proteicas dos genes da família MADS-box de A.thaliana. A filogenia foi construída pelo método de agrupamento dos vizinhos – Neighbor-Joing method (Nei e Saitou 1987) utilizando o software MEGA 7 (Kumar et al. 2016). Valores de bootstrap>80% (1000 reamostragens) foram apresentados nos ramos da árvore filogenética.

Caracterização estrutural dos genes de classe B da família MADS-box de Passiflora organensis A caracterização estrutural dos genes MADS-box de classe B foi feita a partir de uma busca pela sequência proteica dentro do arquivo de texto com a tradução dos quadros abertos de leitura gerado para cada uma das sequências de DNA correspondentes, seguida pelo estabelecimento das fronteiras entre éxons e íntrons feito de forma manual através dos resultados obtidos inicialmente pelo software Augustus. A confirmação dessas fronteiras pré- estabelecidas foi feita de forma manual e posteriormente foram checadas de forma preditiva pelo servidor NetGene2Server (DTU Bioinformatics). O resultado dessa caracterização é um arquivo que contém as informações sobre a sequência, estrutura e tamanho de cada gene. A partir desses dados, a estrutura gênica pôde ser representada de forma ilustrativa com a utilização do software GSDS 2.0 Gene Structure Display Gene (Hu et al. 2015).

36

Resultados e Discussão Filogenia e alinhamentos dos genes de classe B da família MADS-box em Passiflora organensis Em A.thaliana existem quatro genes que pertencem à essa classe, sendo PISTILLATA (PI) e APETALA3 (AP3) os principais e GORDITA (GOA) e TRANSPARENT TESTA 16 (TT16), estes dois últimos chamados de B-sisters (Becker et al. 2001). A duplicação que deu origem aos genes B e B-sisters ancestrais ocorreu após a divergência das pteridófitas (~400 milhões de anos) e antes da separação de gimnospermas e angiospermas (~300 milhões de anos), uma vez que essas linhagens são encontradas em gimnospermas e angiospermas, mas não nas pteridófitas (Goremykin et al. 1997; Mnster et al. 1997; Becker et al. 2000; Theissen et al. 2000). Posteriormente, cada uma dessas duas linhagens sofreu outros eventos de duplicação, sendo que o evento que deu origem às linhagens PISTILLATA e APETALA3 aconteceu nas angiospermas, antes da divisão desse grupo em monocotiledôneas e eudicotiledôneas (Kramer et al. 1998). Ainda mais recentemente, mais especificamente antes da divergência das eudicotiledôneas, a linhagem APETALLA3 passou por mais um evento de duplicação, o qual deu origem a uma nova linhagem gênica, a TM6 (TOMATO MADS-box 6). Essa linhagem foi identificada durante estudos em membros da família Solanaceae, sendo que essa duplicação não foi mantida em A.thaliana (Drinnan et al. 1994; Kramer et al. 1998; Kramer e Irish 2000). Por esse motivo, foi incluída a sequência do gene TM6 (ou TDR6) de tomate (Solanum lycopersicum) durante as análises e discussão. A identificação dos homólogos putativos dos genes MADS-box em P.organensis, revelou a existência de oito membros pertencentes à classe B (Figura 11). De acordo com os resultados de similaridade expressos pelo algoritmo BLAST, com as suas posições nas árvores filogenéticas e bem como pela presença de domínios conservados (considerados assinaturas moleculares de cada grupo; Parenicova, 2003), estes possíveis ortólogos foram denominados: PoAP3.1, PoAP3.2, PoAP3.3, PoPisi e PoPIci; PoTT16 e PoGOA, PoTM6. A partir da filogenia, é possível afirmar que em P.organensis as linhagens PISTILLATA e APETALA3 foram duplicadas e que, diferente de A.thaliana, a linhagem TM6 não foi perdida em P.organensis. A fim de facilitar a compreensão, os eventos de duplicação serão analisados e discutidos de forma independente para cada uma das duas linhagens.

37

Figura 11 : Filogenia de todos os genes MADS-box de classe B de Passiflora organensis, juntamente com os genes MADS-box de classe B de Arabidopsis thaliana e o gene TM6 de Solanum lycopersicum. A filogenia foi obtida através do método do vizinho mais próximo (Neighbor-Joining).

Linhagem APETALA3 Na literatura é possível encontrar diversos exemplos de duplicações gênicas seguidas de divergência, inclusive em membros da família MADS-box, as quais geralmente são relacionadas a inovações evolutivas que geralmente afetam a morfologia floral (Tsai et al. 2004; Jaramillo e Kramer 2007; Viaene et al. 2009; Bartlett e Specht 2010; Cantone et al. 2011; Pan et al. 2011; Roque et al. 2013; Sharma e Kramer 2013). Um exemplo clássico são as orquídeas, que apresentam um perianto diferenciado e exclusivo do grupo. Diferente de outras espécies, que possuem um conjunto homogêneo de órgãos no perianto, as orquídeas apresentam três tipos distintos de órgãos: tépalas externas, tépalas laterais internas (ambas coloridas, características comuns de pétalas), e uma única tépala modificada chamada de labelo. Essas características, sobretudo a presença do labelo, podem ter contribuído para a especialização de diferentes tipos de polinizadores (Dressler 1993; Rudall e Bateman 2002; Cozzolino e Widmer 2005). Diversos estudos indicam que a morfologia diferenciada do perianto das orquídeas é resultado da atividade de quatro genes AP3, produtos de duplicações seguidas de alterações nas 38

suas regiões codificadoras (Tsai et al. 2004, 2005; Kim et al. 2007; Mondragón-Palomino e Theißen 2008; Chang et al. 2010; Xu et al. 2010). Contudo, A.thaliana que é a planta modelo melhor caracterizada até hoje, possui a morfologia floral clássica e em seu genoma existe apenas um gene AP3. Ao comparar a quantidade e as relações filogenéticas do genes de classe B de A.thaliana com P.organensis, mais especificamente do gene AP3, foram encontrados em P.organensis três parálogos AP3, chamados de PoAP3.1, PoAP3.2, PoAP3.3, respectivamente.

Figura 12: Filogenia dos genes MADS-box de classe B, com enfoque nos ramos que incluem os parálogos AP3 em P.organensis.

De acordo com os alinhamentos das sequências dos três parálogos de P.organensis com o AP3 de A.thaliana (Figuras 12 e 14), o gene PoAP3.1 é o que possui mais mutações acumuladas. Além disso, os parálogos PoAP3.2 e PoAP3.3 possuem sequências proteicas idênticas, com a sequência genômica divergindo em apenas 6 nucleotídeos não adjacentes (Figura 15). Existem algumas possibilidades para explicar a origem desses genes. Uma delas seria a ocorrência dois eventos de duplicação, o que faria com que um único gene passasse a ter quatro cópias, sendo que um deles foi perdido ao longo da evolução (Figura 13a). Esses eventos de duplicação, por sua vez poderiam ser duplicações totais do genoma, ou isoladas. Neste caso, o mais provável é que as duplicações tenham sido isoladas, uma vez que outros grupos de genes MADS-box não apresentam tantos parálogos. Uma outra possibilidade seria a ocorrência de dois eventos de duplicação isoladas, sendo que o segundo tenha ocorrido apenas em uma das duas cópias, dando origem aos três parálogos resultantes, sendo que a cópia que não duplicou teria acumulado mais mutações (Figura 13b). 39

Entre os dois possíveis cenários propostos acima, o mais provável de ter acontecido é o cenário ‘b’ (Figura 13b), pois de acordo com a filogenia a duplicação da segunda cópia que deu origem aos PoAP3.2 e PoAP3.3 parece ser bem recente, uma vez que os comprimentos de ramo estão de acordo com o número de mudanças entre as sequências e que entre essas duas sequências, não há praticamente nenhuma diferença (Figura 15). Caso houvesse uma duplicação também na outra cópia, para não ser possível encontrar as duas sequências resultantes, uma delas teria que ter acumulado mutações suficientes para perder a característica de gene, já que mesmo com o acúmulo de mutações fazendo com que um gene deixe de ser funcional, sua sequência ainda seria encontrada no genoma. Para que um gene perca sua identidade, o número de mutações acumuladas deve ser muito alto, o que leva muito tempo se considerarmos que este acúmulo ocorre de forma neutra (imagina-se que não há pressão de seleção negativa para perda de um desses genes, pois as outras duas cópias ainda podem ser encontradas, sugerindo que, neste caso, o aumento de cópias não seja selecionado negativamente). Sendo assim, para que o cenário da hipótese ‘a’ faça sentido, a duplicação que deu origem à cópia PoAP3.1 teria que ter acontecido há muito tempo. Contudo, dado que a duplicação que deu origem às cópias PoAP3.2 e PoAP3.3 é recente e aparentemente próxima à cópia PoAP3.1, a hipótese do cenário ‘b’ é a mais plausível.

a b GENE 1.1’ GENE 1.1’ GENE 1’ GENE 1’ GENE 1.2’ GENE 1.2’

GENE 1 GENE 1 GENE 1.1”

GENE 1” GENE 1“ GENE 1” GENE 1.2”

Figura 13: Representação esquemática das duas possíveis origens dos parálogos AP3 em P.organensis. Os triângulos vermelhos representam eventos de duplicação; tracejado preto representa linhagem perdida.

Sendo assim, e considerando que as flores de P.organensis possuem estruturas particulares no seu perianto (os filamentos da corona), é possível supor que essas duplicações de AP3 identificadas em seu genoma tenham relação com a presença dos filamentos da corona característicos de espécies do gênero Passiflora. Contudo, ainda são necessárias outras análises para averiguar essa suposição, uma vez que já está muito bem descrito na literatura que os genes da família MADS-box só apresentam função biológica quando suas proteínas interagem entre si formando complexos proteicos (Theißen e Saedler 2001; Theißen et al. 2016). 40

Figura 14: Alinhamento das sequências proteicas dos parálogos PoAP3.2 e PoAP3.3 de P.organensis com a sequência do gene AP3 de A.thaliana. A sequência de A.thaliana esta destacada em negrito e os aminoácidos destacados envermelho das demais sequências correspondem às alterações em relação à A.thaliana. A última linha chamada de “Clustal Co” indica o grau de conservação dos resíduos através de três símbolos: “*”, “:” e ‘.’, sendo que “*” indica 100% de conservação entre os resíduos; “:” indica trocas com um grau alto de conservação (STA, NEQK, NHQK, NDEQ, QHRK, MILV, MILF, HY, FYW); “.” indica trocas pouco conservadas (CSA, ATV, SAG, STNK, STPA, SGND, SNDEQK, NDEQHK, NEQHRK, FVLIM, HFY). Além disso, espaços vazios na linha “Clustal Co” indicam que não há conservação entre os resíduos.

41

Figura 15: Alinhamento das sequências genômicas dos parálogos PoAP3.2 e PoAP3.3 de P.organensis. Os trechos grifados em amarelo e verde representam os éxons de PoAP3.2 e PoAP3.3, respectivamente. Grifado em azul, estão destacadas as posições dos nucleotídeos conservados dentro das regiões codificadoras. Os nucleotídeos em roxo representam as diferenças entre as sequências nas regiões não codificadoras.

Linhagem PISTILLATA Assim como as orquídeas que possuem morfologia floral diferente do previsto pelo modelo clássico, algumas espécies da família Zingiberaceae apresentam estames petaloides, os quais são importantes na interação das flores e seus polinizadores (Sakai et al. 2013). Estudos mostraram que essas estruturas são decorrentes de uma duplicação seguida de divergência entre os membros da linhagem de PISTILLATA (Bartlett e Specht 2010). 42

As análises comparativas relativas a quantidade e às relações filogenéticas do genes de classe B de A.thaliana com P.organensis, agora especificamente do gene PI, revelaram que diferentemente de A.thaliana que possui apenas um gene PI, em P.organensis existem dois parálogos, PoPIsi e PoPIci, provavelmente produtos de um evento único de duplicação. Estes genes foram nomeados dessa forma de acordo com suas estruturas genômicas que serão apresentadas posteriormente neste capítulo. Também diferente de A.thaliana, as flores de P.organensis possuem estruturas bastante distintas tanto no perianto quanto nos estames. Com base nessas informações e nos dados encontrados na literatura relacionando duplicações de genes desta linhagem com inovações morfológicas no perianto e nos estames, é possível especular uma possível relação entre esses dois parálogos e a presença dos filamentos da corona e do androginóforo nas flores de P.organensis.

Linhagem TM6 Como já citado anteriormente a maioria das eudicotiledôneas, com exceção de Arabidopsis e Antirrhinum (as duas principais plantas modelo para estudos de genética e desenvolvimento), possui dois parálogos resultantes de um evento de duplicação na linhagem AP3 (há ~92 milhões de anos), chamados de euAP3 e TM6 (Hernández-Hernández et al. 2007; Theißen et al. 2016). A principal diferença entre as proteínas produzidas pelos dois parálogos se encontra no em seus domínios C-terminais, sendo que a proteína do gene TM6 apresenta um motif paleoAP3 que também é encontrado nas monocotiledôneas, angiospermas basais e eudicotiledoneas basais, enquanto que a linhagem AP3 possui um motif euAP3 que só está presente no núcleo eudicotiledoneas. Assim como a maioria das eudicotiledoneas, P.organensis possui um membro da linhagem TM6, que foi chamado de PoTM6 (Figura11). O papel da linhagem TM6 dos MADS- box da classe B não é bem compreendido, uma vez que esta linhagem está ausente em A.thaliana. Contudo, em outras linhagens onde o TM6 não foi perdido, como é o caso do tomate (Solanum lycopersicum) e da petúnia (Petunia hybrida), a função que em A.thaliana está concentrada em AP3, sufreu uma subfuncionalização, passando a dividir funções com o gene TM6 (Drinnan et al. 1994; Kramer et al. 1998; Kramer e Irish 2000; Kim et al. 2004; Vandenbussche 2004; de Martino 2006; Rijpkema et al. 2006; Broholm et al. 2010). Sendo assim, a maior parte dos estudos relacionados a essa linhagem foram conduzidos nessas duas espécies. 43

Diferente dos genes PISTILLATA e APETALA3, o gene TM6 é expresso de forma mais ampla, de forma que sua proteína também é detectada em carpelos e óvulos, além do padrão comum nos estames e nas pétalas (Vandenbussche et al. 2004; de Martino 2006). Além disso, o padrão de expressão desse gene difere entre tomate e petúnia (de Martino 2006; Rijpkema et al. 2006).

Linhagem B-sister De acordo com análises filogenéticas envolvendo toda a família de genes MADS-box, a classe B apresenta diversos eventos de duplicação em sua história evolutiva, sendo que o primeiro deles provavelmente deu origem à duas linhagens chamadas de B e B-sister, (Purugganan 1997; Kramer et al. 1998; Irish 1999; Theissen et al. 2000; Becker et al. 2001; Nesi et al. 2002; Lamb e Irish 2003; Stellari et al. 2004; Zahn et al. 2005; De Folter et al. 2006; Hernández-Hernández et al. 2007; Yamada et al. 2009). Os genes da linhagem B, originalmente o APETALA3 (AP3) e o PISTILLATA (PI), geralmente são expressos nas pétalas e nos estames das flores de angiospermas, enquanto que os genes da linhagem B-sister, que em A.thaliana são os genes TRANSPARENT TESTA 16 (TT16) e GORDITA (GOA), são expressos exclusivamente nos órgãos femininos das flores, principalmente nos óvulos (Theißen et al. 1996; Theissen et al. 2000; Becker et al. 2001; De Folter et al. 2006). Ambas as proteínas apresentam um motif conservado no domínio C-terminal (Becker et al. 2001) No genoma de P. organensis também foram encontrados ortólogos putativos dos genes GORDITA (GOA, ou AGL-63, Prasad et al., 2010), e TRANSPARENT TESTA 16 (TT16) (Deng et al. 2012), os quais foram chamados de PoGOA e PoTT16, respectivamente. Em A.thaliana, o gene TT16 é geralmente expresso predominantemente nos órgãos reprodutivos femininos, mais especificamente na região interna do tegumento dos óvulos. Além disso, já foi identificado que a proteína codificada por esse gene é necessária para o desenvolvimento correto dos tegumentos das sementes, além da pigmentação dos mesmos (Nesi et al. 2002). Já o gene GOA, identificado como um parálogo recente de TT16, em A.thaliana contribui para o desenvolvimento inicial do tegumento externo dos óvulos e também parece ter grande importância no desenvolvimento do fruto (Erdmann et al. 2010; Prasad e Ambrose 2010; Prasad et al. 2010). Considerando o fato de GOA ser realmente um parálogo de TT16, as diferentes funções podem ser explicadas por alterações na região codificadora de GOA, o qual adquiriu uma nova função, levando a diferentes interações proteicas e a um novo padrão de 44

expressão em frutos, enquanto que TT16 manteve a função ancestral atuando nas sementes (Nesi et al. 2002; Erdmann et al. 2010). Dado que as sementes dos frutos de Passiflora geralmente são pigmentadas e possuem tegumento externo bastante lignificado, existe uma grande possibilidade dos genes PoTT16 e PoGOA estarem envolvidos com o desenvolvimento das sementes e também dos frutos. Contudo, ainda são necessárias outras análises com esses tecidos, especificamente, para averiguar qualquer tipo de expressão. A partir destes resultados, é possível concluir que houve uma expansão da classe B dos genes MADS-box em P.organensis nas duas principais linhagens (AP3 e PI), o que é produto de uma série de eventos de duplicação. Isso faz com que P.organensis apresente o dobro de membros da classe B quando comparada com A.thaliana (Bowman et al. 1991; Coen e Meyerowitz 1991; Arris et al. 2004). Se essa expansão da classe B contribui de alguma forma para a morfologia floral distinta encontrada entre as espécies de Passiflora é uma hipótese que ainda deve ser testada, pois com os resultados obtidos até o momento, não é possível afirmar se todas essas cópias são funcionais do ponto de vista biológico, ou se a redundância que podem representar será eliminada ao logo da evolução, seja por acumulo de mutações deletérias levando à seleção negativa, ou pelo surgimento de novas funções (processos de sub ou neofuncionalização).

Estrutura gênica dos genes de classe B de Passiflora organensis Os resultados da caracterização estrutural em éxons e íntrons das sequências genômicas dos genes de classe B de P.organensis revelaram que além do grupo ter sofrido uma expansão considerável, ainda existem algumas particularidades relevantes desses genes MADS-box de classe B de P.organensis. Para facilitar a compreensão, cada grupo de ortólogos será abordado de forma independente a seguir.

Figura 16: Estruturas gênicas de genes de classe B. As porções coloridas representam os éxons e os traços representa m os íntrons. Em vermelho estão representados os genes de A.thaliana, em azul os de P.organensis, e em verde está o gene TM6 de Solanum lycopersicum. 45

PoAP3.1, PoAP3.2, PoAP3.3 As análises estruturais mostraram que dentre os três parálogos, PoAP3.1 é o único que assim como o gene AP3 de A.thaliana (AtAP3) possui sete éxons, sendo que o último, quando comparado com AtAP3, é bastante reduzido, tendo aproximadamente metade do tamanho do seu ortólogo em A.thaliana. Contudo, graças à um quarto íntron maior, sua extensão genômica é bastante similar ao AtAP3 como ilustrado nas Figuras 16 e 17. Já os genes PoAP3.2 e PoAP3.3 apresentam estruturas gênicas idênticas entre si, porém bastante distintas das de PoAP3.1 e AtAP3. Estes parálogos possuem apenas seis éxons, um a menos do que PoAP3.1 e AtAP3, e ambos têm menos de 1500 pares de base, valor este que apresenta aproximadamente 1000 pares de base a menos do que PoAP3.1 e AtAP3.

Figura 17 : Estruturas gênicas de genes AP3 em escala. As porções coloridas representam os éxons e os traços representam os íntrons. Em vermelho está representado o gene de A.thaliana, em azul os de P.organensis .

A partir dessas informações, a hipótese de que PoAP3.1 é o parálogo mais divergente dentre os três presentes em P.organensis é mais uma vez corroborada, já que tanto sua sequência quanto sua estrutura gênica são as que mais se assemelham ao gene AP3 de A.thaliana. Contudo, o que essas informações significam em termos biológicos ainda não é passível de afirmação, uma vez que mais testes devem ser conduzidos a fim de avaliar as funções e interações proteicas de cada um deles.

PoPIci e PoPIsi As análises da estrutura gênica dos dois ortólogos putativos de PI mostraram que um deles, PoPIci, possui um padrão de éxons e íntrons similar ao recorrente entre os genes MADS- box do grupo II ao qual eles pertencem, com apenas um éxon a mais do que o PI de A.thaliana (AtPI) e algumas variações no tamanho tanto dos éxons quanto dos íntrons (Figura 18). O gene PI de A.thaliana possui os primeiros éxon e íntron maiores do que os de P.organensis, enquanto que os segundo e último íntrons de P.organensis são mais extensos. Já o parálogo do gene PoPIci, identificado como PoPIsi, não possui nenhum íntron. Sua estrutura genômica é composta por um único éxon, como ilustrado na figura (Figura 18). 46

Dessa forma, surgiram as denominações “ci”, que significa “com íntrons”, e “si”, referente a “sem íntrons”. Uma vez que genes da família MADS-box tipo II sem íntrons nunca foram reportados na literatura, considerou-se a possibilidade de que essa observação fosse um artefato gerado pelos programas de montagem da sequência do genoma de P. organensis. A averiguação dessa hipótese será apresentada de forma detalhada no Capítulo III.

Figura 18: Estruturas gênicas de genes PI. As porções coloridas representam os éxons e os traços representam os íntrons. Em vermelho está representado o gene de A.thaliana, em azul os de P.organensis.

Entretanto, do ponto de vista biológico, e considerando que ambas as cópias existam e sejam funcionais, é possível especular funções e interações desses genes, assim como estabelecer relações com a morfologia floral de espécies do gênero Passiflora. Uma vez que as proteínas produtos dos genes MDAS-box de tipo II atuam em complexos multiméricos, e que P.organensis possui o dobro de genes de classe B quando comparada com A.thaliana, pode-se supor que, sendo funcionais, as proteínas dos parálogos PoPIci e PoPIsi atuem em conjunto com os três parálogos de AP3 e com o parálogos de TM6. Essa maior rede de interações proteicas pode ter relação com o desenvolvimento de estruturas distintas, como os filamentos da corona.

PoTT16 Assim como em A.thaliana, P.organensis possui apenas um gene TT16, o qual apresenta estrutura genômica semelhante ao gene TT16 de A.thaliana, tendo o mesmo número de íntrons e éxons, com tamanhos relativamente similares (Figura 19). Já é bem estabelecido que em genes MADS-box do grupo II (MIKC) é comum a presença de um primeiro íntron mais extenso, e de acordo com a literatura, é provável que esse primeiro íntron contenha sequências regulatórias (Kaufmann et al. 2010). Análises futuras poderão corroborar esta hipótese.

47

Figura 19 : Estruturas gênicas de genes TT16. As porções coloridas representam os éxons e os traços representam os íntrons. Em vermelho está representado o gene de A.thaliana, em azul o de

P.organensis.

PoGOA Em P.organensis foi encontrado apenas um gene GOA, assim como em A.thaliana. O gene PoGOA apresenta estrutura genômica semelhante ao gene de A.thaliana, tendo um éxon a mais. Em relação a extensão dessas regiões gênicas, o primeiro íntron e o último éxon de PoGOA são maiores dos que os de A.thaliana. Os demais éxons e íntrons apresentam tamanhos relativamente similares com os de A.thaliana (Figura 20). Como citado anteriormente, já é bem estabelecido que em genes MADS-box do grupo II (MIKC) é comum a presença de um primeiro íntron mais extenso, e de acordo com a literatura, é provável que esse primeiro íntron contenha sequências regulatórias, hipótese que será verificada futuramente (Kaufmann et al. 2010).

Figura 20: Estruturas gênicas de genes GOA. As porções coloridas representam os éxons e os traços representam os íntrons. Em vermelho está representado o gene de A.thaliana, em azul o de P.organensis .

PoTM6 A comparação entre as estruturas genômicas do gene TM6 de Solanum lycopersicum e de P.organensis mostra que em termos de número e tamanho de éxons estrutura genômica de PoTM6 é conservada, além de também possuir íntrons em posições conservadas para os genes MADS-box do tipo II (FIG). Contudo, o gene TM6 de tomate possui o quarto íntron com quase 2000 pares de base (pb) enquanto que em P.organensis esse íntron possui um pouco menos do que 1000pb. Assim como nos casos de PoAP3, PoTT16 e PoGOA, análises futuras das sequências dos íntrons de PoTM6 permitirão determinar a presença potencial de sequências regulatórias nessas regiões gênicas.

48

Figura 21: Estruturas gênicas de genes TT16. As porções coloridas representam os éxons e os traços representam os íntrons. Em verde está representado o gene de Solanum lycopersicum, em azul o de P.organensis .

49

6. CAPÍTULO III Validação do gene PoPIsi em Passiflora organensis

Resumo Como descrito nos capítulos anteriores, foi identificada a presença de diversas expansões de subgrupos da família MADS-box, sendo um deles os genes de classe B, do modelo ABC. Foram propostas algumas explicações para a origem das novas cópias, contudo, um dos genes, PoPIsi, por apresentar uma estrutura gênica muito divergente do previsto para esta classe de genes, não teve sua possível origem discutida, uma vez que a sua existência no genoma de P.organensis ainda deveria ser averiguada. Este capítulo apresenta uma análise particular deste gene, a fim de confirmar ou não a existência de PoPIsi e, uma vez confirmada, propor explicações para a sua provável origem.

Abstract As described in the previous chapters, several expansions of subgroups of the MADS-box family were identified, being that one of them is the B-class genes from the ABC model. Some explanations for the origin of the new copies were proposed. However, one of the genes, PoPIsi, presented a gene structure very divergent from that predicted for this class of genes, did not have its possible origins discussed since its existence in the genome of P.organensis should still be confirmed. This chapter presents an analysis of this gene particularly, in order to confirm or not the existence of PoPIsi and, once confirmed, to propose explanations for its probable origin.

Introdução A morfologia de um organismo pode ser modificada a partir de uma alteração do padrão de expressão de genes-chave que regulam o desenvolvimento, seja por mudanças nas regiões regulatórias ou pela duplicação de genes-chave (Lynch 2000; Long 2001; Soltis et al. 2007; Ren et al. 2018). Atualmente sabe-se que as duplicações gênicas são uma das maiores fontes de variabilidade genética (Coneryz 2000; Bowers et al. 2003; Jaillon et al. 2007). Genes duplicados, por sua vez, podem ser resultado de dois processos distintos: duplicação total do genoma (poliploidização) (Whole Genome Duplication, WGD) ou duplicações gênicas de regiões específicas do genoma (Small-scale genome duplication, SSD) (duplicação segmentada ou in tandem; ou por transposição) (Lynch; Coneryz 2000). Geralmente, depois de duplicados, 50

a maioria das cópias gênicas resultantes acumulam mutações deletérias com o tempo levando- as a perda de função ou ao seu silenciamento (Nei e Roychoudhury 1973; Coneryz 2000). Essas sequências não funcionais ainda podem ser encontradas com as características de um gene no genoma de um indivíduo, contudo apenas estudos mais detalhados podem revelar a sua funcionalidade ou não. Para que uma sequência não apresente mais as características de uma sequência gênica, é necessário que se decorra um tempo relativamente longo em escala evolutiva. Entretanto, existe a possibilidade de algumas cópias serem mantidas, o que em termos genéticos significa mais espaço e material disponíveis para que novas funções surjam sem que a função “ancestral” seja perdida, originando novos genes (Des Marais e Rausher 2008). Análises de famílias gênicas como a dos fatores de transcrição MADS-box, indicam que em plantas houveram diversos eventos de duplicação ao longo da história evolutiva do grupo, e além disso sugerem que as duplicações e a divergência desses genes que afetam o desenvolvimento foram cruciais para a irradiação e o sucesso das angiospermas (Bodt et al. 2005; Maere et al. 2005; Zahn et al. 2005; Veron et al. 2007; Van De Peer et al. 2009). Como descrito nos capítulos anteriores, os genes da família MADS-box, em plantas passaram por diversos eventos de duplicação ao longo da evolução e por isso são bastante numerosos nesses organismos. Nas angiospermas esses genes participam do processo de desenvolvimento floral e podem ser divididos em dois grandes clados: MADS-box de tipo I e de tipo II (Parenicova 2003). Esses dois clados apresentam diferenças evidentes na estrutura e na extensão gênica de seus membros, sendo que os MADS-box de tipo I são menores e possuem poucos ou nenhum íntron, enquanto que os MADS-box de tipo II são bem mais extensos e apresentam muitos íntrons (Parenicova 2003). Em Passiflora organensis, contudo, foi identificada a presença de um gene MADS-box de tipo II que não apresenta nenhum íntron em sua estrutura, o gene PISTILLATA sem íntrons (PoPIsi) que pertence à classe B do modelo molecular ABCDE. Como não há registro de um gene MADS-box de tipo II sem íntrons na literatura, considerou-se a possibilidade deste gene de P.organensis ser um artefato da técnica de montagem do genoma. Tendo isso em vista, este capítulo objetiva analisar o gene PoPIsi sob abordagens distintas a fim de validar ou não sua sequência e presença no genoma de P.organensis. Para isso serão empregadas análises do DNA genômico de P.organensis e de sintenia, uma vez que dados deste tipo de análise são vastamente usados para se estabelecer a ocorrência de poliploidias ancestrais, para a identificação de rearranjos cromossômicos, para avaliar a expansão e retração de famílias gênicas e para se 51

estabelecer ortologias (Sampedro et al. 2005; Tang et al. 2008; Dewey 2011; Jiao e Paterson 2014).

Objetivos Averiguar a presença do gene PoPIsi (PISTILATA sem íntrons) no genoma de Passiflora organensis e sugerir possíveis explicações para sua origem e as consequências no desenvolvimento vegetal, caso se comprove a existência do gene em questão.

Materiais e métodos A fim de avaliar a probabilidade do gene PoPIsi ser apenas um artefato da montagem do genoma ou se de fato ele existe em P.organensis, foi feita uma PCR convencional utilizando- se como material para análise o DNA genômico que foi extraído de plantas de P.organensis as quais foram cultivadas in vitro e aclimatadas em casa de vegetação (estas com seu genoma sequenciado) as quais foram chamadas de ‘S’, e também de plantas da mesma espécie encontradas no campo, cujas amostras foram chamadas de ‘F’. Para cada tipo de planta (S ou F) foram feitas três extrações independentes. Para poder analisar o material genômico extraído, foram desenhados quatro pares de primers cujos fragmentos correspondiam a diferentes regiões do gene PoPIsi, como ilustrado nas figuras 22 e 23. As sequências de cada primer, assim como os respectivos dados de qualidade podem ser encontradas na Figura 23. Além das análises de RT-PCR, as sequências proteicas e a região genômica em que cada uma delas (PoPIci e PoPIsi) se encontra também foram estudadas a fim de sugerir possíveis explicações para a origem de um gene MADS-box de tipo II sem nenhum íntron. Os alinhamentos, a identidade e a similaridade das sequências foram feitos na plataforma on-line The Sequence Manipulation Suite (Stothard 2000). Também foram feitas análises de sintenia a fim de verificar regiões genômicas conservadas ao redor de PoPIci e PoPIsi. Escolhemos Populus trichocarpa como espécie a ser comparada com P.organensis, pois de acordo com análises filogenéticas essas duas espécies são grupos próximos passíveis de comparação, além de que o genoma de P.trichocarpa já está anotado (Leseberg et al. 2006; Tuskan et al. 2006). Arabidopsis thaliana não foi incluída na análise, uma vez que de acordo com a literatura, genes do grupo B das espécies de Brassicaceae divergiram de forma diferente, não apresentando sintenia com as demais famílias botânicas (Zhao et al. 2017). 52

A partir da sequência do gene PISTILLATA de P.trichocarpa (PtPI), foi possível encontrar sua localização no genoma desta espécie através do recurso visualização gráfica disponível no portal da NCBI - National Center for Biotechnology Information (https://blast.ncbi.nlm.nih.gov/Blast.cgi), o que possibilitou a busca pelas sequências dos genes que flanqueiam PtPI, além da identificação da posição deles em relação ao PtPI e o sentido (5’→3’ ou 3’→5’) de cada um dos genes. Foram selecionados 16 genes, sendo 8 localizados a 3’ e 8 a 5’do PtPI, os quais foram nomeados com uma letra de ‘A’ à ‘O’ para efeitos práticos. As sequências proteicas de cada um desses genes foi usada como sequência isca num BLASTp executado no próprio terminal do computador e não na plataforma online, contra o genoma de P.organensis, o qual foi previamente transformado num banco proteico através de ferramentas disponibilizadas em: https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE =Download. Uma vez que os genes PoPIsi e PoPIci se encontram em regiões (também chamadas de contigs) distintas do genoma, os resultados do BLASTp foram interpretados de forma binária, ou seja, na lista de contigs gerada para cada gene ao redor de PtPI foi identificado se e em qual região do genoma de P.organensis a sequência isca de P.trichocarpa se encontrava. Os resultados do BLASTp ainda fornecem os alinhamentos com cada região do genoma, o que permitiu a identificação do sentido de cada gene, assim como sua posição em relação aos genes PoPIsi e PoPIci. A partir dessas informações, foi possível gerar uma figura que ilustra de forma simples se há ou não sintenia e qual o posicionamento aproximado de cada gene nos contigs de P.organensis.

53

CDS_PoPI – LIB15042: ATGGGAAGGGGCAAGGTTGAGATCAAGAGGATTGAAAACTCGACCAACAGGCAGGTGACTTACTCAAAGAGGAAAAATGGG ATCATCAAGAAAGCTCAGGAGATCACTACTTTGTGTGATGCCAAAGTTTTTCTATTGATGTTTGCCGGTTCTGGTAAGATG CATGAGTACTGCAGCCCTTCTACTACTCTGGACGATGTGTTGGACAAATATCAGAGGCAGTCAGGCAACAGATTGTGGGGT GCTGAGCATGAGAGCCTGAAGAACGAGATTGATAGAATCAAGAAAGAGAACGACACCATGAAGATTGAGCTCAGGCACCTG AAAGGGCAAGACCTCACATCTTTGTCCCACAGAGAGCTGATGACCATATCGGAAGCCCTTGAAAATGGCATCAACACTGTT CGTGAGAAACAGGTAGACTACTGCAGGATGATGGAGCAAAAGACTCAAGTTTTGGAGGACGAGTGCAAGCACCTCGGCTAC CTTCTGCACCAAGGAGATATGGCTATGGAAGTGGATGAAAAAAGTCAGATGGAGAGTGCCTATCATCAGGAGAGGCTGAGG GAGTACAACTCCCAGATGCCTTTTCCCTTCAGGTTGCAACCTATTCACCCCAATTTGCAGAATCAGATGTACTACTAG

Sequência genômica_PoPI – LIB15042: AAAAGAAGGTGGTACCAACACGGATTGAATTAAGTAAAGAAGGTTCGTGTTAGTTTAAGTATTTAATCAGGATTCAAACCC GAAAAGATATATTAATAGGAAGTTCATCGAAAGAGGAAATACTCGAGAAATCTAAAAAAAAAAAGGAAAAAGAAGAAGGTG GTCCTGATTTGGAGAACTGACTCATAAGTCTAATTGCCTCGAAAGACCAAACAATGTCCATGTACTTTCCAAGCCACAGCT AGATTTTCCTATCCAGGAAAATTTATCCCATTCATATTTTGGATTTTCCTTTTGTGCTGGCTTCTGTCAATGCAGCAAGAT CTGCAGCAATTTAATAGATACATCATATTTCTGTAGATGAAGTTATGACTTGAAGAATCTCTTCGCTATAGTACACAGATT GTCAAGTACAGAACAGGATAATGGCTTCATCTGCTAAATTTTCCTCTCATAATGTTACATGTGGGATCATCCACATTCATT GTTCTGCCATTAAAGAACTTCCTGTCCTGAACGTTCAATAAATATCCTTGGCAAGATGATTACACAGTTATGGAAGTCCTC TTTCTAACGGTTGAATTAAATCCTATGTTTCATACATGATCTTTCTCTGATAAGTACATAATTCCCTAACTAGGGAAGGGT TCAAGCAATGGCACATTATACCCACCCCACCTACTTGTGGTCCATGTTAAGGTGTATCCAATGAGATCCGCATCAGTTCAT CGCATTCTCATTAACGTTGCAAGAGACACAAACCATGCATTTCTATATAAACTGCTGATCTACAATACCCTTGAAACAGAC AAAACAGAAGAATAAAACCAACAAGTCAAGTTAATATATTTAACAATTATTGCTGCGGAATCGAGATCCGGAAAAGAGATT AATCTTGTTGTTGAAAAGGATGCTCATACTGCTTTTTGATGTTACTAGCTTATGCCATGCTAGTGGAAAAAATCATAACAA AGACAAATATCCATGCCTGTTGAACTCCTAACAATAGCATGTGTCTGTCGCTTTGTTGCATTAATTTCAGCTAACATGGTT GCATTTGAAGCACTGACATTGACTGATGAGGCTCAGAATGTAATTCCAGGACGGCCGGGGACCAAAGATATGATGAAGTTG TTTGGGTTTTGAAGAGCTCAACGTACATCTTTTCTTCTTGAGAATTAGGAAGGGGGAGAGGAAAGGGTTTCTTGTGTCGAG AGACAGAGATGGGAAGGGGCAAGGTTGAGATCAAGAGGATTGAAAACTCGACCAACAGGCAGGTGACTTACTCAAAGAGGA AAAATGGGATCATCAAGAAAGCTCAGGAGATCACTACTTTGTGTGATGCCAAAGTTTTTCTATTGATGTTTGCCGGTTCTG GTAAGATGCATGAGTACTGCAGCCCTTCTACTACTCTGGACGATGTGTTGGACAAATATCAGAGGCAGTCAGGCAACAGAT TGTGGGGTGCTGAGCATGAGAGCCTGAAGAACGAGATTGATAGAATCAAGAAAGAGAACGACACCATGAAGATTGAGCTCA GGCACCTGAAAGGGCAAGACCTCACATCTTTGTCCCACAGAGAGCTGATGACCATATCGGAAGCCCTTGAAAATGGCATCA ACACTGTTCGTGAGAAACAGGTAGACTACTGCAGGATGATGGAGCAAAAGACTCAAGTTTTGGAGGACGAGTGCAAGCACC TCGGCTACCTTCTGCACCAAGGAGATATGGCTATGGAAGTGGATGAAAAAAGTCAGATGGAGAGTGCCTATCATCAGGAGA GGCTGAGGGAGTACAACTCCCAGATGCCTTTTCCCTTCAGGTTGCAACCTATTCACCCCAATTTGCAGAATCAGATGTACT ACTAGTCATCATTTTTCATGTCAAAGACCCTCTACCCTAGCTTGCTTTATTCAATAAGTCTCTCAGTAAATCCAGGTTTTT GTTTTCTTCGACCTTGCTTCTCTGCAAGAAGAACAACAAACTCCTGACACTCCAGTTTGTACCATTATGTATTAATCTATC CACCATCCTTGAGTTTATGTCAGAATCCACTTCTCTTCACTATCATCTTTCTTATTCAATATAGTATTCTGTCCCATTACT CATCACAAAATTATTATGTAAAACAAGGATTCTTCTCAATAGAAAATTACTAAGGTTCGAATCTTAGAAATAATGAAAGTC CGGAAAAAAATTAATTTGTTACCGACAATAATTTTTATTATAAAATTGGCTTCTTCATCATTTATCAATTTTAATAAATAG TTGTGTTATATAATTATCTTTTTGGGAAAAAGACACAACATCAACATTGTTTGATAACAGAAGTCAAAAGTCAAACCAAAA TATAAGCCAAAAAAAAATAAAAAGCCAAACGAAGTCAACTTGGCCATCGCTCACCCCAATGGTTTCTTCCCTTTTCTTTGA TTGAATCTGTTATTTACTTTTGATTTTTTGGGTTACAAGGAAGTTTGTTTTGGTTTTTTGGTTTCATGTAATAAAAACAAA ACCATATTCTGGTAGTTCATTCTGAGGCTATTCTGAGGCTACATTTTGTTTGTCCTAACTGGCTCTGTGGAGTGCAGGCCA CAGGATAGGAAGTCTTAGCCCTGTTTCAGTTTCCTTCTGTTTCTCTCCTCTCCGTGTCAGGTTCATGGCCTATATATCATT TCATTGATCCATCGGGTTTCCTTTCAAGTTG

Figura 22: Representação gráfica das sequencias genômica e da CDS de PoPIsi de Passiflora organensis. A sequência grifada em amarelo corresponde ao gene PoPIsi dentro da sequência genômica. Os nucleotídeos em cores diferentes correspondem aos primers desenhados para a PCR convencional. O par em vermelho corresponde aos primers PoPIsi1F e PoPIsi1R, o par em azul aos primers PoPIsi2F e PoPIsi2R, em verde estão os primers PoPIsi3 e PoPIsi3R, e em roxo os primers PoPIsi4F e PoPIsi4R, como indicado na Figura 23, a seguir. O fragmento entre cada par de primers de uma mesma cor, corresponde ao fragmento esperado após a PCR.

54

PoPIsi1 OLIGO start len tm gc% seq LEFT PRIMER 384 20 54.81 40.00 TGAAAATGGCATCAACACTG RIGHT PRIMER 370 20 52.17 35.00 GAAGAAAACAAAAACCTGGA SEQUENCE SIZE: 841 INCLUDED REGION SIZE: 841 PRODUCT SIZE: 347, PAIR ANY COMPL: 3.00, PAIR 3' COMPL: 0.00

PoPIsi2 OLIGO start len tm gc% seq LEFT PRIMER 1 20 54.75 40.00 CATCCACATTCATTGTTCTG RIGHT PRIMER 971 20 54.69 45.00 GCCTCTGATATTTGTCCAAC SEQUENCE SIZE: 1205 INCLUDED REGION SIZE: 1205 PRODUCT SIZE: 971, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 1.00

PoPIsi3 OLIGO start len tm gc% seq LEFT PRIMER 102 20 55.14 35.00 ATGAAGTTGTTTGGGTTTTG RIGHT PRIMER 975 20 55.18 50.00 CTGGAGTGTCAGGAGTTTGT PRODUCT SIZE: 874, PAIR ANY COMPL: 3.00, PAIR 3' COMPL: 0.00

PoPIsi4 OLIGO start len tm gc% seq LEFT PRIMER 634 20 55.07 45.00 GATGGAGCAAAAGACTCAAG RIGHT PRIMER 879 20 53.60 50.00 CTAGGGTAGAGGGTCTTTGA SEQUENCE SIZE: 1040 INCLUDED REGION SIZE: 1040 PRODUCT SIZE: 246, PAIR ANY COMPL: 6.00, PAIR 3' COMPL: 3.00

Figura 23: Sequencias dos pares de primers desenhados para PCR convencional com DNA de Passiflora organensis , com suas especificações (len = tamanho do primer; tm = temperatura de anelamento; gc% = porcentagem de GC; seq= sequência do primer).

Resultados e Discussão De acordo com os dados de estrutura genômica apresentados previamente, o parálogo do gene PoPIci, identificado como PoPIsi, possui apenas um éxon (daí as denominações “ci”, com íntron e “si”, sem íntron), como ilustrado na Figura18 apresentada no Capítulo II. Uma vez que genes da família MADS-box tipo II sem íntrons nunca foram reportados na literatura, considerou-se a possibilidade de que essa observação fosse um artefato gerado pelos programas de montagem da sequência do genoma de P. organensis. Para averiguar esta hipótese, as sequências de PoPIsi foram buscadas nas outras duas bibliotecas genômicas disponíveis para P. organensis (LIB15043 e LIB15044). Estas buscas resultaram na identificação de dois possíveis ortólogos de PI, um contendo íntrons e um sem íntrons, em ambas as bibliotecas como ilustrado na Figura 24. Desta forma, a possibilidade desta observação ser o efeito de um erro de montagem foi reduzida.

55

Figura 24: Alinhamento das sequências de PoPIsi dos três genomas de P.organensis. As colunas em preto representam 100% de conservação entre os aminoácidos das três sequências.

RT-PCR Os resultados da análise por RT-PCR indicaram que P. organensis possui um ortólogo putativo do gene PI, sem íntrons, uma vez que todos os pares de primers testados, inclusive os que incluiriam regiões intrônicas caso o gene possuísse algum íntron, e o par que abrange toda a sequência gênica de PoPIsi, foram amplificados e todos os fragmentos apresentaram o tamanho esperado (Figura 25). Além disso, foram realizadas análises das regiões intergênicas na periferia de PoPIsi com a utilização da ferramenta de BLAST disponível no National Center for Biotechnology Information (https://blast.ncbi.nlm.nih.gov/Blast.cgi), nas quais foi possível identificar a presença de sequências retrotransposons próximas ao PoPIsi, sugerindo que a duplicação que deu origem a PoPIsi possa ser resultado de atividade de retrotransposição.

Figura 25: Resultado da PCR com primers para o gene PoPIsi em gel de agarose 1%. Amostras S: DNA oriundo de plantas cultivadas in vitro que foram aclimatadas em casa de vegetação e

possui seu genoma sequenciado; Amostras F: DNA oriundo de plantas coletadas em Minas Gerais, Brasil. Os números que seguem a identificação da amostra indicam qual par de primers foi usado.

56

Análises de sequências Além das diferenças estruturais entre os dois parálogos, foram identificadas diferenças entre suas sequências proteicas. O alinhamento de ambas as proteínas está representado na Figura 26. Além disso, a identidade e a similaridade entre elas foram calculadas através do software The Sequence Manipulation Suite (Stothard, 2000 - http://www.bioinformatics.org/sms2/index.html) que possui plataforma on-line. Os resultados mostraram que em um alinhamento de 216 aminoácidos, 148 deles são idênticos entre as duas sequências e 23 resíduos apresentam similaridade. Em porcentagem, as duas sequências apresentam 68,52% de identidade e 79,17% de similaridade (Figura 26). Essas diferenças nas sequencias proteicas matematicamente podem parecer pequenas, contudo, em termos biológicos pequenas alterações na sequência de aminoácidos de uma proteína podem acarretar na mudança da sua estrutura tridimensional, o que consequentemente afeta as funções e interações proteína-proteína. Dessa forma, mesmo que um gene seja expresso e produza uma proteína, não implica que o gene em questão possua obrigatoriamente alguma função biológica, pois sua proteína pode não ser funcional.

Results for PoPIsi vs PoPIci: Alignment length: 216 Identical residues: 148 Similar residues: 23 Percent identity: 68.52 Percent similarity: 79.17

Figura 26: Alinhamento das sequências proteicas de PoPIci e PoPIsi. Colunas em preto representam 100% de conservação entre os aminoácidos; colunas em cinza representam trocas conservadas entre os aminoácidos (similaridade); colunas em branco são referentes as trocas sem nenhum grau de conservação entre os aminoácidos. Os valores de tamanho do alinhamento, resíduos idênticos, similares e as porcentagens de identidade e similaridade também estão indicados na figura.

Sintenia De acordo com os resultados da análise de sintenia, é possível afirmar que o gene PoPIci é o gene que foi duplicado provavelmente por mecanismos de retrotransposição dando origem ao PoPIsi, pois o gene PoPIci quando comparado ao PISTILLATA de P.trichocarpa apresenta regiões com sequências gênicas conservadas, enquanto que o gene PoPIsi não (Figura 27). Este resultado é mais uma evidência de que a possível origem deste gene se deu a partir da atividade 57

de um retrotransposon, que incorporou a sequência de um mRNA do PISTILLATA original, fez a transcrição reversa e inseriu essa sequência em outra região do genoma (Finnegan 2012; Schulman 2013). Supondo que o gene PoPIsi não seja produto de atividade de retrotransposon e sim de um evento de duplicação, se este evento tivesse ocorrido no cromossomo todo, ou até mesmo numa região mais restrita do cromossomo, outros genes além do PISTILLATA também teriam sido duplicados e suas sequências também seriam encontradas ao redor de PoPIsi. Como verificou-se que não há sintenia entre a região ao redor de PtPI e PoPIsi, a hipótese que melhor explica a existência desse gene MADS-box de tipo II sem íntrons é a atividade de um retrotransposon, ainda considerando que estes compreendem grande parte dos genomas vegetais (Schulman 2013).

5’ 3’

5’ 3’

5’ 3’

Figura 27: Representação gráfica da sintenia encontrada entre os dois genes PISTILLATA de P.organensis com o ortólogo de P.trichocarpa. Os genes que flanqueiam os PISTILLATA estão representados por letras e o sentido de cada um deles é indicado pela seta. As relações sintênicas estão indicadas pelas faixas verdes. Esta figura não está em escala para facilitar a visualização. Figura: Helena A. Gioppato.

58

Tabela 2: Definition Gene Symbol Protein_ID A Histone-lysine N-methyltransferase ASHH2 LOC18099600 XP_006383592.2 B Pentatricopeptide repeat-containing protein LOC7469172 XP_024457764.1 At1g77360 C Glutathione S-transferase TCHQD LOC7468479 XP_006383591.1 D Zinc finger MYM-type protein 1 LOC18099599 XP_024457599.1 E Probable receptor-like protein kinase At1g11050 LOC7460976 XP_024457763.1 F Amino acid permeasse 3 LOC746917 XP_002306650.2 G Amino acid permeasse 3 LOC18099598 XP_006383588.1 H Cyclin-A1-1 LOC7460975 XP_002306649.1 I DNA topoisomerase 2-binding protein 1-A LOC18099602 XP_024456872.1 J NAD kinase 2, chloroplastic isoform X1 LOC7469175 XP_024456874.1 K 1-aminocyclopropane-1-carboxylate oxidase 5 LOC7496179 XP_002307461.1 L Probable receptor-like serine/threonine-protein LOC7460980 XP_024457732.1 kinase At5g57670 M Uncharacterized protein LOC18099604 isoform LOC18099604 XP_024457109.1 X4 N NAD(P)H-quinone oxidoredutase subunit M, LOC7469178 XP_002306657.2 chloroplastic O Probable calcium-binding protein CML44 LOC7469180 XP_002306659.1 P BTB/POZ domain-containing protein At4g08455 LOC7469182 XP_002307463.3

59

7. CAPÍTULO IV Caracterização do padrão de expressão dos genes de classe B em Passiflora organensis

Resumo Uma vez que a morfologia floral é produto da atividade de genes do modelo molecular ABC, e que com exceção de apenas um gene do modelo, todos os outros fazem parte da família MADS- box, o estudo do padrão de expressão dos membros dessa família no gênero Passiflora poderia esclarecer os mecanismos moleculares envolvidos no desenvolvimento e morfologia floral. Dado que a família gênica que engloba os genes deste modelo foi inteiramente analisada e caracterizada previamente de uma espécie do gênero (Passiflora organensis), foi possível estudar o padrão de expressão de alguns dos genes do modelo ABC a fim de esclarecer as bases moleculares do desenvolvimento floral de Passiflora.

Abstract Since floral morphology is a product of gene activity from the ABCDE molecular model, and with the exception of only one gene from the model, all others are part of the MADS-box family, the study of the expression pattern of the members of this family in the genus Passiflora could clarify the molecular mechanisms involved in floral morphology and development. Given that the gene family that encompasses the genes of this model was entirely analyzed and characterized as presented previously, and also the fact that our group possesses the genome sequenced from a species of the genus (Passiflora organensis), it was possible to study the pattern of expression of some of the genes of the ABC model in order to clarify the molecular bases of the floral development of Passiflora.

60

Introdução Entre as espécies de Passiflora observa-se uma grande diversidade de morfologia floral. Todos as espécies que pertencem ao gênero apresentam flores com um grupo de estruturas filamentosas e elaboradas, cujo conjunto é chamado de corona, a qual se encontra entre os verticilos das pétalas e dos estames, e o androginóforo, estrutura que eleva o ovário, os estames e os estigmas (Schmid et al. 1995; Ulmer e MaCDougal 2004). Essa diversidade morfológica faz com que este gênero de plantas seja um excelente modelo para estudos a respeito dos mecanismos envolvidos no desenvolvimento floral (Ulmer e MaCDougal 2004; Amela García et al. 2007; Kubitzki 2007). Uma vez que a morfologia floral é produto da atividade de genes do modelo molecular ABCDE, e que com exceção de apenas um gene do modelo, todos os outros fazem parte da família MADS-box, o estudo do padrão de expressão dos membros dessa família no gênero Passiflora poderia esclarecer os mecanismos moleculares envolvidos no desenvolvimento e morfologia floral. Dado que a família gênica que engloba os genes deste modelo foi inteiramente analisada e caracterizada previamente como apresentado nos capítulos anteriores, e o fato do nosso grupo possuir o genoma sequenciado de uma espécie do gênero (Passiflora organensis), foi possível estudar o padrão de expressão de alguns dos genes do modelo ABCDE a fim de esclarecer as bases moleculares do desenvolvimento floral de Passiflora.

Objetivos Caracterizar o padrão de expressão dos genes MADS-box de classe B em diferentes tecidos, durante fases distintas do desenvolvimento.

Materiais e métodos Material vegetal Plantas de Passiflora organensis oriundas da coleção de germoplasma de Passiflora, foram cultivadas in vitro e em casa de vegetação, no IB/UNICAMP e no CENA/USP, Piracicaba, São Paulo.

Microscopia eletrônica de varredura (MEV) Para a caracterização morfoanatômica das estruturas dos botões florais em diferentes fases do desenvolvimento, algumas amostras que representam cada uma das três fases (botões pequenos, médios e grandes) foram coletadas e fixadas em paraformaldeído 4%. Posteriormente 61

as amostras foram desidratadas em série de concentração crescente de etanol, secas ao ponto crítico (CPD 030, Bal-Tec, Balzers, Alemanha), montadas em suporte metálico com fita dupla- face e metalizadas com ouro coloidal (SCD 050, Bal-Tec, Balzers, Alemanha). As análises foram realizadas em microscópio eletrônico de varredura com câmera digital no Núcleo de Apoio à Pesquisa em Microscopia Eletrônica Aplicada a Agricultura (NAP/MEPA) da ESALQ – Universidade de São Paulo.

Extração de RNA, síntese de cDNA e RT-qPCR Os genes de P. organensis ortólogos aos genes do modelo ABC descrito para A.thaliana (mais seus eventuais parálogos) foram analisados por RT-qPCR para confirmar a expressão diferencial. RNAs de diversos tecidos de P.organensis foram extraídos, sendo eles: botões florais em três estágios diferentes de desenvolvimento, chamados de PEQUENO, MÉDIO e GRANDE, sendo que os botões G foram coletados um dia antes da flor entrar em antese (Figuras 28, 29 e 30). Cada um dos três tipos de botões coletados para análise foram caracterizados morfoanatomicamente por microscopia eletrônica de varredura (MEV) quando possível e por microscopia em lupa. As estruturas florais de cada uma das amostras está ilustrada nas figuras abaixo.

b c

Estigma

Estame Ovário

Corona

Figura 28: Botão floral pequeno de P.organensis. A. Botão retirado da planta; B. Corte longitudinal de botão pequeno fotografado em microscopia de varredura mostrando as estruturas encontradas na flor nesta fase do desenvolvimento. É possível identificar o ovário piloso, os estigmas, as anteras, as sépalas e pétalas e os filamentos da corona.; C. Detalhe da porção apical do estigma que ainda não atingiu seu desenvolvimento completo.; D e E. Detalhe em dois aumentos distintos dos filamentos da corona isolados com o opérculo na camada abaixo.

62

Sépala Pétala Estigma Estame Ovário Filamento da corona

Figura 29: Botão floral médio de P.organensis. A. Botão retirado da planta; B. Corte longitudinal de botão pequeno fotografado em microscopia de varredura mostrando as estruturas encontradas na flor nesta fase do desenvolvimento. É possível identificar o ovário piloso, os estigmas, as anteras, as sépalas e pétalas, o opérculo e os filamentos da corona.; C. Detalhe da porção apical do estigma que já está totalmentez desenvolvido nesta fase do desenvolvimento floral.

B Filamento da corona A B Sépala + pétala

Estigma

Estame Ovário

Figura 30 : Botão floral grande de P.organensis. A. Botão retirado da planta; B. Corte longitudinal de botão pequeno fotografado na lupa mostrando as estruturas encontradas na flor nesta fase do desenvolvimento. É possível identificar o ovário piloso, os estigmas, as anteras, as sépalas e pétalas, o opérculo e os filamentos da corona. Todas essas estruturas já estão completamente desenvolvidas.

Além dos botões, também foram coletados ápices de plantas em fase juvenil (que ainda não produzem gavinhas), ápices de plantas em fase adulta, ápices de plantas em fase adulta reprodutiva (que já produzem gavinhas e botões florais) (Figura 31), e órgãos da flor em antese separadamente (brácteas, sépalas, pétalas, corona, estames, carpelos e coluna do androginóforo) (Figura 32).

63

a b c

Figura 31: Ápices de P.organensis em três momentos diferentes do desenvolvimento. a. Ápice juvenil; b. Ápice adulto vegetativo; c. Ápice adulto reprodutivo.

ANDROGINÓFORO

CORONA

PERIANTO

Figura 32: Conjunto de órgãos florais de P.organensis coletados para extração de RNA.

Os experimentos de RT-qPCR foram feitos utilizando-se três replicatas biológicas para cada tipo de amostra. Os RNAs foram extraídos segundo o método Rneasy® Plant Mini Kit (QUIAGEN) para todos os tecidos. Depois de extraídos, foi feito um tratamento com Ambion DNA-free™ Kit (Invitrogen) para remoção de qualquer DNA remanescente nas amostras. O RNA total foi quantificado por espectrofotometria (Nanodrop – Thermo Scientific, Wilmington, EUA) e a pureza foi determinada pelas razões de OD260/OD280 e OD260/OD230 (1,80 – 2,00). Em seguida foi feita a síntese de cDNA utilizando até 5 μg de RNA com o kit SuperScript® III First-Strand Synthesis – InvitrogenTM, de acordo com instruções do fabricante. Antes da reação de RT-qPCR, o cDNA obtido foi submetido a reação da PCR com primers específicos do gene ACTIN1 (ACT1) (Tabela 1), para verificar a correta amplificação das amostras. A análise de RT-qPCR foi realizada no equipamento StepOne Real-Time PCR System (Applied Biosystems, Foster City, EUA), no LBCM/CENA/USP para as amostras de ápices juvenil, vegetativo e reprodutivo e no LabFMP IB/UNICAMP – Campinas para as demais 64

amostras (botões e órgãos florais). Os primers utilizados para RT-qPCR, foram desenhados de maneira que um fragmento entre 80 e 200 pb fosse obtido. Preliminarmente eles foram testados para eficiência e a especificidade foi confirmada pelo ponto de fusão médio dos fragmentos amplificados (curva de melting), por meio da presença de um único pico (Figuras 1 e 2). Foram utilizados primers para detecção dos genes alvo PoAP3.1, PoAP3.2, PoAP3.3, PoTM6, PoPIci, PoPIsi e PoGOA e dos genes de referência CLATHRIN ADAPTOR COMPLEX (CAC) e MONENSIN SENSIVITY 1/SAND family protein (SAND) (Scorza, 2015), utilizados para a normalização da expressão gênica (Tabela 3), considerado um dos mais estáveis em P. edulis de acordo com as análises conduzidas por (Scorza 2015). A reação de RT-qPCR foi realizada em volume final de 10 μL, utilizando-se 1 μL cDNA (100 ng/μL), 0,20 μL de cada primer (10 μM), 6 μL Fast SYBR Green Master Mix (Applied Biosystems) e 2,6 μL água Milli-Q autoclavada, em placa de 96 poços (0,1 ml; MicroAmp – Applied Biosystems). Foram realizadas 3 réplicas biológicas e 3 réplicas técnicas para cada gene analisado. Para amplificação, utilizou-se o programa padrão do equipamento Step One Real-Time PCR System (Applied Biosystems), no modo Standard. O valor do ciclo threshold (Ct) foi determinado para os genes alvo e para os genes de referência. A análise de eficiência de cada reação foi realizada com o auxílio do software LinRegPCR (Ramakers et al. 2003) e a quantificação relativa da expressão dos genes foi analisada pelo método descrito por (Pfaffl 2001)em que:

Equação 1: ∆퐶푡 = 푐표푛푡푟표푙푒 − 푎푚표푠푡푟푎

(퐸푓.푔푒푛푒 푎푙푣표)∆Ct alvo Equação 2: 퐸푥푝푟푒푠푠ã표 푅푒푙푎푡푖푣푎 = (퐸푓.푔푒푛푒 푟푒푓)∆Ct ref

Como controle, utilizou-se a amostra que apresentou o maior valor de Ct, ou seja, de menor expressão. O resultado final reflete quantas vezes mais um mesmo gene é expresso em comparação com diferentes tecidos vegetais (diferentes órgãos florais ou um mesmo tecido em fases distintas do desenvolvimento). As análises estatísticas foram feitas utilizando o software R (www.r-project.org). Todos os dados foram submetidos a uma análise de variância (ANOVA) e as médias foram testadas pelo teste de Tukey com 5% de nível de significância.

65

Tabela 3: Sequências dos primers utilizados para amplificação dos respectivos genes para a reações de RT-qPCR, com o respectivo tamanho do fragmento amplificado.

Gene Sequência do primer Tamanho do Finalidade amplificado (bp)

FW TCAAGAGGGAGTGCGTTCAC 90 RT-qPCR PeCAC RV CAACCAACAGCGCCTGTAAC FW GCTTCCGCCGTCTACTTCTT 86 RT-qPCR RV TCCACCATATTTCCGCCCAC FW GGAGCTGCTTCTCCCCATTT 78 RT-qPCR PeSAND RV AGGGCCACCAATTCCAATGA FW GGTGCTGAACCGAGTGAAGA 78 RT-qPCR RV GGTACTCTGCGGGTCCAAAA FW CAACCCATTCAGCCAAATCT 167 RT-qPCR PoPIci RV GTCAGGAACAATCCCTGGAA

FW GCTTCATTCTGCAACAGCAA 118 RT-qPCR RV ACTCGGAAGGCAAACGGTAT FW CAGATGCCTTTTCCCTTCAG 197 RT-qPCR PoPIsi RV CTGGAGTGTCAGGAGTTTGTTG

FW TGGCTATGGAAGTGGATGAA 94 RT-qPCR RV CTGAAGGGAAAAGGCATCTG FW CCACACTATGGCTTGGATGA 130 RT-qPCR PoAP3.2 e PoAP3.3 RV TCAGAATCGACCTGAGATGC

FW CGCGAACGATTGAATAAGGT 191 RT-qPCR RV ATATGAGGGCCACCACTTTG FW ACGGGTTAGTGGACGATGAG 164 RT-qPCR PoTM6 RV CTCTGGTGCCCATTAAGGAA

FW CAGTTGAAATGGCAAGTGGA 67 RT-qPCR RV CTAGGGTTGTGGGTTTGGTG FW CTCGGTGAAGACCCTCGTAG 80 RT-qPCR PoGOA RV AGGGTTGGCTGGATAGTGTG

FW CTCGGTGAAGACCCTCGTAG 117 RT-qPCR RV GTTGGTAAGGTGGAGGCTGA FW TGGCTTTGAAGACAATGGTG 98 RT-qPCR PoAP3.1 RV CCAAGCGAGGGATAATCTGT

FW TCCGAGAACGCATGAATAAG 125 RT-qPCR RV GTGTGGACCTTCGCTTCTTG FW AGAGCATCCAGTCCTCCTCA 200 RT-qPCR PoACT1 RV TATGGGAACTGTGTGGCTCA

66

Resultados e Discussão RT-qPCR A fim de facilitar a compreensão, os resultados oriundos da RT-qPCR serão apresentados em blocos correspondentes aos tipos de amostras (ápices, botões e órgãos florais). Cada bloco contém os resultados do padrão de expressão de todos os genes de classe B de P.organensis testados. Os gráficos com as curvas de melting de cada gene utilizado, indicando amplificação específica ou não, estão apresentados nas figuras 33, 34 e 35 abaixo.

PeCAC

PeSAND

Figura 33: Determinação da curva de melting, na reação de RT-qPCR, mostrando a formação de um único produto de amplificação para os genes de referência PeCAC e PeSAND.

Figura 34: Determinação da curva de melting, na reação de RT-qPCR, mostrando a formação de vários produtos de amplificação para os primers testados para o gene PoTT16. 67

PoPIci

PoPIsi

PoAP3. 1

PoTM6

PoGOA

PoAP3.2 e PoAP3.3

Figura 35: Determinação da curva de melting, na reação de RT-qPCR, mostrando a formação de um único produto de amplificação para os genes alvos PoPIci, PoPIsi, PoAP3, PoTM6, PoTT16.2 e PoBsis, nas três amostras utilizadas para cada primer. 68

ÁPICES PoAP3 (1, 2 e 3) Para ajudar a compreender melhor a função dos genes PoAP3.1, PoAP3.2, PoAP3.3, PoTM6, PoPIci, PoPIsi e PoGOA no processo de desenvolvimento de P.organensis, estudamos o padrão de expressão desses genes durante o desenvolvimento juvenil, adulto vegetativo e adulto reprodutivo com uso de RT-qPCR. Os padrões de expressão desses genes estão mostrados nas Figuras 36 a 48. Em consequência do alto grau de identidade entre as sequências dos dois parálogos PoAP3.2 e PoAP3.3 de P.organensis (Figura 15, Capítulo II) não foi possível obter primers específicos para cada um deles. Dessa forma, o resultado da RT-qPCR remete à amplificação dos dois parálogos simultaneamente. Em A.thaliana o gene AP3 geralmente é expresso durante a fase adulta reprodutiva da planta, durante a formação dos primórdios dos órgãos florais, principalmente nos primórdios das pétalas e dos estames, uma vez que este é um gene de classe B (Bowman et al. 2012). Os resultados indicam que o parálogo PoAP3.1 possui maior nível de expressão durante a fase juvenil em relação às outras fases do desenvolvimento (Figura 36A). Esse padrão de expressão não é embasado pela literatura, uma vez que a princípio este gene é responsável pela identidade de órgãos florais (pétalas e estames), presentes apenas na fase adulta reprodutiva da planta. Já o nível de expressão dos parálogos PoAP3.2 e PoAP3.3 simultaneamente se mostrou significativamente maior durante as fases vegetativa e reprodutiva quando comparadas com ápices na fase juvenil, o que é de certa forma compatível com o esperado de acordo com a expressão de AP3 em A.thaliana (Figura 36B) (Coen e Meyerowitz 1991).

A B PoAP3.1 PoAP3.2 e PoAP3.3 5,00 7,00 a a 4,50 6,00 a 4,00 5,00 3,50 3,00 4,00 2,50 b 3,00 2,00 1,50 2,00 Expressão Relativa b b 1,00 1,00 0,50 0,00 0,00 JUVENIL VEGETATIVO REPRODUTIVO JUVENIL VEGETATIVO REPRODUTIVO Figura 36: Expressão relativa dos genes de classe B PoAP3.1 (A), PoAP3.2 e PoAP3.3 (B) de Passiflora organensis por RT-qPCR em ápices de plantas em três diferentes fases do desenvolvimento, sendo elas, juvenil, adulto vegetativo e adulto reprodutivo. Os dados estão expressos em média ± Erro padrão. Médias seguidas da mesma letra não diferem entre si pelo teste Tukey p<0,05.

69

PoPI (‘ci’ e ‘si’) Em relação aos genes PISTILLATA, o nível de expressão de PoPIci foi significativamente maior na fase adulta reprodutiva quando comparado com as outras fases do desenvolvimento (Figura 37A), como era o esperado de acordo com o padrão de expressão de PI em A.thaliana, uma vez que este gene está envolvido na especificação da identidade de pétalas e estames (Coen e Meyerowitz 1991). Além disso, quando as expressões relativas das fases juvenil e vegetativa são comparadas entre si, nota-se uma maior expressão na fase juvenil (Figura 37B). Entretanto, não existe diferença estatística entre elas. O gene PoPIsi, por sua vez, apresentou maior expressão durante a fase juvenil (Figura 38). A curva de melting para os primers desenhados para PoPIsi indicam a amplificação gene- específica, não havendo amplificação espúria simultânea de PoPIci (Figura 35). Os resultados positivos confirmando a expressão de PoPIsi, apresentam um padrão divergente do observado para PoPIci, corroborando a hipótese de que PoPIsi não é um pseudogene. O fato dele apresentar uma expressão significativamente maior durante a fase juvenil sugere que a proteína PoPIsi possa ter outros papéis biológicos não-relacionados com o desenvolvimento floral. Há na literatura o relato de expressão de um ortólogo de PI de videira (VvPI, POUPIN ET AL., 2007) que é expresso em folhas e raízes além de ser expresso também em inflorescências. Não se pode descartar, no entanto, a possibilidade de haver divergências entre os níveis de expressão em termos de transcritos e os níveis absolutos de proteínas. Adicionalmente, as proteínas MADS-box atuam exclusivamente em multímeros (Theißen e Saedler 2001). Sendo assim é necessário estudar os padrões de expressão de seus possíveis parceiros moleculares. De acordo com a literatura, em A.thaliana o principal parceiro do gene AP3 é o gene PI (Theißen e Saedler 2001). Em P.organensis, dos três parálogos presentes (PoAP3.1, PoAp3.2 e PoAP3.3), um deles, o gene PoAP3.1, apresentou maior nível de expressão em ápices de plantas juvenis (veja acima, Figura 35A), assim como o gene PoPIci. Dessa forma é possível que estes dois genes (PoPIci e PoAP3.1) atuem em conjunto formando multímeros nesta etapa do desenvolvimento. Sendo assim, será interessante que no futuro sejam estudadas as interações proteicas dos produtos destes genes via duplos híbridos de levedura a fim de compreender suas possíveis funções no desenvolvimento vegetal.

70

A PoPIci B PoPIci 2500,00 10,00 b a 9,00 © © 2000,00 8,00 7,00 1500,00 6,00 5,00

1000,00 4,00 3,00 Expressão Relativa 500,00 2,00 b 1,00 © 0,00 0,00 JUVENIL VEGETATIVO REPRODUTIVO JUVENIL VEGETATIVO Figura 37: A: Expressão relativa do gene de classe B PoPIci de Passiflora organensis por RT-qPCR em ápices de plantas em três diferentes fases do desenvolvimento, sendo elas, juvenil, adulto vegetativo e adulto reprodutivo; B: Detalhe da expressão relativa do gene de classe B PoPIci de Passiflora organensis em ápices de nas fases juvenil e adulto vegetativo. Os dados estão expressos em média ± Erro padrão. Médias seguidas da mesma letra não diferem entre si pelo teste Tukey p<0,05.

PoPIsi 14,00 a 12,00 ©

10,00

8,00

6,00

Expressão Relativa 4,00 b 2,00 b © © 0,00 JUVENIL VEGETATIVO REPRODUTIVO

Figura 38: Expressão relativa do gene de classe B PoPIsi de Passiflora organensis por RT-qPCR em ápices de plantas em três diferentes fases do desenvolvimento, sendo elas, juvenil, adulto vegetativo e adulto reprodutivo. Os dados estão expressos em média ± Erro padrão. Médias seguidas da mesma letra não diferem entre si pelo teste Tukey p<0,05.

PoGOA Para PoGOA observou-se uma maior expressão na fase reprodutiva quando comparada às demais fases (juvenil e vegetativa) (Figura 39), como o esperado de acordo com o que está descrito na literatura para A.thaliana (Erdmann et al. 2010; Prasad e Ambrose 2010; Prasad et al. 2010). 71

Nessa espécie modelo, como já citado, o gene GOA contribui para o desenvolvimento inicial do tegumento externo dos óvulos e além de aparentemente ter grande importância no desenvolvimento dos frutos (Erdmann et al. 2010; Prasad e Ambrose 2010; Prasad et al. 2010). Sendo assim, a maior expressão desse gene em ápices de plantas que já se encontram na fase reprodutiva é plausível do ponto de vista fisiológico, uma vez que os meristemas florais já se encontram ativos nesse tipo de tecido, contudo ainda são necessárias análises complementares para averiguar em quais tecidos regiões do ápice reprodutivo o gene PoGOA é expresso.

PoGOA 20,00 a 18,00 ©

16,00

14,00 12,00 10,00 8,00 6,00 Expressão Relativa 4,00 b © 2,00 b © 0,00 JUVENIL VEGETATIVO REPRODUTIVO

Figura 39: Expressão relativa do gene de classe B PoGOA de Passiflora organensis por RT-qPCR em ápices de plantas em três diferentes fases do desenvolvimento, sendo elas, juvenil, adulto vegetativo e adulto reprodutivo. Os dados estão expressos em média ± Erro padrão. Médias seguidas da mesma letra não diferem entre si pelo teste Tukey p<0,05.

PoTM6 De acordo com a literatura, assim como os demais genes MADS-box de classe B, o gene TM6 em tomate (Solanum lycopersicum) e em petúnia (Petunia hybrida) (Geuten and Irish, 2010), apresenta o maior nível de expressão durante a fase adulta reprodutiva, atuando na determinação de órgãos florais tardiamente no desenvolvimento da flor. Entretanto, de acordo com os dados obtidos, em P.organensis o possível ortólogo de TM6, PoTM6, é aproximadamente cinco vezes mais expresso durante a fase juvenil do que nas demais fases do desenvolvimento, as quais não apresentam diferença estatística entre os valores de expressão relativa (Figura 40). Dessa forma, são necessárias outras análises a fim de averiguar quais as possíveis funções biológicas e em quais tecidos vegetais esse gene se 72

expressa, além das possíveis interações moleculares que o gene em questão é capaz de estabelecer.

PoTM6 7,00 a 6,00 ©

5,00

4,00

3,00

Expressão Relativa 2,00 b b 1,00 © ©

0,00

JUVENIL VEGETATIVO REPRODUTIVO

Figura 40: Expressão relativa do gene de classe B PoTM6 de Passiflora organensis por RT-qPCR em ápices de plantas em três diferentes fases do desenvolvimento, sendo elas, juvenil, adulto vegetativo e adulto reprodutivo. Os dados estão expressos em média ± Erro padrão. Médias seguidas da mesma letra não diferem entre si pelo teste Tukey p<0,05.

PoTT16 Para o gene PoTT16 foram testados três pares de primers diferentes, entretanto as curvas de melting para estes primers apresentaram picos múltiplos (Figura 34), indicando amplificação espúria e a não-especificidade dos mesmos. Sendo assim, novas e diferentes análises devem realizadas com o objetivo de se estudar o padrão de expressão deste gene.

BOTÕES A fim de melhor a compreender a função dos genes PoPIsi, PoPIci, PoAP3.1, PoAP3.2, PoAP3.3, PoTM6 e PoGOA no desenvolvimento floral de P.organensis, o padrão de expressão desses genes foi avaliado durante o desenvolvimento dos botões florais com o uso de RT-qPCR e os resultados estão apresentados nos gráficos a seguir.

PoPI (‘ci’ e ‘si’) De acordo com os resultados de RT-qPCR de ápices, o gene PoPIsi é mais expresso durante a fase juvenil, contudo ainda é possível detectar um certo nível de expressão em amostras de ápices na fase reprodutiva, enquanto que o gene PoPIci é mais expresso durante a 73

fase reprodutiva (Figura 39). Mesmo diante da baixa expressão em tecidos reprodutivos, o gene PoPIsi também foi alvo dos testes de expressão em botões florais coletados em diferentes etapas do desenvolvimento. Tanto o gene PoPIci quanto o PoPIsi em P.organensis, apresentaram maior expressão nas amostras de botões pequenos quando comparado com as outras fases do desenvolvimento (Figura 41). Dado que a função de PI foi determinada como sendo um dos genes responsáveis por dar a identidade a pétalas e estames, o fato de seus ortólogos em P.organensis serem mais expressos em botões que ainda se encontram no início do desenvolvimento, é condizente com o esperado do ponto de vista biológico (Figuras 40A e B) (Coen e Meyerowitz 1991).

A PoPIci PoPIsi 4 a 8 a © © 3,5 7

3 6

2,5 5 2 4 1,5 b 3 Expressão Relativa 1 © b 2 b © 0,5 © 1 b © 0 0 PEQUENO MÉDIO GRANDE PEQUENO MÉDIO GRANDE B Figura 41: Expressão relativa dos genes de classe B PoPIci (A) e PoPIsi (B) em botões de três tamanhos distintos de Passiflora organensis por RT-qPCR. Os dados estão expressos em média ± Erro padrão. Médias seguidas da mesma letra não diferem entre si pelo teste Tukey p<0,05.

PoAP3 (1, 2 e 3) Em A.thaliana o gene AP3 geralmente é expresso durante a fase adulta reprodutiva da planta, durante a formação dos órgãos florais, principalmente nas pétalas e nos estames (Bowman et al. 2012). Como já citado anteriormente, em consequência do alto grau de identidade entre as sequências dos dois parálogos PoAP3.2 e PoAP3.3 (Figura 15, Capítulo II) não foi possível obter primers específicos para cada um deles. Dessa forma, o resultado da reação de RT-qPCR remete à amplificação dos dois parálogos simultaneamente. De acordo com os resultados de RT-qPCR de ápices, P.organensis o gene PoAP3.1 apresenta um maior nível de expressão durante a fase juvenil, entretanto ainda é possível detectar níveis de expressão mais baixos em amostras de ápices na fase reprodutiva, enquanto que os parálogos PoAP3.2 e PoAP3.3 são mais expressos durante a fase reprodutiva (Figura 74

36). Assim como o que foi feito para o gene PoPIsi, mesmo frente a baixa expressão em tecidos reprodutivos, o gene PoAP3.1 foi alvo de testes de expressão em botões florais coletados em diferentes etapas de seu desenvolvimento. Os resultados das análises revelou que os três parálogos PoAP3.1, PoAP3.2 e PoAP3.3 apresentaram um padrão de expressão bastante similar, com um maior nível de expressão presente durante a fase em que os botões ainda estão no início do desenvolvimento. Assim como PI, dado que a função de AP3 é dar a identidade a pétalas e estames, o fato de seus ortólogos em P.organensis serem mais expressos em botões pequenos, ainda no início do desenvolvimento, é condizente com o esperado do ponto de vista biológico e também de acordo com o padrão de expressão dos parálogos do gene AP3 em A.thaliana (Figuras 42A e B) (Coen e Meyerowitz 1991).

A B PoAP3.1 PoAP3.2 e PoAP3.3 6 a 6 © a 5 5 ©

4 4

3 3 2 2 Expressão Relativa b b © b 1 © b 1 © © 0 0 PEQUENO MÉDIO GRANDE PEQUENO MÉDIO GRANDE

Figura 42: Expressão relativa dos genes de classe B PoAP3.1 (A), PoAP3.2 e PAP3.3 (B) em botões de três tamanhos distintos de Passiflora organensis por RT-qPCR.

PoGOA O gene PoGOA, diferente dos demais, apresentou maior expressão em amostras de botões que se encontram em um estágio intermediário de seu desenvolvimento (botões médios). Além disso, em relação aos outros genes, este é o que apresenta maior variação de grau de expressão entre os três tipos de amostras, sendo que as diferenças entre as três são estatisticamente significantes (Figura 43). Do ponto de vista biológico esse resultado é coerente com o que já está descrito na literatura, uma vez que este gene participa do desenvolvimento dos tegumentos dos óvulos, os quais surgem em fases mais tardias do desenvolvimento floral.

75

PoGOA 50 a 45

40 35

30 b 25 © 20 15 Expressão Relativa 10 5 c © 0 PEQUENO MÉDIO GRANDE

Figura 43: Gráfico da expressão relativa do gene de classe B PoGOA de Passiflora organensis por RT-qPCR em botões coletados em três diferentes fases do desenvolvimento. Os dados estão expressos em média ± Erro padrão. Médias seguidas da mesma letra não diferem entre si pelo teste Tukey p<0,05.

PoTM6 Durante a análise do gene padrão de expressão do gene PoTM6, encontramos diversas dificuldades para a normalização dos dados. O método de análise se resume em utilizar para cada gene o menor valor de Ct, ou seja, escolher a amostra (uma das três fases do desenvolvimento) com a menor expressão como sendo a amostra de referência. Dessa forma, as outras duas amostras são comparadas com a terceira, a menos expressa. Logo, no gráfico o menor valor de expressão sempre deve ser 1, sendo que os outros valores indicam quantas vezes mais uma amostra é expressa em relação à referência. As análises do gene PoTM6 apresentaram dados brutos indicando que a maior expressão deste gene se dá em botões no estágio ‘pequeno’, fase esta escolhida como sendo o controle com o qual as demais amostras foram comparadas. Entretanto, ao efetuarmos os cálculos de expressão relativa, a amostra dos botões pequenos foi a que apresentou maior valor de expressão. Isso é possível de ser explicado do ponto de vista matemático, pois de acordo com as fórmulas empregadas no método de análise, se o valor de ∆퐶푡 (Equeação 1) do gene de referência for muito alto, implica no aumento do valor do denominador da Equação 2. Dessa forma, o produto da divisão será um valor menor do que 1.

76

Equação 1: ∆퐶푡 = 푐표푛푡푟표푙푒 − 푎푚표푠푡푟푎

(퐸푓.푔푒푛푒 푎푙푣표)∆Ct alvo Equação 2: 퐸푥푝푟푒푠푠ã표 푅푒푙푎푡푖푣푎 = (퐸푓.푔푒푛푒 푟푒푓)∆Ct ref

Entretanto sob o ponto de vista biológico, estes valores se contradizem uma vez que a amostra com o menor valor de expressão é a que apresenta maior barra no gráfico (Figura 44). Sendo assim, é possível inferir que todas as análises feitas para este gene especificamente, devem ser refeitas afim de melhor compreendermos o seu comportamento. Contudo, mesmo com os problemas encontrados durante o tratamento dos dados, a análise dos resultados obtidos mostra que o gene PoTM6 possui é mais expresso em botões pequenos (Figura 44).

PoTM6 1,2 a 1 © ab © 0,8 b © 0,6

0,4 Expressão Relativa

0,2

0 PEQUENO MÉDIO GRANDE Figura 44: Gráfico da expressão relativa do gene de classe B PoTM6 de Passiflora organensis por RT-qPCR em botões coletados em três diferentes fases do desenvolvimento. Os dados estão expressos em média ± Erro padrão. Médias seguidas da mesma letra não diferem entre si pelo teste Tukey p<0,05.

Em resumo, de acordo com os resultados das análises em botões florais, o fato de todos os genes de classe B de P.organensis com exceção do gene PoGOA, em botões florais, terem sua maior expressão em botões pequenos está de acordo com o esperado, uma vez que em A.thaliana esses genes são responsáveis por dar a identidade aos órgãos florais (Coen e Meyerowitz 1991). Sendo assim, botões em fases avançadas do desenvolvimento, por já possuírem a identidade de todos os órgãos bem estabelecida, possuem níveis reduzidos de expressão desses genes. 77

O gene PoGOA por sua vez, apresenta maior expressão em botões que se encontram em fases intermediárias de seu desenvolvimento, o que é condizente com o esperado, uma vez que de acordo com a literatura, este gene participa do desenvolvimento dos tegumentos dos óvulos, os quais surgem em fases um pouco mais avançadas do desenvolvimento floral.

ÓRGÃOS FLORAIS Mesmo diante do fato de que os genes MADS-box de classe B são pouco expressos nos tecidos de uma flor completamente desenvolvida, foram feitas análises do padrão de expressão de três conjuntos de órgãos florais de flores em antese, sendo eles, corona, amostra que compreende apenas os filamentos da corona; androginóforo, amostra correspondente ao conjunto dos estames, carpelos, estigmas e da coluna que eleva essas estruturas; e o perianto, amostra composta pelo conjunto de sépalas e pétalas.

PoAP3 (1, 2 e 3) Assim como as análises do gene PoTM6 em botões florais, encontramos dificuldades para a normalização dos dados do gene PoAP3.1 em amostras de órgãos florais, de forma que mais uma vez, o menor valor de expressão, neste caso a corona, se tornou o maior valor no gráfico, sendo que ela não difere tão significativamente das demais amostras (Figura 45A). Já o padrão de expressão referente aos genes PoAP3.2 e PoAP3.3 não apresentou problemas para a normalização e indica um maior nível de expressão nos filamentos da corona em relação aos demais conjuntos de órgãos florais (Figura 45B).

A B

© PoAP3.1 © PoAP3.2 e PoAP3.3 1,2 5 a ab a 4,5 1 © 4 b 3,5 0,8 ab 3 © 0,6 2,5 2 0,4

Expressão relativa 1,5 b Expressão Relativa 1 0,2 0,5

0 0 ANDROGINÓFORO CORONA PERIANTO ANDROGINÓFORO CORONA PERIANTO Figura 45: Gráficos da expressão relativa dos genes de classe B PoAP3.1 (A) e PoAP3.2 e PoAP3.3 (B) de Passiflora organensis por RT-qPCR em três conjuntos distintos de órgãos florais de uma flor completamente desenvolvida. Os dados estão expressos em média ± Erro padrão. Médias seguidas da mesma letra não diferem entre si pelo teste Tukey p<0,05.

78

PoPI (‘ci’ e ‘si’) Os resultados das Rt-qPCRs com os genes PoPI indicam que estes genes apresentam um padrão de expressão diferente em relação aos conjuntos de órgãos florais onde cada um tem maior expressão, sendo que PoPIci é mais expresso no androginóforo (coluna + androceu + gineceu) (Figura 46A e 46B), enquanto que PoPIsi temseu maior nível de expressão localizado nos órgãos que compõem o perianto (sépalas + pétalas) (Figura 46C e 46D).

A PoPIci B PoPIci

800© a 6©

© b 700 5 © © 600 4 500

400 3

300

Expressão Relativa Expressão 2

200 b 1 100 © b b a 0 0 ANDROGINÓFORO CORONA© PERIANTO CORONA PERIANTO

C D PoPIsi PoPIsi

35 2,5 a b 30 © © 2 25 1,5 20 b 15

1 © Expressão Relativa Expressão 10 0,5 5 b b © © 0 0 ANDROGINÓFORO CORONA PERIANTO ANDROGINÓFORO CORONA Figura 46: Gráficos da expressão relativa dos genes de classe B PoPIci (A e B) e PoPIsi (B e C) de Passiflora organensis por RT-qPCR em três conjuntos distintos de órgãos florais de uma flor completamente desenvolvida. Gráficos B e D apresentam os valores correspondentes às menores expressões a fim de facilitar a visualização dos dados. Os dados estão expressos em média ± Erro padrão. Médias seguidas da mesma letra não diferem entre si pelo teste Tukey p<0,05.

79

PoTM6 Diferentemente das análises em botões florais, não encontramos problemas para a normalização e análise dos dados referentes ao gene PoTM6 nas amostras dos conjuntos de órgãos florais. Existem algumas explicações para tal evento, sendo que a mais provável delas é a de que durante alguma etapa do experimento, desde a coleta do material até a montagem das placas, houve contaminação. Isso poderá ser verificado com a repetição dos experimentos seguindo os mesmos critérios de execução. Analisando os resultados, é possível observar uma maior expressão do gene PoTM6 no androginóforo, quando comparado às demais amostras, sendo que em relação a corona, os testes estatísticos não revelam uma discrepância muito significativa. Já em relação ao nível de expressão desse gene no perianto, o nível de expressão desses dois conjuntos de tecidos (androginóforo e perianto) é bastante diferente (Figura 47).

PoTM6 8 a 7 © 6 5

4 ab ©

3 Expressão Relativa Expressão 2 b 1 ©

0 ANDROGINÓFORO CORONA PERIANTO

Figura 47: Gráfico da expressão relativa do gene de classe B PoTM6 de Passiflora organensis por RT-qPCR em três conjuntos distintos de órgãos florais de uma flor completamente desenvolvida. Os dados estão expressos em média ± Erro padrão. Médias seguidas da mesma letra não diferem entre si pelo teste Tukey p<0,05.

PoGOA Mais uma vez encontramos problemas no tratamento e na normalização dos dados referentes ao padrão de expressão, neste caso, do gene PoGOA, o qual nos dados brutos apresentou menor valor de expressão na corona e, portanto, foi escolhida como amostra controle 80

com a qual as demais seriam comparadas. Entretanto no gráfico o nível de expressão relativa da corona é o maior valor entre os três (Figura 48). Como apenas neste tipo de tecido vegetal (órgãos de uma flor completamente desenvolvida) enfrentamos problemas durante o tratamento dos dados é possível considerar a ocorrência de algum tipo de contaminação em alguma etapa do processo.

PoGOA 1,2 a 1 a 0,8

0,6

b Relativa Expressão 0,4

0,2

0 ANDROGINÓFORO CORONA PERIANTO Figura 48: Gráfico da expressão relativa do gene de classe B PoGOA de Passiflora organensis por RT-qPCR em três conjuntos distintos de órgãos florais de uma flor completamente desenvolvida. Os dados estão expressos em média ± Erro padrão. Médias seguidas da mesma letra não diferem entre si pelo teste Tukey p<0,05.

A partir dos dados referentes às análises conduzidas com amostras de órgãos florais apresentados e discutidos acima, cabe uma última reflexão sobre o papel dos genes de classe B em Passiflora organensis. Estes genes são conhecidos como os responsáveis pela identidade e determinação dos órgãos florais, sendo assim, em uma flor completamente formada os tecidos já estão todos formados, com suas identidades já bem definidas. Sendo assim, esperávamos encontrar um padrão de expressão pouco diferente entre os órgãos florais, uma vez que a atividade desses genes seria quase nula. Entretanto, para a maioria dos genes foram encontrados valores de expressão distintos entre os tecidos florais, inclusive sob o ponto de vista estatístico. Dessa forma, é possível especular que alguns genes de classe B tenham outros papeis além da determinação dos órgãos florais em meristemas de inflorescência.

81

Conclusões Gerais Foram encontrados 72 genes da família MaDS-box em Passiflora organensis, sendo 32 deles pertencentes à linhagem tipo I (M-type) e 40 à linhagem tipo II (MIKC). As análises da classe B pertencente à linhagem tipo II da família MADS-box revelaram a presença de oito membros dessa classe, sendo três parálogos de AP3, um parálogo de GOA, um parálogos de TT16, um parálogo de TM6 e dois parálogos de PI, sendo que um deles (PoPIsi) possui apenas um éxon e é funcional. A análise de expressão dos genes de classe B em P.organensis indica possíveis papéis desses genes no desenvolvimento floral, contudo, são necessárias mais análises a fim de validar o padrão de expressão de cada um desses genes e inferir suas funções e interações.

Bibliografia:

Adamczyk BJ, Fernandez DE (2009) MIKC* MADS Domain Heterodimers Are Required for Pollen Maturation and Tube Growth in Arabidopsis. Plant Physiology 149:1713–1723. doi: 10.1104/pp.109.135806 Agosti D, Alonso LE (2000) Ants - Standard Methods for Biodiversity Studies, Monitoring and Ants: An Overview. Ants Standard Methods for Measuring and Monitoring Biodiversity Altschul SF, Madden TL, Schäffer AA, et al (1997) Gapped BLAST and PSI-BLAST: A new generation of protein database search programs. Nucleic Acids Research 25:3389–3402. doi: 10.1093/nar/25.17.3389 Alvarez-Buylla ER, Liljegren SJ, Pelaz S, et al (2000) MADS-box gene evolution beyond flowers: Expression in pollen, endosperm, guard cells, roots and trichomes. Plant Journal 24:457–466. doi: 10.1046/j.1365-313X.2000.00891.x Alvarez-buylla ER, Pelaz S, Liljegren SJ, et al (2000) An ancestral MADS-box gene duplication occurred before the divergence of plants and animals. 97: Amela García MT, Galati BG, Hoc PS (2007) Ultrastructure of the corona of scented and scentless flowers of Passiflora spp. (Passifloraceae). Flora: Morphology, Distribution, Functional Ecology of Plants. doi: 10.1016/j.flora.2006.08.003 Arabidopsis Genome Initiative (2000) Analysis of the genome sequence of the Arabidopsis thaliana. Nature 408:796–815. doi: 10.1038/35048692 Arora R, Agarwal P, Ray S, et al (2007) MADS-box gene family in rice: Genome-wide identification, organization and expression profiling during reproductive development and stress. BMC Genomics 8:. doi: 10.1186/1471-2164-8-242 Arris JASF, Oltis PASS, Oltis DOES (2004) B- Function Mads- Box Genes in Angiosperms : 91:2102–2118 Bartlett ME, Specht CD (2010) Evidence for the involvement of GLOBOSA-like gene duplications and expression divergence in the evolution of floral morphology in the Zingiberales. New Phytologist 187:521–41. doi: 10.1111/j.1469-8137.2010.03279.x Becker A, Kaufmann K, Freialdenhoven A, et al (2001) A novel MADS-box gene subfamily with a sister-group relationship to class B floral homeotic genes. Molecular Genetics and Genomics 266:942–950. doi: 10.1007/s00438-001-0615-8 Becker A, Theißen G (2003) The major clades of MADS-box genes and their role in the development and evolution of flowering plants. Molecular Phylogenetics and Evolution 29:464–489. doi: 10.1016/S1055-7903(03)00207-0 Becker A, Winter K, Meyer B, Saedler H (2000) MADS-Box Gene Diversity in Seed Plants 300 Million Years Ago. 1425–1434 Bevan M, Walsh S (2005) The Arabidopsis genome : A foundation for plant research The Arabidopsis 82

genome : A foundation for plant research. 1632–1642. doi: 10.1101/gr.3723405 Bodt S De, Maere S, Peer Y Van De (2005) Genome duplication and the origin of angiosperms. 20:. doi: 10.1016/j.tree.2005.07.008 Bowers JE, Chapman BA, Rong J, Paterson AH (2003) Unravelling angiosperm genome evolution by phylogenetic analysis of chromosomal duplication events. Nature. doi: 10.1038/nature01521 Bowman JL, Alvarez J, Weigel D, et al (1993) Control of flower development in Arabidopsis thaliana by APETALA1 and interacting genes. Development 119:721–743. doi: 10.1016/j.anbehav.2009.06.003 Bowman JL, Smyth DR, Meyerowitz EM (1991) Genetic interactions among floral homeotic genes of Arabidopsis. Development 112:1–20. doi: 10.1242/dev.025148 Bowman JL, Smyth DR, Meyerowitz EM (2012) The ABC model of flower development: then and now. Development 139:4095–4098. doi: 10.1242/dev.083972 Broholm SK, Pöllänen E, Ruokolainen S, et al (2010) Functional characterization of B class MADS- box transcription factors in Gerbera hybrida. Journal of Experimental Botany 61:75–85. doi: 10.1093/jxb/erp279 Cantone C, Gaudio L, Aceto S (2011) The PI/GLO-like locus in orchids: Duplication and purifying selection at synonymous sites within Orchidinae (Orchidaceae). Gene 481:48–55. doi: 10.1016/j.gene.2011.04.004 Chang Y-Y, Kao N-H, Li J-Y, et al (2010) Characterization of the Possible Roles for B Class MADS Box Genes in Regulation of Perianth Formation in Orchid. Plant Physiology 152:837–853. doi: 10.1104/pp.109.147116 Chen F, Zhang X, Liu X, Zhang L (2017a) Evolutionary Analysis of MIKCc-Type MADS-Box Genes in Gymnosperms and Angiosperms. Frontiers in Plant Science 8:1–11. doi: 10.3389/fpls.2017.00895 Chen H, Tsai W, Chen H (2017b) Orchid MADS-Box Genes Controlling Floral Morphogenesis The Orchid MADS-Box Genes Controlling Floral Morphogenesis. 109–120. doi: 10.1100/tsw.2006.321 Christenhusz MJM, Byng JW (2016) The number of known plants species in the world and its annual increase. Phytotaxa 261:201–217. doi: 10.11646/phytotaxa.261.3.1 Claßen-Bockhoff R, Meyer C (2016) Space matters: Meristem expansion triggers corona formation in Passiflora. Annals of Botany 117:277–290. doi: 10.1093/aob/mcv177 Coen ES, Meyerowitz EM (1991) The war of the whorls: genetic interactions controlling flower development. Nature 353:31–37. doi: 10.1038/353031a0 Cogni R, Freitas AVL, Oliveira PS (2003) Interhabitat differences in ant activity on plant foliage: Ants at extrafloral nectaries of Hibiscus pernambucensis in sandy and mangrove forests. Entomologia Experimentalis et Applicata. doi: 10.1046/j.1570-7458.2003.00046.x Coley PD, Barone JA (1996) HERBIVORY AND PLANT DEFENSES IN TROPICAL FORESTS. Annual Review of Ecology and Systematics. doi: 10.1146/annurev.ecolsys.27.1.305 Coneryz JS (2000) The Evolutionary Fate and Consequences of Duplicate Genes. 290: Cozzolino S, Widmer A (2005) Orchid diversity: An evolutionary consequence of deception? Trends in Ecology and Evolution 20:487–494. doi: 10.1016/j.tree.2005.06.004 De Bodt S, Raes J, Van De Peer Y, Theißen G (2003) And then there were many: MADS goes genomic. Trends in Plant Science 8:475–483. doi: 10.1016/j.tplants.2003.09.006 De Folter S, Shchennikova A V., Franken J, et al (2006) A Bsister MADS-box gene involved in ovule and seed development in petunia and Arabidopsis. Plant Journal 47:934–946. doi: 10.1111/j.1365-313X.2006.02846.x de Martino G (2006) Functional Analyses of Two Tomato APETALA3 Genes Demonstrate Diversification in Their Roles in Regulating Floral Development. the Plant Cell Online 18:1833– 1845. doi: 10.1105/tpc.106.042978 Deng W, Chen G, Peng F, et al (2012) Transparent Testa16 Plays Multiple Roles in Plant Development and Is Involved in Lipid Synthesis and Embryo Development in Canola. Plant Physiology 160:978–989. doi: 10.1104/pp.112.198713 Des Marais DL, Rausher MD (2008) Escape from adaptive conflict after duplication in an anthocyanin pathway gene. Nature 454:762–765. doi: 10.1038/nature07092 Dewey CN (2011) Positional orthology: Putting genomic evolutionary relationships into context. 83

Briefings in Bioinformatics. doi: 10.1093/bib/bbr040 Diaz-Riquelme J, Lijavetzky D, Martinez-Zapater JM, Carmona MJ (2009) Genome-Wide Analysis of MIKCC-Type MADS Box Genes in Grapevine. Plant Physiology 149:354–369. doi: 10.1104/pp.108.131052 Dornelas MC, Camargo RLB, Figueiredo LHM, Takita MA (2007) A genetic framework for flowering-time pathways in Citrus spp. Genetics and Molecular Biology 30:769–779. doi: 10.1590/S1415-47572007000500006 Dornelas MC, Rodriguez APM (2001) A genomic approach to elucidating grass flower development. Genetics and Molecular Biology 24:69–76. doi: 10.1590/S1415-47572001000100011 Dressler RL (1993) Phylogeny and Classification of the Orchid Family. Timber Press inc. doi: 10.1086/418905 Drinnan AN, Crane PR, Hoot SB (1994) Patterns of Floral Evolution in the Early Diversification of Non-Magnoliid (). Plant Systematics and Evolution Erdmann R, Gramzow L, Melzer R, et al (2010) GORDITA (AGL63) is a young paralog of the Arabidopsis thaliana BsisterMADS box gene ABS (TT16) that has undergone neofunctionalization. Plant Journal 63:914–924. doi: 10.1111/j.1365-313X.2010.04290.x Fenster CB, Armbruster WS, Wilson P, et al (2004) Pollination Syndromes and Floral Specialization. Annual Review of Ecology, Evolution, and Systematics 35:375–403. doi: 10.1146/annurev.ecolsys.34.011802.132347 Finnegan DJ (2012) Retrotransposons. Current Biology 22:432–437. doi: 10.1016/j.cub.2012.04.025 Gioppato HA, Dornelas MC (2018) When Bs Are Better than As: the Relationship between B-Class MADS-Box Gene Duplications and the Diversification of Perianth Morphology. Tropical Plant Biology. doi: 10.1007/s12042-018-9212-4 Goodstein DM, Shu S, Howson R, et al (2012) Phytozome: A comparative platform for green plant genomics. Nucleic Acids Research 40:1178–1186. doi: 10.1093/nar/gkr944 Goremykin V V., Hansmann S, Martin WF (1997) Evolutionary analysis of 58 proteins encoded in six completely sequenced chloroplast genomes: Revised molecular estimates of two seed plant divergence times. Plant Systematics and Evolution 206:337–351. doi: 10.1007/BF00987956 Gramzow L, Theissen G (2010) A hitchhiker’s guide to the MADS world of plants. Genome Biol 11:214. doi: 10.1186/gb-2010-11-6-214 Hansen AK, Gilbert LE, Simpson BB, et al (2006) Phylogenetic Relationships and Chromosome Number Evolution in Passiflora. Systematic Botany. doi: 10.1600/036364406775971769 Hemingway CA, Christensen AR, Malcomber ST (2011) B- and C-class gene expression during corona development of the blue passionflower (Passiflora caerulea, Passifloraceae). American Journal of Botany 98:923–934. doi: 10.3732/ajb.1100026 Henschel K, Kofuji R, Hasebe M, et al (2000) Two Ancient Classes of MIKC-type MADS-box Genes are Present in the Moss Physcomitrella patens. 801–814 Henschel K, Kofuji R, Hasebe M, et al (2002) Two ancient classes of MIKC-type MADS-box genes are present in the moss Physcomitrella patens. Molecular Biology and Evolution 19:801–814. doi: 10.1093/oxfordjournals.molbev.a004137 Hermann K, Kuhlemeier C (2011) The genetic architecture of natural variation in flower morphology. Current Opinion in Plant Biology 14:60–65. doi: 10.1016/j.pbi.2010.09.012 Hernández-Hernández T, Martínez-Castilla LP, Alvarez-Buylla ER (2007) Functional diversification of B MADS-box homeotic regulators of flower development: Adaptive evolution in protein- protein interaction domains after major gene duplication events. Molecular Biology and Evolution 24:465–481. doi: 10.1093/molbev/msl182 Honma T, Goto K (2001) Complexes of MADS-box proteins are sufficient to convert leaves into floral organs. Nature. doi: 10.1038/35054083 Hu B, Jin J, Guo A, et al (2015) Genome analysis GSDS 2 . 0 : an upgraded gene feature visualization server. 31:1296–1297. doi: 10.1093/bioinformatics/btu817 Irish EMK& VF (1999) Evolution of genetic mechanisms controlling petal development. Nature 399:144–148. doi: 10.1038/20172 Jaillon O, Aury JM, Noel B, et al (2007) The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla. Nature. doi: 10.1038/nature06148 Jaramillo MA, Kramer EM (2007) Molecular evolution of the petal and stamen identity genes, 84

APETALA3 and PISTILLATA, after petal loss in the . Molecular Phylogenetics and Evolution 44:598–609. doi: 10.1016/j.ympev.2007.03.015 Jiao Y, Paterson AH (2014) Polyploidy-associated genome modifications during land plant evolution. Philosophical Transactions of the Royal Society B: Biological Sciences Kalyaanamoorthy S, Minh BQ, Wong TKF, et al (2017) ModelFinder: Fast model selection for accurate phylogenetic estimates. Nature Methods. doi: 10.1038/nmeth.4285 Katoh K, Standley DM (2013) MAFFT multiple sequence alignment software version 7: Improvements in performance and usability. Molecular Biology and Evolution. doi: 10.1093/molbev/mst010 Kaufmann K, Anfang ÆN, Saedler ÆH (2005) Mutant analysis , protein – protein interactions and subcellular localization of the Arabidopsis B sister ( ABS ) protein. 103–118. doi: 10.1007/s00438-005-0010-y Kaufmann K, Wellmer F, Muiñ JM, et al (2010) Orchestration of floral initiation by APETALA1. Science. doi: 10.1126/science.1185244 Keller O, Kollmar M, Stanke M, Waack S (2011) A novel hybrid gene prediction method employing protein multiple sequence alignments. Bioinformatics 27:757–763. doi: 10.1093/bioinformatics/btr010 Kim S, Yoo MJ, Albert VA, et al (2004) Phylogeny and diversification of B-function MADS-box genes in angiosperms: Evolutionary and functional implications of a 260-million-year-old duplication. American Journal of Botany 91:2102–2118. doi: 10.1016/j.matlet.2004.01.006 Kim SY, Yun PY, Fukuda T, et al (2007) Expression of a DEFICIENS-like gene correlates with the differentiation between sepal and petal in the orchid, Habenaria radiata (Orchidaceae). Plant Science 172:319–326. doi: 10.1016/j.plantsci.2006.09.009 Kofuji R, Sumikawa N, Yamasaki M, et al (2003) Evolution and Divergence of the MADS-Box Gene Family Based on Genome-Wide Expression Analyses. Molecular Biology and Evolution 20:1963–1977. doi: 10.1093/molbev/msg216 Kramer EM, Dorit RL, Irish VF (1998) Molecular evolution of genes controlling petal and stamen development: Duplication and divergence within the APETALA3 and PISTILLATA MADS-box gene lineages. Genetics 149:765–783 Kramer EM, Irish VF (2000) Evolution of the Petal and Stamen Developmental Programs: Evidence from Comparative Studies of the Lower Eudicots and . International Journal of Plant Sciences 161:S29–S40. doi: 10.1086/317576 Kubitzki K (2007) , , , p.p., , , p.p., , , Vitales, , Clusiaceae Alliance, Passifloraceae Alliance, Dilleniaceae, Huaceae, Picramniaceae, Sabiaceae KUBITZKI K (2007) The Families and Genera of Vascular Plants Kumar S, Stecher G, Tamura K (2016) MEGA7: Molecular Evolutionary Genetics Analysis Version 7.0 for Bigger Datasets. Molecular biology and evolution. doi: 10.1093/molbev/msw054 Lamb RS, Irish VF (2003) Functional divergence within the APETALA3/PISTILLATA floral homeotic gene lineages. Proceedings of the National Academy of Sciences 100:6558–6563. doi: 10.1073/pnas.0631708100 Leseberg CH, Li A, Kang H, et al (2006) Genome-wide analysis of the MADS-box gene family in Populus trichocarpa. Gene 378:84–94. doi: 10.1016/j.gene.2006.05.022 Litt A (2007) An Evaluation of A‐Function: Evidence from the APETALA1 and APETALA2 Gene Lineages. International Journal of Plant Sciences 168:73–91. doi: 10.1086/509662 Litt A, Kramer EM (2010) The ABC model and the diversification of floral organ identity. Seminars in Cell and Developmental Biology 21:129–137. doi: 10.1016/j.semcdb.2009.11.019 Long M (2001) Gene Duplication and Evolution. Science 293:1551a–1551. doi: 10.1126/science.293.5535.1551a Lovisetto A, Guzzo F, Tadiello A, et al (2018) Molecular Analyses of MADS-Box Genes Trace Back to Gymnosperms the Invention of Fleshy Fruits Research article. 29:409–419. doi: 10.1093/molbev/msr244 Lynch M (2000) The Evolutionary Fate and Consequences of Duplicate Genes. Science. doi: 10.1126/science.290.5494.1151 Lynch M THE ORIGINS OF GENOME ARCHITECTURE 85

Maere S, Bodt S De, Raes J, et al (2005) Modeling gene and genome duplications in eukaryotes Martinez-Castilla LP, Alvarez-Buylla ER (2003) Adaptive evolution in the Arabidopsis MADS-box gene family inferred from its complete resolved phylogeny. Proceedings of the National Academy of Sciences 100:13407–13412. doi: 10.1073/pnas.1835864100 McCarthy EW, Mohamed A, Litt A (2015) Functional Divergence of APETALA1 and FRUITFULL is due to Changes in both Regulation and Coding Sequence. Frontiers in Plant Science. doi: 10.3389/fpls.2015.01076 McGarry RC, Ayre BG (2012) Manipulating plant architecture with members of the CETS gene family. Plant Science Melzer R, Härter A, Rümpler F, et al (2014) DEF- and GLO-like proteins may have lost most of their interaction partners during angiosperm evolution. Annals of Botany 114:1431–1443. doi: 10.1093/aob/mcu094 Mnster T, Pahnke J, Di Rosa A, et al (1997) Floral homeotic genes were recruited from homologous MADS-box genes preexisting in the common ancestor of ferns and seed plants. Evolution 94:2415–2420. doi: 10.1073/pnas.94.6.2415 Mondragón-Palomino M, Theißen G (2008) MADS about the evolution of orchid flowers. Trends in Plant Science 13:51–59. doi: 10.1016/j.tplants.2007.11.007 Murat F, Van De Peer Y, Salse J (2012) Decoding plant and animal genome plasticity from differential paleo-evolutionary patterns and processes. Genome Biology and Evolution 4:917– 928. doi: 10.1093/gbe/evs066 Muschner VC, Zamberlan PM, Bonatto SL, Freitas LB (2012) Phylogeny, biogeography and divergence times in Passiflora (Passifloraceae). Genetics and Molecular Biology. doi: 10.1590/S1415-47572012000600019 Nam J, DePamphilis CW, Ma H, Nei M (2003) Antiquity and evolution of the MADS-box gene family controlling flower development in plants. Molecular Biology and Evolution 20:1435– 1447. doi: 10.1093/molbev/msg152 Nam J, Kim J, Lee S, et al (2004) Type I MADS-box genes have experienced faster birth-and-death evolution than type II MADS-box genes in angiosperms. Proceedings of the National Academy of Sciences 101:1910–1915. doi: 10.1073/pnas.0308430100 Nei M, Roychoudhury AK (1973) Probability of fixation and mean fixation time of an overdominant mutation. Genetics 74:371–380. doi: 4721737 Nei M, Saitou N (1987) The neighbor-joining method: a new method for reco... [Mol Biol Evol. 1987] - PubMed result. Mol Biol Evol Nesi N, Debeaujon I, Jond C, et al (2002) The TRANSPARENT TESTA16 Locus Encodes the ARABIDOPSIS BSISTER MADS Domain Protein and Is Required for Proper Development and Pigmentation of the Seed Coat. 14:2463–2479. doi: 10.1105/tpc.004127.Beeckman Nguyen L-T, Schmidt HA, von Haeseler A, Minh BQ (2015) IQ-TREE: A Fast and Effective Stochastic Algorithm for Estimating Maximum-Likelihood Phylogenies. Molecular Biology and Evolution. doi: 10.1093/molbev/msu300 Ocampo J, Restrepo JJ, Giraldo W (2015) Rediscovery of Passiflora danielii Killip, 1960 (subgenus Passiflora): A threatened narrow endemic species of Colombia. Check List. doi: 10.15560/11.2.1589 Pabõn-Mora N, Sharma B, Holappa LD, et al (2013) The Aquilegia FRUITFULL-like genes play key roles in leaf morphogenesis and inflorescence development. Plant Journal 74:197–212. doi: 10.1111/tpj.12113 Pan ZJ, Cheng CC, Tsai WC, et al (2011) The duplicated B-class MADS-box genes display dualistic characters in orchid floral organ identity and growth. Plant and Cell Physiology 52:1515–1531. doi: 10.1093/pcp/pcr092 Parenicova L (2003) Molecular and Phylogenetic Analyses of the Complete MADS-Box Transcription Factor Family in Arabidopsis: New Openings to the MADS World. the Plant Cell Online 15:1538–1551. doi: 10.1105/tpc.011544 Pelaz S, Ditta GS, Baumann E, et al (2000) B and C floral organ identity functions require SEPALLATA MADS-box genes. Nature 405:200–203. doi: 10.1038/35012103 Pfaffl MW (2001) A new mathematical model for relative quantification in real-time RT-PCR. Nucleic Acids Research 29:45e–45. doi: 10.1093/nar/29.9.e45 86

Pinyopich A, Ditta GS, Savidge B, et al (2003) Assessing the redundancy of MADS-box genes during carpel and ovule development. Nature. doi: 10.1038/nature01741 Poupin MJ, Federici F, Medina C, et al (2007) Isolation of the three grape sub-lineages of B-class MADS-box TM6, PISTILLATA and APETALA3 genes which are differentially expressed during flower and fruit development. Gene 404:10–24. doi: 10.1016/j.gene.2007.08.005 Prasad K, Ambrose BA (2010) Shaping up the fruit. 899–902. doi: 10.1111/j.1365- 313X.2010.04139.x.www.landesbioscience.com Prasad K, Zhang X, Tobón E, Ambrose BA (2010) The Arabidopsis B-sister MADS-box protein, GORDITA, represses fruit growth and contributes to integument development. Plant Journal 62:203–214. doi: 10.1111/j.1365-313X.2010.04139.x Proost S, Van Bel M, Sterck L, et al (2009) PLAZA: A Comparative Genomics Resource to Study Gene and Genome Evolution in Plants. The Plant Cell 21:3718–3731. doi: 10.1105/tpc.109.071506 Purugganan MD (1997) The MADS-Box Floral Homeotic Gene Lineages Predate the Origin of Seed Plants: Phylogenetic and Molecular Clock Estimates. Journal of Molecular Evolutionolecular evolution. doi: 10.1002/(SICI)1521-1878(199903)21:3<265::AID-BIES14>3.0.CO;2-J Purugganan MD, Rounsley SD, Schmidt RJ, Yanofsky MF (1995) Molecular evolution of flower development: Diversification of the plant MADS-box regulatory gene family. Genetics 140:345– 356. doi: 10.1016/S0169-5347(99)01816-9 Ramakers C, Ruijter JM, Lekanne Deprez RH, Moorman AFM (2003) Assumption-free analysis of quantitative real-time polymerase chain reaction (PCR) data. Neuroscience Letters 339:62–66. doi: 10.1016/S0304-3940(02)01423-4 Ren R, Wang H, Guo C, et al (2018) Widespread Whole Genome Duplications Contribute to Genome Complexity and Species Diversity in Angiosperms. Molecular Plant 11:414–428. doi: 10.1016/j.molp.2018.01.002 Riechmann JL, Heard J, Martin G, et al (2000) <em>Arabidopsis</em> Transcription Factors: Genome-Wide Comparative Analysis Among Eukaryotes. Science 290:2105 LP-2110 Riechmann JL, Meyerowitz EM (1997) Determination of floral organ identity by Arabidopsis MADS domain homeotic proteins AP1, AP3, PI, and AG is independent of their DNA-binding specificity. Molecular biology of the cell 8:1243–1259. doi: 10.1091/mbc.8.7.1243 Rijpkema AS, Royaert S, Zethof J, et al (2006) Analysis of the Petunia TM6 MADS Box Gene Reveals Functional Divergence within the DEF / AP3 Lineage. Gene 18:1819–1832. doi: 10.1105/tpc.106.042937.2 Rijpkema AS, Vandenbussche M, Koes R, et al (2010) Variations on a theme: Changes in the floral ABCs in angiosperms. Seminars in Cell and Developmental Biology 21:100–107. doi: 10.1016/j.semcdb.2009.11.002 Roque E, Serwatowska J, Cruz Rochina M, et al (2013) Functional specialization of duplicated AP3- like genes in Medicago truncatula. Plant Journal 73:663–675. doi: 10.1111/tpj.12068 Rudall PJ, Bateman RM (2002) Roles of synorganisation, zygomorphy and heterotopy in floral evolution: the gynostemium and labellum of orchids and other . 403–441 Ruelens P, Zhang Z, van Mourik H, et al (2017) The Origin of Floral Organ Identity Quartets. The Plant Cell 29:229–242. doi: 10.1105/tpc.16.00366 Sakai S, Kawakita A, Ooi K, Inoue T (2013) Variation in the strength of association among pollination systems and floral traits: Evolutionary changes in the floral traits of Bornean gingers (Zingiberaceae). American Journal of Botany 100:546–555. doi: 10.3732/ajb.1200359 Sampedro J, Lee Y, Carey RE, et al (2005) Use of genomic history to improve phylogeny and understanding of births and deaths in a gene family. Plant Journal. doi: 10.1111/j.1365- 313X.2005.02540.x Sazima M, Sazima I (1978) Bat Pollination of the Passion Flower, Passiflora mucronata, in Southeastern Brazil. Biotropica 10:100. doi: 10.2307/2388012 Schmid R, Harris JG, Harris MW (1995) Plant Identification Terminology: An Illustrated Glossary. Taxon. doi: 10.2307/1222694 Schulman AH (2013) Retrotransposon replication in plants. Current Opinion in Virology 3:604–614. doi: 10.1016/j.coviro.2013.08.009 Schwarz-Sommer Z, Huijser P, Nacken W, et al (1990a) Genetic Control of Flower Development by 87

Homeotic Genes in Antirrhinum majus. Science 250:931–936. doi: 10.1126/science.250.4983.931 Schwarz-Sommer Z, Huijser P, Nacken W, et al (1990b) Genetic control of flower development by homeotic genes in Antirrhinum majus. Science Scorza LCT (2015) Crescimento de gavinhas e identificação de genes potenciais diferenciadores de órgãos e meristemas em Passiflora edulis ( Passifloraceae ) Sharma B, Kramer E (2013) Sub- and neo-functionalization of APETALA3 paralogs have contributed to the evolution of novel floral organ identity in Aquilegia (columbine, Ranunculaceae). New Phytologist Shepard KA, Purugganan MD (2002) The genetics of plant morphological evolution. Current Opinion in Plant Biology 5:49–55. doi: 10.1016/S1369-5266(01)00227-8 Soltis DE, Ma H, Frohlich MW, et al (2007) The floral genome: an evolutionary history of gene duplication and shifting patterns of gene expression. Trends in Plant Science 12:358–367. doi: 10.1016/j.tplants.2007.06.012 Stellari GM, Jaramillo MA, Kramer EM (2004) Evolution of the APETALA3 and PISTILLATA Lineages of MADS-Box-Containing Genes in the Basal Angiosperms. Molecular Biology and Evolution 21:506–519. doi: 10.1093/molbev/msh044 Stothard P (2000) The sequence manipulation suite: JavaScript programs for analyzing and formatting protein and DNA sequences. BioTechniques. doi: 10.2144/00286ir01 Tang H, Bowers JE, Wang X, et al (2008) Synteny and collinearity in plant genomes. Science Theißen G (2001) Development of floral organ identity: Stories from the MADS house. Current Opinion in Plant Biology 4:75–85. doi: 10.1016/S1369-5266(00)00139-4 Theißen G, Becker A (2004) Gymnosperm orthologues of class B floral homeotic genes and their impact on understanding flower origin. Critical Reviews in Plant Sciences 23:129–148. doi: 10.1080/07352680490433240 Theissen G, Becker A, Di Rosa A, et al (2000) A short history of MADS-box genes in plants. Plant molecular biology 42:115–49. doi: 10.1023/A:1006332105728 Theißen G, Kim JT, Saedler H (1996) Classification and phylogeny of the MADS-box multigene family suggest defined roles of MADS-box gene subfamilies in the morphological evolution of eukaryotes. Journal of Molecular Evolution 43:484–516. doi: 10.1007/BF02337521 Theissen G, Melzer R (2007) Molecular mechanisms underlying origin and diversification of the angiosperm flower. Annals of Botany 100:603–619. doi: 10.1093/aob/mcm143 Theißen G, Melzer R, Rümpler F (2016) MADS-domain transcription factors and the floral quartet model of flower development: linking plant development and evolution. Development 143:3259– 3271. doi: 10.1242/dev.134080 Theißen G, Saedler H (2001) Floral quartets. Nature Tian Y, Dong Q, Ji Z, et al (2015) Genome-wide identification and analysis of the MADS-box gene family in apple. Gene 555:277–290. doi: 10.1016/j.gene.2014.11.018 Tsai WC, Kuoh CS, Chuang MH, et al (2004) Four DEF-like MADS box genes displayed distinct floral morphogenetic roles in Phalaenopsis orchid. Plant and Cell Physiology 45:831–844. doi: 10.1093/pcp/pch095 Tsai WC, Lee PF, Chen HI, et al (2005) PeMADS6, a GLOBOSA/PISTILLATA-like gene in Phalaenopsis equestris involved in petaloid formation, and correlated with flower longevity and ovary development. Plant and Cell Physiology 46:1125–1139. doi: 10.1093/pcp/pci125 Tuskan GA, DiFazio S, Jansson S, et al (2006) The genome of black cottonwood, Populus trichocarpa (Torr. & Gray). Science. doi: 10.1126/science.1128691 Ulmer T, MaCDougal J (2004) Passiflora: passionflowers of the world. Timber Press Van Bel M, Proost S, Wischnitzki E, et al (2012) Dissecting Plant Genomes with the PLAZA Comparative Genomics Platform. Plant Physiology 158:590–600. doi: 10.1104/pp.111.189514 Van De Peer Y, Maere S, Meyer A (2009) The evolutionary significance of ancient genome duplications. Nature Reviews Genetics 10:725–732. doi: 10.1038/nrg2600 Vandenbussche M (2004) The Duplicated B-Class Heterodimer Model: Whorl-Specific Effects and Complex Genetic Interactions in Petunia hybrida Flower Development. THE PLANT CELL ONLINE. doi: 10.1105/tpc.019166 Vandenbussche M, Zethof J, Royaert S, et al (2004) The duplicated B-class heterodimer model: 88

Whorl-specific effects and complex genetic interactions in Petunia hybrida flower development. Plant Cell 16:741–754. doi: 10.1105/tpc.019166.et Verelst W, Saedler H, Munster T (2006) MIKC* MADS-Protein Complexes Bind Motifs Enriched in the Proximal Region of Late Pollen-Specific Arabidopsis Promoters. Plant Physiology 143:447– 460. doi: 10.1104/pp.106.089805 Verelst W, Twell D, de Folter S, et al (2007) MADS-complexes regulate transcriptome dynamics during pollen maturation. Genome Biology 8:1–15. doi: 10.1186/gb-2007-8-11-r249 Veron AS, Kaufmann K, Bornberg-Bauer E (2007) Evidence of interaction network evolution by whole-genome duplications: A case study in MADS-box proteins. Molecular Biology and Evolution 24:670–678. doi: 10.1093/molbev/msl197 Viaene T, Vekemans D, Irish VF, et al (2009) Pistillata-duplications as a mode for floral diversification in (Basal) . Molecular Biology and Evolution 26:2627–2645. doi: 10.1093/molbev/msp181 Winter K, Weiser C, Kaufmann K, et al (2018) Evolution of Class B Floral Homeotic Proteins : Obligate Heterodimerization Originated from Homodimerization. 587–596 Xu Y, Yu H, Kumar PP (2010) Characterization of floral organ identity genes of the orchid dendrobium crumenatum. Asia-Pacific Journal of Molecular Biology and Biotechnology 18:183– 185. doi: 10.1111/j.1365-313X.2006.02669.x Yamada K, Saraike ÆT, Takumi S, et al (2009) Class D and B sister MADS-box genes are associated with ectopic ovule formation in the pistil-like stamens of alloplasmic wheat ( Triticum aestivum L .). 1–14. doi: 10.1007/s11103-009-9504-z Zahn LM, Kong H, Leebens-Mack JH, et al (2005) The evolution of the SEPALLATA subfamily of MADS-box genes: A preangiosperm origin with multiple duplications throughout angiosperm history. Genetics 169:2209–2223. doi: 10.1534/genetics.104.037770 Zhao T, Holmer R, Bruijn S de, et al (2017) Phylogenomic Synteny Network Analysis of MADS-Box Transcription Factor Genes Reveals Lineage-Specific Transpositions, Ancient Tandem Duplications, and Deep Positional Conservation. The Plant Cell 29:tpc.00312.2017. doi: 10.1105/tpc.17.00312 Zhu YR, Yang M, Vamosi JC, et al (2017) Feeding the enemy: Loss of nectar and nectaries to herbivores reduces tepal damage and increases pollinator attraction in Iris bulleyana. Biology Letters 13:1–4. doi: 10.1098/rsbl.2017.0271

89

ANEXOS

90

ANEXO 1: Lista de sequências genômicas dos genes MADS-box encontrados na biblioteca LIB15042 no formato FASTA.

Legenda: ATG: códon de início TAG, TGA, TAA: códon stop nN: fronteira íntron-éxon Nn: fronteira éxon-íntron Nucleotídeos em letras minúsculas: íntron Nucleotideos em letras maiúsculas: éxon

>L42c2g142_AGL-62 ATGGCGAAGAAGCAGCCCAGCATAGGTCGTCAGAAGATCAAAATTGAGAAAATACTCAAAAAGAATCA TCTACAGGTTACCTTCTCCAAACGTCGTGCAGGGCTTTTCAAGAAAGCTAGCGAGCTGTGCACACTCT GTGGGGTTGAAATTGCAATAACAGTTTTCTCCCCAGCAAACAAGGCATTCTCCTTTGGGCATCCAGAT GTTGAATCCGTCATAGATCGGTTCCTTGCTCGAAACCCTTCTCGGAATTCTGGAGCATATCGGCTCTT CGAGGCACATAGAAATGCTAATGTTCGTGATCTCAATGTTCAACTAACCCACGCTCTTAGCCAACTGG AAGCGGAAAGAAAGCACGGAGAGGCGCTTAACCACATAAGAAAAGCTAGCCAAAGCCAGCGCTGGTGG GAAGATCCGATCGAAGAACTTGGATTTCAAGAGCTAGATCAATTAAGGAGTGCATTAGAGGAGTTAAA 91

GAAGAAGGTGACAGAAGAAGCCAACAAGATGGTGATAGAATCTGCCAACTCTCTGCCATTTTTCACCC AACATGGTATCCTACCTGTCGAACATCTCGAGACCAAACCTGAGATTTGTACAGCTTCCGGAATAACT CGCGTCAGTGATTTTGGTTATGGACATGGGATTTTTTGA

>L42c18g641_PIci ATGGGAAGAGGTAAGATTGAGATCAAAAGGATTGAAAACTCCAGCAACAGGCAGGTGACTTACTCTAA GAGGAGGAATGGGATCATCAAGAAAGCTAAGGAGATCACTGTTTTATGTGATGCAAAAGTTTCTCTTG TGATCTTCGGTAGTTCTGGGAAGATGCATGAGTACTGCAGCCCTTCTACTACgtatgtatatcttcta tacatatattgttccttcctcttttcgcttctttccttcagctttgctgaacattagcttaggttctt gttactttcctttctctgacctttctctaccatggtgatacataagGCTGGTCGATCTGTTGGACAAG TATCACAAACAGTCTGGTAAGAGATTGTGGGACGCCAAGCATGAGgtgagggtttgtccatctttctt cctcctaatatttaatcccctcaccttttttctgtcagacattgtattcacttttgaagccctgatgt tcttatggaaattgtttttttaatcatcctaaggttctatttagccaaaaatatgatagggaacacga actatgaattgtatgaacagatccacaagtaggatgtagcctttctctgcttctcagagtatatttta ttccgttattcaaagggagactaaaaaaagtatatatgaattgtaacatccatggacagatctggtaa acgattgtcttctcgatgccttccttttacttgcaaaaattgaagagaactaagtagatgttagatcc taaggaaatgaaatagtttccataaatagatccttattgaaatctttctccccactctccagtcctag tacttagcttgttaggggcatcagtactacttgagttgttggacatgcttttttctttatcacaagaa catcagttctacctggtatataatacaagttagtatgggaacaaatctgcttattacccatctgcatt tctcatgtattaaccatcttggtttttctgaaaaaggaaatattaattgttcaaaacaatttgtttaa tcacagAACCTCAGCAATGAGATTGACAGGATCAAGAAAGAGAATGATAGCATGCAGATTGAACTCAG gtaatttataagaatctctctatacacatctccttcctcctctctttcccatccatgcatctcttgct ctctttctgatgcttatttctcatgtttcagGCACCTGAAAGGGGAGGACATCACATCTTTACACCAC AAAGAGCTGTTGGCCCTTGAGAAAGCTCTTGAGAATGGCCTTGTCGGTGTTCGTGAGAAACAGgctag taccatcctagctgattacttaatgaacccttgattacctttaacttgtgtttatggatttatatcta atcatgtttctcttccttcttttttttcttaatctttctcgagacagATGGACTACTACAGGATGAAA GAGAAAAACgtacgagtacaccatacccaaaaatcacattcttaatcagctacagaaaccagacattg catctcattgtgttcctgtattcattattagcagatgatcaaaaaacctgttcataccagctgactca ttttacactggtctttctgtgtttgtttttgcagAACAAGATCCTGGAAGACGAGGGTAAACGCCTCA GCTTCATTCTGgtaagcattgattaatcttctttgcacataatctgtgtttagtctggcccctagacg atataacaaactgccttaccttctttatgcatatttcgcatggaaatcgaatgcatatgacatttttt ttcggatttcggtcgacattgattaattttggggtttagtttaagaaatctaactaatcttttttata tgataatttggattcaatcaaaaatgtcttttatgcataagaatggaatatcaatagaaattgcatta atgacttaccctattaagaaacacaaggaaaaactaatcttgcactcactttccgtctcaataactgt gcatgagggtgctggtggtggtcaaagctactacagtagaagcgacccacgtcagttttctactgttc tgataaataatgttgaatggaaaactgagctcaataagaaaaatatctataagacatcaccaaaccag attaattaattataaccaatatgagcaaagtccacaagatattccgcagCAACAGCAAGAGATGGCCA TTGAAGAGGATGCAAGAGAGATGGAGAATGCCTACCATCAACAGAAGCTGAGGGAGTACAGTTCCCAG ATACCGTTTGCCTTCCGAGTGCAACCCATTCAGCCAAATCTGCAAGAGAGGATGTGA

>L42c70g1984_TT16 ATGGGTCGTGGAAAGATAGCAATTAAGAGGATTGAAAACCAGACCACGAGGCAAGTTACCTTCTCGAA ACGCCGAGCAGGGCTGTTGAAAAAAACTCATGAACTCTCAGTGCTGTGTGATGCTCAGATTGGCCTCA TCATCTTCTCCAGCACTGGAAAGTTGTGCCAGTACTGCACTGAACCTTTGAGgttcgagttttttttc tgttttttcagttttcgtgttgacatcctcttttgctgtattatctgcttctccatatcagtttctga tgtaccattttctgcatttctttcatgaagaacttggattttctaatgtacctcagtttcttctcttt atgacttggatctctttctccaagtcgtagaagctcttcatgacgtgagcatttctttgcaaatgatg ggtttttaaaccctgtcgatttcttctgatctgagttcaactgaatcaacttaacaggattgactttc tgttgcatgcttctttctgagatctgacaaactagggttaggtcttcacgtttttaattatatatttc ttttctgtttttaatgaaaattgcattgtcatagttgtcactgctgatcttaatgaagttcctcagtg gccattgttggagtttgaaaacagactgacacatgagactactgaagcagctgtatacacaatgattg ctgtgtaaaataatatttttctgatagtctaagtttcatgttctgtgattgcccaaataggtcaaata tcataatggataagagggctaaaacacctgctatgtataatatatagtaattatggaatttttcttta ttttcagGATGGAGAATATCATAGAAAGGTATCAGAAGGTTACAGGAACGCGCATTCCAGAGCAGGAT AGCCGGgtatgggttgctggatatcttcattagactacagaaaattaatgtatgtcaagactgatgat gtttttccttgtttttcagGAACAACTGTACGGTGAATTGGCAGTTCTGAGAAAAGAAACTCGACGTC 92

TTCAACTAACCGTGCGCCGCTACACTGGTGAAGACATGGGTTCGATTCCATTTGAGGAACTGCATGAT CTCGAACAAGAACTCGAACGCTCAGTAAATAAAGTGCGGGACCGCAAGgtatgggcttctacttgttc ttttgtttaatcttagtgctttgtattttaagacgaggcaaattggcaaattgcggctgctactgcac cctatctgataaccctttttactggggagattcaggtatccatataggatggacattagttcctgata cagaataacccttttatttcatgtgataacccttaaagattcttgtgcaatgatctgctggaattcta tttccatgagttttgtcttttcattctaaaatgCAGAATGAGCTCTTGCAGCAACAACTGGAAAACCT ACGCAGGAAggtaaaaacctctctgtatgagtgttttcacattttcaggttgtctgatagtgcaaagg tctaaccctcattttgttttgttgctaactattatcagGAGAGACTACTGGAAGAGGAAAATGGTAGT ATGTATCGTTGGgtgagcatctcctcgtaattccttctatcaagcatacatagcaaaaccatgggaaa agtataacatgttgggttctggtcgatggatgcttagATACAGGACCATCGTGTAGCAATGGAGTATC AACAGGCGGCCATGGAAGCAAAACCAGTGGATCACCAGCAAGTCCTGGATCAGTTCCCATTCTGTGGA GAACCAAGCAGTGTGCTTCAGCTTGCGACCATTCCCCCTCAGGTTCAACCCTACCATCTCCAGCTTGC TCAGCCCAACCTCCAAGGGCACAATGTCTAG

>L42c80g2219_SVP ou JOINTLESS ATGGCCAGAGAGAAGATTCAGATCAGGAAGATCGACAACACCACGGCCCGGCAGGTTACCTTTTCGAA ACGGCGAAGAGGAATTTTCAAAAAAGCTGAGGAGCTTTCAGTTCTTTGTGATGCCGATGTTGCTCTCA TCATTTTCTCCTCAACTGGCAAGCTATTTGAATACTCCAGCTCAAGgtttgttaattcttctaaaccc tctctctcctcttccccccttctctctctctctccgtctcaggttatctgctactagttcttacttgg aagggatgatcgtaatatcatgtggaagtgtgtgtcttttgagaaatggagagtttctatgctgtttg ttccctatagcctatggaagactaaccaaaccaaccacttgatttggcctgttgaactttgtctcttt ttttgtgtttatgtgggtgttcagttaagggtgcacgatatattattataataataccaagcgaaagt gatgggtttgagttatgaaaggagtctggcttcgtgaatttttgaggaataatttgtgccacatatgc tatggtgattctcatactgttcgcgagagaattgactctcacctaaaatctgtgtattttcaattact acatccttgcttcagtctagtttttttcgtttctcttatctcacattgagcttttgcaccgtttcatg gtaatgatcatgaacatctgtccgcccgcggctgctacatcttgctttcaagaagtttgtgattctct catgaaattacatgattttgctgtgtgctcctaatggattccatttacttcttctacttttctaatct tctatcccttcacatatcacctgcacaatatgtgctcctgagagggaagatattgggtttgtttctca gacagctcattgtaggataagatcgataaggattagaatgactctcatgcatcggaaaacacctatat aaagacaaaagaaggttacgttgagagcaggagatgagtaggtatatcaggagaatgtatagaccata tactgaaggcgacaatcaatactacaaaggactaatatatatattttgttaggattaaagtacacttg ttagtactcgcttacggaatgatcaaagcattgggaatttatgaatagcaagttttgtgcaagctagg ttcccttattattccatgcatgcgccgataattgaactatgtgataaatcaaacaagttggaattctc agtggtagcaacctgcagaataactgtatctttctttagttctgtggttcaaaagttgcctaggacaa agtgtggaagtatttgaacatatcaaactagaaaaatttatatgtcaaggataaatccattgactggg aagttgctctcccattgctactgcaataacacaagacagactcgactacccacattggaatgctcgtt taaacttgccaatggtagatgggagctattcccttgtggatacaaaattaatgttctgtcactctaac gtaacaaatataagattacaaattggttaaatgtaattatcaagctagaaattggtggaatggatgac aaaaaatttatgttctatcactctaaagcaagatatatgggaccaaaaattggtgaactgtaattatg agcggctagactacagtcctctaaagattctatattttgtacagctagactagttagcatgtgtagaa gtatgtttgttttgtaatggtttcctttgccttttagacatgctttcatgttagtattttttgaatag ttagaacaattaacagactgataagatgtaattactttccttttagggttcctacaagatatattttg catatttttgcattaagtactgccttgtcagcctcttgggaaacaagtagtccctctatttggttcat ttctgtaaattaattaccaaaatcagatgaagaaattctctgaactagtgcctgtgttttttttttcc tcattgaagCATGAAGGAAATACTAGAAAGGCACAGTTTGCACTCGAAGAATCTTCAAAAGTTAGAAC AACCTTCTCTTGAGTTGCAGgtcagttgtttcctttgcaatctgtctccattgttattttaataattc tctgaaagaaagctattgtagtactgagacaggatccaacattctgcaaaaaatataagacacaaaga actgcgggcagctccagggacagcaagtataagattaattgtagaaactgaaatttaaatgtcaaatg gtgtagataagagagttatagtaaacaattatatatctggaatacagcattagaggaataaaattttt gaaggaaaattttgctgtctctctcgccaagtatggtgtagaataatcatttcttcttgaataaaaga ataggccattggaattcatgcagtagcatgctactaatagattctaacatgattaggaataacccttc cattcaaaagctgaataaagacattcagtaaatacgatccctacaataaatttcatgaaatgaaatta gttgcaatattccactgatggagtctggctttagttgcaaatcggttcaatatcactgactaagcaat gaagagaacttggaagaattaggaactattgctcctatataatagacctctgcacaaaagttaaaaca agcagttgggccagttccaatgaccattaatgataaaataattcacttttgctccatcaaaatgttcg aaacttttagctccccataatgcatggagggttacaccaggtcaaatttctgaaccttaattagatgg 93

atctagagggacttttagcctggaggtactgtttctttagcaaagaggaacaaactccagtctagatt ttaaaacacaccgtattttcctaacaacaaaagcaatattccgttagaaaatctttctaatcttatgt tatctccacggtttgggagacataagttcttttaaggttacttttggccttcttccattcatttgatt atttagataaataacacaataaaaggattttgtgaaatgtccgaagctgagaaagaagaagcgctaag catatagaagaaatttttgtcactttacttggcacttatagtagctcgaatagtgaagttatagagta gaatacctacatctaagaatgttcgataatgtcatcaaaagtattgagtactgatttatttcttgaat gtaaagaaacttgatttttctctgaatattggataaacattgatatagataccatttaaatgtaggta tttaaaggtgtatgaggaaaccatgctattaatgaacaattaacagagagaagataaatcaaaccata caagagatgatttaaattttgttgatggtaatgtattgggatatgcaaatcttgtagcttttgcattg ttagttggagaaatcattgatgtgtaggaacttagtgactataagagactattttcagcactaatgca aataaatagatatgtgttcctagagtagagactgagtttcttcgtaagaatcaatcgtggaagttagt ttcactagagacagtaactgaaatagaatcgggtgttagaccagattgaacaagaacttcaaactata tctgatcaactcatggaggaattaagaaagcagagaatgtagaaacccagatgaaagaagaatgcact tgaacagctttaaatcctatagcatagcaattgactgagagatgaggcaaattagcttatctaaagaa cataagatggtgagattatagtgatattttggattgctttttttagTTGGTAGAGAACAGCAACTTCA CCAGGATGAGCAAGGAAGTTTCAGAGAAAAGCCATCAGCTCAGgtataattcagatttagttttcttt ccttatattagttgtgctcgtactttggtagataaaatagcctcttaaacagGCATATGCGCGGAGAA GAGCTCCAGGATTTAAGCCTAGAACAATTACAGCAGCTAGAGAAGTCCCTTGAAGTTGGGTTGAGCCG TGTAATTGAAAAGAAGgttgacagttcgttttgtgaagtagatcctgtggtcaaagtcctgcgtatga tgctaatagtgtataatctgttcattacagGGGGAGAAAATCATGAAAGAGATCGGCGACCTCCATAG AAAGgtaagccacgtactacacttgacaacagtttatgagcatggaattttataaagtttatctaatc attgtttcttcaacctgttctatcagctaatctctttggtttctacttcacaatagGGAATGCAGCTG ATGGAAGAGAATGAGCGACTGAAACAGCAAgtattttctcgctctcatattgcacttgtacaactgca cacaaacaagtggctgtatcttcctgagattttattatacgttggctgaaatgaatctgatttgccaa aataagaaaaatggtgacaatcaaaatgaaatgagctaacaatcttgatgagttggtactgtacctta tacttgtttgaaggtgGTGGAAATCTGCAATCTGCGAAGGCAAGCTGGTACTGATTCTGATAATTTGG CTTGCGAGGAAGGGCAGTCATCAGAGTCCATGACCAATGCCTGCAACTCTAATGGTCCTCCTCATGAC AACGAAAGCTCCGACACATCTCTTAAATTGGGGTTAGTTTAG

>L42c84g2315+g2316_SEP3 ATGGGGAGGGGTAGGGTTGAGTTGAAGCGGATTGAGAACAAGATCAACAGGCAAGTGACCTTTGCAAA GAGAAGGAATGGGCTTTTGAAGAAAGCCTATGAGCTTTCCGTTCTTTGTGATGCCGAGGTTGCTCTCA TCATCTTCTCCAATAGAGGAAAGCTGTACGAGTTTTGCAGTAGTTCAAGgtatcaccaaaacaaacca aactttgtgtagtacccaacagaatacaccaaaaaagctcctctcttacgtcatcaagttccatagtg gttttgtttggtttgaaacacatcatgggttgtcttatgtggttttttcgaggagagaattgctccct ttctctctctcatctcactctttctcggatatagccagctagattctgcttccattttcttgactaat tcttctttcttgttttgaattctgacttcagatcttgagacttgccgagttgatttctttcctgtttt cagcgttgggttttgagctctcgttgtgtctaaagaattgaaacggagagcaaaatataatgatataa atatatgtatatacataaaagttgttgtttttatagctgtcgagttttgccgtttcagtgattgtctc ggcgtttatggcaggcaaagagcgtttgagatggtattgatgttagatctgcaactggaaaaccataa agagagaagagatctataggcttatatgcataaaatgccactgttatattgagggtggctcagtctaa tttttgtgtcttgtttttgttcccaaagtctttgccttttctcttcttttcctcttttgttcaatgtc tgaattttccatttttgtgttgatttttcttgttgaaaaaaagtgatatctgatcttgttttcttttc agaactcttgaagaccagtgaaaccaattaatacgtgatttggagtcttcttaatttaacaagctcat gaaatttctgccacaattttggtttcaatgtcttctgctatagctgtttctatttttcagtgttgttg cttccttttaatccgtttccagcaaatttgcatttgctactctcttctgctatggcttcttctgcttt cagtgttcttctttccttttaatccgttctcaacaaatatatctgctttctctctcactgtttcctcc tttctaccttttcatttgaaaccttattcccaaactatccacgaaaggcctttaataggttgaactgt cgagatctttggcatgaaatgtaccgtttgatgttgttaacatgcacagaggcaattgtttatctttt cgtgcatcaagattttcaaattatatgaatcagaaaggtatggctttttcttaaaattttccttctgt acctgatttcaatttttccttcgagtttgccaaggttttgtttcacctaatgttttttttacctcatt ttaacatctaaattcacataaattgcttaattaatattgataatcaagcataataccatgaactgttt aatcttgtagttccttgggatgtcttagatcgtcggatctttctattccttccttgtatacagtagtt ttaatcttgtgagagtgccttttgaaactccctcaaggttcaaactactctgaatcactcttttcata atttgacatctcttttaccaatcaaatctaatgagacatatatttggctgctgtcttccttttgtctt gtctcatgatcagtccattcgtggagaagctttgagtcttccagcggatcataaactccctctctgtc 94

tccccctccccaacccatctctctttttgttctctgggtaaaaaaaaaaacagtggttcacaaccagc cttgaaaagcgaagcattagggtttccgtctttcccaaaatctacgacaaagctagggtttccataat ctgtatccgttctctctctccctggggtctgagacggtacatttcttacagatctactgtcttgttga ctaggatgtgcgttgaaatccacaattaagttcctgttgtttgggaacgatcaacgtaatatccatgg gatgttcagatccctcaccgtactataaaattaaattcaagttgttgtgcatcataatttttgcacat atttatttttaaaatttttacattgcaacaaatttcacttgacaggacggtcatctttgatcttgttc gtccaatctctcattatatatttttccttttttttattatcaaccatcttagcattccacattgagtt tttcatatatatttagataaagatttatccattttttttcttttactggtctctttaattcatttcta attgttactttagaactgttaatttttttaaaagaaaatcgtttcagtggtgagattaaaatctttta ctcatgccaactcacaaaatgaggatttttcaggatttgttaatttgatagatatgactaacaatttt attagcaattaatcctgctatttaactaatcggtactaaattttgatattttcagtaaattttctctt aaacgagggataggatgtctaaaattcaagtcatacgttattaatcttgtaaatattgtacttgctaa tatatcttactgatctttctatttgccaaaaaattttgtataaatttgtttcagtatttgtttataat gcatttctgattgcacaattcactggtggtttaattttttttttctagggtactattttatttacatt taatccaaggaattttttttcctgatagaaggtaaggtcatagatctttggtcgtatcttacatatct tacatatggtatcatcacattttgctctcgcaattttttatgttgaattattttatttcttggccttt ccgccaaaatgttcataaaatttttaattgatatcatatctgaaaataaaataaaaaatatcccgcag tgaattgatttctcttcttgaaaggcacatatcctgatttcataaatcacaacaacaaaaagaaagct ttggcatgactaatttttcctatttagtacaattttattcctgaaaaaaagagtattttttattgaag atggtacaatagagcattcattatttcaaagtaacttaaccaatttaatagcaaataatttgtcaaaa ggaaaattatacttgcagacggtttaattatctatattctcattaaacttgaaggaaagacctttcag aatatggatttaaacttaagtaaattgtatgatgagttgctacatgtcccatttatcatctttatttt ttgtgtaccactttgttcctgtcagcatttgtgttttggcttggtgatcattatagtgtagggacata atatataccttttatagatagtgatgctagtggttcaacgtttcttcgtattattattatttcaagtt gaaactgaaaattttcatttatttgaagtataaacttttattggacagtagtgtttgttcttgttcat cgaatttcatctgctgttgggttgctaattatcctttttgttggattatgtttctgttttgtatttgc tttaaatctcctgtttcaaatgaaagttgaatttcttaaactcttgtattgctctccgctgagccttt ttctactactagcttttcctgaacgttgaagggaaagagctaagatgctgtatatacaaggactacat gtcttaggaaaaatctcaataggtccagaatgaaaatgagggaaaggaaaactcattcaacacctcta tacagtcgctaattctcaggagtgttgttgtttagttaagaaagatgacacaaatgtagagttcactg ctttcccattaaattgtactaatgaatgtagcccagcttgataaaaagctttttacatagaaaagata gctaaatggttgtcgctgaggagaagaagagtcttagcacttcaggaatacgttgtttgtaatcatca ggatttatattcatatattatctttgcatctggattccttgttggtatggcacaattttgattgattg acttctcattatttccagCATGCTCAAGACGCTTGAGAGGTACCAAAAATGCAACTATGGAGCACCAG AGCCAAATGTGTCAGCAAGGGAGGCCCTGgtaatgctaatccctattttcttcttttacctttggttt ctttccatctattgcttgtattaatctttggcattatgaggtgaagtttgactgaagaaaactagctg caaccaaaaaatttgagaataaaaaccaaagtctagataaacatttaaggaacaagaactttaacctt gtcttgcttatacccgaactaaaattaaaataaaatgaaaggttgagctttaactttcctaaagcaaa taaatgaataagcacataagaacaatttcaattatagacagtatttgttcaacactatgaaacctaac ggatactattcgtttagttcctcgagatcttcatagcatagtacatgttagtttctgttggtcgcttc atgttccttaggcagttgttgctgcaagggatttgactgcagtctcattaattctaaaagacagccgc caaagcaagcgtgttgggttgtagatgttgccattttccctgcttacacgtgaaaagacatgctccta attttaagaggatccgcattagttttctgcattgaaaaacaagcatgtcaggcaataaatactaaaaa ttgaaatgctgcttgactgaaatgacggcattaacatccttgcacatattccaatggtacttttctta tttgtttgtaatttcttgtttgtgtgtgaactctggtaaaagtaaatttgcatgagtgtaaattctat cttaatccaagctaaatggaatgctcaacccgaattaagattgcagatagaggcatttctatgacaat atatgtttgttttaagaaatttttatttgataaagaaatcttttacacagtcaggcaatcagatgtcc acttataatatatatctttgtatgcgtaatgtgatttttaatcaagattaaattcaaataaaatttaa ttttgatacatatcttaaattattctcatatattaaaaaaaattcctacctctctgaggacgaagaca tcagaatgttgtcatatttttttacttttatgcatatttataattattgatagtgattaatcacaaca gaatgaatagtaccgtaagatggtgtgcttgttcttcatgctcaaggttcaatattttatagcagtca ttatgtatcagtaaagtctgtgatgtatacattctgtgctgacttgatattagaatacagtgaattgt tcattctatttatcaacgaactctacccttttgaatgtagGAGCTAAGCAGCCAGCAGGAGTATCTGA AGCTCAAAGCTCGTTTTGAAGCACTCCAAAGGTCCCAAAGgtagcaagttccttatacactgttctta cttgagaagggaatgtttgttcttcaattaaaaaaaaggagagagtttctccttaatacatatgtttt acacttggtatcaaaactttgtcacagattgttcaacaaatttttctttacgaacataaactttctta 95

tcttccttaattataacttgctgccccatcagGAATCTTTTGGGAGAAGACCTTGCCCCTCTCAGCAG CAAAGAGCTCGAGTCTCTTGAAAGGCAGCTTGATATGTCATTGAAACAGATCAGATCAACAAGGgtac gtatttgtgcatcttgtagttaacttgccgtattcctgtatttgaacaccatgcaccgaataaactac accattttattgacagatcttccatatttgtgcacatcactcacgctatagtaaagtggatgatcgaa ctccatgctgtaaatcattgtagaaaagaacaacagcatattataaatgaatggcggtctaactgacc agtagagatcatctaaagtgaatatatgcatgaagattgctactttagccttaagctttcaggaatta atccatatattttcctaaaaacaaactctaacataccattttcgacttgcaagctttctactgtttct tatttttcctgtaaggcattaaaatggatcctaatactgagttttgcttgactctgtgcatgtatctc acatttatcattcttccttttgcagACCCAGTATATGCTAGACCAGCTCACTGATCTACAGCGCAAGg tttggtacttttttatatataatgaaaaaataaggcttggttaaaatgacgcagtctcgaaaagattt tagttcacgaaaccatacaataatcaactgttgtagaacgatcacgcttaatatttctttccatggaa tccatgcagGAACACTTGCTGAGTGAAGCCAATAAATCCCTGAAACAAAGggtaagcaacactcagag ccatgtagttttgtaacaatttatttttgtattatgacacaattctaatctcgaggctttagaatctt gcaaagtaatatgaggctaatacgtgaaagacataattactagctggatcggtttctagaattgcctt gcacaggcatccctttctgcacaaggctaagcatttaagatttttttagtatattaaataaaagtgga ggctagtaaactttttctgaagctgttaattaaggtaatatatccccctataataaagggaaagaata tgaaacgaccgctggtacttggcatgcaGTTGGTAGAAGGATACCATGCGACTTCACTCCAGCTGAAC CCAGGTGCTGAAGACGTGGGTTACGGCAGACAACAGCCTCAGGGTGATATCTTCTTTCATCCACTAGA CTGTGAACCCACCTTACAAATCGGgtacgtaaaatcttctcagttcagtcattaatttaatagggtct ttctatacatgtcggagttcccacataagagaatagagttactttttatgtcttgtgccattgaggat ggatggtttcgtagtccatgcatatacttataatatacatgcacaaggaaataaatagagccatttga aaggtggaactccgaacttggcctaatgcgattcttctattggtttgcagGTATCCTAATGAACCAAT GTCAGTTGTCACTGCTGGCCCCAGTATGAACAATTACATGCCAGGATGGCTGCCATGA

>L42c131 ATGGGGAGAGGTAAAGTTGAGTTGAAGAGGATAGAGAACAAAATTAACAGGCAAGTCACTTTTGCCAA GAGGAGAAATGGGTTGCTTAAGAAAGCTTATGAACTCTCAGTCCTCTGTGATGCTGAGGTTGCCCTCA TTATCTTCTCCAACCGTGGCAAGCTTTATGAGTTCTGTAGCAGCCCTAGgtaatcttgcactctttct ctatatatctcttcaggcttggtgttttaccttttttgtaagatctatatgctgctcaacaacttagt atgtctcctgtaatatatcttatgtacttttcctttttctttttttttgccttttggcaagatctaag ccgtttaagagtctggtagatgttttaagctgcttttagggttttcaagttctcttcatcgtcattaa aacacgacctctcgtttttagttgattaaagcagtcaagggtttatcttcaattgggtggttttggtt ttgatgattttgcattccgtttgaaaattgtgttttctcaacttttgcgtatggagatcaaccttctt ttttaccacttctttagttgtgtccatgtaaagatatgcttagttaatcgaaaatgtctgagtgcaag ggtttttttccgttgtttgttgttttaattaactgcatgtgcaagatcttaaggttcataagaattga atttttttggttaagcatcgcctttttaccccatggataagatcttgtcttctgatattccttctggt aagatgcattttatgttctgttgaatatggcttaggcttggtatcttccgatccataaaaatcatcta atgagcaggatccaaaattttcagcctcaaaagagaatccaaatataatagactatagtaacttgctc tattaccattaggtttctcttcagattcaggcaggtgatatgagaaaatcgctttaaggtctactgct gttttcttccatagctgcagatgtggaaattaacctttggactaatccacaactcaatctttcagaat aaattgcttgttttgttaaggattaaccatttctgagaatggcatgctgtagctaactaaagctttac ctgagaaaccctaaggcataacagtaccttataagcaaaaaggttatgaaactaatgggcttataaaa taaaccctaagacatattcactatttttttcataaaaaaccccatgggagtgtatatgttagaggaat atcctaatccaaaactaattgaagctattataagaagtcatacaaataattacataattatattattt attaagagttgtgaattgtctcaaaataagaatctcgctagcaaatctctgcattgtaagcacaaaaa attgtcatatgacataccaaaggcattgttttatttgcaagtgattaaacttggtcgtgtttatcgat atgtaagcagtaattaaggactcatcaagcttggtggtagtgttgttaatcttttggaggtgatttga taaatatacttcttatatattcattggaattatggtataccatctctaaccatggtgcatcctttcct tgtgtgttaGCATGATGAAAACGCTTGAAAAATACCAGAAATGCAGCTACACTGCACTTGAAGCTGGA CAGTCAGTCGATGAGATACAGgtaggttgacatttatagtttggttgtgatgaacatgcaaaataaat atcattccttgagatgctcagaaagtgctaatctgcttcagaaagcaggcgtggtgacaagattttga tcttttatatcaatgaatggaattgtttcttcagaaaaatatgcatttttcaaataagttttaaaggg tttatcgagaaatagcttatgtttaacctcaagCAGAATAGCTACCAAGAGTATTTGAAGTTAAAAGC TAGTGTGGAGGCTTTACAACGATCTCAGAGgtacttaataacaagtttcattttgccaaagctaattc tttctctctaattttgcactttgtagagtattaatttgactacctgattctgaatgcttatgtagGAA CCTTCTGGGGGAAGATTTGGCCCCATTGAACACAACAGAGCTTGAGCAGCTTGAGCGTCAACTCGAGA 96

CATCTCTGGAGCAAATTAGATCAACCAAGgtagctagcaatcgatttccgtatagagaaggaatgggt ttacatacatacgagcgagttgtagtatttcttggaatctatactcgattcagtttctttcgtttcct ctgtgctttttacagACACAGTCTATGCTTGACCAAATTGCTGACCTTCAGGGCAGGgtacgcttatc tgaactagatgcaagcaccatatctattgatgagcttccatgttttgcattcctaatatggtcctgtg ttctcgttgatgagcagGAAAGGCTGCTGCTTGAAGTTAATGGTGGCTTAAGAAGGAAGgtaataatt ggtcatactgttgaagttacactttcaaaattccaattactttccttcttcctagctaatttagttct agctcttggcctcttgctcgttaggtctagccttcccatctcctatcatagcatagagctttttatat atgtagaacctaactgctaacttttcttgttcgagatcacaatcaacaagtttagtttgcaatactta acacatcaagccagcatgctcaggcaatcttcttttttttgatagaaatcaaaatttattttaaaaaa gaaagattacaggcaatcttcttcataaggaagaacagtgacttcaggattactccatgtttatcgaa ttatccacagtattggcacaggctgctacagaaacttccactctctttagcccttcaaactgatagat ggtatttatccaatgttggtcactgatcagGTAGAAGAGAGCAGCAACCCTCAACTTCCCCTTCAATT GGCATGGGAAGCTGAAGGACAGAACACTGCATATAACCGCCTTCCGCCTCAGTCTGAAGGATTCTTCC AGGCCCTGAGAGGGAACCCAACACTGcaaattaggtcagtcataaccacagcacatgatggttagtct cctatatcaaacagtgctccatacatccatatgatttcgttggcatttgGTTCCAGATACAACCACAT GGAGGGAGCGGAGGAAATCAACATCCCTGACCATCCTCAAAACATAACCGGATTCTTTCCTGGATGGA TGCTTTGA

>L42c137g3398+g3399_AGL-6 ATGGGGAGAGGAAGAGTTGAGCTGAAGAGGATTGAGAACAAGATCAATAGGCAAGTGACCTTCTCGAA AAGAAGACATGGATTAATGAAAAAAGCTCACGAGCTCTCTGTGCTTTGCGATGCTGAGATTGCACTTA TCATCTTCTCTAGTCGTGGAAAGGTTTACGACTTTGGTAGCTCTAGgtatgttacctccttccttcac tgttctgttgttttctgtgttacctgttatttctttttttttcttctccacttcaaacccttttcagt ctcggatttcttgtatagattttctatccctctcagggcacatatgtattcctatgtttcttctgctc tttataacttatcagcccaagacacaaattttgtttttcatgtgtttctgtgtttatatgttgcggat ttgtgtcattctttgtgttcaaaaaggtgcaagcgtaggagtctataggttcaagattttctattttt tctcttcattctttgtgatctgcgtctctgccgacgctgcttcttctccaataagtttgtttccttac cttctctcttcaggatacactgggcttgtgctgtctttgtcaaagatctgtctctgacttctctttat cgctccataaccataacccacccttttatcttccggttcttgtgctttgtcatgaattctggtggggg ctttcggggttcaaacacgtcggtttggatcgatcagagttctgtgtttacttcagtttcttttccag tctcaaatcgacacgtcctcgtcgttgccaaaacttgtctctctctctctatctctctttctccttct ccgagttctggcttttcagtatgaagcaaaaaggcggtaccgtctattttgttataccttaacaaaac ccgtacatatgcgattcaaatcagcattctcgttgtgtgccagtccaatcactgaccatgaggccgct tttggaccactgtgcaagatctagggttttcgtgggtttcccttttgttttttctagttcctattgtg tttctgcagttctcggaccaagagctgcttccactaattagtcatgcagtgcaaggagactcctttga tcttctgggttttgtatctgaccctctcttcttctcctcccatataaattgcggtcactgtacttcac acacgacttcgaaagccatagttaagcttactggaaggaagctagggttgttctgaccttttattaca cctttttcccacaataaaccatctaatctcttgttctatcccataaaaattatatctaacatccagaa catagatatgctagaaaattttaaagttcaaacttgctgatctgcacgtacatccatggattaatgtg catcgaaccctttctatcgccttgtataaaaaaaatgaaagttccgtagatgaaactaagaaagagaa gaccagatactattatcctcctcttgccaagagagaactaaactcagtgctctaatgttaaaacgatg gcattcttccaaatttttagttcatagcaaaaatgtctattaaccctaagtagtagtacttgtactcg aagccaatgatacatatttcttgaaagaggtatatgaccttcctagctttgctaatttatataaaaaa ttatatataaattttttaaattttaactagaagagaaccctaaagaaaagcatgtgatctttcaaata taagtaaccctaattaattatgttgctgttcttgggtcatggagtttccacacaaatcaggtatattc tttttgtcattgttctgtagtatatatattataaagccttactgatgacttaggacatttgtgtaatg tcaaaattttgttaaaataatgaattttatttttgataggtctaacattaatgaaaactggtctgaaa tggcttaatttcaagggattgggtttgggctgtgcccttttctttgaattcattgagttttatggtga gatatatttctttttttgcatatgtagttgtttattttttgcttttatgggtttttatttttattttt gttcaattgtttgatacctttccatgaataacattgttttgagatcattttttttttctcctcaggat gtttaaaaaagctcatatttacaagctatggcagcttttatttccactcacgaattacctttattgca gTGTACCAAAAACCCTGGAGAGGTACCAACGTTGCTGCATTGCTCCCCAAGACAGCACCATCGAACTT GAAACACAGgtttatgttctgttaaattctcttaaaagcatttcacgatctgattgtgcagtctaaac atgttatttttccagcgcttctgtaactgttgacttctgattagatagagtgaaacatgtgtttgttc tttcaccacgttaattaattatagctcttggggaagaccttgtctgccaaaggaagctaaactaaaca acgcttttgtatctgacccggcaacctttttaaggaacgcctggcaaactcctcgccggccagcaggt 97

tcaagaaagttctggccaagcttaatgtcgcagaatcagactttattacaaagcagacaagttctgca ctgaggttttatagctcaggagtgaaactggcagtggctatctcctagacctaaacctttagggagct ttctattcgttatttccatatttaaactacaggtcttgttaaacggatatccaacaagagtgagtcac tcttaaatgagactgacttagaacctgggaaatccatcttctctttacatttttcctatcaagatgtt atttattacaattctgttcgtgttctgaaattgagtttctaagggccgaagatggtcttgatgagagc aggagactttttaattatttccctcttttacgttttgttttttggttacgaatgcagGGTTGGTACCA AGAAGTAACAAAACTGAAAGCAAAATATGAATCGCTTCAGCGCACTCAAAGgttgtagaaagttaaaa ttactcttctcagtttacaatactgcgacactaattaacgatgatgaaaattctgttcaattccaaca tctttcaattttaatgagaagagtcaaatgttatgacgctgtgattaattgctactacttttaagaca agttgGCATTTGCTTGGAGAGGATCTTGGTCCCCTAAGTGTGAAGGAGCTGGCAGGTCTCGAGAAACA GCTTGAAGGAGCTCTTGCGGTTGCTAGGCAAAGAAAGgtgagcagaaatgtgttcatgcttagcagtt cattttcttcttcttcctctcctcatgaggagattatgatgactctcatacacctattgctagctttt tgcatgcttgttatggctcggtcgtctctcttcataagaaaggtggagaaaatatctaattttgagaa tttcttctcatgggttttcccataaaaggatagtatgatgttggctggttcatataagcttatctctc tcctttgttcttcattgtagACGCAGATAATGGTAGAGCAAATGGAAGATCTTCGCAAAAAGgtgagc atactcgtcagcaggcaaactacaacttggagattttattacatgattgttagtcaatttcccagcaa gaccaaaagaccgattcctacttgagaattttccttcggaagctgttgtcactaaatgaaagactatg tctgcaagacagcgacatgtacagactagtttctttgaccaagaactgtcctttttgcctttcttgta cagcaatttcatcagccttccctgtaagcttaaaagaatgacctgccttctaacttggttttattact tgatgattcccatcttctattccacaactagcagGAGCGTCACCTTGGAGACTTAAACAAGCATCTCA AGTTTAAGgttgtgcttccgacctcttcgtacttgtatccttactcccaactattgtttaatacttac ccttttcctctgctattatcaagCTCGAAGCAGAAGGACAAAATCTTAAAGCCATTCAAGACCTGTGG GGTACTGGCGCGGGAGATGGAAGTAGCAGCAGCTATCATATGCATCATTCCCAACCCAATCCAATGGA CTGTGACCCTGGCCCTGTCTTACAGATAGGgtaacccttatttctcatttcgatacacagtttgtggc tcaagtacgcatttgctgctaaaaaacatggataacgcagcagttttggaaacaggtaggaatataca ctaagaagttgtgtgttttctgatctgaaaacagGTACCCTCATCACTATGCTTCAGCTGAAGGACCG TCCGTTACAAAAAGCATGGCTGAGGAGACTAATTTCATCCAGGGATGGGTCCTATGA

>L42c349g6707 ATGGGCAGAGGAAAGATTGCGATACGAAGGATTGACAATTCGACCAGCAGGCAAGTGACTTTCTCGAA AAGAAGAAATGGGCTGCTAAAGAAGGCTAAAGAGCTATCCATCCTCTGCGATGCTGAAGTTGGACTCA TAATCTTCTCAAGCACTGGAAAACTCTACGATTATTCAAGCACCAGgtcagatttctttccttttttc ttatatggtgtacgtacttaatatttgtctccatggcttgcagtagtgtaatatcataaccttacgtt aagcttagaatcactccgtagaagggaaaaaaatggaattattgctatactttgcttcagaaagcatg cacctctcccgtatagcaggaaaattttaatatcacataaaatacagttgccaagcttggctgagtta gggtttctatcagatcaatgattgaaatcttttactactaaaatacatcggactcgaactaataataa tcttttttttttttttgaaataataataataatctaattaaggatccagattctagactagagatggt tttagcttcacaaggtgaattggagctgaggttaggatctaaagcggtgtaattgcaacatttcttct ggtaaaaatataagatgaatgagctttaaaacgcaggagaaacataaagcggactatgtaatatagct attggtatagagactaccagtcataagaggtaaatgagctaacacttgtatataatctgaagttttaa ggttcaggatttgaagattgaggggtgagattcggggtaaaattattaaacatcaaaggagaagagtt ccgattcttgtggaaattcagaaaccagaacggcaactggttttcattgtaagatgggaaggttaggt caagccacggccaaatgcagaaacaagatacaatttttgcgtgtagtttgtgaaaaagctcaggtaga ttaattagaatctaaatttggacacaatgtgacccgaatctgcaatttgtagttaaaagagatgcaaa aaccgtataagctaaatcatgtgagacgatttgatgactcattccttacaataagccctagctagcca ggtttacccaatgtcaggccaactttccaattcacttccctaaccttagatgggttgaaaatggcaat ccttctcattgggcacttttttttagtgtcgagagtggtggatataaagaggtaaattgcccttattt cataatttaattaacaagttaaagattagggaattagcttggaatgaaaattctcagtacacagtaca tcttgactatcgagtaccatgtatatgtatattcatctctgcactggatgaagaagcccctttaaaag gctatatgaagttgaagctaagcttcataggaaatgaaaccatcacatcaattgttttgatagggaat ttttttatatactttatcaaattcgatttttgcgatatgaatgaaaattattattagtctctccgaga atgaaattctttgtatatattaaggtattagagaagttttgatctttgtaggcaatgtcattttccga cctatggtttgtactttgtcctctaaatcttttgtatttttgtttccttttaattcacatcgattttc gtttgaaaaaaaaaaccttaataagtactagttgatagccgaaaaagtattagtgattgtcaccggct tacacactcttttattccaaaagagtcataagtgccaaggaaagaacattacaatacaaccgcataac aattttatgatcccatttggagagttgtagctagaccgaaactaggccaatcaatatcccgcacaagc 98

agctttatgtactgtgtttgtaggagaagatggaaaagctgcattcagtttggagaatgataaatgtt gaaaagatatagaatacaagaaaaattagagaggctgcagcacgaaaaacaatatgtccctgaaaaca tttctgcttttcttagaatattactgaattctatatggggcaaggaataatttggggagttttattaa tgagatttatgttccgaaagctagaatgtcatgaaggcaccagattgtgaaggtgattcttaccttgt atagggtgtgggaaggactgcaagacattagaaaaacatctttatagcaataactctctttactgttc aatgttacatattttattgccgtaatcagctactctatcacagtaataaaacaatggctagaaacgca tacagaaagagaatatagttgtaaaagaaagatgaagtcccaccgtttcttgctctttggtggagatc ttcatctgttctgggcataagtgacacaagttgacttgagttactgagaaaacaataattagggcatg cctctccctccagatatacgatgaatgcttgctgttgcacacgtatccgcgttttggcaagacctgct acagcttcattgtatgtcaatagaaccctgaggctttaaaccaatccgcttttgtttcctgtaattgg atctctttaagcctctctctataggataagttcagaaccaggtatgctttcccctcttaacacttttt tttttttctgcaaatcggtagattgaattaaatcaaaaagaaattatatacaatctccagcatctcaa acgagagtgttttccaaaccagcattgttgccactaacttaagaatttttatttcctggtgaaatttg ttaagccatttgtttaacaaaactaatccaattagatttcaaacgtaaaattattgatttgtttcgat actgcaatattataataaaaaaaataaaataccaaacaccacattaattctgttacactatcaagtct aattctaataattctaatataaaggtacccatcagaggatggtgtatacggaggcagccttttggtta acgattcagttgcattttcttcaatttcatttaattctggtccatcagaggataatgtatatacggag caggcctgttaaccattaaaaaagatattagccattgaaggggactagtcattggaggagaattagtt gttagagcggaattattagttaggtggataggagggtgaggtgggatgagagtaaaatgtctatttca aaaaaacgctgttattgaccgtaatactcaaaaaacttcaaaaataaaaaaagactaactaacccaat accaaacctctacaaaatacaatcatttagtcaatatatactggcatgaccatgaacatttatggagg acgccgggatgatttttttacatggaagagatcttttgtagggtacaataagtttaccaagtgtagcc taactttatgctctcttactgtttcctactaggaatttagaatacaagcagctcacaaaaatcttgta gagttcagtatattttgggtgaaaagaaacttaactaatgatgttaacttccttttcagTATGAAGCC TGTTATTGATCGCTACGTCAAGATGAAAGAGGAGCAGTATGAAGTGTTAAACCCTGCCTCTGAACTCA AGgtaaatcattaataagaggtatcttttttgatatttccaaagcctctgagtagttaactggctttc cagagtagaacagcaccacaaacacaagagaggtgcagaaacagaatagcagatgccacctactcacc tgtattgggcacgctgcctgaatctgttactcggtcctaactgactcatagtatttgcagctaccata aatatgcattaggaaagaaggcttgaaagtaatgatacctaaataaacagtgtcctgccaaatatacg tcaaatagaatgaagctgagaataaacagagggtttcgccagttggaactctgaagcccagcagccgt gaaagagatcagttattttacataccatcggctaaaaaagaccaaacagaaaaggatataacaatgtt aagaaccgttcaagtaatcatctagatcaatcagaatatttcatcatagaactgtgtagattgcactt acattaaacatagtttttagtacatacctagagcaatcagaatacttcatcatagaattgtgtagatt gcacttacataaacatagtttccagtccgtgcctagagcaatcagaatatgtaatcatagaactgtgt ttagactgcacttacataaacatagcttatagttcgtacatggagcattgagtatagtaccacaaaag ccaaagttctctgcagtcataccagataagcatgtctttaattttgctgtccaaatgaccactttgta actttacatttcccttcgtgtttttcaccagTTTTGGCAAAGTGAAGCAGCAAATCTGAGGAAGGAAC TGCAATACCTGCAAGAACGCCATAGgtaataatatgcataacaaaacttgagtgatatataaccgctg gtttattataatgcaatgatgtagaaatcgccacatcagaagctaatgacctctgatctcctcactgg tatgttttaatattttttttttaatgctcaatattttgcgtagagcattggagcttttccaatgtata agatgcagaagatctaagactataatcagttttatgcaatgctacatgtaaagactgtgttcatattt aaaccatatcataatgcattttgccaaagtataacttcaagcacaagcgtgctgtgtctgatatcctg tcttaactgcctgttcacaaacacaaattttggttaaacctggaagatattatttataacttaagcgg aacattgatgcattaaattcctcacatttgtaatgcaatgtgaaaataccaatgcgagaggcttctta aagaaagacacgacatagtaccgtttgtgaaagttattttgatcctttatcaaacattaatggcacac atgattctctgcaaaagaaaatcttatcttttaaatagaaatccactaaaggatgtcaatatattcag GAAATTGATGGGAGAAGAACTTTCTGGCATGAGCATTACAGATCTGCAGAATCTAGAAGGTCAACTGG AGATGAGTTTGAAGGGCGTTCGAATGAAAAAGgtagtctttctgggaatgaaaccttttatcgcatag catgaaaccatgtctcttaaatatgtatgtatatagagtgcaagtgatttttgtaaacgatgcttttc tgcagGACCAAACAATGATCGAACAAATCAAAGGACTGAACTGCAAGgtgtctttctttttttttttc tgaaatattttattccaaatttatagtggttgattggtgactgatttcaacaaacttgtttgcagGGA AATCTCATTTATCAAGAAAACCAAGAGCTGCATAAGAAAATAGGACTCATCCGTCAAGAAAATGCAGA TTTGTGCAAGgtattgatacaaccagttcatgaacaactaaaagaagcaaaatccctttgcatacctg aaatccagttttaatatcatatctgaaatccagATTTTTGGAGCAAGGGATGTGGAAGGCTCAAAGGG AAATGACAATACTATACGGACCTCAGGCAATGGATATGACTTGCATTCCTCAGTTCAGCTCCAATTGA GCCAGCCTCAGCCTCAGCCTCACAGCAACGATGCACCAACATCAATTAAACTCGGgtaaaatatactg 99

cacgtgattgaagcacagcatgaatgttcacaattataaattaatctgattagatttggaaactgctc caggctacgactgcaataacatagGAGGAGACAAGTATGGCGAAATGCTCCAATTTGCACTAATGAGA TATGCTGCAGGGAAACGGTTCAACATCAACATCCGTCCCCTTTGGTATGCAATGTTTCATAA

>L42c761-g11284 + g11285_SEP1 ATGGGGAGGGGTAGAGTGGAGCTGAAGAGGATAGAGAACAAGATAAACAGGCAGGTGACATTTGCAAA GAGAAGGAATGGGCTGTTGAAGAAAGCTTATGAGCTCTCTGTGCTCTGTGATGCTGAAGTCGCTCTTA TCGTCTTCTCTACCCGTGGCAAGCTTTATGAGTTCTGCAGTACCTCCAAgtatgacccctttccttga tttcgtactctgaatctctctgtataaacgtgaatgcgcacagttgcacatgtatttatccgtgagtt tttttatgtatgatctcatgatgattcgggatctgctagcttaattaattcttttgatttgtttatcg cctttctgtgtagattattcataaacaaagcaagatttgtttgatatttcatgtctgtcaaattcttt ttaaattttatgattttttgtaggtgtattttttctatcagagttttgcttcagctgttatcgttcca tgtcttattagcttcagagatctggatcaaattcaaagtttttctctcttttttttattataaaagaa tatctttatcaattaagattaatttgataaaaaaatttagatgaactagtagcgtctcaattaaagtt ttcttgtctgaccacaaagagatcttttcttgtatagttgattgctcaccttctttaagcgatttaga tgcctgtaaaatccaaatatctgcagcatatcgcagctcagatatagcagtggtcatctattcaccaa tttcagctaccgatttaatttgattggaatgccgagcaaccctttccaaataattcattgccgacagc tttaccatctcctcccttttctgttcaaaagaacctgctatatactcagctgcagtcttgtaagtccg gttttactttcattttgagacggaaaatttgatttagaactgtcttatggacacgaaactctgtgaat accgggaacctgttctaacccatgtgtcaatctggatttttgagagagaaaaagagctgcatgagtgt acttttaaggcccggagcactcagttatatccatgattcctcagtttatctgctaggtatctgtggtt gactctcattgcttcccctatgtgtatatatgaaatccgtttgggctcttgtttcaatggaggcatta aaggaaaacatcaaatcctgtcttctcctttcataaaggttattatccgaaggttttttggcattctg ttaaacatattttttggaatttgtttccaacactaattacttgatataacgtttgttattgttaccaa atcttcttggtttttttgtgcgtttcaatacttttaacttctgtattactcataaagcagcatgattt tttttttttgaatgaattctgcattgattagttagtacaatacaactaggatggagcaaactggctta ctcctaatcctacaaaaagaaatcataagatactgttgtatcccaacagactaaagtagaatgaattg cattggaactgcggattcagacttgttgttgctaatgaaacgctgcatataacatgagaaatcacatg cacacaaataatatataagttttgtatctgcttggttgagtgtcttgttaaatttcacaagtgaagaa atgggttctcttccttattttcataggtctcataaattgcagtgggaaatttgcatatcatgatataa taagaaattgatgttcatgcagtgcatgacctccttagttcaacactcaaatttctagcttctgcttg ctcaacaagttgacctatgcagaaaataacatcaccatagagggaaaagaagtacctgcaagtttgaa tggtagtagtattacttgagtacggtttggtgttaagattcttagattttcactgcagtacaaattat cctggatttggacaaggaagtatgtataacttttcgtttctattccatggtctagtcataagctagaa agaagtggcctgagaacttgcttgctctgtgggtttgatcattagaaatttgactttcatttggcctc aggtttctggttcaaaagcttctgttttcttacttggcttagtgaaattttttattgattccagttag cattgtctttgattccttcctgttcagCATGCTCAAGACACTGGAGAGGTATCAGAAGTGCAGCTACG GTGTAGAAGACGTCAGTAAACCTGCCAAGGAGCTAGAGgtatatattctgtatcctgtagtgtggtac atatatatagctacaaaatgacttggcatttcggatacttcctgttcttttcgtaacatactagagga gattaattcaactgtctattcgtatttcatgcgatcttaatttcttgatagctagcagccgtggtctg caagttgtattcatttgcgtagcttggtttcttgaatttttttctgcttctcctactgggcgaggtgg atatatgtttgcttctcatgtattttttggtttcgtcatagcagAGCAGCTATAGAGAGTACTTGAAA CTCAAAGCTAGATTCGAAACCCTTCAAAGAACTCAGAGgtaagaagcctgattggccacaaacattca ccaacatccatccacctccaaaattgcactggaaattggaagtcttccttgatcacttgtaaaatgag aaaacccatgaatttgatttctacgagtagtgtgaacaaatataaacatggaacactgttcctttcat tggtattgcagGAATCTTCTTGGGGAGGACTTAGGTCCTTTGAACACAAAGGATCTCGAACAGCTTGA GCGTCAGCTAGAAGGATCATTGAAGTTAGTTCGTTCCACCAAGgtaaccaaattcagcgttatgtcaa agctataaactttgttgaaagtctagagaacaagtcagctgaggggtgaaaggacaagattgatggcc aagttcaaactatcttactgtctaagaatgcacaggaatccccggattcttggttgcttcttcttctt cttttgtgcagccattttgtatatgggtgacatggagttatatatttatacctgacataagttgaact gccttgcagACTCAATACATGCTCGATCAGCTTGCTGATCTTCAAAATAAGgtgcctaggattgatat atatagcagtaaactgggatggcttctactttgctgctgttattagctaacgattgtttgaatgcagG AACACTTGTTACTGGAAGCCAATCGTACCTTGACGATAAAGgtagtgttctacctgttaaatgttgtt taagagcttgttctagattatcaatattctcccttctaggtagcacacgagaataatatcaggagcag tgtatctgttctgttcacagctcaaaggagcaaaaacataaagttggaacgtttctctcataaaatgt tgttcatctttcccaGCTGGATGAAATCAGTGCAAGAAATCACCTCAGACAATGGGAAGATGGTGAAC 100

AAAGTATACCATACGGACACCAGCAAGCTCACTCCCAGGGGTTATTCCAAGCATTAGAATGCAACCCA ACATTGCAAATAGGgtgagatcctcaatcctgtccatcccactcaaacatgatttcatctcactaata cattgacaattctgatccccggtttcctcttcaatccacatttggcaacgtatacagGTACAATTCTG TCGGTACAGACCAGATACCTGCTTCATCCCATTCCCAGCAAGTCAATGGATTCATCCCTGGATGGATG CTTTGA

>L42c761-g11283_CAL? ATGGGAAGAGCTAGGGTTCAGTTGAAGCGGATCGAGAACAAGATCAGTCGACAAGTGACTTTCTCCAA GAGAAGGACTGGTTTGCTAAAGAAAGCTCATGAGATCTCAGTCCTTTGTGATGCAGAAGTGGCTTTGA TTGTCTTCTCAACTAAAGGAAAGCTTTTTGAATACTCCACTCATTCAAGgtttctctatctatccatg cccttaaaagtacctgaatcccccatatatattcacctctcgctttcttcactgtaagttccaaagag atagataggtacgggaattttcatggacttagggggtatatataagtggagagcgaaagaagtgacat tttctcttgcatggttttacttgaaatgtcgatctgttgcaattaatttctcatggtgatctctttat gacgttctggagaaatgaccatttataagaacttcctctttgcttgttgcagccatctttcatctttt atttcttgtttctgtttctctctcattcagatatagaacaattctaagtgaaactgcactttcagatg gggatgatctaagcttgacataaccttagacatggtgtacatttgcatttgaaacataggtcttactg catctaatatatatatatatatatatatcttatcttttgtagattagtcaaacttaagcttttgcagg taaaagatagtaataggtctttttaagtagattaaacttcaacatgccagctagatctgttcttgctt ctgttctattaagcctaaccctttttcttttgttaaactcttcttcaatctgctatacctccttcttt ttcttcttaattttttttgttcttcagtcaagtcaattatatcatttccttcacgagatttacaacag actttgatggatcagccctcacagatgggaagagaaggcttcaaaaccctgttctgttccatactgat tctcactgtcactgcacaacccacttacacctacttgaattggagctctaactcgcgcggagaagaac ctagttgtaaagtagccgtaccagtgtttacggtataggagagctaaataaccaaacaggtagatatc gctgcaacctcagagggacactaattatgcaagccagactaagcgagtgtcctagggttttgtgtcct aggataatggattctttaggttttgtttggcatacccctgcaataataacagggaaggttcgtcttta taatatattaagatttcctcacagatatcctcccattagtatcctcggtaaattaatcaatattatat atatagagagagagagatggaggtagggtactagtttgctggactggaaagactggtatagctaggtt ttccagtaatctaaatagagtacatccactggcgcttcctgctcaaggaaagattatggagctgactg aaacgattttctgtagctgcactgtaggattagagagatggaactcttccagaagcttttttctgcgt atgagccttaaacctaggtatctattaggtgtttattatatatatatatgtatatgccttcaccatca agaatagatctcgattcaaagcctggagtttatgttcggaaaataaataaatgaaatgataaaatttc aaattatgtaattatcattcatgattgagatacagaaaaattgaatggagaggaataaatgagatccc gaaggtatttaattagcatttgagagttatgagaatgtgaataaatattattttgttgatccagtccc gattaaaaacgaggatactcttctatttattatgtaaaaaaaagataaatgagatttaacgttttgaa cttttgttaatcagctgtatattgatagttaatggatgcagttcttttgttgggattaatcaatagtt tttgcctatactaaacagCATGCAAGCAATACTGGAAAGATACGAAAGATACTCATCTTCAGAACCTG TTCCAGATGGCTCCGAACCACAGgtataaatattgacaaaacctgtgaactagaggaacacaggcatt gctcttgttgcaaaatttactggttttcaggttctttgatcgtgtaaaaatttaaggtctgaagtttt atagggtcgcagatggatatcttgtggcctgaaaatccgttgaaacccatctgttgttttcttgagct gatagcgtagcatcttcttaatgggttgcaGGGAAATTGGGCTCTGGAGCACCCCAAGCTCACGGCTA AGATTGAACTCCTGGAAAGAAACTTAAGgtatgcattcaacttggcggtaacaaatatggataaacta agcaaattaaggaattattcattgatatgaacatcaaattcatatagAAATTACAATGGAGACGATCT GGATGTTTTGAACCTGAGGGAGCTTCAACACTTGGAGCATCAAACAGACACTGCTCTCAAGCGAATCC GTTCAAGAAAGgtcagattttgcttgcacatcataattacaggttgcctcaacataaatttttttttt tgtttctgatggtgtaaaaactttggtccttggaatctgtagAACCAACTCGTCTATGATTCCATATC AGAGCTTCGGGATAAGgtaaggttctaaccgagtgagggataagaattgatattctaagtcatccaaa gcttaatcttgtacattgcagGAGAGGTCATTGCAGGAGCAGAACAACGCACTAAATGGAAAGgtaag agctactcatctgctatggccattgcatgttatgtagtaccccaagtctacctttgcatctgacacta tcgattttcatgtgaaaaaaatgaaaataaataaaaataGCTCAAGGAAAATGAGGATATACTGGCTC AGGAAAACGAACAGCGGGAGCAGCAGAATCTCCTCCGCCTAAACTCGCATTTAGTGCCCCCACCAGAG CTGATGCTATCAGGTCCTTCTCTGGCTATTGggtacgtttcagttttcttcctgactaacatttgtgc atttctgagataaggcggcgacagcgtttgcttgacaacgatatcaataacttgtttgtgaatgatgc agtgGTCCTTTCCAGGGTAGAGGACTGATGGGTGAAAACGAGAAGGCTGAGCATCAAACTCAGCCTGG TGCCACCCAGCTGCCGGCCTGGATGCTTCGCCATGCCAATGGGTAG

>L42c951-g12947_CAL? 101

ATGGGAAGAGGTAAGGTAGAGCTTAAGCGAATAGAGAACCCAACAAGCAGGCAGGTAACCTTCTCAAA GAGGAGAAATGGGCTTCTAAAGAAAGCTTTGGAGCTATCAATTCTATGTGATGCTGAAGTATCCCTTA TTGTCTTCTCTCCCACTGGAAAGCTTTACCAGTTTGCTAGTCATGAgttagttcttctgtattatatc gttatttttttttaacagtacttttgtcgttatattgttgtatataattgcttaggtttctctcataa acataatcttcaatgatctttgctctagAATGGATTGGACTATTTCGAAGTATAGGAGCGAAGTGGGG TTTTCAAGTCCAAGTAGCCAACGCTCTAGCTTCGGCTTCGAGgtaaatattgcggctggacaacagcc ctatcactctttagtccatgtaatctaatgttttgaatcaaggcatcctgaatcttctctaaactagt gaagaacatggccagtgcggtctcatatacagcagaaatcacataattccttactctttctggtttca gaaccagggcttaaaaccatttatcttctgaaaatcctaaggttttagaaactaattaaactttctgg ttcttaacagTTTTGGAGGAGAGCGGTTGAAGAACTAAGTAAGACAATAGACAAAATGGAAGCGAGAC TTAGgtatgactccgtgctgcaattcatagaatgagctgttgttttcatcctcctattcgatatttta ttactagctcatttcagGCATTTTTCTGGAGAAGATATATCAACTTTGGGCATGAAAGACTTAAAACA GCTCGAGCGACAGTTAAGGACAGGGGTTGAACGTGTCCGTTCTAAGAAGgtaaaatcagctgacagaa taaatgtagcttgaaatatttacttcttagattcctaacctcgatgtgttatgttcttaatgagaata tgaaagaattattgacgtatacatgctgagactgatctgcattctatcaacagAGACGCATCATTTCG GAGCACATCAGCTTGCTGAAAGGACAGgtaaggaactgtaacacatttatagtaactagatgtaacgc aattacctaagtatgtgaagacagatcatttctagatgacacaaatagtgaggttctttttatgtttt cccattgaacctacgttgctcggttaaagtttctaggagtttcagctgctatagagtagccacacttt aaaaacgaaaaaggaaaaccaaaagagctgtactgaaaggagtcatctttttttcttaatctgcagCA AAAGGCACTGCAAGAGGAGAATGTTCGTCTCCAGAAAAGAgtgagttactcaacaaactctaatgcta aaattaattaaatgagagtcagtatgtctttatgatcattttttactatagatatgaaatattagagc ctgaatgcattcttatgtatgatcatagctgctggagttggatgaccccaatttaagctctagaattc ttgaaccaaactatgcatgacatgcattaaggagaaggtaacccgtttaatttcatcatttctagctc aactttaaatgctgcttgtcactgttcttttccttattattgggttttctgctttcaaaggattctca ttcaatgtttggacagtactgaacttctatatgcagGTTTCTCATGATGGAAGAGCAGCTAAACGGTC TTTGTGCTTCTACCGTGGTTTAAAGGAGCAAGGAGGCCACTGTCGACATGTGTTGTCAGGAATTAGGA TGGGCTGGATTAAGGGTAGAATCATTATTCAATAA

>L42c981-g13177_TM6 ATGGGTCGAGGGAAGATCGAGATCAAGATGATTGAAAACCCCACCAACAGGCAGGTCACCTACTCCAA GCGAAGAAATGGTATTTTCAAGAAAGCACAAGAGCTTACTGTTCTCTGTGATGCCCAGGTGTCTCTTA TTACCTTCTCTAAAACTGGAAAATTCCACGAGTTCACTAGCCCCTCCACAACgtacgtatatctctat gtgtccaaatttccaaactctcttgtgggatttaatcaaactagataataaaagctgttagagtcttg aaactttgagttttctgttataatccagGACAAAGAAGATTTATGATCAGTATCAGAAGGCTGCGGGG ATAGATCTGTGGAGCACTCACTACGAGgttattctttcttctaccgtctaacgtttgataaacttctg ttagattctcaatctacactttgcagAGGATGAAAGAGCAATTAAAGAAGCTGCAAGAGATCAACAGG AAGCTGAGAAGAGAGATCAGgtagttttgaaaaagagtaattatttattttacttgatttttttaatt aaagtttgataattaatgcgcttattgtttggatttccttgtggaataacaagagcattgtcttcatt acagGCAAAGAATAGGTGAGGACTTGGACATGAAAGATGTGGACATTGACGAACTGCGTACCCTCGAG CAAAAGATGGATGCCTCTTTAGAGCTTGTACGCGAAAGGAAGgttaatctcttagtttatagatctct tatttggattgtttttggttgaagggatatgagcattgatcttattatcatcattttgcgaaattaaa gtcattttttattaaatttatcaattttttatgcggctctatattcaacataatcataattataatta gatttggaattgaattaaactgaagacaggattgattagaaatttatttttctttatttgatttaaaa aattaataataataaaagtacttcaattacattctactaagaatatcctcacagtgtttacaaaatag tacagggaatatattgaaatgccaaaattgataaataattcaaaagttatattaattattttgatctt attggattggctatcaaggaaaaaagttatgaaatcccatttctaggctaaactaatttctattcgtt ttgggttgtttaagaataaattgctttcaaacattgaaaaaaaaatacacacgacattagatagaagt aggttgctagttccctttactaaagtgttcaaaaaaatataatgtaatgatgatttagactatacata gacatagacatagatatagacatagttttttaaaaaagtaaagttttactaatcagttaattgttaag ctaactttgaggctatttccttgtttacagTTCCATGTGATCAAAACACAGACAGACACCTACAAAAA GAAGgttagaaaacataaacatgtccaaaaaaagtagattcaatgagcatatcttattctcattctat gttctggctttgattgtagGTAAGAAATTTAGAGCAAAGACAAGGAAACCTCCTGCTCAACATTgtaa gtatcagaacttaaccttaccttgcagaaaactgtatatacatgaggggaaaaggatagtacgataaa tatttatactgacaacttccttgttgaattaattagGAAGCAAAATGTGAGGATCCTCATTACGGGTT AGTGGACGATGAGGGTGTCTATGAATCTTCAGTTGAAATGGCAAGTGGATCCTCCAACCTGTTCGCGT 102

TTCATCTGCACCAAACCCACAACCCTAGTGTTCACCTTGGAGGGGCATTCGGATCCCCTGCATTCCAC CTTCCTTAA

>L42c995g13289_PIsi ATGGGAAGGGGCAAGGTTGAGATCAAGAGGATTGAAAACTCGACCAACAGGCAGGTGACTTACTCAAA GAGGAAAAATGGGATCATCAAGAAAGCTCAGGAGATCACTACTTTGTGTGATGCCAAAGTTTTTCTAT TGATGTTTGCCGGTTCTGGTAAGATGCATGAGTACTGCAGCCCTTCTACTACTCTGGACGATGTGTTG GACAAATATCAGAGGCAGTCAGGCAACAGATTGTGGGGTGCTGAGCATGAGAGCCTGAAGAACGAGAT TGATAGAATCAAGAAAGAGAACGACACCATGAAGATTGAGCTCAGGCACCTGAAAGGGCAAGACCTCA CATCTTTGTCCCACAGAGAGCTGATGACCATATCGGAAGCCCTTGAAAATGGCATCAACACTGTTCGT GAGAAACAGGTAGACTACTGCAGGATGATGGAGCAAAAGACTCAAGTTTTGGAGGACGAGTGCAAGCA CCTCGGCTACCTTCTGCACCAAGGAGATATGGCTATGGAAGTGGATGAAAAAAGTCAGATGGAGAGTG CCTATCATCAGGAGAGGCTGAGGGAGTACAACTCCCAGATGCCTTTTCCCTTCAGGTTGCAACCTATT CACCCCAATTTGCAGAATCAGATGTACTACTAG

>L42c2769g23371_AP1 ATGGGAAGGGGTAGGGTTCAGTTGAAGAGGATAGAGAACAAGATCAACCGCCAGGTGACATTTTCCAA AAGAAGAGCTGGGTTGTTGAAGAAAGCTCATGAGATCTCAGTCTTGTGTGATGCTGAGGTTGCTTTGA TTGTCTTCTCCCATAAGGGAAAGCTCTTTGAATACTCCACTGATTCGGGgtactcaaaatctacttct tttctttcttttttcttctctgatatatcagagttcctgtttcataaaagtttcttccttccttctct ctctctctatagatatgctgacgtttacccttttcatggttgttcacagaagttctcgatctgtgttc tcacacccttatctattttgtcctctttttttcttttcacaagtacagattcaataattcgcaagtcc tggaaaattttgaatgctagctcgatcgaggtctctgagtaaaaggaaaagaaaaaagatatttctag ctagttgaatgattattccatgcagaattcataagctagctctaacaaaaagtttaagtagctaagca actgttcgtagttaggctaacttgagaactaacagctggagctcgacctatagcttgagctcctctag agatggtgcaacttctgagatgcattaaaccaactacgtttcatgggaaattcccgaggattttggtg gttattaagttctacactcacttgttcagattcatcttttctcttcctcgataattcttttttcttta ttttctagtgacaaatctgcaggtttttactcgaaaatttacacatcaggagtatgatgaaaccacta aacacatctaaatgcaaagatcaaactgagaatagatcaattgagcaataaatctgtggtgatgaaaa acaaatttacatgctactgtgagtggatcgcttcatatttcaactgttcctgaaaaaaaaaacaaata ttggtttttttgtataatttttttactgtagccagtatttcatgcttatgttaaccaatgtaaccaga aacctagcttacactgtagttaatgaagaacagtacatctttctatggggggattttgtatgagagct agcaaataagagattttaccttttgtctccatagcagaaagctgtatccaatttagaaagaattcttg cttattttatgtgctacagatcaagaattcttcgtttctaatttagaaagggctgggctgatcatttc tgtttatgaaacagCATGGAGAAGATACTGGAACGCTACGAGAGGTATTCATATGCAGAGAGGCAACT GGTTGCCACGGATATCGATTCAGAGgcatgccctccttttatttccttgtttttggaagaccgtactc ctccatgttttcagtagtcattaagaacttccagtttatgcataattagaggggtggtccaagcataa ttgcctcctaatctgttttattatgcagGGCAACTGGGCTATGGAGTATAAAAGGCTGAAGGCAAAAG TTGAGCTTTTAGAGATAAACCACAGgtatggagcaacttaattagtagataatgtaggagaggaacct atttctgatggataaacctgtattagGCACTATTTGGGAGAAGATCTGGAGTCTGTGAGTCTCAAGGA GCTGCAATCCTTGGAACAACAGCTTGATGCTTCCCTGAAGCATATTCGGTCAAGGAAGgtaaaggcat agattttgatgttatttattgtcttcttcttcttcttcttttattcacttttagatgcagaatgactg cggaagtctgtgtttatcttaactctcatgttcatccatcctcgcccttgCAGAACCAACTGATGTAT GAGTCGATCTCTGAACTTCAAAGGAAGgtaagagcttttggttggtaaaaatcttgtgttcagccatg cagacagttctaaatgagtttgattgaccggcgagagataccaggattgaaagtatatttatgtcgaa ttagtctagttatcgaaaaactataatatattagtgtcgaatcgggatctaagtaggattagtcattg ttatcgacaaactaaagtatagtaatatcgaattggaattgaaaaaggattagttttgttgccttgag gaaaatactcttcatttcaaaacagcacagctgtgataatacttcagtacagaaaaccatctgccaat ttagatttgaatcttagtggatgtgcttgggagcttgaatatattgctcataaattccccagtgcagt aggaatatccagaatagtacattggtttgactactatcatttctgtctatgagtatgacttttcacat agcaatatttactcaacatgtaaaactcataatgtataaatccaaaggatgtggttgaatgataagat tatccattcgtaattaaagatcaagaattcgatgaaataatcacaatactttcaatttggtttccaat tctgatcaatttgctcttgacttgtttccagctttcagtcacattaattagcttattttcattttcta gtaacatgttatgctattcttccttgtgattaatgacagGAAAAGGCAATACATGAGCACAATAACCT ATTAGAAAAGCAGgttaccgtcttctctttttagtacaaatacatgcaaaaccacacatcgcaataaa tatatatatatatatatatatagctactcgaaaattccaatatgttaaccctccaattgcgatatgat 103

tgcttacagATCAAGGAGAAAGAGAAGGAGGTGACCCAACAGTCACTTTGGAATCAGCCAAGTCATGG CCCTAGTACCTCGTCGTTGCTTTTGCAACAGCCATTCATCCCGTGTTTAAACACTGGgtaataatttc ttgacatgaagttagaaaccccaattttacttgtgtgtattgcttgttgtttttcacatcttgttgtg tgattttgatgcaacgaaacgtgattaaacctaaaataagaccctgtttcagaacacatctatattat gttaggtatttttcgttttaaagtaagaagataagattaacttctttccgaacttcaattgaatatct tatattcccagaatttgagtcttaattgaatgtttaagggctcacttgtctattccatttgaatgcat ttaagtttggagaagtctattccgccggaacttttaagatttttcacaaaaaaatcaaattttctttg tctgtgattcaggaaatttaagaactgagatgggtttttgtctttttatgcgtctgtttatgtcagga acttgttagatacgagtaggtcatttaggctgttaggaactgagctattggcacttcgtttacagtat atgttctgtagcaacagtgctcattgagtagacaaaacctaaggcatcgcacctaggtggtcttagga gtcatatccatggatagaattgcattggacaaccattaaagggagctatgaaagcttctgagagttca attcatcatgtctgaaaagagcactacaagcagcagaggtataaatacattatctgtcatgtttctct tcagttccttgttttctttctttctttctttctttctctctctctctctctctttaaattgcttccta tgtgtctatgatttattacatatgttggttccttaggtagaagctaaaattagagaataaaaggtaca gcagagctctctatggggcttttttaaagtaaagtgacatagagttataggttacaagcatagagttc atgagaagataggttttctgcatttacagttctttcctaaaaccctatgtacggtcttcttacataga ctaacacttgagatttatcttctctactaccagtcttaatagcagcaaaagaactaaaacagacaaca gcaacaaagtggctgaagctggaactcagtaacatgaagatctagggttatattacatctgaaacatg gatgaataaaatttatctatcttaataaatgtgatactcttttatattagtaaaaaataactaattga aaaggagaatgcttcttttagggaaaaactagcccttatcttttcttcaaccctatcagtcttattct gtttgggttcttatcattcattcaaaataacttgaccatatctctaagtggatcacatatgtacttgt gttttttttgttgtcttttgtggagaaacatacatactgcaataactttatacgcagaagtcactacc aaagtcctatttaaggctgattgtcaaaaaattacattatagtagggattgaaacggtccatcaccac aacctaaacatgctttgcatagaatagtaaagtttattttgttagataggatgctcacttcagttgat actgatcaaaatcaaagctcgaaagaattatattattatataaaataagataaataacaccaaaaata aagacatgaatcttatctattgtgtgctgatgttattttttcacacaaaatcttcatccttgtcctga caagttgcctactaagtagtaatccttttgtgcttgcagTTGCACTTACCAAGAAGAAACATCAGAAG CAAGAAGGAACGAGCTTGACCTTACATTGGAACCAATATATTCATGTCATCTAGGATGCTTCGCCACA TGA

>L42c3920g27457tem coisa aqui, se quiser checar...ja chequei duas vezes_AGL-11 ATGGGCAGGGGGAAGATCGAGATCAAGAGGATTGAGAACACCACAAATCGTCAGGTTACCTTCTGCAA GAGGAGGAATGGACTCTTGAAGAAAGCTTATGAACTGTCAGTTCTTTGCGATGCTGAAGTTGCTCTGG TAGTCTTCTCTACTCGAGGTCGCCTCTATGAGTACTCCAACAACAAgtaaatcgcttctcttcctctt acttcttccacttccggtcttgttcttaagctatcttcctcaaacctatccacttcctttcttatcat aaaagtccttgtcatttgtatcacatgagtttagaagttttagtttttcttatcggttgtaaaattaa tctttgaccggatttcactcgacctgaaattctttactaagtctgtgatcattaagaaaaaaaaaaca tttagattttcaagaaattgtctgaactgcagaatcgtgtagtgtataacacagattggctggacatt ttttactgtaatttctttctgatgtgattgaaaccctaatgaaaacttcaagaatatgcagatcctct atagtttatctttttgtgtttagactctacctgtgaactcgacccacaaccagcaagcaccaattttt cagaagacttatttaataggatgttatttttatattagtgtcgaatcgaaatccgagaagagactgaa gtgccgaaaaagaaaaattcagacaaaataacttaacgtttcttgagctataagaatatttatatgct taaatatacaatatcagtgttttgcttggagtgccaaatcttggaaaactctctgcacagattggaaa agcatggccattatggaatgatgggggataagaggaaatgaaggaataatttagactgttccttgtga ttcatgttctagccttgacagagctcttgaatagtactcgtagctatatatgaattttgaaaagaggc agtagtactccttccttgttcaccatggtcctatcttatcttttcccctctggtttagcagtttactt gtggtatttcttgacctctgattctttgcctttccagtgttcgtgaattctctcagttctgattgtct ttcatttccatttcaagctttggaagaacccaaatcttctttgtgtccgtctttgtttacatcaactc caatgttaccttcttttagggctctgagcccttgaccatcacttgccttttccatgcttcaaggatta atggaagacattgcatggttccaatggtccttggcttgtgatgattcattctactacttaggcctcca aaagttttcatgatatatattcattatggctattaagcattccttacttttctagtgtaaattctggt ttcctgttttgatttttgtcagtaaaatctgagaaaaaagctcttctgctttacatggcagctgCATC AAATCAACTATAGAGAGGTATAAGAAGGCTAGTTCAGATAATACAAACACCAGTTCCATCACAGAGAT CAATGCCCAGgtaacctttgtttcctgttctattatatatgtctatggaggctttagacaagttcctg caattatggaagtacatcagataaatacttgctcccaaactgttaaaacacagTACTATCAACAAGAA 104

TCAGCAAAGCTTAGGCAACAAATTCAAATGCTGCAGAATTCAAACAGgtactcttttattttccttca ttttgtttttcttgttcttacatcaaacaagtatgtaggatatgatgtcttttccatatatatcatag cttctggactgcattaactgaaaccattgatgtaaaatgatttctttttgtcaagaacttactacata cttctacccatcattccattcccctatgtgcagGCACTTGATGGGTGATTCCTTGAGTTCCTTAACGG TGAAAGAACTGAAGCAGGTTGAGAATAGGCTAGAGCGAGGCATCACCAGAATCAGATCAAAGAAGgta agatatgatgcaacttggaagtgggaagtgcccttctgaactgaaaatagaaagaatttctgttgatg gaaattttgtttgtgagttttgataatatcacataacattattcactccaagtagcagatttcaccag aagttgtcctgagggctgttcatgaaacattttgatttgaataagaaatgttcaagatcttaaacatt cgtttagtgttcgatttctaaaaatatggattaagtttataagatacgtgtagataaaaatctggaaa aagattaatgctgtatcggactatctgagggtgatattcttctgatatgaagaaaaccaactttatac atggtttgctcaatggttttattcttttcctttgttcttcgagtaatggcattcctatcgtaaggttt aacacttccttgtccactgcaacagCATGAAATGCTGCTAGCTGAAATCGAGTACTTGCAGAAAAGGg taaattcctgcatcttatgtacatcattctcttgttctagtttctgacagaaaaatatagaaaaaccc ttcttcattgactggtttcatcacatacttcgacctgttcttgtagGAGATTGAGCTGGAAAATGAAA GTGTATGCATTCGGACCAAGgtactgaaacaatactgtctgattcctacccctgattatcatgttatc cttcaaccagcccataaataaagcttgaacattcatggtgatcgaacacttgcagATAGCAGAAGTTG AGAGGCTTCAGCAAGCAAATATGGTTACTGGGGCAGAACTGAATGCAATCCATGAGTTGGCTTCCCGA AATTTCTTCAACCCTCAAATGATTGAGGGTGGTAACTCTTCCTCACATCCTGACAGGGAGATCCCCCA TCTCCGGTAA

>L42c7965g36517_AP3 ATGGCTCGAGGAAAGATCCAGATCAAGAAGATTGAGAACTCAACCAATAGGCAGGTTACTTACTCCAA AAGACGAAATGGTCTCTTCAAGAAAGCCCATGAGCTCACCGTTCTCTGCGATGCCAGGGTATCCCTTA TCATGTTCTCCTACACTGGCAAGCTTCACGAGTTCATTAGCCCTTCAACCTCgtacgtacatctccac tctatcttaactgatcttctcatttcccttctgtccaaaaccctgtatttctttaaacttacccattt gacaaaaaccatgtttcttccgggcagAACAAAGCAGATGTTTGATGACTACCAAACGGCAACGGGGA TCGATCTATGGAACTCACAATACATGgttctttttctgtccgtactaacatctacataatcttatctt accttgtctgtacaagacgcaacatctgccttttttatttatccatacagAGAATGCAAGAAAATTTG AAGAGTCTGAATGAGGTGAATAGGAATCTGAGGAAGGAAATTGGgtatgtatatgtatagtctcatac ccattaaaaatgtttgataaccaagcatattaagtgtcctctcatgggaatttgatgttttctcttca tgattatccagGCATAGGATCGGCGAGAGCCTCAATGACCTGAGCTTTAATGATCTTCGCAGTCTAGA GCAGGAAATGGACGGAGCCGCCAAGGCTATCCGAGAACGCATGgtttgacccttgctttattacttag ttcttatataatattgttaatctaagctttactattttaatattgctattctatcagcagaagttcga ttcactgttcatttacttctgtattaaaaaatagaatctcatgttttcggtaaattgactataaaaat atagattttctgacaagcggagtagtggttcatcctttattcagcttctaacagcactacaccttaaa attgatagttaggtaactcttccccttccctattataaacatcatatcagcgcaaacgtttgacttga ctttcaacagtacggttctgctcaaatccacatgcctgatgcctttccgtagctataaactactactt atgtgtaatggaagtagtgattaaggggtaggtagcaattcacctcaatattaatttcggattgtctt agtgaaccatcttggcgtgcttttagtttctgtttttggttcagaatgacgttaatgagctaattgac catttttgttccttgaaacttgaatatatatgactaacgaagtctatgatttgctttgatggctaata gAATAAGACCCTCACGAATCAGATTGAGACTTCCAGGAAAAAGgtgatttttttctgattaattacta actctatgttagttggatgtaacaggaactgaccctttttcttaattcttgtttcagTTTAAGAGTGC AGAGGAAATGCATGGAAACCTTTTATTTCAGTTAgtaagtgtcctctgcgccttgattctctcttcct ttcgcatctaaaaaggttttttttgttggtatgatataatgaagGAAGCAAGAAGCGAAGGTCCACAC TATGGCTTTGAAGACAATGGTGGAGAATACGATATTGTAATTGGTTTCCAAAACGGAGGCCCTCGTAT ATTTGCTCTATGA

>L42c10703-g40293_AGL-18 ATGACTGAAGAGAAGAAAAGGATGGGCAGAGGGAAAATAGAGATTAAGAGAATAGAAAACTTGAATAG TAGGCAAGTCACCTTCTCAAAAAGGCGTAACGGATTGCTCAAGAAAGCTAGGGAGTTATCGGTTCTTT GCGATGCAGAAGTTGCAGTCATTGTCTTCTCCAGCACAGGGAAGCTTTATGAATTTTCAAGCACAAGg tacctacctgattatgttgtaagcagagtttgttcaattttcctttgtttttcttatttttgttatga ttggtttctggagaatgttttaagaagatcgttacgctgtgttaagtcaagtcaatggacgagtcctt acagaaatcgtttggtagaatggattttttgacacaccaaaaagggtttgttgggttgtcgattatag gtgaagccgatgattcctatgtgcatacctagttctataacgaaaggttcaaaaaccctagagcaaag gccggaattcgtaagcttgtttccgcgttttattttaaattatcgtctttctggaacgacgaagctgt 105

caagagagtagaagcattagaaaattaggttttcgataattgtacaatttagggtatataatattctg aaaggctagtcggtgaccagtagctgggctaggctggggctaagaagaaaattttgggccccaaggga catcaagggttagtccgattagtttacagtatttgtcagagtccgtcttattgcttgaatcgtaattt ttcagaaaattaattagttccattaagcatataactacgatatccgcatagtatttttaaaattttca gtatataaatttgtaaggcttgcatgctcttaagccttggagctgggtttcgtttcatgcagCATGGA GCATACTCTTTCACGATACAGCAGTGGCCCGGATCTGGTAACTACCAATGAGCATCCTTCGAACAACC CTGAGGTAGAGgtactgtactcatcatattaaatacacatcgagttctatgtacagctagtgcttgtg ttagcctagatagaaagaaacttcatccatgaaaagcattatgcttgtgtaccgttccaagaggaaat ttgatttgcagaatcttgtactcaaattttattctgtaacttcatttgatgctattctcatgttgctg gtcttcttttcaaacagCAACTGAAATCTGCAGACGTTGATTCTCTCAAGGATGAAGTCTCAAAGCTA AGATTGACATGCTTgtaagtcacactgtcttaatagcttcagtcaattaaaattttcttcaactctaa actaacatttccctcacattttcagGCAGATGATGGGTCAACACCTGGATGGCTTGAGCTTCAAGGAG CTCCATCACATAGAACATCAATTGAGTCGAGGCATATCGTCTGTTAAAGACAAGAAGgtgacatacaa atgtctttttctagttttatttttcctcctctcagtgtaaatgtcaaggcataccgaaacattaaaat catttaccctttctaggacaatctcagactactaggatatgctttgccttgacatctaggatcctgac tgtgccaaaatgggtctaatctaccatttcctttggacctgatgttcaatttaagatccgattcagtc aacatttctaaatcagtctgctaaagctgtaagtttgcctgtcctgacaaaccttttcttcttgcagG ACCAACTACTAATAGAGCAGCTTAAGAAATCCAGATTGCAGgtaatcatagaattttgtaatttcatg tccaaccctagagaaatctatatctcctcgccggattatgtacgtatgagttttatgcctcgtcctcg tgttttatctccagGAGCAAAAGGCCATGTTGGAGATTGAAGCTCTGCGCAAACAGgtaaactatgag cttaattaaagtctaacttttatgaaatattcagtgcatttcttgtaattttgattgttttggacacc aaatgtgtgtacgtagGTTGAGGAGCTTCGGCAAGCTTCAAAACCAAGGCTTCCAAGTCTCGAATTTA ATCCTCTAGAAAGGAGATTTTCTCTTCCCGATCCCAAAGCAGTGTGTTCTCGCCAACTTGAGGAAGCT GATGACATCTCAGACACATCACTGCATTTGGGgtaacattaagctcccatttctaggttaaagacaat gatagtcatttaaaggacgttctccgacatacatatttggttgttctgctgtgcttttgtaaagattt tattacaatctatttagattattgtcagtattcgagtccttaatcatctcctattcttatttaaacct tattacaaggttgctagaacttgatgattccatcagtcacacctttccaaactttagccaaataattt gtctttcgcagGTTGGCAAGTGATGCTGATCGGAAGAGGAAAGCGCTTAGGATTGAGTCTCACTCCAA TGATTCAGGCAGTCTGGTGGCTTCCGAGTGA

>L42c15306g44690_B-sister.1 ATGGCTCGAGGGAAGATCCAGATCAGGAAGATTGAGAACTCTACAAATAGGCAGGTTACTTACTCCAA AAGACGAAATGGTCTATTCAAGAAGGCACATGAGCTTACCGTTCTTTGCGATGCAAGGGTGTCTCTTA TCATGTTCTCTAGCTCTGGCAAGCTCCATGAGTATATTAGCCCTTCCACCTCgtacgtacatctccag tttctctctctctttaccctatatttccttcagttgacatgttttactttgatttgtttggttttccc gaccagAACAAAGCAGATGTTCGATGATTACGGGAAGGCAATGGATATCGATCTATGGAACTCACACT ATGTGgttcttgtccatatctcgaccttctatgttttttctcttgtgtatggaccggatatgacatga gggtttgttctatgtatacagAAAATGCAAGAAAATCTGAAGAGACTCAAGGAAGTGAATAGGAATCT GAGGAAGGAGATAAGgtttgtacatataatgttaattaatcgatgatatacaggatgttgatgggttc ttcggtttaagctaataattgaggttcactagGCACAGAATCGGTGGGAGCTTGAATGATCTGAGCTC CGATGACCTGCGCAGTCTAGAGCAAGAAATGGATAGTGCTTCCAAGACTATTCGCGAACGATTGAATA AGGTGCTCACCAATCAGATTGAGACTTCCAAGAAAAAGgtatattttccgataatgtgaacaattgtt tgagtattatcattgtcagataatttttttttatgaaaatatcagtaatgcttcatcaactacaagtt attatcttttcaatgcttgtttcagCTGAAAAGTGCAGAACAAATACATGGAAATCTTGTATTTCAAT TAgtaagcatcctatcatcatgtacaccttgattcttctccattatcatcatagaaacgttaacctga gttttctttgtttttaccttttccctctctgcaaacaatattcaagGAAGCCATTAGTGAAGATCCAC ACTATGGCTTGGATGATAACAAAGGAGAATATGACATCGTAATTGGGTTTCAAAGTGGTGGCCCTCAT ATATTCGCTTTATGA

>L42c18174g46819_B-sister.2 ATGGCTCGAGGGAAGATCCAGATCAGGAAGATTGAGAACTCTACAAATAGGCAGGTTACTTACTCCAA AAGACGAAATGGTCTATTCAAGAAGGCACATGAGCTTACCGTTCTTTGCGATGCAAGGGTGTCTCTTA TCATGTTCTCTAGCTCTGGCAAGCTCCATGAGTATATTAGCCCTTCCACCTCgtacgtacatctccag tttctctctctctttaccctatatttccttcagttgacaagttttacttggatttgtttggttttccc gaccagAACAAAGCAGATGTTCGATGATTACGGGAAGGCAATGAATATCGATCTATGGAACTCACACT ATGTGgttcttgtccatatctcaaccttttatgttttttctcttgtgtatggaccggatatgacatga 106

gggtttgttctatgtatacagAAAATGCAAGAAAATCTGAAGAGACTCAAGGAAGTGAATAGGAATCT GAGGAAGGAGATAAGgtttgtacatataatgttaattaatcgatgatatacaggatgttgatgggttc ttcggtttaagctaataattgaggttcactagGCACAGAATCGGTGGGAGCTTGAATGATCTGAGCTC CGATGACCTGCGCAGTCTAGAGCAAGAAATGGATAGTGCTTCCAAGACTATTCGCGAACGATTGAATA AGGTGCTCACCAATCAGATTGAGACTTCCAAGAAAAAGgtatattttccgataatgtgaacaattgtt tgagtattatcattgtcagataatttttttttatgaaaatatcagtaatgcttcatcgactacaagtt attatcttttcaatgcttgtttcagCTGAAAAGTGCAGAACAAATACATGGAAATCTTGTATTTCAAT TAgtaagcatcctatcatcatgtacaccttgattcttctccattatcatcatagaaacgttaacctga gttttctttgtttttaccttttccctcactgcaaacaatattcaagGAAGCCATTAGTGAAGATCCAC ACTATGGCTTGGATGATAACAAAGGAGAATATGACATCGTAATTGGGTTTCAAAGTGGTGGCCCTCAT ATATTCGCTTTATGA

>L42c26215g51483_AGL-15 ATGGGTAGAGCTAAGAATGAGATAAAGAGGATTGATAATGCAAATAGTAGGCAAGTGACATTCTCGAA GAGAAGAAATGGTTTGCTGAAAAAGGCTCGCGAGCTTTCCATTCTATGTGATGCTGAGATTGCGGTTA TTGTTTTCTCTAACACTGGCAAGCTCTTTGAGTTCTCAAGCTCCGGgtaggataaatcttcttctact cctttctactgctgcttgggaggctatgatttaagaaaaaatagttttgttaaagttctatccttttt ttctgatcggaaaggcgattgcatgtgcattttccaatttgtgcttcatgcttaatttctttcacttt gcagtgtcgagaatatagttctacgtctctcaatattctgtttgtatggtttttctccagaaattttc ttggatatgataaatcacctttgtaatgtgtttgcttgtactgtatgcttgcctacttttcttattat atagCATGAGGAAAACAATTTTAAGATATAACAAGTTCCGAGATTCTACAGAGCCCGCCAGAGCAGAG CAGGGAACAGAGgtagcctgtgcttcacttttgcccagcaaaatgtgtacttgattctctatatttgt ttcaagcacacgggtgtaaggattctgcagctttatcataacaatgcttttgtatttttttttagggt atccaccaattgataaccctgaaggagtatttgatcttccgatggatgttccaagtgcttgcttattc ttcagaagctaaaataagtaaaacgtatgattacttggttcctgttttcaattcctttttcagAAGCA AGATTTGATGGAGCAGGGTGTTCTGAATGATGAAATCTCTTCGCTTAAAGTGAAACCGTTgtatgctt atagattacttggttgaatttaagacattttggagtaatctaggaagctaaacctcatttgacattgt ttcatgaatataattatatatgtagGCGACTCCTGGGCAATGATCTTACTGGATTAAGCTTGAAAGAG TTGCAACACTTAGAACAGCAATTAAATGAAGGCCTCAAATGTGTAAAAgagaagaaggttctgctgac tattcatgctgtttcgttttgctttatcaaatttcatagacccgaaacaaaaaaaaaaaaaggaaatt ccaggagccttgatagagtttttactctttcagGAGAAATTATTGATGGAGGAATTAGAGCAATCAAG ATTTCAGgtgaaatgagctcttaagtagcattcttccttttcttttggcgcttatgtcatatggcttt ttgcttccaggaacagCGAGCAATGCTGGAGAATGAAACTTTACGCAAACAGgttgctgaatattgtc tattggaagtactaattctattcctgagcaatgtcaaacgtttagagtatcctcttctttttccttta agcagGTTGAAGAGCTCCCAGGTTTGTTTCCATCAAGTGACCACTCGCTCGCTACTTATCTTGATTGC TATGCAGAAAAGAAGTGTTCTCTTGTGAACATTGCCTCCTCCATCCCTCATGGTGCTCGTCATTGCTC CGTTGAGATGGTAGACTCAGAGCCCACTTTGTTTTGGGGgtatgccctttttctcccttgggttttga gttgtgaatttctgctgtcttccaattgttgttcaatgatgatcactatcagataagtgtttctatga tactataaatcatttcacataatgctcatatgtacccaatattgctcagGCTGCCAAGGGAAGCTTAT CTGAAGAGAACAGTTCAAGAAAGAGAGAATCTCTTCAATGATTCAGAGAGCCGATTAGGCCTAAAGTA A

>L42c2527g22277_TT16.2 ATGGGGAGAGGGAAAACAAAGATTATCAGGATCGAGAACCACCTAGCCAGGCAAGTCACATTCTCCAA ACGCCGAGCAGGGCTATTCAAGAAGAGTCATGAGCTCTCTGTGCTTTGTGATGCTGAGATCGCGTGTA TTATTTTCTCATGCAACGGTAACCCGTTTGAGTTCTGCAGTGAGTCCTCCAGgtaaaaccttaccata aataacagctactctctccttcaacttcaatggtatttctagtttttaattgtaacaatacttgtttg ctttctatctattattccatgaaattgaatggcctataccactatcttcactggtgcgtatctgtaat atatgtttcgagagtttttgcttttcgaaatattttctttttaattttgatttttagattcatgtaaa tgggtgaatttggttcttgcattagtctattcgcattgcttcgtgcccataatctttttatcagatca tttccttttccccttcgttatttagtgcttgtcatctctttaatgtttcttaagagcagcactaacga tttttacaattgagaaagactttcatcattattaagatcgtgtatcggcagctattgagcccctaagg ctgccttttccgaaaaaccaatcagtgtcatcatcattttatgtattatacgtagtaaagaccattta atttatgagaggctatattcagtgtagaaaagagtgcactctttcagtagtgtagtggttacctagtt gatttggaacctaaaaccagtacgaagatggtcatgatatttgactgctttcatgaaaatgacgcaaa gaaattgagcagttacttgtatatattttggctatatgcagTCTGCAGAATATCATTAACAGATACTT 107

GATTTCGAAGGGACTGCAAATGCCACCATACGATACTGAAGGCTCGgtatagtccttaattacccatt gtaaatcagatgtgaacaaggttctgatgccttgagctgttgctttttcaaaatttagCCATGTTTAT TATATGGAGAATTGAAGAGGATGCGAGAGGAGATTGATGATCTTGAACTGAGCTTGCAGCGCTACACA GGTCAGAATTTGAGCTCTTTGCATTATGAGCATTTGATGGGTCTTGAAAAGCAGCTAGTGAGCTCTGT CAACAAGGTCCGAGCTAGGAAggtatatatagtaatcctaagaataactacccagaacttttcgtcga tcactcgagacagttgttccaggctcgatccttccatatatatcattaggattcttagacttggtata tgagtattgctaagaattaatgttctctccttggtcgagcatgcagTTTGAGCTGGTACAAGAGCAAA TAGACAGTCTCGGAAGAAAGgtaaatcaagcgcccccctcacacagactttctgtgtattttcaaaag gaaaacatatgttttcgttaaaacctatggcttatgtgttaaacacagGTGAAAACGTTGTACGAAGG AAATGAACAGTTACAGCACCATCTGgtgagttaagttttagctgaactccttcatccctgaaaactga atatttgcttaatcaacttaattaacagaacactcgattattgcaataataatgtgatatcctgatac atttttatctcatttcctgggaaatttttcaagggagacaatgtttggagtatctatgcatacctgta aaattactttgattcaagaacgtaataccttaacaaaattttatgccaaatttagACGATGAGGGATT ACCAGGTTGCAGCAGTGGAGCCCCATGACCATAGATCACAAGTGATTGATCAATTCTATTTTCTCGGT GAAGACCCTCGTAGTGAGCTTCATCTTGCTCCACTCCCTACAGAGTTTCAACCTCACACTATCCAGCC AACCCTGCCCAGTCTTCAAGATTTCAGCCTCCACCTTACCAACTATGGTAATCTGCAGACACGCTCAA CTCGACATGCCGCATTCTTTTACACTTTGATGGAAAATAATAGTCTGATCTGTTCACTTTTCTGA

>L42c737-g11039_SEP ATGGGGAGGGGTAGAGTGGAGCTGAAGAGGATAGAGAACAAGATAAACAGGCAGGTGACATTTGCCAA GAGGAGGAATGGACTGTTGAAGAAAGCCTATGAGCTCTCTGTGCTCTGTGATGCAGAAGTTGCTCTCA TCATCTTCTCTAACCGTGGCAAGCTCTATGAGTTCTGTAGCACTTCCAAgtacgaccctcctcttttt cttactccaaatctctctctctcgctctacatatgcatcgaggacttgtttttatctatgctgtgtgt gattattttaattaatgttgctcgaacaagatgtgttcgggatctgttttcttgtctaatttattggt tttctttcttcttcctttttttaaagtttcttcttaccttttcgaacgaaaaacatgtaatttcttaa aaggtgggactatattttatcttatcataattcgtagcctaagaaatcagttgcctgcgatggttttc gcttctgattctatgatttcaactcagattagttttttgtttgatgagcttctaatctttctactctt tttgcatgtatgagatcttgatcaaatttaaagcattttcctttgctgatatggagggatcttttggt ttaaaaaccaatttctcctgttttttttcttatttttagtgaaaatctgagctaccaaattaatttga cagagatactgaaaagacttcttttcagataattcattgctggctattttgttatcccctgccgtcct ttgctttcctaaagaacctgccgattcgcagaggtcttatgagtctgattttaactctttattttttt aaccgaaatattttgatttaagacaagattcaaaggattatctggggaacatgttcttacccaggttg tcaatttggattttttgacagtgaaagagcagcataaatgtccttgaaaaccctgagaagttagtctg gttcatgattcattagtttatctgctaggtctcgctagttctctcttattgttcctctctgaaatccg tttggggcgcttattccaatgaggcactgagaaaacatcaaatcctgactttcgtcacaagggttatt gtacaagggttcttggcattttgttgtgcacctatcttggaatttgttgccatcgctaacgcagattt ctttctttctttcctttttcattattacatgattcttgcagctaaccccttattttgtaattttcatt gtctgtttctgttttctttcctcaaacttgttaaatcctgataaaataaactggattgaaaatataga tcttagggttctgttagtaagttgatccagatactgattgctagacaagaaaaacaaaggaagaagaa agagcattcactctttttaagtctaattctgccgaccaatttcattactttcagattgtcaaggctta tcatcagtacatgctccatctgctgcttcctttgctgcagttgaatgcttaaaactcatcaaagtctc attaatttttgtaagcttccttggtttagtggaccaattgttagcttatacacctttaatcgtagttt gatgataggatctttaactaggtattgatgaaactcaataaagaggaattataaaagataaacaaaac gaagaagctggtggtttttcccctctcttatgtgaggttaagtaggagtttaggatagaaaatatata catcttatgtcattatgcattcaatcataagttggtatttaagagcttatgattaacaatgttaatct atttgttttagtatttaatcaacctacgttctaatagaaagcctgatatccattataaacaagaacaa ttagagatataagcatagaaggctagcataatcaaagcttacaacaaaaacaagaaaatacaaaagaa ttatcataggaatacacaaaagtaaagaaagcctgcctgcagtcattgcaggaagcactcaataacaa accagcatatatagaccagcctttaggagggagttagcccagcttttgataatatcagccgaggaaat cacaagattcctagtatgtacgaagtttctgacatgaacttatagttcatacacatgctttattgagt cactatccataacagattccattctacagtgaatcctaaaacacaatttgattactcactgtggagcc aaaggaaaaagaaaaaaaaaattcatctgctaaaccttattctgacctaaccatctgagttctatttc atcataaagaaaaatgtcgcaactttcagcaccaaatctctgttagaatatccttgaccatcatacat aaaatcgaagtgacgaggagattgattaaacaggcaacttaacccttaatgtccttggccatcatcct attgaacgaatagcttaaccttaatattgtattttatataaaggttgaactagattataattattgtt agaatatgtttatgacaaagtataattagaatgaaataaatatatcagaatccatatttgggataata 108

atttgaatgatactgatgcttaaattttttcccttcatgatactaagcctagatgaagagccagtgac atagacaaaataaaaacattattttgtatgaaataataggtttttatgatcagaatagggtaataaat agagttattgaagatagtgcaatctgttatttactggagcataaagattactaggctaaaaaagtcaa cgggcgagcagcagaaaatattatttctcattaagttctcctaggtaaaatgtcacctcaagaatagt ggaaagaatctaaaagaatgctcgatggaaaaagttaattatggcttttccctcaactttggaaatag tagccttcactttgttacgttcatgtcagggacaatgtatgacagctcttgattgactaggaaaactt tcatattttgttccctacctgagtatttattgaaggttttcttcgagtaggtttaggactctctgtgt gctcattaatatcccgagccctttataatcgaaatcttaagtttgtcgatcagtttttggttttatgc aaattattacttgagtatgttgatagagttggaattgccctcttttttacagCATGATCAAGACTCTG GAAAGGTATCAAAAGTGCAGCTACGGTACAGAAGAAGTAAATAAACCTGCCAAGGAGCTAGAGgtaat ttctatatacagtagaatagcttgttattagacctacaaatggagattcagctgtttaattatccagt tgttcatgttaaaaaagaaaagtttcaatgaactagctaggtcaatttcttatcagcttctcacatat ttttcgcttgatcctagcagAGCAGCTACAGGGAATACTTGAAACTCAAAGCAAGATTTGAATCCCTA CAACGAACTCAGAGgtaattaaaaacctgccatgcatgattctgtatacaataatacttcagcagcat gtaagaggaacccaacaaaaagttggagaagttcctttcctttagttgcaagatttcaaactttcaca ctggattttgtttcatgagaacgaaatatatttcagttgtagtatgaggtttctcaggaaactgaaaa aacaaaaaattgagatgatgaaacaggcaagctactggtacagaagatataataggcaggaggtgtat atataatacatggaagatttttacgtttcttggtgctacagGAATCTTCTGGGGGAGGATTTAGGACC TCTGAATACAAAGGAGCTCGAACAGCTTGAGCGTCAGTTAGAGGGGTCATTAAAGCAAGTTAGGTCCA CCAAGgtaactaactatcaagtacttgttgtcttcaccaccttgttccggtctatatctttctggtac gtacattctttggtgctaccacatagaagtatttctttctgtttgacaattcagtactgccttgcagA CCCAATTTATGCTTGATCAGCTTGCTGATCTTCAAAATAAGgtatgaatgaatggatatactgtagca aatccagttttgcttatatttttctacaactatttatgaactaatctgttttcccatgcagGAACATA TGCTACTTGAAGCTAATAGAGCTTTGACATTAAAGGTAATGTTTTGCTTGTATCTCGTTTTCAGCCAT ACCTTCAGCATTTTCCACTACTAAACTCGTCTTCTGCAGCTGGAAGAATTCAGTGCAAGAAATAACCT TCGACAGTGGGAAGATGGAGCGCAAAGCATGTCATATGCCCACCAACATGCTCAATCTCAGGGTTTGT ACCAGCCATTGGAATGCAACCCTACATTGCAAATAGGgtaggtcgtcctcgtttccaccctcttccat tcaaccaccaatgcactgaatcctgaacttctctaatctaaatttccactgattcccaattgcatcca gGTACAATCCTGTATGTTCAGACCAGATGACTACCACATCTCACGCTCAGCAAGTCAGTGGATTCATC CCAGGATGGATGCTTTGA

>L42c74g2081_AGL65 ATGGGGAGGAAAAAGTTGATAATTCAGAAACTGGAATGTATCAAGGCAAGGCAGGCAAAATATTCAAA GAGGAAAATCGGCTTGCTCAAGAAGGCAAAAGAGCTTTCCGTCCTGTGTGACGTTGATGTTGCAGTTG CTACGTTCTCTCCCACCGGGAAGCCAACCCTCTTTGTGGGCCGGAACAAGtaaacatatctattcctc catctttaattctcacttcatgaacatttttttctcctctatcttcaaatttagcttcaccgttccta cttccagatcccctacaataaggcataaaccgtatgtaccatcccgtcccttctcctatacagttacc gatcggaacaaaacattatacccttattttaccggatctccttattttactcgctttttaactcatca agatatggtttttgaaaaaatctatagtttttattgctctcttttatctgccaaaccatggatctgac tcttaattttgtttgtagcatgaatggtttctttggtatgtgtgatctgctagagccatccacctgaa cctttttatttacccttactcatcttaatggtgcacttaatggtcgattatttttaccttctttccct atcactgaattatgggaaaaattaaatacttaaaattcattcatatataaatacatatatataccttg aggggtagatactaagatccatacctttttggctttgtcgtactctttgtatacaggaaacctctttt aaaaagaaaattcaggcaactatccggagttgccatttccagaaagtgcttgattataatcagaattt aattttggttaattataaactacattaaaataaaaacttaactttttttcttgaggagatgcgttatg gcactaaaagtttcaggcatccggacaggataagaagggagttgagactgcatttgagtgattaatta ctggtttggtactgacaatttaaaggatattattggttgatacagaGAGCTAAGTACGATTATGGATA ACTTGTCATCCATCTCAGTGGAAGAAAGAGAGGAAAGgtatcagatgggtgtttttgtttttatatta tttttaaattttttttttttctcgtacccagttaattctctgattcctttcattttgttcaatgtttt caggagattgtacaccatgaaggtaagaattaagcttggaaaattttaccttcttgatttatttatta taatccgattaattaaacaattttttctttatctattgtgtaaaaaaaaataaaataaaaaaagttac taaagaaggtgcagccctcagacaaggaaccagagggtgattcagggagctggtcgattgaaaggtac ggttcccctcccaggaaatcctttttgaggctctgaaaactgtagTTCTGTGTTTCCTGTCTTGAACA AACATGGCGTAGGAACTGACGTCGTGTATTCTTTATTTCTGAATTCTGCTGATCGCTGCAGTGTGGAG GCTTACAGAgtacggttcacattgagatatcctgattttatttggtttgaatttcccactccattttt tattattttatttctgtagcattataacagtgtggtcatttccatagATGCAAATGGAGCGACTGCAA 109

GAGCTGAAAGAGAAACTCGATGAAAAGAGAAGAATACTGAGgtacctgaccatccccaggagtgtaga tccgttacaatttctcttttatggatacttttgacttgatttgattcattcctgtagAGACTGGAAGT ATCCTGATGATATTGATGACCTGGCAAAGATCAGATTAATGGAGGACCACCTACTTGGAACTCTTCAC AGGgttagaacaaaaaaggtgggtattctttataatccaactctcacaagtattaccatgatttcttc atatattggcaataatccaccagATATGGACTAAAATAACCATGGATTATCTTCAGATGGATCTGCTG GAGCAACAAAGGCTATATGAAGCTACTGAGgttggttttgattaaaactgaatcgctggtttgcatgg taagtgtacctgacaatgtaaggtttgaattgcgcagATGCTGCAGGAGTTGCAATATGTGGACCTTT CATTGCCAGGACCCTCCTATTCAATGCCTTGA

>L42c213g4731_AGL-62 ATGTCAGAAAAGAAGACAAGAGGAAAACAAAAGATTGACATTAAGGAGATTGAGGATGAAGAAAACAA GCTCATTACCTTCTCGAAACGTAGATCGGGGATCTACAAGAAGGCAAGCGAGATATGCACTCTTACTG GTAGTGAGGTAGCTTTTCTGGTGTTTTCACCTGCAGGTAAGCCATTTTCCTTTGCCACTTCATCTATT GAATATGTGGCCAGTTGCTTCCTTGGCCTGGAATTACCTCCACAGACCGTCGACAACACTTATTCCAT TGTCGAGGCTCATCGGCTGATGAGGATAAACAATCTCACCCAGCAACATAATGACCTACTCCATAAAG TAGAACTGACCGAGGAAACTACCAAGCGACTCGTGGAGAAGCTCAAAGGGAAAAACTACAGGGGATGG TGGGAAGCTAATACTAACGAGCTTAACACGCAGGAGTTGACTGAAATGGAGAATAGGTTCGAAAACCT ACAAGTAAACTTGAAAGCAGTTCTCCATCAGAAGAGAAATGCAGGATACTGTTCTTTTCCTGCTCCTC CGATTGATCCTAACAATGTGCTTACAGACCCATTTACCTACAATCCAGATGATCATCAGACGTCGATT CCTCATGGTCAACATTTCCGACATCCAGATCCCAAGGGAAAGAGGAAAGTCATTGAGTGA

>L42c213g4732_AGL-63 ATGTCAGAGAAGAAAACAAAGGGCAGGCAAAAGATTGACATGAAGGAAATTGAGGATGACGACAAAAA ATTGATTACCTTCTCAAAACGTAGATCCGGGATCTATAAAAAAGCGAGTGAATTGAACACTTTCACAG GGGCTGATGTAGCTTTTGTGGTGTTTTCACCCGGAAGAAAGCTTTTTCTTTTGCCACATCCTCCGTCG ATTCTGTGGCAAACCGCTTCCTAGGTCGAGAACCAGCACGGGTCATTCACAATGCTCATCCTATTGTC GAGGCATATCGACAAATGAGGGTCGTCAATGACCTCAACATGAAACACAATGAACTGCTCCGTAAATC GGAGGTAGAGATGGACAAGACCGACGTGCTCAAAGAAAAGCTAAAAGGTAAAAGCTACAAGGGTTGGT GGGAAGCTAATACCATCGAGCTTAACAAGCAGGAACTAATGGAGATGGAGAAGAGATTTAAAAAACTA AATGTGAACCTAAATATAATCCTGGAAAACATTCTCCGTCAAAAGAAGAATGGAGAGAGCAGTTCATT TCCAGCCCCACCGATTGATCCCGACAATATGCCATGGATCCGTTTACTTCCACCCCAGATGACCAGAT CAATCCCCCGACACTTTCTCCCAGAGATCCCAAGGGAAAGAGGAAAGTCATGGAATGA

>L42c213g4733_AGL-29 ATGGGCCGGCGGAAGATAGAGATCAAGATGGTCAAAGATAGCAACTCAAGGCAAGTAACTTTCTCGAA GCGTCGAGCAGGATTATTCAAGAAAGCCTACGAGCTCGCTACTCTCTGCGGAGCACAAGTCGTCACAG TCGTTTTCTCGCCAGGAGGTAAGCCCTTTTCCTTCGGCAACCCTGATGTTGAATCTGTCACGAGGAAG TTTCTAAATCAGGAAGATAAACCAAAGCTTGTCACTAGACGCCACGGCCATGTTGATTCAAAACAAGA AGCAAAACGGCAGAAGCTGAACAACGAGCTGAATGACCTGTTTAAGCAGCTCCAGGCGGAAAAAAGGA AAGGGGAAACGCTGGATCACATGCACAATGTGAGTGGATTGAAACCCATATCCCTAGATGAGCTTCTG AAGACAAAGAAGGCATTGGAGGGCCTCCAAGACAAATTGATAAGGCATCTGACCGAAGTGGAGGCATC CTCTTCGCTGCTGCTGCTGTCGAAGACACCTGTTAATGATGAGGAAAGgtaggctataaagaaattgt aatagcaccatttctgagctaatcaatccacagtaaaatgattcgaacagatagcttggatgagacac agtgattgagaaactattacatgtgcggattggctgtggctttgtgtgatccatccgtactagcgcag gggaatttgccgccttcgtttgaccgcaaaatggaggccttttcatctttgtcagaagagagcccaaa taagcccatctttgcaaaaatatatggaccaagcccaaggtagctcactacatgggctacaatgtagc cctaaaagaagattctcaaagataattttatttttgcaggattaatctgtttataatctattaaaata aatattctaataatataataaattctatttatactattttaacatgaataataaaaaatatttatatt tccaatattagaaccctttacaaatttaagaaaccatagaccttcttaaaatcaatccttatcggtta aaatttaatttaatttatactttatatattaatagaaacaattcgtagcacatctcttctccctatga aaatgcgcaacagaagaagatgacatgaagaatatatatatacggtggtcctagtattgacatgataa catcatgaggctttagggtgacaaatgaaaaggaaagcagaaagtaatgtctatgactattcaaatag agcatacctactcaaagttgtcataaaatcggtaactccacatattatgggaagtgaaatgttagaat ataaacagTTTTCGCATTGCGGGCACGGGCTGGCATGGCAAGATGGAGCTATTTCTTGGAGCAGCAAG CAAAAGGTATGACAAAGGCAAAGACATGAACAAAATTGTCTCCTTCGCGTTTCTCTAG

110

>L42c213-g4745_AGL-61 ATGTCAGAGAAAAAAACAAAGGGTAAGCAAAAGATTGATATGAGGGAAATCGAGGATGAAGACAAAAA ATCGATTACCTTTTCAAAACGTAGATCTGGGATCTACAAGAAAGCTAGTGAACTGAACACGTTCACTT GCGCTGAGGTAGCTTTTGTGGTGTTTTCACCAGCAGGTAAGCCTTTTTCTTTCGCTACTTCTTCTGTG GAATCTGTGGCTAACAGGTTCCTGTGCCGAGAGACACCTCAGGGCGCTGACAGTGCTACCGCTGTTGT CGAGGCATATCGGCAAATGAGGGTCAATGACGTGACCATGCAACACAACGAAGTCCTCCACAGGTTGG AGGGTGAGACGGACAAGTCCAAGGTGTTAAAAGAAAAGCTCAAAGATAAACACTACAAGGGCTGGTGG GAAGCTGACATTTATGAGCTCAACACCCAGCAGCTACGGGAAATGGAGAGTAGGCTTATAAGCCTAAA CGTAAACCTGCAAACCATTCTCCGTCAAAAGAAGGATGGAGAGAACACCTCTTTTCCAGCTCCTCCGA TTGATCCCACCAACATGATCACGGATCCGCTTACTTCGAATCCAGCTCAACAGAATAACCCACCGGCT GTTCATCCAGAAGATCCCAAGGGAAAGAGAAAAGTAATGGAATGA

>L42c239g5131_AGL6 ou AP1 family ATGGGGAGAGGAAAAGTTGTGTTGGAGAGGATAGAAAACAAGATCAGTCGCCAAGTAACCTTCTCCAA AAGAAGAAACGGTTTGATGAAAAAGGCTTACGAACTCTCTGTGCTCTGTGATGCTGAGGTTGGTCTCA TCATTTTCTCTAGCCGTGGCAAGCTCTTCGAATTTGGAAGCGCAGAgtaagtctctctccatcttacg ctccctctttatcggcgagttcgtgtcattctgtgtgtttgcttccgtcgttaatttctagctttctg agtttgtgggtcaatcgatacaattatatatgatgaaagtgcattagctcgctggaggatgaacatgt gtattatatccgcgtgttccatcaatcttcctaacaaaacatacatttctttactctgtgagatgtaa gctaactcataggattaagatccagaccttagtcaaagccttgaaggaaaccggagaggtacaattgt gtatgtagccgctgagtaatttctggaatggaaaggagccggagttgtggttattaggtatgtagggg gtgtctgtttcagttgatatcgaccaattgctgcacgacacgttttacttccttttatctttgatcgt ttcttgtcgtttcataatgacagacacaccttcctttttttctttttttttcttttttaaagaaagat agaaatattgcgaactgatggtattctagggtttttctctctctactgcatgtccctaaagcacaaaa ataagcagaaaaattataaaaaagaggcactctttttttttcattaattcggatccaaagcacccaac gttcttgctcattcctttctgtcagatgtggtgtaccaaaccctactaaaccagaaagtaaactagta gttaattaaggcaaaatcacggctagattatccttaagttgttaattaaggtggggttttatttgtac tcttaaggctcctacttaatatcaaataaaaacgctatatgcttgttccattccctagagcaagtcac agagagtcaactagaggcagaacactcacaagcatatgaataaaatgctggtcagctccttcctttct tcctttctttgctttatataacttaatactggtttatatttacttaattgatacaagcaacatgagtc tttcctgtagcgtattgctccgtatttttacattatatttgtcaatttcttttttttaggtaacttcc atttaatctgttctgctgatttcttcttttttaatcagCATGAGCAAAATTCTCCAGCGGTATCGGGA GTGTTACTATGGCTCGCAAGGGAATAATATTGACAAAAATGGATCACAGgttggtttttcagatatct tactgaaaatttgagttctgttttattacatcagttaatttataaataaagattgcaccattatattc cgtaaagattaatcacaggcgaccaacagggcaatctgtagcagtatggtctttgtgtgttaaggaag ggattaccaggaaaccaatatataacaagatggagcaaaaatacctttatcacctatttatatatata aaaaagcctttgtcacctgcaacaaaaacctgcgatccgcaccccagcagctctttctgcagaacggc agtttggcaggtttggtcgttcttattagcttttgacatatgcagcaggatatatttaaaataatttg agcaaaagaaatgaacataaacttttataattccccttgttttcggcgtgtgcagttgaatagattaa aaccaatattgataaaaaaaatgcgggtacaatcgaatcatacctttcaatattttggaagcaaaaat attatgtattagaaccatttctgtatcttaaacccctccaaaatatgtacaaaatcaagctgtcaagt ttagatgaaggtttctggagtgctattaagacctaccattgaaaattttctgagtctttaagtatttc tttgaatcttttagatgcaataaataatcaatgagagtcaacacttgtataagaaatgcttctaagat atctacacgaccaagcttataacttctattcattacctaactgacaaattgagaatttttgtatgtaa taaacattcctcttttttgtgagtgataatataaataataaaaactatataaattatcaataataaaa gataaataagttttggagtactcacttttattaatagtttaccgtaactctatgtagaaagagaatgg agagtagagatagatacacttctaaagtgagttacctcttagaagtttttgatgataacaactctaga tgggtgataaattggaaaactttgatagaaagacaccatctaaggaattcaggatctcctagcctgaa aggtttaaagataaaagaggagatgacgtttgaaccacctactattggctagttagagattatgttta aacaaaaaagtcgaattgtttatcccaatatatgttaatgatgtttatgttagctaaacaagttcaaa tatctttctggactaaccaaagataattttgaaattagctataaaacatatttaaatttgaagtgcaa aagctttcgtttgaaagatatgttagaatagaaaccattcttattatatgacctaacatttaaaaatt tcaggtgttaacagttctttgatattaattggtggcatttgataggtggctaaaaatataaaactatg taaagttattaaacttgtagcagatggctttcttcttttaacatgttttttttctgaaaaatttcttt ttttaacaagtcattgaagtttctaagttcagcagttggcgttttctcttttcttccaatatcaatgc tatgttttcttaatatcttttctcaatagagtttactacgtttttctcgaccattgtagACCTTGTAC 111

GAGGAGGTATCTAGATTGAGGACAAGATACGAATCACTTCAGCGTTGTCAGAGgtcatgtgatatctc attaagcttacttaatcagaaagaatgatcataaagacaagtttgtgcatgcaataatgattcgataa ttgtgttttcttagGCATCTTCTGGGAGAGGATCTGGGACCACTTACCGTGAAAGAGTTGCAAAAGAT CGAGAGACAAGCTGACAAGACTCTCTCACAAGTTCGGCAAAGGAAGgtaaatagatatctcttgtgga ttatttacagattttatttctccacccagattgttgtataagtatgaatagagagacagaacaaggct gagatgatttactttttatgttttagttgccactcctgtctacaaggattgaattgtgagaaaagtat aattgcaaaaattatagtaattgctctaggactactaatgtcgatatcacagatgttcctaacttaac actcttttcatattaacgtttttaatatcattaacgagatcctgatgattacagctatagttttagag agtatatcagcacctaattttctctttgtcattgcagACGCAGCTGATGTACCAAAAACTAGAAGAAC TACGAAAAATGgtactgttgtattttttttttctattttttataagcctgtacgtactagtaagtctc acatgggatgatgggattttttaattttacaatcactaggttgatgagttattttttaatgttacaat caacctcgatgatcatgggatcgattgttcgaactgacatttccttaataattgattttagTACAAGG CTGTGGCGCTTTGCCTTTACAAGGTGATTACCGTGCACATGTTTGAAACTGAAGGACTAAGCAAGCAA GTAAAATGGAAAAATCATAAAATTGTTCTTGATTCCTACAAGTTCTTCAATGATATTCAGTACCACAA GCTCATTGGTTTTACTTCGGACATGAACAAAATATGGgttagcaatccttggccagttttaagttgcc cgatgatacgatagtaactagtaacccatgccctaagtttgactacaattgagtttagtacttggaat actatcatttggagatcatatatacaagcaaacaatgttattctccaatgcttttatggcttttcttg acgctgacagGAGAGTGATCTTGGAGAAGAAAACAAACAGCTCAGGCTTAAGgtttttccttgaattc ctatttttataatttatccatatatagttgacaatttcatggctaactagtgcttttcaagtctgcta atggtttgatattccagCTGGAGGGTGGTCAATGTCTTCAAGCAACTAAAGGTGCACGACACCCTGGC AATTCAGCTGGAGGATGCATTCTGCCTAATCCAATCAATTTCTGA

>L42c0g45+46_JOINTLESS ou SVP-like ATGGCTAGAGAGAAGATAAAGATCAAGAAGATCGACAATTTGACTGCAAGACAAGTGACTTTCTCAAA GAGGAGACGAGGGCTTTTCAAGAAAGCCCAAGAGCTTTCTGTTCTTTGCGATGCCGAGGTTGCTGTCA TCGTTTTCTCTGCCACTGGAAAGCTCTTTGAGTATTCCAGCTCCAGgtacagctttcttctactcata atatatgagatcctcctctatgagcactgtatggcttcttgtgtgctctagctagctagctcctctct attgtctcctctctattgtctcctctcgattgtctcctctctaaagtgccatttcacctacttctcaa atcactggaaaaagaaaggtaaagcaagagaaaacagaagcaacaggagcctgatatcaaattccaca gtttcctttcaacagataaaccatttacctcagacttaaaggttttcatgcgtataattagttttatg gggtcttcttaaaccttttgaggaagcaatctattcctcttgatataattttctgtttcctatgtgca cttaaaatgaggtacttcgtcacatcagttcgtacggaattaggaagatataagcttatttagaaatc acaaagaagataattcgatgctcattggttctgaaaggtatggtaagctgtgcctgtgcctgtgaccc atgaccatcattacagcttacaagattcccaagagtaattagctgctcgacctaaagactggactaga ctgctagagcgtactaactattcttactgaaagcatctcatcaactttcttccttaattactgtgtgt cttagctagtaattactgatttcacagtgcaagttttagaacacgaatcactataaagtaaattaaac actgaaccattcagaaaactacacgtgaaaataaaacgcatctgtggtcaaatgaaataatagatgtt aagtcttcggttgtctcatgaaaataatagatgttaagtctttggttgtcactttcttcctttatcaa acagagagtttccagtttcgttttcacatgaaataataaaatgttaagtctttggtggtcgcagtaaa ggtctatatttcgagaaacaataggatttccaagaattgttttgatatggagttttgctttgttttgc tcagattaagatttttttgctggtttttatattatatggtgttaagatcatatgattgctgataatta aagattaaatatatagtaaaagcataattaattaaagtggttttactatctgcaattatatttttgtg tttcaaattattataggttgcgaggtggcttaagtaacttgttttcttttttacattgtcaaattcaa gctttattcccttgaatgctaattggtggagtttccgactgatgggtaggttgtggaaattacaaggg tatcttttaactcagtgttcaaacaggaacgtcggatggacagtaatgtacatctaatattggatttg tttctgtaggtgaggatttcctccagacatgatttgtaggtgttggaaactttgtgcgggagagtgat tggttttagttgttccaaaaaaccaagtaaaaggaaagataatattctatcagtttgaagataggtga ttgtgttaaggtgatagcatttattgcaacctaggaaagattaaaaaaaggacaaaatcctctgttat gctttacatatgtgtgcattgcagcatgactattgtcttaatatatgttagctaaataatggatttaa attgcatcatttttggatctaatttctataagatggcaggttgaatccaattccttggagacttacct taatcctaattaagccactaaaacttaccattcgattcgattcacacatgtaaatgtgtatcttttgt acccaccagttcaaatttgcagtggcaccttttaggttatagattcaacatttgtggtgttggaaaga tttggggtattgataggaatgtgccctcttgtatcctgaattgaatggtctttttgtgcaaaagtgtg ttcatttatattgggttacaacttgttgagttatgaaaaatagagagacagctcaattttaggagcat aagtaatgttgttgagtgttgattgtcctgattgttagaatatgtcgtatttgattatgtggttaaaa atttgaataaattatattagtatcttttattaggaaagattttattatattatttggttaatagatat 112

ttatgttttttttttaaataccaggaataagatggacaataggtttcaaagtataatatcttcttttt ccaattcacacgcttttacacaacacatatcctccttataaaaccaaaaaattgtaaaatcaacaata caaattgttaaatcaacactgattatgatcaataattaggtgacatagatgatgggttgtatactatt tgtctatgatattttcaaataaacaaaattctagggtacaaaattcagtctccctacctgtatgctat ttgaataataagctgcctcctgcaattagtatatacaccttcatagttattgatcgaaatccctaaag aaatcgtaatcaattaaatagaaatattccaaattcaaattattggtaaggacaaccaaaatttccat acaaaagacaccaacttcatcttttggaatcaaccttaggcgtggaatagatgagttgatttgatttg cttaaagtcttatacataaggaatatgttcaatgaatcagtcacttcaggccccactctagtaaaaaa atcaagagaattaatgctaatcttatggatggtgacgaaatttggtgtgcagtaaaaaatatagaatg gtaagtttaataatagataataataaatagagctttagtaataggataatacagatagtgttcttgta tagttatcaagcatttaccttttagtgcttaatactaaaagcatttaccttttggtgcttagtactaa aagcattaaccttttggtgcttagtactaagcaaaatctcctgaagactttctgttttgaagttagta aaggacaatatgaagtaattactgtgctaacactttattgatgcaataaaatttatttgtttttaacc aaatatattgattattgattttgaatataaaatactttatttatttaatatctaacttttaacatata atttcataaaaattaagaattaaaattatttagtctaattgtttttgaaaaagttatttcgtctatta accaaataactcaaatctatataattcttaatttatgctccttattctatgatttatgatgcatatcc tcaatactaaggatctttgtggcaaatggatgtgatttatctatataaatgtctagttttagatttga cttggtacactaacttaaccatatttgtgtattaagCATGAAGCATGTACTTGAAAGATATAGTCTGC ACTGCGATAACATTGGCAAGCAGAGCCATCCATCTCTTGAGTTGCAGgtaatggtatttctgctaggg cttgcatcatttgtttgttttcttcatcttactactgaagaagatgagggtttgctttttccatcagt tgttacacgtttctgattgcaaatcagtcacctatctgctgtgtgtatagCTAGAAAACAACAATTTC CTAACCCTGAGCAAGGAAGTCGCTGAGAAGAACCGTGAACTCAGgtacgtattgcacttctgttggat ggactttgcttctctttttcctttcaaaatattcgagccattgaccgtatatcatgactgtataattg atggttttcccgttttatgcaataggcggatGAGGGGAGAGGATATTCAAGGGTTGAACCTTGAGGAA CTGCGGAAACTGGAGAAAATGCTCGAAGTGGGTCTTGGCCGAGTGCATGAAACCAAGgtttgtgtctg tacgtagctcttgtaagagaggcaaggcgaaatatatacttggattctatatgtgttgtaacttgcat tcttttcagGATCAAAGGATTATAAACGAGATCCGTGCACTCGAAAGAAAGgttagtcacttgcgaaa actggctataccttcgttagggttcttcttattattgagttccatctagtcttgtatatatatagatc ccttgtatgttaaagagttacatgggaagaatctgctgtcgttcataccatttagaacacatcagtaa tagctttatgagtattctggatcatataaaatgagctggaatgatctaactgatggttttggctttgc cttctggatcacacaagtctaagagttcattgttttagacacacttgataattcttaccgaatctata aaatagattaatttgaggatattttaaagaatttattgtttttctttgtatatacagGGAGAACAACT TGCAGAAGAGAACCAGCTACTCCAGCAGAAGgtaatagtttctggatcactgctaattcctatgggat tcataatcagcggatcatgggtaaaagcaaggtaaatttctgcagATGGTGACCATCTTTAAAGGGAA AACGCATGTCCTTCAAGAGTCTCAAGTAGTTCAAGAAGAAGGAGTGTCATCGGAGTCCGCCACGACGA CCAACGTCTGCAGCTGCAGCAGTGGCCCTTCTCTTGAGGATGATAGCTCCGATACCTCTCTCAAATTA GGGTAA

>L42c303-g6059 ATGACAAGAAGGAAAATTCAGATCAAGAAGATTGACAACACAAGCGCTCGGCAAGTGACTTTCTCTCG GAGAAGAAGAGGGCTCTTCAAGAAAGCTTATGAGCTCTCAACTCTGTGCGATGCTCAGATTGGTCTGA TGGTTTTTTCTACAACTGGGAAGCTGTTCGAGTACTCTACCACAAGgttcatctctcttctctttcac tccttgatttttcccataattctattcgtaaaacctaggtcatttatatattaattatataaaaatat taattatgacatcccatgcgcgagttagttcctttactcatcctccagtcttaattaatcttgatatt gtcaagtacaatttatgttaagtagttaacccactctttaaacagcaattaccaaactagtcacattc aattcaattcaattcaatcttggttaaccaagcataaaataaagatagagtattagtttattaattat gcatatatatctcaaatgtatttacttaaatctcaaatagggtttcacataccatgattctgttcttc gtatagatattgtgataaaatgatatattaggaaactaaatatatttgtttacattagatatagttta aatgcactatgataacatcatataggtcgtcatttaattagtttaattgaatggattaggtctattta tgaaaatatatatatgcggataatgtcgggatctaatctatacagttttgtactcagttgtaataaaa gatttgactttgtcataaaaaaaacataaggatgacataatatgaaattatttggtccaaacccaaat tcccttttaacgaaacttgatgtgatatatactgttcttcccttcaattattgccagatgctattgtt ctcagttagtttctcttgctttaaactgatatctatcaatatatgcggtcgcgttttcttccaaaaaa aacgtaaatgactttgcgtgtatcataagagaaagaaaatgactttcctatcttctgttgctgaagTA TGAAGCAGGTGCTACAGCAACATAATTATCTTCGTTTGATGAACCTTAACAAGTTGGAAAATACAGCA CTTGAACCGCAGgtacgcaagacttactatgttacttaaggaaccttctgttgttaccattttctttt 113

atgtataggctattgttgccatttttgctgttggcctttgagttaagtcaaagactttagaatcttgg ttgtagatggcagattgataagtctatagctgtagtttctttttttttttcttaaagagaagtttaat tggatcgtaaactgaatcaggaaaggatcctgatacaaaattgcagaaaacctggaaaatcccttgta tgccagaaaaataaactaaaggatattatgactaacatgcactgtgaaagccagacaaacatttaatt ggaaccctagaattgggatcttcatccgcaacaatgcttcatattgtcagcattaattgttctgatgt aattgtatggaaaataagtctcagcttaaccttgctaattaatagacaaatagcccgcctcaaaaaac caacctgaaattcttgattcagctatcagattatccagtatatacatatatatagtatagtacttgat cacacagtgaatctattctctgatttttttttgtatattagcttttgctcgaacttattcatgactag ggtgaaaactgttgctagcctaatacccgatgcaagccaaaatagtgatgatactgcgatttttaaag gaaattttaaccttttgccttcttttttagCTTGATGGCAGGTTAAGCGCTGTGTTGAGCGAACAACT AGCAGAGACGACCCGTGAATTGAGgtacatgaaactgcagtgctataacctgcacctgccactgggtc ataaccttaatcgtacataggcttttatgacagGTTGATGACGGGAGAAGACATTCAAGAGTTGACGA TGGAAGAATTAGAAAAGTTGGAAAATTCAATTGAAGGGAGCTTGAGGCGTGTTACAGAAACGAAGgtt tgtacatgttgtttagttctcaaacttcatctatatatggtcttactatatgattcttgatcataact ttgtaacacctttcctattactaccggtttcagGGAAACATACTTGATAATATCACTAGTGCACTAAA GAGAAAGgtcagaatcaatcctggctttgaacccccatttttacgcaatgtacagttagagccctatt ggtataatcaaatgtttgttcttatctttcttgctggctttcagcagGAATCTCAATTAGTGGAAGAG CACCAGCGACTGAGAGAGCAAgtaggattgattatttgttttctcctatacctctttctcattgtcta ctcactcgatctcctttttctgtatgtatttcatttgacagATAATGAACTTGACTGTAACCCCTCCT TTACTTGAACGAG

>L42c507g8630_AGL80 ATGACCAGAAAGAAGGTCAAGCTTGCCTTCATCGCTAACGATTCTGCAAGGAAAGCAACCTTCAAGAA AAGGAAGGTGGGGCTGATGAAGAAGGTGAGCGAGCTGAGTACCCTTTGCGGGGTTGATGCTTGCGCCA TCGTCTACAGCCCTTTTGATAACCGCCCTGAGGTGTGGCCCTCCCCTTCGGGCATCCACCGAGTACTC TCTAAGTTCAAGCAGATGCCTGAAATGGAGAAGTGCAAGAAGATGGTGAACCAGGAGAGCTTTCTGCG CCAACGGATCAACAAGGGCGCCGAGCAACTCAAAAGGCTGCGCAAGGATAACCGGGAGAAGGAGGTCA CTCAGGCCATGTATCAATGTCTTATGGGTCAGAGCCTGCTTCATTTAACCATGATGGACTTGACTGAT CTTGGATGGTTGATTGACCAGAACGTAATGGAGATCAACAAAAGGTCTGAGATGTTGAAGAATGGTGG GGTTCCTCCCCCTCCTCAGCAACCCCTCCTCATTCATCCTGCACCGCCTTCGCTTGCACAAGAAGCTG GCCCTTCTGGAGTGCAGCATGAACCCCAATTGCCGCAGCCGATGCAGGAGAACGCCAATCAGAGGTCT CCTTTTGTGGATAACATCCAGAATCAGCAATGGTTCATGGACTTCACCAGCCCTACACCTCTTCCTCC TCAGGAGTCTCAGGAGCCCGTGGCGTTTGGCAGAAATGAATTGGTGATGCCATCTGGAGACTGTAATA GCCTCCATTCCCCATGGTCAGGTGGCTTTTATCCATGA

>L42c405g7419_AGL65 ATGGGAAGGGTGAAGCTAAAGATAAAGCGGTTGGAGAGCTCTAGCAATCGACAGGTGACCTATTCGAA ACGGAGGAGTGGGATCTTAAAGAAAGCCAAAGAATTGTCCATATTATGCGACATAGATATTGCCCTCC TCATGTTTTCACCAACCGGAAAGCCTACGTTATTCCATGGAGAGCGAAGgtaatttggccgaaacaaa tgcatcaattggtgtttgaagaaattcatcgtttgtgatttgatcatatacccgtgtttggtcatcgt ttcacccaacttgaaattctatctgagacttgtatcttcgcagggttgagactttaacacaggcttgc tgcattgttctgtgaattaaaatccagaaagcctttcttccaggataatttaagaaccagtgacttga tagcatttgtctcgtcaagtatacattctagttccatgttttggctgtctaacagagaccaaccggat gttggggtggttttacatggcctccatatctttcttgatttcatcctctctataataggatttgtagt tagaaggcgactatggttttcaggcaacttaagacgaaacttcaatatatctctgtgggcttcttact tcggaagctgattcctcgaatatccaaacatcaagaggatgtgctaatttttgttgctttactgttgc agCAGTATAGAAGAAGTTATTGCAAAATTTGCTCAGCTAACTCCACAGGAGAGGGCAAAAAGgtataa aagcttaccttaggttacttaatatttgaattttgtggtatgctactgagcaaacttctgtgtactgg aacagGAAGCTGGAGAGCCTTGAAgtaagggtgatttctttgttatatcttttgttctgctagtttct gtggatagttagtgcaatgcaatcaatgcgttattcttcttgataatatagGCATTGAAAAAAACTTT TAAGAAGCTGGATCATGATGTGAATGTGCAAGACTTTTTGGGTGCAAAgtaagttttcttttttcctt atcctaagaaaaggttaattgccctttgtcggttttagcttaccgatgatctgaattcccttcttggt ttctgcctgcagCTCTCAAAATTTTGAGgtatgaaatttcaccattaatttgatcactaattaaccag tttcaacattttcttatcatcattagtgtcaagaaaatgctttctggctaatttctcttgcgcagGAG CTGACAGATAGGATTGGACTCATGCAAGTGAAATTTACAGAAATATGCAAGAGATTGAGgtacgtttt 114

tggagctattgatcgttaagaagttgttttcttttctgcacctcactgtggagatcttttggtgtata tatgcgttcttcattctttattttcatcctcagTTACTGGAGTAACCCAGATAAGATCAACAGCTTAG AACAACTAAGGCAGATGGAAGAGTCACTCAAGAACTCAATTAATCTAATCCGCCAGCATAAGgtataa ctgagactgacggaaagatttattgttaatcccggcttaacagatcccgactagaaagttctatcgta ttaaagcattggctatttctcttggcagGAACATATTGGAAAGCACCAACTTTTTCCAGTAGAATATA CCGGCCAGgtaatgccccagccaagttgtaaaaccttcaatcatttgcagaaaaccatgtttggactc atgttgtttcacagTGTCAGAATGGAATGGCTTTGCCTATGATGTTGAGCGGCGAGCAAGAAGCCCAG CCCCTATCATGGCTTTTGAGTGATGACAATCAACATCAGATGTTGTCCAATGATCCAAATTTTTTACC CCATAGgtaacgagcccttctgttccattttgtcggtccaaaacttgagggaagacgcatgattctgc tgtgaaattagtggcaagctcaattacacggatcatgtctctcggcaattgatgtgtctattttcttt tctacagAGAAACAGAGTTTTCAACAGATGCCTCGTTTCCAGGCTATTCTAGTTACTTTGGTTCTGGA AAACAAGACGTTGGAAGTTCGATGTCAGTTGATAATGCAGGACATGAAGGTGGCGGATTAAGCGAGTT AAATACCAGTGGGTGCTTCAATTTAGAAACTGCTGACCAGTTGTCCTACCCTTCTTATAGCGGTCTGA ACTTTCCCCATAGTAAGACAACGAAACCTGAGAGAGATATGAACCTTCAAGGACCTCATGCCTTGCAC CAAGTTAATAACAATATTGAAACGTCTACACCTTTATATGACAACGAACCTCGCACTTGGGTTTCTGT ACCTGGACCTTGCAGTGTTGCTATGTTGCAGGAGAACTCTTATCACCAGgtaacgatcctgcaccgtt tttcttgcctctgcaggtggcatgtatcagagcatcggatgtttttggattgttaattaacatgctac tacttcagGTTAAACCTTTTCTCTTCAATTCTTGCAGCAGTAGAATTGATTTCAATGCGTCAGACTTT ATTATTGTTGGTGATGAGTTAGTGATTTGGTGGAGGTATAATGGGTGCTGTTCAACATCTTCATGA

>L42c555F-g9164_SOC1 ATGGTGAGAGGAAAGACTCAAATGAGGCGCATAGAGAACGCCACTAGCAGGCAAGTCACTTTCTCCAA AAGGAGGAACGGGCTGCTGAAGAAGGCCTTTGAGCTATCAGTTCTTTGTGATGCTGAGGTTGCCCTTA TCATCTTCTCTCCCAGAGGAAAGCTCTGTGAATTTGCAAGCTCTAGgtatggttggttttgccacgct cgtcttgtggacttgcaccctcctagctctattttgaggaagattcggattccggcatcattctacat ttcataacattttccggataacaaatgacatttatgttgttaggattaatttcatctcattgatctct ccttagggttgtttgcatgatcgctgtctcccctcaaacctgacaaatgctctaaattaaagcatgag cttctcggacatttaaattacagaaacatagaagcacgcttttctcttcgacctcttttttataatct tgataaaaacgagcgttttgtgtaaaatctattacatccaatgacagcccagaaaatattttactgtc aaatccttattgggacaaacttttcgctgaggattggcgtttttcaatgagcttcaatgaaatttctt agtgtaatacattttgaatcctgaaacacataaaaaattcccttatacactaccctccaaaagtgtat atatgtatctcttcctttggttaccaaggtcaaagatgaagcataaaacgagctgcaaggtgaaaaga gactagctgtattttgtgtttttgtccttgattggaaatttgagattactagttgagagtaattaatt aagattgacattagtgaccctactaacataggttctattcctagtgtattgaagtgagatacagagag atgaaggggctgagaggcagtgatggatgcttattcatgctatttgctgttcgtagtacaaatgtcta taaaaaatgaggattactctgctagaaatgcttttattgccctctaaaacttagatactgaaaggttt aagccttaaagttagtaacctgttaacaaaccataaccatggagaaggaaggaagaaggttatgatat gctgttgatatatcctctccattcttcccaattccagtgacctttatccaagtggaacaacatgaaat gagcctagtctctttccttatactgtccatcttgaattatttgtcatgtaatagtcgataaggtgcat gctaatcttaatcaggtgttaatcatagttagaaagagattaattatacaatctacgagaataatctt tattataaaaaataatcaggtgtcatattatttgttatttttggtgctggttttgaaaattagagtct tttacataaaaggaaaataactcacactgcttctggaacattttttttctctctctatcctctaaaga ggaatgttactatttggcttttcttagggtttcgtttttcttagttgagggctaaagattttaaggtc ttagagttctgtacttaaaactaaagatagttaaaaagatgacatgtgtacggcaacatgagatcaag tgaattaagttcttcgagattttagcgatgaaggcagaacctatcaaatgttacttagttttgtttta tttgataaaaagataatgtgaaatttaaataactcgctgagatgaacattttatatgtaatttttttt ataaaaaaattattttgtaaacaatgataatttctaatttcatataagtagaattaaaaacttgtcat taagttcaataataaatatttaaataatttattgtgttttaaatttaattgccataatatcacgaagt ttgtaaaactattatttagttattattaatcaaatgggtatgtctcattctccaaattatccataata tcaacacttttaccaagtctctgatttactgcttcggtgcttgctttcttgtttcagtagaggcaatc ttttatcttcctcacagtaacactttctctatcttccttttttttttttttcacagtaacgctttgag agtacttgcttcaagtttgatgagtatggaatatatgcttatttgattatgttgtgttccagCATGCA GGCGACAATTGAACGTTACCATAGACATATAAAGGAGAATCAAGCCAATATCAAACCAGTCGAACAAA ACATGCAGgttgcttctcacatctatactattctgttattcaggaggcttctttccctgtactttgat gtgtgaaggaaatttaaaccctacgtgagctttgcaatccagaaactttattccttttgcttacccag tagccttcatagtttagcaccgattggagtcataaagcctcccaaccagcgctgcacggggtgtcgat 115

atgtgctgtgtgtttatatatatatacacacacacacgtaggtttatactacctgctagtattgaaag taactgctagtttatttcgtttctcctgaacacttgctgttggccaaataacttctacttcaaattct aacccactgtaaattttatttggcagCAACTGAAGAGTGAAACGGCGGACATGATGAAGAAGATCGAG GTTCTTGAAGTTACAAAACGgtgaagtggcttagacttaacctttctatgaattcattaatttcctca cgaatgttggatagattgtgactttgaagcccaatattcaaagcaaaagctgaagggaatgactcaaa atgtcacagGAAACTGCTGGGAGAGAATTTGGGAGCGTGCACCTTTGAAGAGCTACAGCAGTTAGAAC GTCAGTTAGAGAAAAGCGTTAACATTATCAGAGCCAGAAAGgttcatagcaaatactattgtcatatt ttttccttagccacatattttatacatgcttatgtttcggttgatgttcagAATCAGGTTTTCAAGGA ACAAATTGATCAGCTGAAGGAAAAGgtaataacagctgcaagatgcatttttatgtaggcctccactg tgggcaggcatcttaatgaagtaaaatgatcaggtgctcttcatttttcacctcgaacttgtaaagaa gacataaaatgagaatgtcggcattcattataaatattatcttctcaagaatagaagggtgaagtgca gcataagatcggtagggtttgcaaaagcaaataatccttacagaaccaaaattaagaaactcatattg tgtccagtaggatccaaatgcaagcagattaacagctttgcagtagttttcagtttccttaagttcca cagtatccgacgatttgtatgttctctgcatgcttctcagGAGAGAGTGTTGCTGGTAGAAAACGCAA GGCTATCTATACAGgtgaaagcattctctttgtcaatatatttatgatttctattcaattcgatgaca ggatcagtatacagtaattaagccataaacgaagcgatggtttctaatgattcgttctattaattcaa agacccgtattttttaactccctctacagCTCGGCACAGATTTGTTGTCAGGCTCAACTGAGCAGACA AAACACACACCCGAAGAAGAAAGCAGCCTGGTTTCAGACGTGGAAACCGAATTATTCATTGGACTGCC AGAGACAAGAACAAAACGTTTTCCTCCAGGAAATTGA

>L42c577F-g9374_AGL30 ATGGGTCGGGTGAAGCTAAAGATCAAGAAATTAGAGAACACAAATGGCCGCCAAGCGACCTACGCCAA GAGAAAACATGGGATCATGAAGAAAGCGAACGAGTTATCTATACTATGCGACATTGATATTATCCTTC TTATGTTTTCACCAACCGGAAAGCCTTCGATATGCAAAGGAAGCCGCAGgtactttttactgattttt ttttttcagagatatgtcgattggggacatttcctcctaggagaatatcagcaccagcttcactggtc taggcttttatagttttattcctcattcaacctgcatttttagcaaaatataagaaaggttgcagctc cctgaatgatttccagtttccatcttattgctcattaccattgtcattaataccattctagttgtttt tgtagagattgctttcataatcttgaactaatcgatttcttttttgtttttgtgattggagcagCATT GAAGAAGTAATTTCAAAATTTGCACAATTAGCACCTCAAGAAAGGGCAAAAAGgtatgccggagctct ctctacttatcttatgctactcaactaagggactgaatggattttaattgcttcttgtttgattggaa cagGAAGTTAGAGAGCCTTGAAgtaagtccattgcaagctgtccatgattattgatagtaatcctttc ttcgtttcttttacgacctgttctaattgccacaagttatgttgaacctttatttttctgtttgcgga gtatagGCACTCAAGAAAACGTTTAAGAAGTTGGACCATGATGTTAATATACCAGAATTTCTGGGCAC AAGgtatggatttcttgacattcttcagtttttcattttactgaggacccctttcttaatgtgtaacc actgacatcttgaatttctgttctttatgtttcagTTCTCAAACAATAGTGgtatgggatcaatcagc ggattgaatgtgacctcttaaacattttgttttctattaacctgctgctctcatgtttacatatttga caattgcattgatcagGACCTGAGCAACCAAGCAAGACTATTGCAACACCAACTTTCTGAATCACATA AGAGACTGAGgtgagcacctgcttatttctcttagtggatttggatttctgatttttgatgcactgtt caatcattgttttggtttgtcattctctatactggtatgttattgactgttgagtttctgcagCTTTT GGACGAACATAGACAAGATCAACAGTGTAGAACACCTGCGACAGCTGGAAAATTCACTCAAGCAATCA CTTAATGGAATTCAAGCGCACAAGgtatcctttttaacagtcttattcctttggctgatgatttatga acaaattgtttgttctgctcttgatcctgttactgtaatatttcccgagtatacaagatcacagtgct ggaaaatgtcaatcttcgctcaagctcgatagaaatatggctctcttcattatctactcttgcaacca ctttctttccctaaccctgttagccctcatttgcagGAAAATATAGGAAAACAGCAGCTTATGTCATT GGAATGCAATAATCAGgtaaccgtcgccattaaaaccctccttggttttcctttctccatgggagttc tataaatttaccttgcttgcagTTCAATAATGGGATGCCTGTAGCCTTCAGAATGGGTGCTGAGCAGC AGCTCCCTCATATGTCATGGGTTTCCAATAATGACAATCAACAAATTGTGTTGCCGGAGGATTCAAAT CTACTTTCCCACCGgtgaggtgcttcttaaacaagcttttctggattctaatgcagaaaataagattt tagaaaaattttcatgacaagctgttatcaacttactgacattttctactttttgttagGGATGTTGA ATGCTCTGGAAGCTCTTCATTTGGAAGTTTTTCAGGTTACTTCGGCTTGGGAAAAACTTCAGAGCTAT CACATTCAGGTCAAGAAAGTAGTTTGAGCAGCTTGCTTAATGAGTTAAGTGGAGCTGCATCAATGAGG CAGCAATTGACAGGGAACTATGCATGTCTGCCATACAATATGAACATATTGAATGATGGGAAATTCCA ATCTGCAGCTGACCTGAGTTCACAAAAGAGCCCGGTGGATTTTCATGCCAATGGAAGCTTTGAAGCTC CCAAACTTGACTATGAATCTACCCCTGGCAGTTGGGCTTCTACTTCAGGAACATGTGCTATCTCCATG TTTGATGAGCACCTGTATTCTCAGgtaaatgatctcctgttgcaacaacatctcgatttatcaagtaa catcctcattctagtttcatacatctactatggtcatctatgaactgaaataaatctgatttatcaag 116

taacatcccccttctcgtttgcaccaaggataaccatttaccagcagtaaggtctgcatgcaaccttc tgttttcattttctatttgataggcatcccttttatgatattctttccataatagttatcatgccttc tgatgttagcatttcttgacagttgtcttttgcctcgcagcaacccaattgaggctcaggaattgctg tttggccactgacaaagttgctgcataacttggcctcactaacgcatatccacagATCGAAGCTGCTA ATTACTGGCATGGGTTTTTAGCCATTGGAATgtgagaagcaaccaatgaaaaatatgcacgtatggct ttgataacagcataggtgccctgacgttcattgacctgatagAAAGAACGGTGCTGACTCCACTCAGT GA

>L42c1633g17674_AGL19 ATGGGGAGAGGAAAGATTGTGATTCGAAAGATCGATAACGCTGCGAGCAGGCAGGTAACTTTCTCAAA ACGAAGAAAGGGACTGATTAAAAAGGCAAAAGAGCTGGCCATTCTTTGTGATGCAGATGTTGGACTTG TCATCTTCTCCAGCACAGGAAAACTCTATGAATATGCTAACACCAGgtatgatattatgcattctact ttcacaactactttctgcaagtttcctccttattgtcaatgtttcaactgtcttgtgtcatcaaaact ggttgagaatgactcatattcgaagctgtgcttttcatcattatttattcaaatcatatataggagtg gtctgatgtaggaatgatccagaaaatgctatgaccatgaaaaattagggaagaggaacaaggaccct ggctcttcttgtttttcatttggttgaaatatgcgtcttggccattgcatgaaataacctaatcagct caactagaactaattttatttactagatgaagtagtatatatagcgtagccaataaattatctgcttt tgctttatgatggatgcaaagagaacaaaggcatagaaaaggcttggataatagttgctcaaaatacg gagtgtggcattatatggtaattaattctctcactgagtaaaggtttgagtctagactctctctcttt tttttttaataattatcaatatcttcaaatatttttagaaaaagagtatggactgttatgggaaactg atattaatttgactgtcactggtgctctcagtagctatggttaaggtaaagacctagttataatggaa atccctatattctccatgttttaagagagaaggaacacaaccgtgtggttagcatttgaaagattaat gtagtaaggctcttcacttaaacttctgtttgggcagtttggtttcaataaggcatatgatggttctt ttagtgactctagttcctatcgggcatctggcaaatgaaaaataacctgggttctgtgtagatgttga gagtgagcggaaagtgacaaattagcttcatcttctgacttctccctttataaagaagagaactgcat ggttatccaaactatcgagctaatagcaaaagacaagaatactaattgaggaagttgagtaaccaaat tgtttcttttttggtatgataagcacatttatatcctagttttatggaagttttatctagaatggcat taaggaagccatattatcttgcctaaaataataggaaatcaaaattttccgtgttccgaataatattt tcagagtttatttaagacaaaaaaaaaatttcaatcaacatttaagaacattaatagatagcaatgtc ttgcgttgtatttaagataataggaatctgtttttaataataggaatctcttacagtcacatgaattt gtcagccgctcaaactacgctggaatctttgttttatttaagattgcattttattctgtcaatagata gcaatgtcttgcgtttggtgtagtggaaacccttagatgcagtatttaacaaagcatgcagttcttga catattatttggaagaaaggtcgattttcattaatttaaaacaggaataagttaattttttctaaaaa gaaggcacagtagtaattttttgttagggttttgaagctaagatctcttagatttcaaactttgaaga caaaaagatatgtaactaagccatattttcattgatatgaagtagcaatatattaaaaacagtaggaa gtttgaacatctttcacgactgagtgaatgaaagtttctaaaattctatatattttgtattttctttt agaaaacgtgtctagtatttttgttctttgaaagaaaaaggaaggcttaggacgctatgcgtaaaatc cttgtcaggaaacaaaattgatgacattgtctaacaaatctgggtctaacaaaaagctgtgcgaaaac ctgaattttttttttcactagTATTAAATCCGTAGTGGAACGATACAACAAAATAAAGGAGGAGCATC AGCAACTGCCAGATCCAACATCTGAAATTAAGgtacattatatcacttctctaagaactgccagtttt gtgaagattctgtagctttgttttttaatctggattgattaagatttgctgcacacaaataaaagAGT ATTAGCCTTGAAGTGAATTTCTTAGGCTGCATTTCGCAGAATTGGCAAGAGGAGGTAGCTATACTAAG GCAACAGCTACACAACCTTCAGGAGAACCGAAGgtacgattttgctgtacctatacaaactaatttcc tcttccttttttcccaactttgttctctatctcttctctctataatctgtccttcccattctatatac tatgctcttctgtttccttctcagctctttagatgtggagccaacaagatggctatatgtatatctat atatctatattcattaatgacatatagcatatggatcgatgctgtattgtccatctaacatttcttaa tcgttgcatatatgtaaatattctgataaaacagGCAGTTGATGGGAGAACGACTTCATGGTTTGAGT GTTAAAGATCTACAAAACTTAGAGAGTAAATTAGAAATGAGCTTGCAGGGCATTCGCTCCAAAAAGgt aaagaagtactcactagatctgggacatccatgcatagcatacaatcccttggaattgttatatcaca tgcataacatgtagttttccgcagGAACAAATATTAACCGATGAAATACAAGAACTATACAGAAAGgt ttggataccaaaacctgtctcctaaatattttttgaggaaaacatttcagttctaataacagttttcg gctaattcatgatcatgacagGTAAACGTTAGCCATCAAGAAAATATAGAACTTCACAGGAAGGCAAA CCTCATACAGAAAGAAAACATGGAATTGTACATGAAGgtaaggtatagtttgttcttttgcagactgc gattattcacataaatgctactaacaagctatgccatgaaactaaaacgggattgaaacaaacaattg aggcttccttgttttcagGTTTATGGCACAAGGGATGCAAATACAAGAACTGGAAATTCGTTGATCAC 117

CTCAAATATCAATAGTGACAAGCGCTACGAGATGCCTGTCCATCTTCAACTATGCCAACCCGACCAGC AAAACCATGAGACACAGCAGAAAGCACCGATGTAA

>L42c1677g17962_AGL19 ATGGTGAGAGGAAAGACACAGATGAAGAGGATAGAGAATATAACAAGCAGGCAAGTGACTTTTTCGAA GAGAAGAAATGGATTGATAAAAAAGGCCTTCCAGCTATCAGTTCTTTGTGATGCTGAAGTTGCACTTA TCGTCTTCTCCACCAGAGGAAAGCTTTATGAGTTTTTCAGCTCCAGGTACGGCTCTTCTAAGTTTTCC AAACCCTGAAATTTATTCTTACTTATCGCCATAACTTTTTGCTTTTTCCATAAGACACCTGTGATGCA TTTAATTGACCGTCTCACGAGGCTGTACTTACTTATAAACTATCAGACTAAAGCATTTACTTACTTCT TTAGTCTGTACGTTTAAGATAACGTATGTCATCCAGCTAGTTATAGCCAAATATGGAGCAGACAATAT AGCACTGATCATAGTACAGACATTGAGGCTTCATATGTCACTATCGTCTGATGGGTAATCCCATCTCT CTCCTTCCAAGCTTTACTAAAATAAGTCTAACCTAGCTAGTTACGTTTTGTGCTTTGTTTTAGTTTCT GGCAACCTCATTTTGGGCCCTTAACTTCTTCCAGAATCCTTAAACATTGTCAGTCAATGCCATAAAAT TAAGGAGGGCTAAGGAAAAGGTAGTGGAACTCTCTCCCACAGTAGACATCATAATTAACCTGCTGAAC GTATAGAAAACCATACTATAGTAGTTTAAATTGCAACATCTGTATGTGTAGCTTGGAGAAGCAGAAGT ATTTTTTGACATTGCCTGAACAATTATTGAGGACAGACATGGCGTACTCTGGGGAAGAAAAAGAAACC AAACGCTTAAGAAACATCATAATCATGCTTAAGAAACAGAAGAAAACCCGGACTAATTTTTAAAACGG AGAAAGGGAAGAAAAACTAGGGAATCCGTCATCTGACTGGGGACAGAAAGCTCTGAGATAGAGATCGT ACTTTGGGCTCTTTATCCTTCATTATTTTCCACACTTTTTATCCTTTTTTTTTTGAAAGAAACCAAAC GCTTCCTCCAAGGTAACCGTAGAGTACAGCTAAAATTGGATTTCCAGAAGTGATGATAGACCACATCT TTCGTGAAGCAGATCGGGTGGCGCATGGGTTAGCTAAGAGGGCTAGCTCTTTACCTTAAGGTCTTTAC ATGCATCAATCCCCTCCAAGTAGTGTTTTGTGTTTTCTTTGTTTCTGGTTTTAGTACTTTTTGTCCGG GCTTTTAATTTCTGAAGCCTGAGTTTTTAATAATAATAAAAAAAAAAGAGTACAGCTAAAATTGGGAA AATGATCTTATTGCTAAAGCTCACTCACCTGTAGAACACAAAAGTGTGTGTAATAAAATCACTTACAT TTACGATCATCTTGTTCCTTAAGAACCATATGGACACCAAAGAAGATGTATATAAACTTGTTTCTATC ATTAGAGATCAGAAATTTTCGAGGGAGACACCAATTTAAGCATTCTTGGTAGTGCGTACTGGAGTTAA CTAGATGTACCTGTTGGATTCGTGACCATACTATTTTTTTTTCACTAAAACTAAATCTCCAACATCCC TTTCCTGGTCGAATATCTTGGAAGTCACCCAGAGATTGAAGATCAGCTCATGGGTTCAGTAAGTGGCC TTGGGGTTAACTTCTAGTATTCATTTGCTATTTAGACAGGAATTCCAGTAGAAAGAAATAAGATATCT TAAATTTTATGTCATGTCAATAAATGAATAAAGACATCATATCAAACCCTAACGTGTTTCCTCGTAAC ACAGCATAAGCTATGCAATCATGATCTATTTATACTACTTTCCATTTTCTAATTGAAATATATAAATT AATGTCTTGAATTTAGAAATTAATTCATCAAAAAAAATTCTTTCTTATTCTCAAATTTTAAAATAATA AACAAATCAACATAATTTAGCAAGAAAAAATAAAAACCAATTTAAATAGGAAACATCAGTATCAACGG ATATGCATTCGTTATTATCTTAACATAAAACATACTTAAGGAATCATGTAATAAAAAAAGCATACATA ATGTAAAACCATATATTCCATAAACATGATTTAATCATTTTATTTTTTTCAAACAAGAATCATATAGA AGACAATATAGAACTATACATCAAATAGGAAAGTCCTTCGACCTTTTACAAAAGATATATACAGAGAA AGAGAGTTTATGAATATGCATCGATGACTGTATTTATCCACAAAACATGCAACACAAAAACAAGTTAA AGACCCACAATCGCAAGTATAAGCCCAACATACCATGACCATGCATATAGGAACTGTGATATGTACAT ACTCTTTACAATTTGTGAAACATGCATTTATATAAGAATTGGAATTTGGGATGGAGGGACAAAGACAT GCTCTCAAAATCTTTAAAACTGGGATATTCTGACTAAGTCGCCAGTTTGTTTATCGGTTCTTCTTTCT TTCTTTTCAGCCAGAGTGAGATAATAGATCGTTATCAAAGGAAGAACAAGGACCTTGGAATCAATTAT GGCAAAGCAAGTTCAGAAAACCTGAAGGTATGGCCTTTCCTGAGCACGGTATTTATAACCAAGCTGTA ATTCTGGAAAATCAAGAAGGGAAGCGTATATAACGATGTCTACAGCCATATCCTTCTTGAAATAGTTC AATAAGCTCGCATAGAATTACTTTAATAAAGTTAGGGTTTGAAAATAGTCCGACATGAACTATTTGTT CATATTCTATCTGTCACTAGCTCTGTACAAGATTTTGTGGTAAAAAAGCAACAATTACTTGATCACTT TTTTTGTTCATTTTGTTTTCCATGAACAAACGGTGGAAGGAATTTGTTGCCTTCACAGAATGAACAAA GTGAGATGTTGCCTTTTGCATTCGGATATTAGCATTCTTTGTAATGATGAAACAAGTTATCGGATGAG ATAATTATGGGGCAAGGAGGTGGGTGCAAGCAAATGTGTTGTTAAGTTTCGGCTCTGTAATGCATTCT ACTGTGGCTTTCATCCTGAAAGCTCATTTATATAATTGTCTGAATCTGCATTTACATATACTCTTGCT GTTTACCACATTCATCACCTCTTCCCGATGAAGAAAAAAGAGAAGCACATGACATTCGATCTGGTAGC TGTTTATAATCATGGTTTTAAGTTCACAACTCAAGCACACATGCTCCTCGTTTATTTGTACAGAATGG AATTCCGTTAATATTATTCTTGACATGCTTTACACTCTCTCTTTAGCTCTATATGTGGATCGAGATTG TATGTTGTAGCAAAGATTTGTGACCAACAGCCAAATTATTAGCAATCTCATCATAGAAACACGCAAGC ATATGTGAGATATATTATTTTTAGTTTTTTCTTCATAAAGAATAGTCTTTTCTTTTCTCTCATATTCG TAGTAATAAGTTTTGGAAGTTCTAACATATTTGTTCTTGATATTGAATGTAGTGTGTGGAGCAAGATG CATTTGTCTTGGCAAAGAAGATTCAGCAACTTGATGTTTCTACACGGTGCAAAGCTTACTTTGACCAG 118

AATTACCAGCAAGCTCCTTTTTTTTTTTCTTTTTGGACGGGCAATTTTGGCAAGTTACTGACCTCGTA ATTTTGATTCGCAGAAATCTTTCGGGTTATGGTTTAGAAACATGTTCCATTCCTGACCTAAAACAATT AGAGAATCAGTTGGAGAGAAGCCTAACTAGAATTAAAGCAAGAAAGGTACCCCTAAAACCATGTTTAC AACTTAACCATCTTTTACCTTTTTCTTTATTGATCAATGGTTGCTACAAAACATCTTTTACAGGACAA TAAAACTTCTTTCTTTGTTATCCTTGCAAAGGAGTAATTTGATTTATCTTGAAAATCCAAATTTAAAC TTATTGTAAGAAGGTGATGATAGAGTTACAGACTTGCTCTGATGCTTCGAATCTCAAGTCTCTTGATA GACTAATCCAAAGGTAGCCATTTGTTTTGTAGTTTACTGACAGATTCCAACCTTTCACATTTCCAAGT GCAGAATCAATTATTCAAGGAGCAGATAGGGAAGCTAAAAAAAGAGGTAAGCTTTTAGCTTCTGTAAT AATTAAGATTCGGTAACTTGGGTGCAGGTACTGCTCTTTGAGTTGTATTTCTCTTTTTTCTTCCATGG TAAAAAGGAATAAAAATTGATATTACTAGGATAAAAGAGCAACATGTTAATTGGTATCTGCAATATCA TTTAACATGATTCAGGAAAAAATCTTGTTGGAAGAGAAGAAGAGATTGCAGGAAGAGGTAACTCTGTT GCTCTTTGACCTTCAATTGCCGATGTCAACCCTTGTCAATTCAATGAACACTTTCCAGCATCACATAA TGAAAAGTGAATCCTGTTAGTTATAAAATGAGAAGAGCTATAATTATTATCACTGAAGCTAAAGGTTA ATGATAAGTGGAGAATATTATATATGTTCGACCAATGAAAAAGTATGTTAGCTTCCTTTCTAGTGTAC GGATGTTTAACTCATTTTCCATTTTTTAACAGTGCGGGGGAGAGCCACTGCTGCAGTTTGCAGACAAC AGGCAACAAATAACACCGGACATAGAAAGCATGCCCATGGATGTGGAGACAGACTTGTTCATAGGTCC GCCAGAGAGCCGAATGGGCCAGAAGCCATAA

>L42c8683g37643_AGL62 ATGCCTAGAAAGAGTAAGGGTCGACAAAAGTTGGAGATGGTGAAAATACCTAATGAAAGCAATCTTAT GGTGACCTTCTCGAAACGCCGGTCTGGCCTTTTTAAGAAGGCGAGCGAGCTTTCTACTCTGTGTGGCG CTGAAGTTTGCATGATAGTGTTTTCCCCTGGGAAAAAGGTCTTCTCTTTTGGGCACCCGTCTGTTGAA AAGATTGTCGACCGTTTCCTCACTGGAAATGTTCCCCAAACGTCAGGAGCTTTGCAACTCATTGAGGC TCACCGCAGTGCAAGGGTTTGTGACCTTAATATGCAGCTCACTCAGgtactgttttgcctggaaatta agagtaaatccactgttttctttctcgattctctagtatttattacgcaagttagtgttaatatcagt tcagtttcaaagtctaaccccgttccatgagcgaccattataatgatgctttagGTGCTCAACCAAAT GGAGGTGGAGAAGAGGAGAGGCGTAGAGCTTGATCGGATCAGGGAGGCTGGAAAGACTCGATGCTGGT GGGAAGCTCCTATTGAGGAGCTTGAAGGGACACAGCTTGAGCAGTTGAAGGGCGCTTTACTGGAACTT AAGAAGCATGTTACAAAGCAAGCTGAGCAAATTCTGATCCAGAGTACAAGTCTTCCTCCTCCTCCCCC TCCTCCTCCACCCGCTGCCGCTGCATCTTTCACACCAAACATTCTTCCGGCTACTGCTGCTGTCCCAT CTTTCACTTCAACCATTCCTCCTCCGGCTTCCATTGCCTCTTTCACACCAACAGCTAGAGGCCCAGCG GTTCCGTTTAATCCAAGAGATGTTGCATTCAACAGAAACATGGTCCCTTATGGATATAATCTTGGATT TGGAAACGATTTCTCCTAG

>L42c8707g37678+g37679_AGL23 ATGGGAAGAGGAAAGATAGTGATAAGGAGGATAGACAATTCGTCGAGCAGGCAAGTGACGTTCTCGAA GAGGAGGAACGGACTGTTGAAGAAAGCAAAGGAGCTAGCGATCCTATGCGACGCCGAAGTTGGGGTCA TGATCTTCTCCAGCACCGGGAAGCTCTATGATTTCTCCAGCACCAGgtcatttattctaactaaagag atctattcttttatttaattctctttatgaattcgttctcatcttgcgaaaaccagatatattgtgta aaactgcgtgatatcctagtgcttaaattaactggtggagtgatttttgttgtttaaatatcaagcat atccttatacttatcgtcatgcctgtgattatgtcgtgagtactatagctagcctagttgtgatttta tgatgaaaaatataaagtttcaaagggtgcatgacaaagaaacttgtttatatgtatgcattatactc tttttttttggtataaatgcattgatgcttgttgtgttgcggatgcatgctgtttgatacttttgcac atactgttttttccttttcagtccaggcagtaccgcatattgaatggttagggtatgaaaataagggt tactaaactttgatggttgctatactgaactgtttatgtttcttagttcaaattcctagcatttctta actttgtagGGCTCCAGAACTGAACGAGATAATACTAAGTTATCGAGTTAGATTCACCTCgtagaaga gtcgacattgttaactttagggatatagcctttttttgccttctagattagttagatttcctctgaga ggggtggacgtctaatttctatatgccaaaactttccaactgtactccttagtttatgatgtgcagta gaaaaatatgtctttccatcaagtcaaatagacaaaatttttgtggtctttttttaatcttagatatg gtgtatctttctgagttaattgattaacttttacaaaatgcttgtgctgaacataacttggattcgat caacaataatgtaggtttcgtgctctcctggacctctatagagtggaccttcaatccctcctttccta ctcattaaactaaagccttaaactcctcctactctatttgaaagccatcacagcggcaaacttgttga tcttagaggaatcgttgctgtagaagttggttctatcaacgcagagggcaagtccctcaccatacgaa atatttgtgtttttagcagcaaaaaagtttttaaaacacaataaaactccttcagctgtgatggctaa aatcatcctttatatcttcggctaagatctacgaaatcagtacagagcgtttccgtgacaaacgcacg cttcactagaaaaaaaatagaaaaatcacactttatcagggtttgtaatcgaagctataaaacttagt 119

ttctagtgtatataataatccatgttgaaacttagttcctgaagtggcaaactattcagtcactttca atggataatccacctttaaagttcaaattgcattttgataaaaaaaataagaaaaggtctcaaggtgc gcttgaaaagctagatatggctgaattgtgacgcagagggatacaatcagagttaaagcagttgagaa tcaggatcgggctaggatttgggatatcacctaattagctatatcattctattcaattccgctactag aagttcagttagcacagatgaaagttatacggtatgtgtgcagaagaggttggtttttatcactattt ccattgatgtttagggtttcgagtttgctaactaggatttggattatttgatgcttgtgattacgaat ttgtttttagaagggtaagatccaaaactgatcgttaatgttagtgactcgaggttcacatgtgcgag ggtgtgttatgtgtaaatatcatcttattcgttaggatagcagagaaatggaagatagtaatggctgc ttaatgaggtgcaatatagacttttttttttatataaaaattaagatatattagaaagaaagcctgct agtgaattaaaaataaatgagaagaagcatagtcacatacctaccttcaaactcaaatcaagttgcca atttcttcacgttataaaaaaattgaatctctaaataaaacagataaaatattttctttttttttttc ataaaatctttctacttaccaaaaacactactgaactgaatttaatgatttatgaattggagaaaaaa atcatcaagaaactcttcatgtagtttttgacagtattcatgaagcatggtttcttcagtttgatctt acttgatctaacaaaaaactatttatgttcaaaaaaattaaacttagctaaatttttcgaagaataat gatgattcctatccgtgtagttactaaaagataaatacaattttggagcttaaaattatcatcctata tagtaattagaaatctgataaaattcccactttcattggagctttgctaactaattcctacatgtatg cataaaacgcgacattatacaaatatcctaaatgctaaaactgttttcggaagggaaaaaacaaaatt ttaaagggaatgacagttccatacaggcttaagcaagcaaaaaatcattaagaaaaaaattataaaaa actggccagaatatagttggaaaagttaaatacttcacaaattaaagaatattggaaagcagctttat catgtcattgacctcgggtagttttatatacaaaagaacacatcataagaaaccttatggtgttaagt tctgtgacgtttttgtgaggatttggaaatggagttctttgatggcaataactccaaaaaaagtaaaa taagaaaaaaatatatgattcagaaagtctatatttctactggtttaaatatactatgtcaactaata caatattccagtctaatcagaaatgtggcgctttaaaaatctttatggtacgttttattgggatgata taattagtattccaagctaattttacattattaaacgttttccatgtttgttttttaaatagtaatat taaagtaatgataaaatattttacagtatttaacgatatttttttttctgatttgaacgaatagaaaa atattttcagaaagttaacaatttaaaactacttttataaccttttttatataatgaccaacagtaaa aaacgtagagtttattatcttttattattctacgtttgtaatttattaatttattcaatccaaaatat ggtaatataacagtaaaaaacaattcaacctatacctcctaatctcatccaaatcttagaaatacttt tatcttcaggaatttgttgaaccaaaccctattgggatgtttgataacttagaaaaataatatcaact ataacaactccaaaatgccaaacacattgtgaaagaaaagtgcttcattcaaataaagttttgcacaa agatttaaaacgagcatatatgaaatgagagatggatagatatcatttttcacaattaaattaaaatt tatttatcgtcaataataattattatttttattatatcataaatatcaataaaagtaaattcatatat gtaattcataattacttcattttatcctaactaataaacaacgatttggtatataaatttatgattaa attaatcaaaatttattaatatataattagtttaatacttatttatttttaaataccaactacaattc tacttactaagggattagatctgctattagtgataatatttattttataaaattttaaaatgtgcata agaattcgtgtaattaaatatcctccatgcattagactaagcatccgtacattttggttcttacggtg tcctttttttaagctggaatacaatgtacttattactgtgctccatcaaataaaaatgcacgtcttct aaacaataaatgcttcgtattggaagtgatgagtttgtatcttagaaattatataattaaaaagcgta atccattatagatatttgtcggtctagggactagtgtgaccttactctcatactgttgaggtcgttgt ccttaatatacacacacagacactcaattaacattgtgacaaaaattcttgactattatatttttata ggaggaatggataactatgtagtcatttgcagtttctctcttttgtgaaaggaaatgggaaatgagaa acggtgggcatctggtttatcagtcaacgtcactatgctgcctaatcttcttctgatcaattgcttta tgagttatttattatacgaggatggtccagtatatgtgaaggatgggcttaacttttttaacacagaa aaaaaaatgttttcttcccaataatactaagcaggtgggacagccattgttagtctagaaaggaacaa taagtgtccagttgtgtgcgaaaggataaatttattataaaagaaacttatccactccaaagattcaa atcattaaccataatgtaagttttaaaccttagctcacccacatatagtagaaggcacttccacagca agtatttgtttaatagccatgggatattataccattatcccaattaagatgcagtatccccataatta atctgtaccaagatctgtacgatatgccattgaacctagctagcctttttctttaaaaagcattcatg tcctaaaagaagaaggaattactaaattaatatatttattgatgttatcaggatttcgaaataagaat gattacataaaagcagaagacttggatagagccctttcggcattaggtgcatgaaagctccaaattga tatatatatatatatataaataacggacaaattgaagatgcatgtggcgaattctttttttttttgca aatacaagaaccataatgattagttatatgaaagaaactccagtaatagtttgcactgaattgcaata gatatatggaattcggtgcaagaggacaatcccatgagtgagaaagaatctgctgcaaatttgtcttt ctttttagaaatcttaccttatcacttaaataagattttatcatatcacaaataattatcttcataat tttcattaatatttttgtcacattttgaaatttaaaattttgagtgacattcattataagccttttat atacactattataatacacaacaatacatacaaaagatttacaaggttagaataagataataaataga 120

aaaaatgatatacaaatagcaatcaaatcaaaagaacaaatagcgggtctaaatgaagttaaacatta tcgttctaagagatactatgttacaaacatatataatggggattaaacactaataaaaattcaaatat atacttaaatttatttatttaacagactcttggattacaatgtgatattgatgatcacaagaacataa gagaataaaatatcatgtacgtagaatattaaaattcattaatattatcctaacaccgtcttgtgcaa gattccaactaattatctgtctgtttagcaaaaatctgtcaggcgagtagatgagaaagacatgtgta acaacatacatataatcatacatttagtgaatatgtatgctggcacacaatcacaacatcaatgagtc aaaaaacatatagcatagtcatggtcaatgcattgtgcaaccacataacttttcaaacatttataata gtgattggctagcaatgtctcgtagtccgttgaggccctgagtgaaggacgaagagtagtactccata tttacttttttttgatatactttattgcacaactccattgataatacagggacgttaggtgatggtag ctccacctaagtagttttcactttacaggatcctaatatacactcattcaacatatttatgtagctca tgaccctccttatagccttattctctggtatctccatatcactcaactatactcaaagagttctcaag agtctcataagttattctatactatgtttatgcattttacaactcgtatacggaatgcactcattgta ttatatgtatttcaattatcacatcataacaaggtataatccctcaattcatagcataacataacaaa ttaaatataccacaacatcagttacacactgcatgcacatcaggttattaatttattactctttaatt aatcataattatttattcatgtcagtaatcaaagcaaataagtaaagtccatccactcataagttttg aagtctgctcattcgccaataatattctaaactgatttctcaaggacttgccaccctaggtatccacc tatgtataattataaactaattcttcattaaacaagtctagagggtcacatatatataaaataacact tttaaactctatatttgactaattacaaccgtagaccaaactcgggatcaatccacataatttcttta tttttctttgttttttaaaatttgttctatttatttcaccaatcaaaccaatccaaattctaaaaatt tggtatcaatagacttcagattaattgcaatattttttataatttcattagattttttcataattttt tattatttttttctgaatttaatattatttctatcaattttcattaatttttataatttaaatcacca gatcaaccagaacatgccacctggtagcactatgcattgccactccgacatatgaagcaccagagggt gacacacggcctctcccgtacgggccatacctcatccgagccttaggctcggactgaacctgtttact ttgtatagtgaatgacctgtcacttgaacttgcaagcgatgagtcgcttataactctcactagatgat agatcctacattagctagagcagacgaccgatcatcttcaacctctagccgaactaaagtgaccctgc aatcctaatttcaggaaaccttaacacctcacacatacattaaaactgctcaaaacccttacccttag aaagtctatatcattatgaacttaaccccacaattcctatagtttttcatcaactaaaatgggtaaat caaagagatgagcatacggattccgggaaattttttttggaaaggccagaatcatcataagaatgact agaatgaactcaaaaacttgagagaaagctcttgggctaatattggggagttttgaatgtgtaattga gaagaaaaacataatgggataattatctcattttttttacgagccatgggtagaatcgggagggactg aggcaccaaatagtttctcaataaaataacattgtatgggtttgcttcaaaacaacatccccccacta tcacacatcaaaacaccaagatttgttgccattttgatcaatcttggtcaaaatgatgcagtatctta tcgttttgtcctaatattatattaatataaataatattattttttatttttaaaatcatcaaaatttt ataataattactatatctttccgaaaatacccagaaaatttatatacaatttatcataaatagtacaa ttcatcaagacttaaaattatttttttataaattcataatttattaaaaatcaaatatctcatattaa atcttagaaaaaatataataatttaaattatatttccaaaaaatttcataaaatttatcaattcatat aaaccacaactagacattctcaaggtcttaaaacatcaaaaccattaacataactcatcgaataattt ttcatccctaatatatataataaaaattatatctcaataattataataaatatccaaaaatataatat aatctttattaaatatataaatcatcttatgcatataatatgtctaaactatacttcaaaacgtctaa gctacaccgtatgtttatcaacgatcttgagttatgggttatgaccctccaacttcaagtaaaacctt agtggactttcaaactcaagcagtttgaagggttagaatcttatatcctaaccactttataaaaattt tcgcccttaaaacttgaaacttgcttacatcgagataattcttaacaaggaaaattccacattcacta aattataatcaaaattataatatctaactacattctcgtcattatgtacatccatttaatgtgacaat taccattccaattcgtggttcaaccaaatatcagatatcaacactcaatactcaatgataaaccaaaa gccttaaccacaattcaaggcatattatcaaatttctttagatcaaatatagatctaaagaactaaca gaagcttactaggtgagtagatgagaaaaatatgtgtaacaacacacagacaatcatatattcagtga ataggcatgtcgatgcacaatcacaatattaatgagtcaaaaagtatatagtatagtcataatcaatg tatggtgcaaccacataacttttcagacattcataaccacaattgggctagcaatgcctctcagtcct ttgagtttccaggttagggaccaaaataggtgagtgatacaccacagttacctttttttcgtgtattt tactgcacaactccattgatgacgtcagagcattagatgatgatagctctacctaaatagtccccact ttgtaggattctgatatacacttattcaacgtattcatatagcccatgaccctctttatagcctcaat ctctatcattttctcgccatgttatcaaactcaaaaaattctcaagaatcacataggttaccttatgc tatatatgtgtatcgcacatctcgtatatcaaatagactcaatttattatatatttttctattatcac atcatagcaatgtataatacctaaatccatagcatgacataacaaattatgcatatcgcaatatcagt taaatactgcatacacaatatttcaggttattaatttattactctttaactaagcataattatttatt tatgtcattaaccatagtaaataagtaaagtctatcaacttataggttttgaagctcacttatctacc 121

aataacactctgaagcaatttgtcaaggtctagtcattgtaggtatctacttatgcacaattataaat taattcctcatcaaacaaatatagagaatcacatatctatactttaaaaaccctctacctgacgaatt aaagccttagaccctcttttccatgactatcttgaattcaaatcccttgtcctagcaataggtataat tattatatgctagactcttttccaatcaatatgtaataaaggagtgattggttcccttttcaatcatg attaacctttttattggtgataactccttagaggttcaaggttagacataataggaaacaagtagctt gaattataacattcaatgctatatcttccaaagtaattatgctaataggcatattctaagatttacct actataacatctataacaatatctattcgaattgaggtcttaaaatggcttcttggaacaatgtaaga taggtatagggttttaattttaatgagaagagattgatgaactcatttatcacataaagtaaattcta gatatttacatataactcttattaactagctagagaaattgtaagaatagaaagctatttttattttt tgttgagtaataaccacatgaaaattagtataaactaaattttgatatcttaatctttcgtaattttt ttctaattcaatcttcatacccatttgtaatcttattatttcttccttgtcaaatatgtaatttctta aataactattataatatccattatctacataaaataaatctgaattgagtatctataaataatgattc tattaacggtttttctatgttagcaattcacatagtaacaaaaatattacaacctggttggttagaat tgtgatagattttctattttttctaccttgagacttaaacttcaatttatttctataataatggtact aaaaattataaaaatttgtgctattagcataattaacgttctaatctatgataaatagagattgattt caattcatactagagtcttaaattttctcttactatgaatcactttaaaggttttgtcaaagtacact aaatatcaaagagtctcataattggagtgtgcatgatgttagggaaactcataatagtgacaagaggt tataattggcaatcctcacatattaattcaaaaattcaacaaccaatagtgtgtaattgattttcaaa taaaatatggttccttgaggcattacataacatatttactcgattgaccctatgtcttattatattta ttatatgagaaaaacaaactaaatatttaaagtccgttctcattatataaattatccattgcacatca taaatcttgagagttaatagttaaaagtgtgtgaactcattctagtttgtgataaggaacccttcgga tctaaatgaaattgtgtaaggatgtatagagaaaaagaggtgataggtgtcattagctcttaagtagt taagaacttgttaaacataagcagtagggagttttcttaataaaaaaagagaatagttgttggagcga ttatcgattatcttgaattgttagttgggttagggtttaggcaagggagagaaagactcctcttgtaa ttgatttcttgttcttgagtgaatgagtcttcttctatttccttgatttttgagtttcctgagccatt tttacctaggatcctaaaactctatcaatttgttacgaaaagctcaaaattaactctacttatcttag aattttaccttgtttgcattgtgaattccaccctcatgttccatcccttattgaagagtgataacaga tattgaattcaattataaaatacaatctcaatttttaaattattcaattacctctaagcatctttaac aatgaaattgttattttgtactttccataatattgtttatgttttatttgttataactaagacatatc tgtattgtcctatgtttaaaaatctttcttttatgttaactttatgttccacatacatcttttgtaga aacttatttaaacaatctttgtatttttgtttattatctattttagtaacttatcttagaattttact ttgttttacattatgaattccacccttatgttgactccattcttgaacaatgataatagatgctatat tcaattataaaatagaacttcaattttttattattcaatcacctctaagcattataattatgacataa ctgtattatcctcttaacctgtttattcaggtttcatcccaagcgaaaatctttcttttatattaatt ttatattaactctatgttctatatacaacttttgcaaaaacctattttgacaatctttatatttttat ttattacatatacgattagaatggttagtgcaagtgatggtttcctagtccataaattcttccaaaaa tgaacaatacttacgtcactaacattttattctacaaatcttttaatttatattataattttttattc aatatacaatatatttgtatgacacattattaataaaattaccaaattttatattgtagaaatctatt tcgataacctttatatttttatttattacatataattttggaatgcttaatggaaataatgtcttcct agtccataaattcttccagaaatacacagtaattacatcaccaacattttatcctacaaatcttttaa tttatactaaagtatgacatattattaataaaactaccaaattttcataatgatattattgtcttgtt ccactgtaaatcttcattcccttttcatcgtaaacctcttttgtaatttttttatctcttttcttact ctattttgctaatatggatatataatatattggtaagttttgaaatataacttttatcattgttaatc ttctaacaaattaaaaacaacctgtttttatttaatttaccatataattaattcatatatgtttcatt cttatactaatactataattaattcccatcataatgtttataatcttttaaaattaggacaccatcaa catattaactaaatttagattttttaatattttaaatttatttttagaagctcattcacaagtgataa aaatgataatcagaacatcaatattttatccaaagttatgtaagataggccgaagctctattaatatc aatgcagtcatgtatgtatagaagtctgaacaacaaacctacctaacctagagttctagctaataaga aaagaaaaagaagtccaaaatttcctaaaatttagtagatcttatcgagaaaaatctacaaaattctc actcagtttttctaactaaataaaactaaatccaacaaaaaataataatattcttattggaaaaattg ctatattaaaagcactgaaagactctaataacgataaaagacttataacttgtcaccattagctgttc gattaaaacaattcattatacttcatataaatagaataagaactaatagcctaaaagactattaccag gtgattacaaagtactgaaaactttataatgaaacatagagtaaaacactaatctcaatattcatact gcagtccagaattaatttttctttagatattcccgtatcatttgtgtggctacagacatgacatatat gtgtgatgacccaaaacaggtaggactaatctgcaaaatgggagataatccattaatatatataactt atgagatttgtttagacataaatatcatcatagttcatattatgctttttattttttttctgacaaca 122

ctgtctctcttatgttttaataaattgcttctaagtgtctagaaaaactgaacatagattgcagtctc aattttgctacaattatcctatgatgacagcatgagatcagtgattgaaaggtacaacaaatcaaagg aggaacatcatcaaatgggtagtttaacctctgaagtgaaggtaattcattctctgggcaccatttta attagttccaagacacatggaaatgcaattcatgttgactttattttttgaatgttaacttcccatat tgatgattatgcattgatctataacgtgcaaacacaactatttaaacagaatcatcatgtgcaacttt tcttttgcatctcccttgaacaaaattgctctctcattgaagcatgataggcaaaatcttctaaaatt agtgatttattgattgtctaaacaaaattaattttaaaatattctatcgaaattttcaccttaacaaa ttttgaaacatttttttaagtagtatatatactaatgcacgtaaatgaactgtaaacacagtgaaata tcatgcatattttggtctgcatttttttatattattgcatcaacaaatgcctctacatgacactctct tgtttcatataagctttggagaagctaagccaagagtaaacacctatgcaacaacagagttaaatctc agttttgtgaaagttttgaaattcaatatcaaaagagaataaaataaataaggttgtttggcacgtct aaaataaaaaataaaaaaacctatgaccaaaatgaagttttataagcaaaaatagatgtatgtcatat ctgaagctcaggttagtcttctttattatcaattgatgaccctcgatggaaatcagggaagtagagag cagatagatgtaaagcaagtttgtgtttactgtttgactgtgttccacaataatacacaaagcaaaag cagctattcatttcgtcaaagtcatatgaataaaaaaggactgagttttgttaaattctgtatttctt gctagttctggcaaagggaggcgacaatgctgaagcagcaactgcaaaacttgcaagaaaatcaccgg tatgatttttctttgatctaactagttaggggatatatatgagcatgaaaagtcagggtagagtaatt gtaacaaatcaacatgataaactttggcaaattagtcatgctattatgtaaaagctggaaaacatgaa ggcatcacctgagtctaaattagcgtggagattagccgcgttactgtgtaaagtcggcacctggcaca aataaactgtgttcttgtgtattgaatttgacattcaagataaaattcacccataacctgaaaaacat gttaagccaattgcatcgattgtgaagtatcaggggcaagaaccatataggtccacaagtttttgttt ttttacctcgaaaagcatgtcaggcaggggtaaagttgggaggaacacagcaaacttgcctttccagg cccatacttctagtttctctctatcctccatgaaaaagataaaaaaggatgaagaatcaagaaaaaca gccaaaaatctgttactgtgcatacatatctataccatatctgtcctgctccctcaaatattttgaaa ctaaccaatttaccccaacccattccctagaagttacattattttgcacaagctcaaagaaacggaag tcaggaagggtcatttagttttactctcgactagtcattaaagaaaaaacaaagtcactgtttcaaaa cattcaaaggaccagtggtaactatcaatatttcaaccaaaattcagagattggcatcccgaaaccat tatcaatgttaaaacatttaaagcaaccaaacattgtgaaagaagaaattagtttctgtatatgtcaa acaaaacaagtgatgcattgtccagtcaaacctttttagtcttaaactgattcgcaattttatttcag gcaAATGATGGGGGAAGAGCTTTCTAAACTAACCATAAAGGATTTACAGAATTTGGAAAATCAGTTGG AAATGAGTCTCCGTGGAGTTCGAATGAAAAAGgtttgcattctaatccaaaactcaagttcttgaatc aaaaatagtagcatacaaagcacaggcatctcacactttgaaacttttgcactttttcagGACCAAAT TTTGATGGACGAAATACAGGAACTAAACAGAAAGgtgaatcttgaaatacactttccccattgatttc atcgtcatctttatctcaagtatctgaactgcattgtttctgttgcagGGGAATCTCGTACACCAAGA AAACATGGAGCTCTATAAAAAGgtaagcctcatccattaaaaattacggatgagtaaaaattagttag ataaatgaaacatcaactatacagacataatagaccagagttgtcaatccttggacaatgcacattaa actggaataaagttcatccccttatctgtatgtttccatgtctcagGTCTATGGGACGAAGGATCTGA ATGGTGAAAGAATCTCACTTTTCTCAAATGGTTCGGTCACTGGAGAGGACTTGCATGTACCTATCCAT CTCCAGCTTAGCCAGCCACAGCAACAAAACTATGAAGCCCGGTCTAGAACTGCAAATTCGCGgtaaaa ttcaatataagataaatcttttactcttgtgcactaatctcttggtcagaatcttcacatatagcttt tattgacaaactgcagCAGACTTCAAATGCATCAATGA

>L42c9908F-g39327_AGL80 ATGACAAGAAAGAAGGTTAAGCTTGCGTGGATAGCGAATGACGCCGCAAGGAAAGCTAGCCTCAAGAA AAGGAGAGCTGGCTTAATGAAGAAAGTGAGTGAACTAAGCATTCTTTGTGGTGTCAACGCCTTCGTCA TAATATATAGTCCGGATGATCCAGAACCAGTTTTTTGGCCATCACATCCCGTGGTGGAAAAACTCCTC ATGAGGTTCCAATCCATGCCAGAGCTGGAGCGAACCAAGAAAATGACGAATCAAGAAAGTTACATGAA GGAAAGGGTCAAGAAGTTGCAAGACCAGGCGAAGAAGTATGAAAGAAAGAAGATGGACTTGGAGTTGT GCTATCTTATGCATCAACTCTACCAAGTTGGAGGAGTTAATGAGCTCAGGACTAGTGAAATAGAAGGT TTAATTTGGCTGATAAATGAAAAAATTAAGGACTTGAGGAAAAAAATCGAAAATTCTGCTGGTGATTT CAACGAGGTAAATAACCCCGTCGATGCTTATTCAGCATTCCAAGATCAGTGGTCCAATGATGGAATGA AGCACAAAAGGAGTTGCACCGGCGCTGGTAGTAGCACAATGACCGATGCAAGGGCGCCACATCGATAT TATAATGACGGCGATGGTAGTTCCAGTGTTGGAACTGCCCTCAGCATCTTCCGCCGGAGCAACGCTGG GGACATGAGCACTGATCATGGTCCGGGCCTTTGCTATGGGCGACCCCACCATGCCAACCTCAGAGCAC TCTATGAATCAAGCCTCCACCGTTCGGGGCCCTCTCATGGCGATATGGGAGGTCGGAAAGCTGAGGTA AATTATTTTATTGTAGGGTTGACACATGGAAATACGGGTGACAACAACAATGGCGGAAACAAAATCGA 123

TCTGGAGTTGCCTCCCGAAGATAATTCCGATCTGGGGCCGAATCGCCAAGCCGTTGGCGAAAATAATC ATGGGCCTCGTCGTTCTCATGGAAGTATCACAggtatcacagtcgatcatctatcatttactagtaca tataattagtctgtcaactttttcctaatgatacaatcaaatcttattttcaatcaaacaatgatgct ttgacctggaaacacttttcatgggttacggctggcaGATTTAAACACTCTTGTAAGCGATAGTGCTG GGAATGGTTGCGACGGGCCACCGCTCGGAGGTGATGACGATGCCAGAATCAACAGCCACACCGTTGAC GGTTCAGGTGGAAGCGACACTGCGGTGAATGAATCTATTGGAGTAGGAAACAATGATGGAATTCCAGT TGATGCAACCAAGAATTCGCCGGATAACAACTCCTCTGCTTGA

>L42c4358_F-_g28803_AGL62 ATGCTTACCATGAAGAAAGACAAGAAGCAGACAAAAGGCCGTCAAAAGATTGAGATGAAGCCGATTCA GAAGAAGAGCAATCTGCAAGTCACATTCTCCAAGCGTCGGGCTGGTTTGATCAAGAAAGCGAGCGAGC TTAGCCTCCTTTGTGGAGCAAAAATTGCTGTTATTGCCTTCTCTCCAGGCAATAAAATCTTCTCCTTT GGCCATCCTGATGTGGACACTGTCATAAATCGGTATGTTGATGCAAATTATGGTCCAAGGGGGGAGAT GGATGAGGAGGCACTGTCTGTTGGTAGCCACCCACAAGTTCTTCAATGGAACAGAGAGTATGAGGAAG CAAGGAATGGGCTGGAGGAGGAGAAGAAGATGTGTTTGGAGATGAATCATGAGAGTAATAGGGAACAG GAGAATGAGGGTTATGCAGGGTGTTGGTGGGATACAGCCATTGATGACATGGGATTGGAGGAGCTGGA GGAGTATGTTAAGGCCATGCAAGAATTGAAGAGGAATGTGGATGGCAGAGCTAATGGGTTAATGATGG CTAGTCAGACTGGTCCTACAGATGAGCATTGGCTTTCTTGA

>L42c4848F-gg30162_AGL18 ATGACTGAAGAGAAGAAAAGGATGGGCAGAGGGAAAATAGAGATTAAGAGAATAGAAAACTTGAATAG TAGGCAAGTCACCTTCTCAAAAAGGCGTAACGGATTGCTCAAGAAAGCTAGGGAGTTATCGGTTCTTT GCGATGCAGAAGTTGCAGTCATTGTCTTCTCCAGCACAGGGAAGCTTTATGAATTTTCAAGCACAAGg tacctacctgattatgttgtaagaagagtttgttcaattttcctttgtttttcttatttttgttatga ttggtttctggagaatgttttaagaagatcgttacgctgtattaagtcaagtcaatggacgagtcctt acagaaattgtttggtagaatggattttttgacacaccaaaaagggtttgttgggttgtcgattatag gtgaagccgatgattcctatgtgcatacctagttctataacgataggttcaaaaaccctagagcaaag gccggaattcgtaagcttgtttccgcgttttattttaaattatcgtctttctggaacgacgaagctgt caagagagtagaagcattagaaaattaggttttcgctaattgtacaatatagggtatataatattctg aaaggctagtcggtgaccagtagctgggctaggctggggctaagaagaaaattttgggccccaaggga catcaagggttagtccgattagtttacagtgtttgtcagagtccgtcttattgcttgaatcgtaattt ttcagaaaattaattagttccattaagcatataactacgatatccgcatagtattttaaaaattttca gtatataaatttgtaaggcttgcatgctcttaagccttggagctgggtttcgtttcatgcagCATGGA GCATACTCTTTCACGATACAGCAGTGGCCCGGATCTGGTAACTACCAATGAGCATCCTTCGAACAACC CTGAGGTAGAGgtactgtactcatcatattaaatacacatcgaattctatgtacagctagtgcttgtg ttagcctagatagaaagaaacttcatccatgaaaagcattatgcttgtgtaccgttccaagaggaaat ttgatttgcagaatcttgtactcaaattttattctgtaacgtcatttgatgctattctcatgttgctg gtcttcttttcaaacagCAACTGAAATCTGCAGACGTTGATTCTCTCAAGGATGAAGTCTCAAAGCTA AGATTGACATGCTTgtaagtcacactgtcttaacagcttcagtcaattaaaattttcttcaactctaa actaacatttccctcacattttcagGCAGATGATGGGTCAACACCTGGATGGCTTGAGCTTCAAGGAG CTCCATCACATAGAACATCAATTGAGTCGAGGCATATCGTCTGTTAAAGACAAGAAGgtgacatacaa atgtctttttctagttttatttttcctcctctcagtgtaaaagtcaatggctaattatatcaatggag tcttcctactttctttaatttttgggttaagaatggggtcaaatatattttggagtttgcaattcagt tcaataagaattgtataagcataccgaaacattaaaatcatttaccctttctaggacaatctcagact actaggatatgctttgccttgacatctaggatcctgactgtgccaaaatgggtctaatctaccatttc ctttggacctgatgttcaatttaagatccgattcagtcaacatttctaaatcagtctgctaaagctgt aagtttgcctgtcctgacaaaccttttcttcttgcagGACCAACTACTAATAGAGCAGCTTAAGAAAT CCAGATTGCAGgtaatcatagaattttgtaatttcatgtccaaccctagagaaatctatatctcctcg ccggattatgtacgtatgagttttatgcctcgtcctcgtgttttatcttcagGAGCAAAAGGCCATGT TGGAGATTGAAGCTCTGCGCAAACAGgtaaactatgagcttaattaaagtctaacttttatgaaatat tcagtgcatttcttgtaattttgattgttttggacaccaaatgtgtgtacgtagGTTGAGGAGCTTCG GCAAGCTTCAAAACCAAGGCTTCCAAGTCTCGAATTTAATCCCCTAGAAAGGAGATTTTCTCTTCCCG ATCCCAAAGCAGTGTGTTCTCGCCAACTTGAGGAAGCTGATGACATCTCAGACACATCATTGCATTTG GGgtaacattaagctcccatttctaggttaaagacaatgatagtcatttaaaggatgttctccgacat acatatttggttgttctgctgtgcttttgtaaagattttattacaatctatttagattattgtcagta ttcgagtccttaatcatctcctattcttatttaaaccctattacaaggttgctagaacttgatgattc 124

catcagtcacacctttccaaactttagccaaataatttgtctttcgcagGTTGGCAAGTGATGCTGAT CGGAAGAGGAAAGCGCTTAGGATTGAGTCTCACTCCAATGATTCAGGCAGTCTGGTGGCTTCCGAGTG A

>L42c17121g46112_AGL62 ATGCTGACCATAAAGAAAGGCCAAAAGCAGACTAAAGGTCGTCAAAAGATTGAGATCAAGCCGATTCA ACAAAAGAGCAATCTACAAGTCACATTTTCAAAGCGCCGTGCAGGGTTAATGAAGAAAGCAAGCGAGC TTAGTCTCCTTTGTGGAGCAGAAGTTGCTGTTGTTGCCTTCTCTCCGGGCAACAAGGTATTTTCCTTC GGCCATCCTGATGTGGACACCGTCATAGATCGGTTTCTCGCTGAAAATTATGGTTCTAGGAAACCATT GGACACATTGGTTGTTGCCAACCACCCACAAGTCAATCAGTGGAATAGAGAGTATGGGGAGGCAATGA AGGAGATGGAGGAGGAGAAGATGCGCTTAACGATGATCAAAGAGTGTAACAAGGAAAGTGAGAATGAC ATTAATGCAGGGTTTTGGTGGGATATAACCATTGATAATATGGGACTGGAAGAGCTGGAGGAGTATAT TAAGGCCATGCAGGAGTTGAGGAAGAATGTGGCGATCAGGGCTAATGGGTTAATGGAAGATAATCAGC CTGGAAATCAGAATATGGATGCAGGAATTGGTGGAATTGGTCCTGGTGATGATCATTGGCTTTTCTAA

>L42c16813g45887_AGL29 ATGGGACGGCGAAAGATAGAGATCAAGATGGTGAAAGATAGTGGCTCAAGGCAAGTGACTTTCTCAAA GCGTCGGACAGGACTCTTCAAGAAAGCACACGAGCTCGCCATTCTCTGTGCTGTACAAGTTGCCATAA TCGTTTTCTCACCTGGGGGAAAACCCTTTTCCTTTGGGAACCCCAATGTTGAATCTGTAGTGATGAGG TTTCTAAATGAGGAAAATAAACCAAGGGGTGCTACCAAAGCCCACGCTGATCTAAGGCAAGAGGCAAA ACTGCGGAAGCTTAACAATGAACTGAATCGCCTTCTTAATCAACTTCAGGCTGAAAGAAGAAAAGGGG AGATGCTGGACCATATGCTCAAAGTAAGTGGACATAAACTCCAACCCCTTGCAGAGCTTAGCATTGAT GAACTTTTGAAGAGAAAAAGTACGTTGGAGGACCTCAAAGAGAAACTAGGAAGGCATCTGATTGAAGT GGAGGCATCCTCTTCATTGCTGCTCCTCTCGCAGAAGCCTGTTGAAGGAAATGACCAGTAG

>L42c22100g49274_geneA_AGL62 ATGGCGAGAAAAAGCAAGGGTCGCCAAAAGGTGGAGATGGTAAAGATGAACAAAGAAAGCAATCTTCA AGTTACCTTTTCAAAGCGCCGATCCGGTCTATTCAAGAAGGCCAGTGAGCTTTCCACTCTCTGTGGTG CAGAGATTGCCATTATTGTCTTTTCGCCGGGCAAGAAAGTTTTCTCCTTTGGCCATCCTGGAGTTGAG ACGGTCATTGATCGTTTTCTCACCCGAAATCCTCCTCAAATGTCAGGAACCATGAAACTTATCGAGGC TCATCGCAATGCTAACATCCGAGATCTCAATATTCAGTTCACTCAGgtatggaagacgtatctgcgtc ttgtttcactatgatcatgttttgctgcagaaatgctcctcaatctaaaccaagttcttgacaaaata gaaagaacagtatctatactttgtaaaatactaaagaaccggtgcatgcatcagGTGCAAAACCAACT GGAGATGGAGAAAAAGCGAGGAGAAGAGTTTAACCAAATAAGGAAAGCTAAGCAGCCACAGTCCTGGT GGGAGTCTCCCGTTGAGGAGCTTGCCTTGCCTCAGCTTGAGCAGTTAAAAGCATCACTCGAGGAACTG AAAAGGAATGTCGCAAAGCAAGCTGACAGGGTTCTGATCCAATCTTCATATCCTCCACAGTTTTACGG CTCGACTTCCGGTGGAGGAATGCTTCCCAGTTCTGATCAAAGCAGAAACAATATTGGGTTCAATACAC ACATGTTCCCTCCTTATGTGTATGATTACGGACAAGGACGTGGCTTCTTCTGA

>L42c23877_F-g50258geneB_AGL61 ATGGCGTCGACTAAGAAGTCTAGTATAGgtcgtcaaaacatcaaacttgagaaaataccaaaacagag tcaccttttctaaacgacgtgcagGGCTTTTCAAGAAAGCTAGCGAGCCCTGCACACTTTGTGGGGTT GACATTGAAGTAACAGTTTTCTCTCCGGCCAACAAGACATTTTCGTTCGGCCATCCAGATGTCGATTC CGTCATAGACCGgttctttactcgaacccctcttcctagctttggaacgcatcagctcttagcgatct taatttgctgctaactgacactcttagCCTACTGGAAGCAGAAAGAAAGCGTGGGGAAGCACTGAACC AGATAAGAAAAGCTAGCCGAAGACAGTGCTGGTGGGAAACTCCTATTGAGAAACTTGGATTAGAAGAG TTACAGCGATTAAGAGACACATTGGAAGAGCTGAGAAAGATGGTGGTAGAGTCTGTTTTGCCATTCTT CACCCTGGATGGTATTGAACCTGTGAAAAATTTCGACATTAAACCTGCCATTATTGCAGCTTCCACTA CTAGAATCAATAATTCTGGTTATCCTTTTTGA

>L42c23877_F-g50258geneB_AGL62 ATGGCGAGAAAAAGCAAGGGTCGCCAAAAGGTGGAGATGGTAAAGATGAACAAAGAAAGCAATCTTCA AGTTACCTTTTCAAAGCGCCGATCCGGTCTATTCAAGAAGGCCAGTGAGCTTTCCACTCTCTGTGGTG CAGAGATTGCCATTATTGTCTTTTCGCCGGGCAAGAAAGTTTTCTCCTTTGGCCATCCTGGAGTTGAG ACGGTCATTGATCGTTTTCTCACCCGAAATCCTCCTCAAATGTCAGGAACCATGAAACTCATCGAGGC 125

TCATCGCAATGCTAACATCCGAGATCTCAATATTCAGTTCACTCAGgtatggaagacgtatctgcgtc ttgtttcactatgatcatgttttgctgcagaaatgctcctcaatctaaaccaagttcttgacaaaata gaaagaacagtatctatacttagtaaaatactaaagaaccggtgcatgcatcagGTGCAAAACCAACT GGAGATGGAGAAAAAGCGAGGAGAAGAGTTTAACCAAATAAGGAAAGCTAAGCAGCCACAGTCCTGGT GGGAGTCTCCCGTTGAGGAGCTTGCCTTGCCTCAGCTTGAGCAGTTAAAAGCATCACTCGAGGAACTG AAAAGGAATGTCGCAAAGCAAGCTGACAGGGTTCTGATCCAATCTTCATATCCTCCACAGTTTTACGG CTCGACTTCCGGTGGAGGAATGCTTCCCAGTTCTGATCAAAGCAGAAACAATATTGGGTTCAATACAC ACATATTCCCTCCTTATGTGTATGATTACGGACAAGGACGTGGCTTCTTCTGA

>L42c24333g50500_AGL29 ATGGGACGGCGAAAGATAGAGATCAAGATGGTGAAAGATAGTGGCTCAAGGCAAGTGACTTTCTCAAA GCGTCGGACAGGGCTCTTCAAGAAAGCACACGAGCTCGCCATTCTCTGTGCTGTACAAGTTGCCATAA TCGTTTTCTCACCCGGGGGAAAACCTTTTTCCTTTGGGAACCCCAATGTTGAATCTGTAGTGATGAGG TTTCTAAATGAGGAAAATAAACCAAGGGGTGCTACCAAAGCCCACGCTGATCTAAGGCAAGAGGCAAA ACTGCGGAAGCTTAACAATGAACTGAATCGCCTTCTTAATCAACTTCAGGCTGAAAGAAGGAAAGGGG AGATGCTGGACCATATGCTCAAAGTAAGTCGACATAAACTCCAACCCCTTGCAGAGCTTAGCATTGAT GAACTTTTGAAGAGAAAAAGTACGTTGGAGGACCTCAAAGAGAAACTAGGAAGTTATCTGATTGAAGT GGAGGCATCCTCTTCATTGCTGCTCCTCTCGCAGAAGCCTGTTGAAGGAAATGACCAGTAG

>L42c32F-g1074_AGL103 ATGACACGTCCCTGCACCGCCATGCGAACCTTCTCGAGCAGGATGAGGACGATCCAGAAGAAAGCACA AGAACTGGCAGTGTTGTGTGATATTGAGGTCGCCTTAGTGTGTTACGATGCTACCGGCGAAGTCCTAA CATGGCCGGAAGACAAAGACAGAGTGAAGGAGATTATACTGAAGCACAAAAATCACAGACTACCAGGT GATGATGACGATGATGATGCAGCAGCAGCCCCCGCCGCCCCCGCAACTAACCCACAACCGCATTGCGT AGGGTCTTCGAAGGTGAACGAGAAGTTGAGGGAATTCTACCCTTCTTGGGATGAAAGGTTTAATTCCT TTAGTGTAGAACTTTTGTCAATTGGTGTAGACCATGTGAACGACATATTAGAAGATGTTCGTTATCTC AAGAGATTGATTGCACCAGCTGATCAGTTTGATGTTCCTCAATGCTCAACGGCAGGATTATCGGATGT TGATCAACCGCCTTTCGTTTATGATTCCGATGGAGAAGAAGAAGAAGAAGAAGACGAGGGTGGAAGTT CTGAAGGAGATGGCAGTTCTGACACGTCGTCTATGGATGAGTTGGACGGAGATGGTCAATGA

>L42c139F-_g3412_AGL80 ATGACTAGGAAGAAAGTGAAGCTTGCATACATCACTAACGATGCTGCGAGGAAGGCAACTTTCAAGAA AAGGAAGAAGGGCTTGATGAAGAAGGTTAGTGAGCTAAGCACCCTTTGCGGGATCGAGGCGTGTGCTG TGATTTTCAGTCCCTATGACTCTCAGCCTGAGGTTTGGCCGTCTTCTTTAGGGGTCCAAAGGGTGTTG TCTCACTTCAAGAATTTGCCCGAGATGGAACAAAGCAAGAAAATGGTGAACCAAGAGAGTTTCATCAG GCAAAGAATTGTAAAAGCCGCTGAGCATCTGAAGAAACAGCGCAAGGACAACCGTGAGAAGGAGATAA CACAGGTCATGTACCAAAACCTGATAGGGAACACCTTGCACAACTTGAATATGCTGGACTTGAATGAT CTGGGATGGGTGATTGACCAAAACTTGAAGGAAATTACCAAGAGAATGGAGGTGCTGACCAACAAGAA TGATTCCAAGGAGCTAGCAGTATCTGGTCGTGAGAGAGGACCTAGTAGTGTAGAGCATGCACCCCATG GGGGAGAGAGCAGACCTGCTAGTTTTGAAGGGAGTGTTGATACATTGCAGAGGCAGCCGCCTTGGTTC ATGGACTTGATCAACCAACAAGATCCTATGGGGTTTGGTGGAGAAGAGATGATACAGCATTTTGGGGA CAACAGCCAGGGCTCTCTTTGGCCCAATGCCTTTTTACCTTGA

>L42c249F-g5272+g5271_SVP ATGAAGGATGTACTTGCAAGGTATAATTTGCACTCCAATAACATCTCCAAATTTAGTCAGCAGCCATC TCTTGAGTTGCAGgtattatgttttctcagtttcgcatcatcatcttcatctcttaagaaaaaaagag tagtactttgtttgcatcatttttttcatatgtccgtgatattagttcagttcctaaactggtaattc atttgttctcagCTGGAAAATAGTAATCACTCAAGATTGAGCAAGGAGGTCACTGAGAAGAGCCATCA ACTAAGgtgtatttggttgtagaggaactaatgcttctattttcctttcaaaacttttttatgcacta tcataactgtatcgatggcctcacacgttgtaatagGCGGCTGAGGGGAGAGGATCTCCAAGGCATGA ATCTTGAGGAGTTGCAGAAATTAGAGAAAATGCTTGAGATGGGACTTGGTCGGGTGCTTGACACTAAG gtttgtgcctactagttattgcatgaggcacaccgatatgttcacctcatatcttaactttcagtgtt attttcttatcttaactttcaatgttatgtattcttataagGGAGAAAGGATTATGAACGAGATATCT ACCCTTGAAAGAAAGgtaagatcattgatgttacaaattcatgctaaaactagcagtttatatgtaga atgtgttataaattaagcctccattgcaatagaaactttacaagtcatttagcttcgccaagttacct 126

cctagagggtattcattatccctagatagattgtggaagtgctgtaggaaaagaggtagaagcgcgta ttctgctatattgggtcgtttatgtgtggaataatcgagaaacagctggagtttcttttttttttttt ggcgttccctagccttattccatactgggaaaataggcaacacgatgccttaaatggaaacaactctc tctttattttttcttcaacagcctaatagttctccaaaatctcattggctttctattaactttggttg tgtatgaaaatgaagGGAGCACAACTTTTGGAGGAAAACAAGCAGCTGAAGCAGAAGgtaagtaattc cggagcaagtccttaattccattcacaatatattgatcaaatatgagcaaaatctctgcagGTGGCGA TGATCTGCAGAGAAAACAAGCTTGTCCTTTTGGAACCTGATACTGCAGTTCAGGAGGAAGGCATGTCC TCCGAGTCGGCCACCAACATCTGCAGCTGCAGCAGTGGCCCTCCTCTTGAAGATGATAGCTCTGATAT TTCTCTGAAGCTAGGGTGA

>L42c6545g34029_AGL62 ATGTCAAGGAAGAGCAAGGGTCGCCAAAAGTTGGAGTTGGTGAAGATACGTAATGAGAGCAATCTCAT GGTAACTTTCTCCAAACGAAGGTCTGGCCTTTTCAAGAAGGCTAGTGAACTTTCCACCCTTTGTGGTG CTGAAGTTGTTATCATTGTATTTTCCCCTGGAAAAAAGGTCTTCTCTTTTGGCCACCCTTCTGTTGAT GAAGTTCTTGACCGTTTCCTCACAGGAAATGTACCCCGAACCTCTGGTGCTTTGCAGCTTATTGAGGC TCACCGTAGTGTCATGGTCCGTGAGCTTAACATGCAGCTCACTCAGgtacgttaattggcctggatct ttgaagcagttatactttatcgttgttattgtacgttttattgcatatgcccagtcctacagcatatt gaaagaatttttcatcaaaagttggactgccatttcggtttttctagtagaaatagatcattcattag caactactaacaaatcattcattagATACTCAACCAACTGGAGATGGAGAAGAGACGAGGCGAAGATC TTGACCGTGTCAGAAGATCTGGGCAGAGGCAGCGCTGGTGGGAGTCTCCTACCGAGGAGCTTAATTTG CAACAGATGGGGCAGTTGAAGGCCGTGCTACAGCAGCTCAGGGAACAAGTAGCAAAGCAAGCTGAGGA GATCCTGATTCAAAGTGCAAATCCTCCTCCTCCACCGTTCGCATCAACCTCTGCTGGTGCCATTGTGC CATATAATCCAAACGATAATGGATTCAACACCAACATGGACCCAAGTTCAAGCGCTGCAGTTGTTCCA TATAATCCGGGGAATATTGGATTCCCCACAAGCGCGAGCCCTTATGGATACAATCCTGCAGGATTCAG AAACGGCTTCTTCTAG

>L42c37143F-g56310_AGL(talvez incompleto) ATGGGGAAACGAAGGAATACTGCAATCAGGATGCTCGAAACGCGAGCTCAAAGGGCGGTGTCTTTAAC AAAACGGCGTCAAGGTCTGTTCAAGAAGGCTGCAGAGCTTTGCATAGAATTTAACAATCAAGTCGGCA TTATTGTGGTAACCCCGTCGTCTCCCAGTTCGTGGAAGAAAGTTCATGTCTTTGGTCACTCTTCGCCC GAGGCTATCTTTAGTGCATACATGAACGGTTGTGTTCCCGAAGCACCAAATTCAGAGTCCTTGGCGGC GGCTTTCACTATCTATGACGAATTTAAGAGACTGGAAACCCAAGTAGCTACTGCCAAGAAAGAGAAGA GGAAACCTGCAGGAGTGCCTCAAAGGATTCGCGACGTATGCAATGAGATTTTGGAGTCTGACTCGCTC AAGGAGTTGGAGAAAGCTTTAAGTATCCTGCAAAGTCATATTCAGGAAAATGATAATAGGCAGCACAA TTCTACTCGCATTCAAAATTGCGTCAATTACAGTGCTAATGATAGTACAAGTACTCCTGATACTGACG AACAGACCGCACATCCAAAGGAAATTGATTCCAATGGTACGCTTGCAGCACTATGTACAATGCTTCCT CTTCCTCCTCCTCTTAATTAA

>L42c16041F-g45276_AGL61 ATGTCAACAGGCATGTCAACAGGAAAGAAAACCAGGGGAAAGCAAAAGATCGAGTTGAAGCTTATCGA GAACGAGGATACTAAGATCACCACCTTCTCGAAACGTAGGTCTGGGATCAGTAAAAAGGCTAGCGAAC TCGTTACTCTGACTGGAGCTGATGTTGCTGTTGTGTCGTTTTCCCCTGCTGGTAAGCCCTACGCTTTT GGTTCTCCTTCTGTTGCAGCGGTCACCAATCGTTTCCTCGGCCTGGAGACAAGTCGACCAAGAGATAG AACTGCCCCAATCGTTGAGGCTCATCGCCAAGCCAGAATTAATCGGCTGAACCAACAGCAGACCCACT TGGCTCAACGATTGGAGGACGAGCAGAAGAAGTGCAAGATCATGATGAAAAAAATGGAAGGTCTGGAC ACCAAGGGATGGTGGGATGCTAAAGTCGAAAACCTTCACAAACCGGAGCTACTCGAGTTGGAAACAAA GTTTAATGATCTTCTTGTAAACTTGAGAACCAACCTTCTAGAGAAGCGGAACGGTGCTTCCTCTTCAG CCCTTAATCCTTCCGTTGATCAACATCCTGAGAGGCCTAATGCATAA >L42c16041 g45277_AGL61 ATGGCAGGGAAGCAAACCAAAGGCAGGCAAAAGATCACGATGAAGAGGATAGAAAACGAAGAAGACAG GCTTATCACTTTCTCAAAGCGACGATCAGGAATCTATAAGAAGGCTAGTGAGCTGGTTACCCTCTGTG GTGCAGAAGTTTCAGTAGTAGTGTTCTCACCAGCTGGCAAGCCCTTCACTTTTGGGCACCCTGCTGTA GAAGCTCCTGTAATTCGCTATCTTGGTCAAAACCCACGACCAGAAGACTACTCGCACCCTCTTGTTGA GGCTCACCGGAAGGCGAGAATCAACGAGCTTAACCACCTGCATAATCAAATACTTGGCCGTCTGGAAG TGGAGAAACACCGAGAGATAGTGCTGAAGCAGATGATAAGCGGGCAGGAAAGCAAGGGTTGGTGGGAA ACTCCCATCGAAGAGCTTGACCTGCAACAACTGAAGCAAATGTATGAGATGATGAAAGAACTCCACCA 127

GGAACTTTGCTGCAAAATGGAAGAACACAGACTGAATAAAGCCTCTTCATTTTCAAATATTCCTCGGC ATGTAACGAGTCCATTTGTATTCAATGCCAATGAGGCTGCTACTTCTGCTGATAAGTATGGTTACGGG AACGGGCATTATCAGATAGTCAATAATTAG

>L42c35190g55549_AGL62 ATGGATGCAACTGATAATAACGAGCAGCGGCATCGACCACGTCCGCGCATCCCGAGCAAAGGCCGACG AAAGATTGAACTGAAGAAGGTAGAGAAACAGAGCAGTCGCTATGTAACTTTCTCTAAGCGGAAGAAAG GATTGTTTAGGAAAGCTACAGAGATTTCCACGTTATGTGGTGCAGAAGTGGCCGTTCTTGTCTTCTCT GAGAAAGGCAGGGTGTTCACTTTCGGTCACTCCGATGTTGATGAGGTTCTTGATCGCTATCTTTCTGA AAGAGGTGATGATCATCCGGCTGATGATGACTGGAACAGGACGGCGCCTGGCTCCTCCGTTAATAAAG CCAACGATTCCATATACGGGTTGGAAGAGCAGGGAGGGAATCCTGGGGAGAACGACGTTAACAACAGC GGAGACTTTTGGTGGGATCTACCCATCGAAAAAATGGGGACGGAAGAGCTTGAAGACTATCTGCACTC ACTGAAGGAATTGAAAAGCAATGTAATTGCACGAATAGAGATCATCGGAGGTAACAATAATCCTTGGA CGGAGTCTGGGATCATTAACCAGTTCATTATTTAG

>L42c28885F-g52789_AGL15 ATGGGTAGAGCTAAGAATGAGATAAAGAGGATTGATAATGCAAATAGTAGGCAAGTGACATTCTCGAA GAGAAGAAATGGTTTGCTGAAAAAGGCTCGCGAGCTTTCCATTCTATGTGATGCTGAGATTGCGGTTA TTGTTTTCTCTAACACTGGCAAGCTCTTTGAGTTCTCAAGCTCCGGgtaggataaatcttcttctact cctttctactgctgcttgggaggctatgatttaagaaaaaatagttttgttaaagttttatccttttt ttctgatcggaaaggcgattgcatgtgcattttccaatttgtgcttcatgcttaatttctttcacttt gcagtgtcgagaatatagttctacgtctctcaatattctgtttgtatggtttttctccagaaattttc ttggatatgataaatcacctttgtaatgtgtttgcttgtactgtatgcttgcctacttttcttattat atagCATGAGGAAAACAATTTTAAGATATAACAAGTTCCGAGATTCTACAGAGCCCGCCAGAGCAGAG CAGGGAACAGAGgtaacctgtgcttcacttttgcccagcaaaatgtgtacttgattctctatatttgt ttcaagcacgggtgtaaagattctacagctttatcataacaatgcttttgtattttttttaagggtat ccaccaattgataaccctgaaggagtatttgatcttccgatggatgttccaagtgcttgcttattctt cagaagctaaaatgagtaaaacgtatgattacttggttcctgttttcaattcctttttcagAAGCAAG ATTTGATGGAGCAGGGTGTTCTGAATGATGAAATCTCTTCGCTTAAAGTGAAACCGTTGtatgcttct agattacttggttgaatttaagacattttggagtaatctaggaagctaaacctcatttgacattgttt catgaatataattatatatgtagGCGACTCCTGGGCAATGATCTTACTGGATTAAGCTTGAAAGAGTT GCTACACTTAGAACAGCAATTAAATGAAGGCCTCAAATGTGTATAA

>L42c0g72+73_AGL23 ATGGGGAGAGGGAAGATACTGATAAGGAGGATAGACAATTCAACCAGCAGGCAAGTGACGTTCTCGAA GAGGAGGAGCGGGTTGTTGAAGAAAGCAAAGGAGTTGGCGATCCTATGCGATGCAGAAGTTGGGGTCA TGATCTTCTCCAGCACCGGAAAGCTCTATGATTTCTGcaacaccaggtcattttctaactatttagag atctctttatctccttcccagcttatttgttttctcccgtcatcctttcttttgatctttgcgatgag agaatgcgtacatatatatatatatatatatacacacatatcatgtgacagtgaacttgatctatgca cttaattagctactgcagtgactttttgttgtttctatgttcgacatgtcctcatacatgctcttcat gtctttgattgcgctgtgagtctgcatttatccaagagttgtgattttacgatgaaacaaagttcctt tttgtgcatgatcaagaaacctatatccactagtgattgatataccttactaccagtgacttattttg tgaagtactgctcacaacccatatcaacttcttgtcttgctcgaagacaaggggttggccaatgggtg agtgtttgaaatatgttcctgttagggacagtgttgttaccactgaaaatttatttaaaacgcaacaa gcctcattgcccatgacgccaaattggtccccagtacttcaatactttccatgtcctatcttggtttt taccacgtcctatgaatcttctgctgagatcaccaaatccaagaactacgaacaccagtatgactttt ataggaataaagcaacaaaaactttgttaggattctaggttgaagctacatatatatatataggtaaa tgcgtatatcattccaatgagacaaacttggcaacaagagccaagtcattaggttccaattagtaaac cgcttgtaaagttcatagggcattgggaaagctcatggagtttggttttcatagctaccttcttttgc aattgaggattagggttgggacaatgacttgacacactttccagttagtaataactaaatcattcgat tcatcaccctctctgaaatttatgggtgtaatggaaaagctaaatggcctatatacaagtgaattgta aaggtcggccttttaccaatatttataagggttagggttttgacactagctaataaggatttgggttt tgatgcttaagatccatgtttcaaatcttaagagtaatttttgtgattcgagagtgatcaatcacaag aattctctaagttgatactatagaaagtgagcaaagaatgcttatcattaggatacaaggatagaaca aaacctaattaatgctactgtagtgagcgtgaagtataaattcagcccaaataaaagggaagcataag aagaacaaagacgggaagaagcataaacgcacaaatttccaaaagtaaaccttttaattgaaaaagcc 128

tgtttgaccattaacttggggctcgaatatcccgtacaaaaaatgtatattttgtaaactttgcattc tgtgatttgctttgattataggatggagtaaacggtcccctcttcataggagaaaagaaagatacaaa ataggaatcccatgcttgccattatcttgggaaaagatagactatttgttggttttgtcttcaattgc taggtttatggaattttcatccgaggaatcttttttgtcgtccacatctttgttagtgatgccaaatc tttctcgaagagaggtgaaagttggttttagccttaaaacactcgaatatcttctttccaagaatgca acttgaaataggccttgtcagtctatatcattctctggttatatcgcataagaatagcttattttata gagaaatcaccaaatcgaaatatccaatccaattttttatacgtggaataagaataagagaaggaatg ctttctttctttcaaaagcaagggtcttcttaaaaattcgttgaaccagcactacctccgttgatgac gttcctaagaagaaatatttagtgttttcgcttcattgttgaggtgcctgtctttatttttcttgctc tgttgttgatattgtcatttccgttgaagctttagttgaattgcaacgggctatgaaatatcaatgca gataccattagatggtcttcatgatccatacgtacttgtgaaaaattgttttatcaatgttttgttta atttttatttttattttttttttgtttcttctttgatatagtggtgcgttgtatggtttcggcaaagg tgaagcgttgagggccttagtcgagattttatatatattaacctaggtcacttcccggtggaataaac ctcaataaaaaaaaaaacattttcttaagccttcaaagtaacatttaccttaatagaattaacatttt taagcctcaaaactaacctaacttctctcccacaggaatgctcccttagtactaataaaaatttctta gattataaaatttaagtagaacttatattatatttggtggctgacggaaaattaataatgctgactgc tgtgaatctcacacgatgatactgcgatgaaaatatttaacttcttacgcgccaccgtagagaaatcc ttcatcacaagtacctattgaatccaaagtggtggtatttagattttaataccaaattgttcaatgtc aaacgaatgccattggcttacatccacacaaaatggtagtcgaataaaaaaaacacaaaaacacatgc agaacaagacatgggcaacatcttcaggcagctaggggttatacacatgttgacaagtttcgaccata atatctgtgtaagcttttttgggtttatgtctccttcatcctagaggcttttcatggtttttagctgt gatcttagctacaccgttccaggcccagtgtctgtcattgcacttgatggccctagaaatccataact tgtatgcgagtcaatacttcgatttctatctcaagtttctgaattccatcgacctttgccatggtaat ggttattttagatgcaaacaattcctcataccatcacgaccaacaaaagcttatctcaaattggaccc ttaagaaaattttccaatatacattaagagccccaaaatgaattatagtcgtttttctttcacaactt ttcagtctagaagaggcaattcacatttgaaaaactcctgcctccttaattaaagacttgaatataat ataaaccctttttccgagctctggtttctattgattgatatcatacttcttagaatgccagcatcttt tactagtcttcgatatttgcaagcatcggggagttctgtaacccaattacgtttataatagcttagtt cataaccagcaaatagagctatttatacaaaaaaccgtgaaaacgtcaggaacatatttgattacaaa ttttgatgatactgaatctgcggaatttgttgcactgatttctttagtattaattgtcacgaacaaaa attaccctctcaccgatatagtcactctttcaagcaaaaagattccttacaaagccaaatatcaacaa taaaaatataatagataaagtttaatatcaacagtatagatacaaatagataactgaagaaacaattt tatgagatcgaccatcgaattgccaagagagaaaattgcaatggattctcaacaatgagaatctgaaa tgaaaataattatatgaaagtctgaaatgatcccctatctaaattaaccactagaacaacagaagaac agtaagcttgcaagttgggagatgctcaatctcatatcaaatttgagtgaacgggactttcaacataa aaatttagaattttggaaacatataaactgaatattaatatatgattttagattgtaaggatcacata ttttgaaaattttcactgtagctttttgtcttttaggatgggttcacagacacattgtgaatttgtgt caaatattaagaccagacggggatgtacgtgaaatcacgatattattgagctggtttgtttttcttgt gatctgaaaggatgcatcattgttcctcaggacttcgtaaatctatatttgtatgctagaaaatattt tgacttacttcaaaatcttatgtcaaaaattttcctcttaaacctcatatattaacaaggagaattca aatcaaactctattatcctacgaatccaaattcaaaaatttcaaagccacacaaaaaaaagaagtgaa attggttttcttatacataaataaaacccacaatgaacttagtaaatacctttatttaggaagtcgaa cctttatatacttcaaattaaaaaataataattaatttctttcactatatcataaatatcaattaaaa ataaatctaattggccagaaaatttaaagatataccacacctcaaatcaaggtttaaatccttaaatt ttatttaaaaatgaatgaatctgaacaaactcgaccacactcgacctctttatatgaaattttgtcag gatgcaaaactaaaatacgatagatcttgaactaaacatgccatgggattggcgagcaacttaactaa aatacggtagatatttaactacacatgccatgctagaccatagtcctcaagaaaaattacgatttttt ttttgtcaaaactgtgaaggccgtcttcctatatgatagggcctcacagaaattagaagagctctaaa atagagtataaattatgattctctctcaaaagtttttcaggaaattatgatctacgtccgtgcaaaag ctatacagtctgtaatataggaaacagactagattagaatggttaactagaattttttttttaaaaaa aggtcgaaagttaactagaacacttgattccaagacttgaccaaaactatagttctgccttgttagat taccaaggatcaagttagaatggaggatcggctacggcaagactaaactatgattatctactacacac ttcctagactacatcatactattagttctgcctagttagattttccctggattaaaaattagaatgcc gaattgataaaacccgaagatatctaaaattcactagaggcaagttagatggtaaaaaacgagatcag ctaagagggaaatggtgattggaggtcaggggaggaagatggggttcaacagagatgagtaaattcca ggagaatgtgaagaatagctacagaagatgaaataaacagaaatccagtacggtaatgacgataaatt 129

tcaaaatacaaaacccgatttgtttgattagaatgggagaaaacagagcagtagagcacaatatgaaa gaagtttacgtagctattctaacctgtaaaaactcatagataggtctggcttcttgggaaaccaatcc acatcccaatatccattaggactgttagcagtataatgttaataaagacgacaaagaatccaatatgc tgattctgggtcacgtaattgaagtctttggcgatgtgaaaagttttgtacagaaagcaagaattata gcccgcaagacccaacatatgcattctgccacactcatgtcaaagatgaaacccttcacaataagatg aaaaaacagagcacttacctcggcattcatacagcaatcaatttcatcttgtggaactaagttttttt tcacaaccctaagcatcacccgggttaatgcaagccccatatgccaccatgaaattgaaatcagtaag atgggacataatccatttatcaaattacgagatgttccgtttcttcatcgatatcattttggttctcc tagtgcttttactcaagattgattgactgactgaatttctatctgctataaCAGCATGATATCAGTGA TCGAGAGGTTCAACAAATCAAAAGAAGAACATCAAATGGGCAATCTAAACTCCGAGATGAAGgtaatt cagtactgtaccattttggttagtgatttctctcaaggcatacctgaacatcaatttatgtcggcttc agtttgtttgttagtttattcatgagaaaacaatctggtttggtttattcaccattcactcataacga atatgcaacaaattttttaaatcatcaatctaactgtaataaccatacctcccaacatagaaccaata atcatcatgtgaaacttttctttgtccctttgaacaaaattgcagtcactggaagcacgttaggctgg catcttccgatagcagaggttgactggtagtaccaaatagaaacctttcctgagcagcctacctaaat tttcagattcagcacattgaatatttctgcaagaatattcaaaaacataaatcaaccaaaatcaaatt tttggcactcttttggctgttttgtgcaaaataattattggagtaacaagaaagatagaagggaaggt gttttttgtcaaaattatgaatgctgtaatggtttaaagataaaggtatggagtagaaaaggccaaaa gattcacacatttagttaatggaaattttaccagtatacgtctctgtaaggctctcgtaaccacaact aatgaagtatcaactagcaaacagagttcactggtgatacagaacagaaaatgaaagcacacctagtt ccataagatgctagaatgcagtaaatttggtagaacaaaaagagttaaatggcaggtttatggtgtta ctgccaccatgaaagtcccatctactgtataggtatcctacagaagtactaaaagggagatcatagaa tattcactaccagttggctggaaatatttttacaatagttcggaacagaggaaaaataattagatata agaccagttcgtgcattcttacttggatatgtttcatcctgacaaagtaaaagcagctcttcatttca tcacagccatttagccttgaagttatcatttgctaaatttacattttgtttactagTTCTGGCAAGGT GAGGCAGCATCCTTGAGGCAGCAATTGCAAAGCTTGCAAGAAAATCACAGgtacaaatttcgttctaa attgactggacatgcaagatacatgagcagaaaaaagtgatgaatgagtaaaggatatagatcagata taagtaactttggaaagatgagattttaaattacactcaggatagagttcacccgtctcaccagaaaa gcctaatatctaatgcaccaatggtgaagaatcagaggcagaagcagcacagatatatagactttttt catttgatactttatgaagctcggtaaatgctggatctggcaataacgaggcctttccaggcccctag cttctcttactgccatcccacaacaaaaaatcaaaaagagagaaaattaagtaacattttcagtcagc ttgacatagttgctcaatacaaatctgtcccattcaccaaaaaattttcaaacataaaaagatgttca tacatacagagttgcacatatgtcaacacagtttcacgtgtgggtcatagtttttccctccctagtga gaggcactgttgaaaacatcaaggagcatgtcacaaactggtaactttgaaattttttaacagaacat ccgtagtatgaagcccaggtctagttataaattgactttttatcaacagcaacaccatttaagcctcc aaaagttatgatggatgtagttctttgtgcatccgacataacaaagtaagacatattcagtcatactt taaaacctcaaaatgcttgagccataatctatcataacagGAAAATGATGGGTGAGGAGCTCTCAGAC TTGACCATAAGAGATTTACAGAATTTGGAAAATCAGTTGGAAATGAGTCTCCATGGTGTTCGTATGAA AAAGgtttgaaacactaatccaaccttattcgagttagtagcattcagagcatatgcacctaacaaaa tttgttgtttgactctagGAACAGATTTTAGTGGATGAAATACAGGAACTAAATAGAAAGgtgaatca tgaaagagaactattgatttctcaagcagtttcaaatgctatagtatctcaactgcattgtacctttt gcagGGAACTATTTTACACCAAGAAAACATGGAGCTCTATAAGAAGgtaaatttttgtcacgaagcct agaattttataacgttgaacataaataatagaaactacaattatcctgacataattgataaaagacat cactccttcaaaacatatataagaaatgcaacgtgatttaaaccacttcatcagaatatttctatatc ccagGCATATGGGACAAAAGATGCGAATGGCACAAACGGAAACTCACTTTTCAGAAATGGCTTCGGCA TTGGTGAAGACTTGCATGTACCAGTCCATCTCCAGCTTAGCCAGCCACAACAACAGAACTATGACGAA CCAACTAGCGCCACAAAACTTGGgtataacctccattagaataaatactttgtgcatgtgtaatttac tttagcagatttatgatccatcactttttttccttgacaaactgcagCACGTTGCAACTGCGACAGTG A

>L42c395F-g7289_AGL82 ATGAGGCGGAAAAGAGCGAACCTGCAATTTTTAGAGGAGAAGGCTCGCCTGGTCACATACCCCAAGAG GAGAGCGACTTTGTTGAAGAAGGCTTCAGAGCTCTCAATCCTTTGCGGGGTCGATGTATGTTTAGTCA TATTTGGACCGAATTGCCAGAATGATCTAGGCTTCAATCTAGAAACCTGGCCTTCAAGTTCGGCTGAG GTTAAAAGAATCATCAATAATTACAGAGATAGTGCTCAACCAAAAATCCGTCATTTCCCTGACTATTT TGCTAATAGAGACAAGCTTGTCAAACAAGCGAGGGAGAACAATCTAAAAGCTAGATACCCTACTTGGG 130

ATGCCAGACTCGATCAATTATCTGCCGATCAAAATACGCTGCTGCTTGGTCGACTGAATACCAAAATT GAAGTCGCTGAGCAAAAACTTGTAATGCTCAAGGAGAATCCGATCATGATGAAACAGGCTGCAACTCC ACGGTTGCCTTGCAGCTCCCGGTTTGGCCAAACTGTCTCGTTCCACAAGGATGACTACCCGAAGCTTG GCAATGAGAATATGCCTTCAACCTGTAGTTATAGGGCATTAGTAATTTCCTATCCAGACGTACCACTC GATGTTCAGATGCCTACCATCCCTTTCCAGCAAGTGCATGGCTCTCAAATGATTACATGCAATTCGGT TTCGGGTTTAAGTAATAGTAACAACTGCGATCCATATCACATGGAGCGTTTCTCCTTTCAAAAGGCAA CTCCTTTCCAGTTTCAACAGAGTGATTGCACTACATGGTATCCAAATCTGATGGATGATCCATGTATT AATCAATTTGGTGGCATTGGCTTAATCCCGGGTCCAGATAGCTGGTACAATGCAAGGCCCGTTACTTC CAGATACGAGTTCGGACAATCCAACGATCATGCCGATTCGTCCAAAAACTACAGTTCCGCATCCATGA TGGCACATGGATCACACCCGCAATATGACCCGCCTGGTTTTCCTTACCCAGCACAGTCTTCTCAAGGT AATTTTAAACAAGGAAAGGAAGACATCCAAAATAATGAACCGGAATCCTATTCTGTGAAGTAA

>L42c601g9657_AGL61 ATGGAGGAAAAAAAGCGGCAGACTAGGAGGACGGAGATCAAGAAGATAGAGAAGAAGAGCGCGTGCGC CACGACCTTCACGAAGCGTCGTCAGGGGCTTTTCAGAAAAACTGAAAAGTTTTGCACTAGCTGCGGCG CCAACGCTGCTGTCGTGCTCTTCTCGCCACAACTGGGCAAGCCTTATTCGTACGGCCACCCTTCTGTA GACTCCGTCATGGCACAGTTTCTCAAGGATAACGACGAAGCTTCAACTAGTACTGCTAATTCATCATC TGCGTCACAGAACAATCGACAGGGTAATGGGGTTGACCTTCGTGAAACAGGTACTCCGGAGTCGAATG CTGAAGGCCGTGGAGTGCATGTTCCTGCGGATTGGTGGAATGAGTCTTTGGAGGGAATGGATTTGGAT GAGCTTAACCGATTCGAGGCTGCACTGCTCAAGTTGAAGAAGAACCTACTCTCTCAAATTGAAGAGAA GAAAAACAGGGAACGTCGTTTACAAGACTTCTTccagtaaccgtttggattatgtgaagaggatgatg agtggaacttgatgagtgttagggtttacaatcaacactattcttttagatattatgttagttctaga taatatgttttcactattgatatgcataatatcatatttattttacgtatatttattattattattat taattttagtaaggaaaactataacaaggaagaaatacagtatggtccatgaccggttaagcaagctt attggactgtgtaggaagcccataaaaagcccaactcttcctaattcgttatctcaagcccaaactcc caattaactttcccgtccttctttgctttcctgttcgtcctcttcactcgagcaaagaaaacccccat tttgcagCAGCTACCGCTCCGTCTTGGTCGCGCCATCTTCTGAGATCACCGCCGCCATTGAGAACTCA GACACAGTTTGGTTCgtcccgaaaccctctagcgccgttcccttgctctatcttagagcttgattgca tccagtattttggtctgcgcttgtgtgattcttctccttgactaatataattactttattgaaatgca tcttttatttcttcacttgctgctgttttcgaatgaagtgatactgttaaatagcttagaaaatgtgc ggatcgttattgttgtttgtctatgctaataggttcctcgaggtattagtcattttaggtatatgaac gcacacttggttgcttgttcaagtgttctatttgccgtgtgatatgttattttgtatgtgtttgttat gtgtcttcagAAACTTCAGGTGGTGAAGGGCAAGTCTCTCCAGTTTCTTGGATGGCCTCTTAATGTGG TTATAGCTTTCATTGCTAAGAATTTGATATTGCCACTTCGATATCTGTTGTTGACAGAAGCAAACTTC GATATCTGTTAA

>L42c733F-g11005_AGAMOUS4(P.edulis) ATGTCATCAGTTTCTGTGTTAATCAGCTACCGAAAAGCCATGGCTTACATTACTGAATCAAGGGAGGC GTCCCCGCAGAGGAAACTAGGAAGGGGTAAGGTTGAGATCAAGCGGATCGAAAACACCACCAATCGCC AAGTTACCTTCTGCAAAAGGCGCAATGGTCTGCTCAAGAAAGCCTATGAATTATCTGTTCTCTGTGAT GCTGAGGTGGCTCTCATCGTCTTCTCTACCCGTGGACGCCTATATGAGTATTCTAACAGTAGgtatat aaaaatctcccctacctttgcccctcttcctcttaatttctcaatttttcttttctacctgctcttct ccggtttgtgattaaagtttcttaaaggtgagaagctcttgtctttgtaggattcaaccttcttatgt tctgcgtttttatgctttagatttcctcccccatgtagatggaagattttccaattattattattttt ttttaaaaaaacccttcttcatacttttcaattttctaaaaagtacaaatcgaaggctggtgtcaaca tttttgcttctgcactaattctctgggtgagtttaaagtagaagaacataatcatccctaacgctctg tctagattgagtttttttgcgaccaaggtttccttaccttccttctctttttattcttcttctttttt cctcttatataagctttatctccttccccttttcttctttcgacatactagttattttcagttcttgc catgcgatgcatgtaaatgatagatctggtggaataaacagaagcaaaagcgttatacgatagtggta tggtcgaagaaacaagtataggtgctggaatgtataggaggcactatatcttctccattgctgctaaa tttcctattcccttcttctttccctcttttattatgagcctagcaatctctttcttttctgactctct ctttccactctgtgtaggcctgccctgaaagctgtcatcttcttattagcctaaactctcaaatctcc ttacaatatcaaggtgaaagaaaaaaaaagaaaagaaaaaaatttagggtttcaatcagttgatctga agccattcaatgagttcaaagaaatttacaaaagcttcttcgccaacccaatcatatctcaatcagat catcaacactcactccacagatcaggtttttccctaattcacacaagattttcccaaatctcagtttc tactcacatggggcagttggtaaaccatggtcaaaatgtaataaaactagggtttgtacgtaaacgca 131

attatataggtcgtcaaggagagaaataatgaaatctcactagcatcccagatagattgctgtttcat ttattcttttcctcttaaccttggtcagatgtgcagtaactggttagggtttaataaccagaccccag atgagacatggttgttgctgtgtgctgttttagcttaggaacagaatctttagtcacgtcacgcacga tttttcggtttattgactactgacaaaagggtttatgtcatgattccaggaactaaccctaaccttta gctccaaatggtgcaaaactgaaatacccaacattcccattttccttctaacttagatatctttcttc cttcctcggttaaattttttacagagcgtgagagaatgaagaaccaatgagaaacgctcaaccaatgt catcgtgatgccgttgttgggtatgctaggcttagctttgtgattgtttaagatcctgcgtagatata tttatgcaagtctctctctagagaaagtgaaaagttaatgcaagttctgttggcagacagacaacgta cgaccactgggcactgcccatccaatgggagagttctatcccaattttagcttctttcatccagcgga aacctacatactctagctgcttctattggacggctctgatgcactcagagtttcagtcatgaggcaga aaaatgagattgaataactttattatttccttcccttaccccagaatatcaagttcttgtgaaggatt cttaccctatctaggtgggcaataggctgtggtttaggggattatccttcgtgtaatggatattcgac acctggaagaggttcagatcgtggatttgtccaggccaatcatagtatagaaccctatgccagcgtgg cacagacatccaatcagtagctcgacgaagttaaggtatcaactaatccaaaaaagggtgtttgtcta ctgtgacaagaaaccttacattgttgcactgtttataattatggccaagttcactttatcaaacctgc aatttcatcacatcaggtctctctgtgactgagaggagtctctttctgactcatgtaaaataactggg attcggtcatccatcttgttttagggttttatggtcagttgaaaagagaggcttgatttgaccctttc ttatatggccgaccttaaaatcagtaaacctatacgactggttcaagtaactatgtcttgctttactg tgtagtggtacagatcatgcccatgaggtgatgtctacgaggataccaagagtaactataacatttcc tagtttagttcctcttaatttgttttggaagaaatctttcagatcccctctctacggtctttagaaac attttgtgcagaatatgcgaaatatattatatagaaacatcatatatttaacatcataagaagttgtt ccttaaaaagatgttatggataactatgcttcttctttttttctggaaattcatatcttggcagtaat attttgaagtaaaataaactatagattctgtgggaagaaaggtttaatctatagtgtttatagttgag tgtattataaggtttagttagtagcttaggcaaagtggtagctgaatttcaaggatgaatatatgatt cgatttggttagtttatctttgtttgattagttttagggcgttgttttgaatgcttttgaagaaaatt acgatcgagaacaattattgtcgttaatatatgaatatggacttactgatcattgCAGTGTCAAATCT ACAATTGAGAGGTATAAGAAGGCTTCTGCAGACACAAATACCACGGGTTCTGTTTCTGAGGCTAATGC TCAGgtacatgtataaaacaattctgtagctgtaaggtttggcttggaaatttacttcaacctttttt ccagaaaagcttgagaacttgctcctgttgcgcaatgcttgctgcgttttatttgtttatttattttg gacagaatcccagttaaaaaggtttcttttgcacttgactttatatgaattaggcatacatccaaatt atagtttatctgtaccttccgaattaagattccaaaattgaaagggccaaggatttggactgtggaaa atttatcttaaggtgttgaggaaatttctcaagcctatgcaagctttgaaaagctgtcttctgttcag aatattcaaagcaagactccaccattttgaattagagaattcctgtaggtgtaccataagaagttcaa tcttgttttgtcattagctcttttaatgtcaatgcccctttggattgtatttcagTTCTATCAGCAAG AAGCTGCCAAGCTTCGCCAGCAAATCAGCAATTTGCAGAATTCTAACAGgtaatcttcaatgatctta aacactattactaactgtaatttttctttgggagtcttctcttttatgtgatgatattagcagGAACA TGCTTGGTGAGTCGTTGAGTGGCCTGACAGCAAAAGACCTTAAGAATTTGGAGTCACGATTAGAGAAG GGAATAAGCAAGATTCGGTCCAAGAAGgtatctcttccgtttcctatactgtaaaatctccatatttc ctctatttatatcccttttgttcttttgctttgcaagtaacaagttttcctttttccttctttcgttt tcctatatatgttgttactccaaaactctgccagAATGAGCTGTTATTCGCAGAAATCGAGTATATGC AGAAGAGggtaagagcttatcatcatctatctatttctccttacttagctcttcccatctgttttact tgcgaggcatttggttgttcatggaatctttctgaaagttccattctgtggcactgtacttttcacta ctcattggtcgttgttgattctcttgaaatgaaaatgcactctgcagGAAATCGATCTGCACAATAAT AACCAGCTCCTCCGAGCAAAGgtgcctatctttctcttcttctctctgatctcttgacatttcctctc ctttttctttatcctgagtattcatgtttgacggcctagATTGCTGAAAATGAAAGGAAGAGGCAGAA CATGAATCTAATGCCAGGAGGGAGTAACTACGAGATGATGCAATCTCATCAGACATACGACTCTAGGA ACTATTCTCAAGTCAATGCACTGCCATCTAACAACCATTACGAGCATCAAGACCAGATGGCTCTTCAG TTGGTGTAA

>L42c915g12623_AGL19 ATGGTAAGAGGAAAGACTCAGATGAAGAGGATAGAGAATGCAACAAGCAGGCAAGTGACTTTTTCAAA GAGAAGAAATGGACTGCTTAAAAAAGCCTTCGAGTTATCGGTTCTTTGTGATGCTGAAGTTGCACTTA TCGTCTTCTCCACCAGAGGGAAGCTTTATGAGTTTTCCAGCTCCAGgtacgtacggttcttctgactt ttatcccaccaatataaatttctctatctagtctgttgcttttttatgaatcaccacccttgatatgc tattaattgtccgtctgattaaggtagcattgcttgctagctaccaaactatcagattggattaattg atcgattaaaaataaaataaaataaagccttactagtcttgaagactttcttgtaagcatcatcacct 132

tactgtgtcgaactaacgagcagtctagctagtacgaggagtacaaacaccaggtcaggcttcatctg tcattgccagatgcgtctgatctctcctacacctagctttcaaatcaatctaccttagtgatattctg ctgtagagtttttatcttctgttttccacaaccagattttgggtcctatcttctgtatactccacaag tttccatcaatgctctacctatataggaaaggagtgaatcacaacctacttaacctctgtgttcatga gtgtttccgctttggatctatatacagtggttgcttacttaataaagtaaagcagtcatatagatctt ccccatttagtgaatataaaaccataaataacggagtaggtttggttgctagtgtttctttgacgagc acaggcaatcatactctaacaaacaaatttggtattggaattccattaacatccgtaagggaaggaag taaagaaaaaacttggaatctgttatcttctgtaatctgggggtgggtcgactctgaggtagagatgg tactttgggttctttatcttatgtcgtttcctgggctttttatgtattttaagttacactccttctga aaagaaaccagctgctttctccaaggtgactttggtatactgtttaaaagtgttttgggttcttgatg ttagtgttaggtgtacttgcttgattcttgtccacataattgaacctgtaaaggaacattatttttaa tgcattatagcatccctataaactcggaagccacacacaaacacatgctcactgtaataactccattt cacgggcttgctaagaactactcaccacctgaatatcataatcctggggtcaagtaaaaggctagagc tagggggatcgactcagtcgaagtctccaggtgctattcatgtctggatagtgattagcagagacatt gacttacatttttttgttgattataaatttctgataaattcttggttgaaatctggagtcttcacgca ttctgaatagcgttcatgacatgtttctgacaacttgaagtctcaaacgttgaatcatgaaaccttat tattgtcctacccacaactaatctggccgaggtcaaaatattattgcagaagaactctatgaaccaca atatagcatatgataaacttactcataaaatcattatttattacaatgtattaaattacttcttagta aatcatcgatttgatggtgatcagtgaaaactatacatgtctctcgagggatattcattatattcaat taatgatgaatagttttaactctattaaagagaaaatatcagttttggggatgcttcaagctataaga ttaacattaagataattatcactaaactcaatactaatgagcaagattattaccgatgacaaaagagt aaaaaggaagaaaaagaagtttaaataaggttgaattagaaaaaaatttaggcatcatcttttttatc cttgtcagatgcaagtctagccttttcttgaactattaagatagaaattttactaatatactaaattt taccaaagcaaaacacaatttagaaataaacgaaataatttacccctcaaatagcttatgatacaata aaaaatattaattattattaaaaaaaaaatttccttgttttctttcttgccatacatgatatatgcaa aaacaccatacatttcaaagcagcaaagacgaaaattccttaatatgtttcattttatcaatctatct ttagtatgtagactgccttaagaagatgctcagtaaaaaaattatgatactgaatagaaaaggaatgc agtttatctgtgaataaaattataatggtgtaggaggttataatatataaaaaccctagatttttatg aattagatgatcaattaaatgtcacctagcacgttaatgttttaagcattttctcacaccccaaataa taccgtaagagaattttattccgtaaaattccaatttcgtgataatgttatttaagagtcagttgtag ttgtgaagttatttgtcctttcgtttgtgaaccatatggatgaaaagaccatatctaaaatgatcgac tctcttgtgaattcagaatccttggcttaatattctgatttttgaattttttattttccaatttgata agatatatatcaaaaagatcatgaccgatcgaatccactatacaaattaagattactacgtaacttta tttcaattgtggtgtttcccaccaaaatgatttttctatacagtaaactattttttccgtaatttttt ttttaacatagtgcgatgccatttgagctaggctctttgacaccaaaatgattgctgaagaactttga tgaagatttccttagcagtatctcttttgttttgaaaaatatttttgtttttgagaatttagggagtg ccttaaaattttctaaccatccagattcatctttaattggtgtttactatatagccaaatatattaat cattattattgatggtagatatactttactgtgaaaagaaaaaattaacttgtaaaggctagctagat tgaagtaagtcatcaggaaaaaaattaattatgattgatgagctttgctaattatcatcaatttgctc tttgtatcatttattctctttttttcccctctcttagTACAAGCAAGACTATAGAACGCTACCAGAGG AAATTCAGGGAACTAGTGAACAGTGGTAAAGCAGGTTCAGAAAACATGCAGgtacagccttttctgca catgttacttgattagaacatatatgtaattcttgaaaatcttgaaatgcttgcaaagagaatcactt atctgatcgaacattttcgttgtccatgaacaaaacagtagaactaaagtcattttgaacctttcatg aataaggttttggtagattcagaattctttctacgtactaaaattatagtgcttgattaattctcttt tcttgcttaattaaacaaattcattgtaatttgcagctaaaaaaaattaaacaaacttgccaggcatg tttttgaataatgttaccagcatctccaagtccaacgttgtcataatgatcaatgtaacgtaattaat ccatgaattttttaaaccatgaatagaagctttcacaactcataacgatggtctgtgttgattctgga cgtagCATGTGAAGGAAGATACATTTAGCATGGCAAAGAGGATCGAGCATCTTGAAGTTTCTAAACGg tccaatactttttaacttggaaactcgctgcaagagtgttttttttttcttctttctccatttttggt cgcgagatttgctattttttcgcaactatttagtcctgtaattttgatatttgcagAAAACTCTTGGG AGAGGGGTTAGAACCATGCTCTACTGATGAACTACAACAGTTAGAGAATCAGTTGGAGAAAAGCTTAA CCAGGATTAGGGCAAAAAAGgtatacatacccataccatgtttcactgatgaaaccaagatgaataat tcaaaattagtatctgtgtcgattatttccggaataatttagcctctgtgagtttgctgacagccttt aataaacccaattgcagACTCAACTATTAAGGGAGCAGATTGAGAAGCTAAAGCAAGAGgtaagcttt aattaggtaatgattatattatggtgatcgactgcatgtaatcttatgtattgaaatcttcatttttc ttaatacagGAGAGATTTTTATTGGAAGAAAACAAGAAGTTACGGGAGAAGgtaatttttttttctct 133

tttttgagttcaattcgatatcaatataataaaagtatagtatatcttgatagattcaaattctgata aacattcttaccccaaagtatgtagaatattgtttgtgcttcatcgtttttagtttggatttgggatg ttggattgttttaatgatttccttaatagTGTGGGATGGAACCACTGGAACAGTACTCAAGCAAGAGG CAAAAGACAGCAGTAGATAGAGATAGCATGCAAATTGACGTGGAGACAGAATTGTTTATAGGTCCCCC TGAGAGCCGAGTTGCCCAGAAGCTATAA

>L42c1065F-g13842_AGL12 ATGGCTCGTGGAAAGGTTCAGATGAAGCGAATTGAGAATACAGTGCACAGGCAGGTAACCTTCTGCAA GCGCCGATCAGGGCTCCTTAAGAAGGCTAAAGAGCTCTCTGTGCTGTGCGATGCTGAAATTGGAGTTG TCATTTTCTCCGCCCAGGGAAAGCTCTTTGAACTGGCCACCACAGGgtatggtatatatatatatata tatatatcatcttcctttctcttatttcctctttgcattgcaagtgtacatacgaagtttctgttacc accttcgttttttattgctgaagAACCATGCAAGGGCTTATGGAAAGGTACTTAAAGTCCTCCCGCGG AGCTCAGGCAGAGATTCCCAAAGAGACTTTGCCTCTGgtacgtcagaaaacccagtccattctttcaa tctttcatgagaacttttgttattgcaaatgagtcttagcttaatgaagtctcattccttcgtatcat aagatcttcaaactacggggattggaaggttcaggtttcgaattttttgtttttctgatgatgataat gggatcagGAAGCGAAGGAGGAGATCAACATGCTGAAGCTGGAAATTGAGGTCCTGCAAAAGGGACTC AGgtagatatatatatacatcatgattgatcagtttcagtgattatgcttgttcatctgcaaagcaaa tatatatacagtatatttctgatgtctgcagatacaaaatgaatatccaatttcctggctctttataa tgccatcaatacagGTACATGTTTGGAGGAGGAGCTGCAGAAATGAGCTTGGATGAGTTGCTAGTTCT TGAAAAGCAACTTGAGATGTGGATTTATCACATACGCTCTACCAAGgtgaagatctgtttcatacata aatctcatcgttatcgttctggttttgttgtattgtcggaattatcagaattgtcggaattgttgaaa ttgttagaaatatcaaaataaaattgaatttaagtataattttactgattctctatttaatggatacc tcatagATGGAAATTATGCTCAAGGAAATCCAGCTTCTGAAGAACAAGgttagtcccatagtttattt catccataatatttttactttaatgtcaaatatttaattgtatcttttttaatttagttttatttaat tttttaataaattttcagcattagaattattattaaaaatagataactaatatagatataaaggaaca gttaaaaataaaataatataagtaatttcaaaataatttattatttatgtaatacaaataattactga tattattaaaatcatttaataattataatcgtgaactaaatttaatataaaaattatattatctttat agtaagatactgctcttgagttattaatttccaccttaagtttaataaaccttaggatatacaacatt tcattccaatcaattaacattttaataatccaaattagattaattgatccatgatccttgggtttttg tgtagGAAGGAGTATTACAGGCTGCAAACCAATATCTCCAAGACAAGgtgaaaaaaaaacagtataat tcacgtaggattatatgatttttcctgaaactattcctcaatttgaatagaacccttttttttttctt ctgcagGTAGAGGAGAACTTTCAGATTACTGACTTTGGATCAATAGCTGCCATGTGCAGGCCATGCCC TCTAACCATACAGAATGAAATATTTCAATTTTAG

>L42c4622g29539+g29541_AGL42 ou SOC1 ATGGTGAGAGGGAAGATTCAAATGAGGAGGATCGAAAATGATACGAGCAGGCAAGTGACCTTTTCCAA GCGCAGAAATGGGCTATTGAAGAAGGCTTGCGAGCTCTCAGTTCTTTGTGATGCCGAAGTTGCAGTTA TCGTCTTTTCGCAGAGGGGAAGACTCTACGAGTTTGCAAGCAACGAGTACGTTTCTTACTCTATAAAA TATAAACCATTCGTTTGCTTTGAAATATTTAGCCTTTTTTCTCCAAAAGCTGCTATTGATCATGCTCC TGAAAAGCAAtaaagtttgggattgctttggttgaggcatagtgcaatcatgtaatctgcgtgtatct agacaatcaatatgatgttttattgtactgcatagattcttaacatgatcctcaaagatatcttcagt tatttatttattgtccatgtaccctttcttttttcgtactatatcctacattttgtaggcttctttgc cataccataccagagaataaacatttttccagggaaacatactttatctgcgggttgcgtcatttgat tctattctatgtattggaagagttaaaaaataattcattttgattccctttttatctagtgcaagttc aatttcgtgctgggcttgttgcacaaccagtctcttcaagcttcaactgcatttttaattctacgttt ggtataaatctctagtcagtgcttactttttgaggcattccatctcccctctagggcatagagaattc ctgaaacaacgacacagcttctgatttgtttaagaagccgggaactagtaacttcattttaatataga aaagttgaagttcatcgttgcaaaaatcatcatcaattcatgtcatacttcttgttggagtttagatt ttatgcattgatctcaagataaaatatacattttcagttgatgcattcatcgaaatcatagcaacagg agtgatatatagtttgagggttctacactttattagctatgacgaaagtcagagatcagtgttcaatt gtcacttcaagctctaaagaagccaagatttaggtattaaactttagacccgattgattctgactgcc atgaacacacaaaccttcccagcacatccactcttcaggcttgataagcatggttaaggaattgtttt attggatgtgcgagtgcattcgaaaacattaatctttggtctgacctgagctctatgtgtatatattc aatacatggttccaagggattggcagatgtgctagttcggtgtcatgattttttttttcaatctttga 134

ttaaaacttttaggtagagtttctaatatttaattctcatagctaacatgtgattgatatccagcaaa gcaaaatgatcattttcgtatctattaatgcaactgtatatgtaattatgacttttgagggatcgatg cttcagcgtgcagaagacaatagatcgttaccgccaacacgtgggaatagaagcggacaggagtggtc cggagctgtatctgcaggttagacgtttatctctgatattacatgtatatacgagattgagctcaatt taactatacaagaataacaaggaaaacctaagataattaattgtaatagtattcgtatttaataaata caataaagtaaatacaataaagtaaatacaataatcctgatgattttttcttttaaaactccccctta atatgaaatttgtagatcttatatacccattttggaagttaaatatctgaattgatcttgtctgagtg tttttgtgaataagtcagccaattgtctgagtgttttacgttgagggaaaaatgcctctataaaatcc tccccctagaaatgtgagtaaccttctgccactaagcaagttttatatctctcaatagagccatctac cttatatttaaatgggcttgattttcgtgaggagaagtaatagaaccaggagaaatcaaataatttgc tgttgattttcaattaatgtcttaggtagagataagtggctaatagaaataggatcattgacttcaag attatttccatataggccactatcgagagaatttgttgtagatttcctaaaaaaatcagaatctttat tataagcatgatcaaacaaaactaaagaatctgtagtttgcattgaagatgacaaaggagctatcaca tcaaccatggaaatattatccctgaaaggaaacaaagactcataaaaaatcacatttcgggaaacaaa aatctttagtgtctcaagatcataaactcaccatcctttttttttctagtgggtatccaagaaagata tagcgagaagatcgtgccttaaatttatctctgatttgatcatgtctatctgtgtaacaaagacaacc aaacatatgtagatgagagtaggtctgagacttgccaaatactatctcacaaggtgtcttccaaccaa gaacataattcgaggttcgatggatgtcctaaatgttgatgccaaacttcattcccaacagtagttgc acaagtagttgttatgccattcattgacttctgtaagtaatatatcccagattgtaatatactcatac taattgttctcttcgtgactgggtcttctataatgcaagagacagaatcatatatcactataaaagca tgaagtcgagtgagttgttgtacataaataaggctacatttgaaatttgggatatataagatattttt aagtaccaaatctttggaaaacaacacatctcttgcacatgactagcaccactatcaataatccagta agtaaatataatcttaccacacatatattctgtcgcatctacatcatcaggttgtttggtcattattt tgaagtgcacgttgccatcattaggccttgaatatgcatgagaagagactgtagatcgagcagcaaga gcatgtccgtcattatacaccttggattcatcttgctcaatacctacttgattagcaaagcccttgtc ttttgcacttattttttacttattccaagtcaacttaccttgatttttatcaaatggtcaaccatgga agagccagcaacgtgattttttgtgtccaagatcaccacaatggtcacaacaatgcaatcttttcttc taaactttggcataactaccattgccgcaataacctttattacattgtcttgattgactgagactact tgactctccttttgaaggatactaccaagaacattgtcaatacttggcatcggatctgtattgagtat ttgagatctgaccacaccaaaatgttgattgtccaatcccattaaaaattggaaaatattgtcttcct ccctctgcttctgtatgtcaaccccatttgtaaaattcatgagctcatcccacttcccttgaagtata tcaaaataattgatcactgtcatggtgccctattacaaagattgcaactctctcttcaactagtaaat acgcggtgcattcttctttgcttatcttttctttaagatatcaaacatatcttgagaagacgttgcat aaataatagtgtcccgaatctttgagtctatagacgccaagatctatctcattaaataagaatcgcaa cgatcccagatctctaccattgcaggctcctatctggatttttggatggtaccattcacaaaacccat cttcaattttcccttgagagctctaataagagccatctcccatgcattgaagttgtcacctgtcaaga tcacagaactgatagctatgtttggattatcagaactagagataaaaaaaagtgaggatgggtttgaa attgacaatatattcgtcatggtactttgattagtatcagttgaagaggaatcaacaagatttgctat tgttttcttttgaacatgctctattaccatataaaagattatggagaagagaatgacgggaagcaaga aagaacaaaatattttgagcaagctaacgttgcatatataaggctgccaatgtatattacttatataa gaataacaaaagaaaacctaacacaactaattataatagtatcgtatctaataaatacaatgaagtaa ataaaataattctgataatttctatcttttaacacaatgcattgaagattgggttagataataaatca tccaattttgagacaaagaacataaaatattactaagcaagaacaagagctagtgtattcagtacctc cttgtatacatgtaaggtggccagtagagtaaataatgaatctggttaattgcgtatttgttgttaat ttttagtatttatttaaaagttaatatgtctaaaccttttctgtggagcactaatcaaagggtttggt ttttttttttaagaaaatcgagattgtattgataaaagcttctcaatacacatgaagaggagcaaaga tatttgctcgatcttcacaaaatgaaaattagggatactttctacataacagaaaggatttgagattt tcaaatcagctaacgctgtaataaaaaaactaaattgctagtcgagagtaattgcatctcatttaccc atatttcgttcacgtttagtctagtccaactacaaccgtgaattaatccttccaggaatagatcctgc acagtcttgtttccttgtctaaacacccgatcatttcttcccagccagatgctccacgttgtgtcaaa taaaatcacaaaccataattcttgtcatctctttggtaccccgaatcccgcccattgtacaaacaaat ctgatatggtcttaggttgtacccagcagaatccccactttttcatcactaaagatcaacaactccaa gcaatcttgcaatccagaaggatatgatttgaattatcctctatctccccatagaaggcacatcgact ctccttagaatcaatcatacctatctgtattagaaagcctcttgagggtatttttcctaagcaggcaa gccacataaacgctttccactttggggctgtagatctgcttcagacatttgggatacaggccattgga atagggaaaaaagcctcttccaacgtatcataacatctcttggttgagaataactccatatcattgcc 135

ccaaactacgctttcctccacccattcaccaagcctaatcccattaattctcacccattctcttggtt gagaattaattaagaccatgaggtgttcagcatcgattatctcccaagaataaaacctccgcctccac cttaagtcccaattctttactccatcattaaatagtcttgccgccagtaccgttgcttccttttgcga tgaaatctgatacaacctcggaaaaatcactgaaagtggaactgccccgcaccataaaccatgttaaa agataattttgttaccgcatccaatcttccagcggaacatcaaagtcacactcgacctagagggcaca accaatgagcaattcctgataatatccttccacatggtaaagctaaaggagatctcgcactgcaaacc ggacatcacaaaggtaggccgatatttcaacaatacaacttgcttccaaagactctttgaatcatcta agatttttcacgtccatttcgtaagcaaggcaatatttttcagctttaggtttccgataccagctcca ccccactcttttcttaagcaaacgagctcccaacgaaccttacttatgcctctcttatcagcgctccc tgtgcagaaaaattgcctagtccacttcttcaattccgtcctcaccccagtaggcatcttgaaggaca tataatacacaggcaagctatttaagactgttttgaccaaaagaagtcttctgccaagagacaaatat gatcttttccatgtagcaagtttgtttttgaatctcatcactagattgcgctacgtacttttgagtct tggattagcgccaattgggatgcccaaatacataaatgagggttcctgggaaagataatgtaacacgt cttttgtatcttccacttcttgctttctcacgttaacccctatcaaagctgacttatggaaattaacc ttgagtcccgatagaagttcaaagatcctaagaatcctctgaaaattgcgcaatcctagcctttcctc ttctgctaaaagatttacattatctgcatattgaagatgggttagatgtaattgcccaattgtaatac ctcgaacaagctatctctcagccgcctttgagatcattcttgatagtgcttctcccactagattgaag aataacggggaaagaggatcccctgctacagttgtgagacccagcccgtaggggggtcaagttaccca atcccacatcggaaagaagcgggggaggtcttgggcttatatgtgttgtgtgagtggatcatttgtaa caagatttatcttttgggccatgtggttagaagccgactcagtgttgcagttgtgatccatcacacgc acatagacgtccgggcccgtcgggccgaagctcgttgggccgggtcgtgacaattggtagcggagcag atctcgttccctcttccaggtgggcttgggctgtgttgtgtgttcatgtttgggcacgtgagtttggg cccaagacagttatgtttggctcccctcgtgaggacacgaggtctataaggaggggagattgtgagac ccagcccgtagagtggtcaagttacccaatcccacatcggaaaggagcgggagaggtcttgagtttat atgtgttgtgtgagtggatcatttgtaacaagatgcatttttgggccatgtggttagaagtcctactt agtgttgcagttgtgatccatcacacacacatacacgtttgggcccaccgggccgaagctcgttgggc cgggtcgtgagagcagtcctcttcaaattcttctgttggggctccattattaaggatagccacccttg ccgaggacacacaactatggatccatctcctccacctccatccaaagcccatcgcttccattacttct atgaggaagtcccgccttcttgaagtctagcttaaagatccagcccttgcaccttaacttcttcatga tgtggagaatttcatttgccaccataattgaatctgaaatatatctaccttctatcaatcttgtctac gaaggagaaatgagattagacaccattttttttaacctctttgttagaattttggcaataatcttgta catgctataaatcaaacaaattggcctaaaggagttgaaatcggatagaccttgccctttggggataa gggcagaaaatccattgttgatccctttaggtagagacccgctggaatggaattgttgcaccaatgta actatgtccactccgaccacatctcatgcctttttcaaaaaaaaaaattgaacccatctgggcttggg gcttttccactgttcgactcccaaacagcctgtttaatctcctctgataaaaacggttgttcaagcat attcgcttcatcacccaatattcggttgagatccaaagatcccaatccaagccactggctctccctcc tttggaaaattcctttaaaatattgaaccgtagcctcttttatttccttaggtagagaacgatcttgc ccattaacacaaatattcccattaatttcccacttttccaactaaagccctctatactttgcttctgc atcagcactaacctcggagctggcattccggtagctatccattaaatctagctcggcaagcacttcct tcagttttgcctcctaattcccaaaggattccttatgccactgttgaagttttttcctaaggaagctt aattttttcaccacgcaaaaggctctcgaataactctgaccagcttcgtcccacatctcctgcacagt cttcttaaaactttggtgtcccaccaagcatcccaaattcggaatggtttcagtccccgaaagaggga gtccgttttaaggatcaatggtacgtgattagagaatcttttgtctcctgcatataacttatgatata cctaaattttggactaactggaccatcataattagtatttgagataaaataaaaagaattttatcaac tttttaatttcaaaagaaaaaaggtttggtatagctcttaattgaattaatgtcattttgcttataaa catttcctattttcttatatataaaaaatttaatcccattaatgtttaaagtgaagcttgaaaatgtg aatttgcctatgatttgagaacaattgacacaataccgatccagttacatgtttttttaactttgttt tctcataagatcaagcatgcatcttgtcgaaatgtgaatattttgtccctccatcgtcttcctcattc tgcttcatgcatgatagactggatgatcttgacatgtgtactcttgctattatttgatactaactcct gtaagtttccacgttgtgattttgatATGCAGCAACTAAAGCATGAATCAGTAACCATGGCTCATACG ATTGAACTCCTGAAAACTTCACAAAGgtgcaaacctatttttctctagaatggtgttgcgctcttgct aatgctcttaagcgtaaaaaaatatggttttcagtgatacaaatttattgctatcagttcttatggaa gtgattttaagaatgagagtgtctattgcacaaatgtttaccgatgattgtgtgaaacgaatgtgatt ataatttattttttcttgaaatttaactgtgtgatgtgattataacttgtgattttgggtggctcagG AAATTTATGGGACTATGTTTAGATACAAGTTCTGTTGAGCAACTCCAAGAGATTGCCAACCAGCTTGA CAGAAGTTTAAGCACTGTCAGGGCAAGGAAGgtaagctttgtaattgagacagctatgactaaatggg 136

atcccaggagctttgtcagcccgtacaaactttgcatgtttcattctctccatgtgttaattcagGAT CAAATGCTCCAGGAGCAGATAGATCAACTTAAAGCAAGGgtatacttctgtcatagagtctttgatat ctagatgtcaagatgaatgcattcacattctaagcaaaaaagaagaagaaaagataccaaatcaattc agctctaagacagtttgattggaagtttctaaatgatgtttctcaataatatttcagGAAATAGAGCT ATTCGAAGAAAATGCAAGGTTATCTGAAAAGgtgacaaaattttctactattttcttctccttcttat cccttttttcagccgtttcaattctaaacctaaaattatgcatattggatgtcaaaatggtgctacgg gttgcgttagtgtgaccctctttttgcaatgataccatcattctttgctttattttctccatgctcaa cctatgaaatttgcaatctattcaagctaaaatttagtcttaattatatataatgattattgattaat cccaaatgaccaaacgttcttaaccacaccaaacgcccatagtgttttgtagtagccgtgtttttcct tatccctgatgacaattcatgctggtcagcttttgggaatcctccagttggattcttgttttggttat taatgaaaagggactgtttgattgaaatttttactgtaaaaattttcctatttggttattttcacaga tgaatgtgagcatctcagcctggagataacattagatttctatgagatttagttcctttttcttattt tacctattactattacatgaccattttgctgatcactgtcatgcctgtgatatttagTGTGGGGTAGA GCCATGTTCACAGTCAGCTGCATGTAAAGAAGGTCTTACATACTTAAGCCTGACTGGTGATCGTGCAG AGGTGGAGACTGAATTGTTCATCGGGCTATCCCAAATGCGCGATAGCAGTTAA

>L42c5042F-g30691_FLC ATGGGGAGGAAGAAGTTGGAGCTGAAACTGATTGAGAACAAGAGCAGACGGCGAGTGACTTTCTCCAA GAGGCGTCATGGACTGATCAAAAAGGCGCAAGAGCTTTCGGTTCTTTGTGATGCACAAGTGGCTCTCC TTATCTCCTCCAGCCTCGGCAAGCGCTATCAGTTCGCCAGCtccgagtacgtacatactcctcgccgt ttctctgcatttcatttccttctctacgaccctcaaaatttagattttcacttccattcgattcatta gcgttaagaactaaaacaggtggaagccaattgcagttaacttacaattaaatcagtgactgtaaatt catgagaatttagggtttcttatatttcctcgtatgtaattcatgaaaaaatactgtaaaataaacct tatccctcttacacttaaatactgtaaaatactgtacattatttcacagttactcatggttttaaaga tattgactaacatattaacaaatcataaaaattctctacttttttatgctaaaactaagctaaaatat ttattttttcttttatcttagttcagaactatattttatattagtttttctccttagattattttatt agatacctcatactaaattttatctatttagtgtgtatctctaaatatctccatgcaaatctcaaatt tgagttgggtttccatatatgtatgtaatttcttcaatgctttcataaatataagtttctttcatcct tagaaatgaaatattttatacttttatagtttaaagaaatttttgttgttcattttcaaaattcAGTT TGGCTACTATTCTTGCTCGTTATAACAATCATGTTGAAGACAAAGCTCCAACTTCAATAGATGTCAAT AATAAGgaggtaagtaaatattaatttctaaagcattatgtcttcaaattcatgaaaaatacacttat ttgatatgccattcactttcggatattcttttaattggctgagttcattgacatgctctgtcaaaagt aaaattctaagtttttctaccactcttttccagACATCGGATAGTATGCATACGAATTCGAAATCACC ATCTCAGCTACTCCAAACAGTTCATAGgtaaaatttgtattatctctctctatatttcatgagatttg gtattgaaactagtttttccctaagtattgcttttctccacagGAATATCGAGAGTATAGACATTGAG CACCTGAAAATGAGTGAACTCACGCAACTTGAAGAACATCTGTTAGTCCTACTATCGAAAATCCGAAA TAGAAAGgttttttattttttatttctgaatttcatgagatatcctatgaatagaaattttcttttaa tgccactaatttgtactgaaaaccttctatttacagtcaattgcatcggtttagatactgattagtac tctatgttttcgttcattattaggatattttatcgtctatttcaatttaccttgatgagatagactta aaaaggttagcattctaacccattaatttttttgcagATGACGCTCACGCTGGAGTATCTGAAACCCA TTAATGATAAGgtaagtttgtgatcgggattggaaatgtctcttattttatagaaataagcattacta gtgaagattttttggccttactaacattgcagAGATTGATTTGCTTCAAACAGGAGAGATTTACGAGG CAAGAAAATGAGATTATTGAGAAAGAGgtaatgttgattattttgggttaacttgacagagcagacta tatcattttgatagaattttcacatgcagATTTCATCATCGAAGAATCGTAATGTTGCGGATGATGAT GACACGATGgtgatagggtttaatagaatatcaaatcattttatataccgtcctcaggcaacactgta tctgctgaaataatagtattgaagttagcaatgtatagaggactacaagtctttctaaactgagcgac aggcaagatttaccttttaagtggctctcaaacaaatgcatgcatctatctatgggcaacactattaa tataagaatgtctattatcatgtttttttttagaaaagttacgatgtattaggaaagtttgaaaggct gagataggcttatacaaaagcaaccagcaaagagcaaaaattacttgaaaacacaaattaaaattttt ttcactttctgtccaagttttctgtgaccagaaaagcgtctaaagaaactaaaaaacttcttcacaac gttagtattttttttcaataatatatatcagggttgtttctaataaatatattttttatatttctctt ttgtaagatcaaatacagcatcccgacataatatacgataaattattgcgccaatactatattagcac ttgtatctcgagtgtaacattcccttccaaaacatttagaattatcagctcgaattcgggagaagaac ctactgtagtgaggtttgtatatcaagttgtttcaaagcttgtacgggcatgggcatctcattgtcgg agggggagggataaattttctctcccccttttctctctctcccgcgaaccttgactatctcctaaatt gcacccatacaggaagaaagatcatgggggggagattagtaattttcttacttttataaaataaatac 137

atcaatctctaacataatcatgccgggatatgatttgagcccacgtcagtggcgcttccccgctaaac tctagctcgcttacacgcgccactctatcaagtggagatagtaattccaaatttttagtaaaaagcgc aataatcgtaaaaaagcgaaccaattttcttatccctttaatgtagtgtggtctatatatatatatat atatatagtaatcatacgtcatcatcatctacagatagagacatccatagatacttgaaaattacaag caaagcaagctatgtaagcaagaaactctaggaagtagtaggtacggcactggcagaaaaacaatctt gacggtgatgccctcttctttcaattgctcctccacttcctggtcttttgtcagtctatacaatcaat ctgatcacaatataagaagccatattatttattccaactagagacttctactcgagggaagtagaacg gagcctcttttccaacaaagcagcatcattttatatccacttgccttaccttggcaaactaaaagaaa cccagaattttatttccaaagatttctcgagatttgttcagtgcttgggattttccttttcttttcat agttgaataacataagcgggaaattaagGAGAGAGATGATGGGAACGGAAATAGGACATCAGCAAGAT CAAAGAGAGCGTCAGGATCAGCACTCGTCGAGGATTTTCGGCGAGCTGTCTGCGCTGGTTTTGAGTAT CCTGCGTTCGCCTCCTTCGACGATTCAGTTATCGGATCATACTTCAGCGGCCACGTCGATGAGGATGA GGAGGAGGAGGAGGAGGTCAATGGTGGGAGAATCCGAGATGACTCTGGCGGGGTTTACATCGTTGCTG CTTGGAATATCGTTGACTCTGATGCTATGTGGATCGGTGACTTTCTTTATAGGGTTTTTCTTGATGCC TTGGGTTATAGTTTTGTTTATGGTGTTTTATGTGGCTGGTGTTGTTTATACGATTTCCACGTTGGGTC GGTCCCTGCTCTGTTATGCATTGCCACAGCCTCCCTCTCCTCCGCCGAAGGAGGTTCCAGGTAA

>L42c5234g31183_AGL104 ATGGGAAGAGTTAAGATTCAAATCAAGAGGATAGAGAATACAACTAACAGGCAGGTCACTTTCTCTAA AAGAAGAAATGGACTTATCAAGAAAACTTACGAACTGTCAGTACTCTGCGATATCGATGTGGCTCTTA TCATGTTTTCTCCCTCTGGAAGAGTCAGCCTCTTCTCTGGAAACAAAAGgtttgttagttaaaaccca cgagcacgtattcaggttgacaagctttaatcaagtagtaatcttcgctatttggggttgattttttt ttcttttgttaatgattccgatttctaccttattccctgatagcatcgaggagattctggcacggtat ttgaatcttcccgatcatgaacgaggatGgtaagcagactgagtcgtcgagttttctactctatgttc atgaatgtaattattcttgagctttcttgacatatggacccttatgttctgatgtttgcatgcatctc gttgactgtgcaatcccaaagGCTGCCTAATCAGGAGgtaagaactcaccagtcagctccaaccctac ttctctgtggctaattcgcttactgaattactaactccttttaagtttcttagaagagctctcggcgg tgatcgaaataatcgagtagccaggtttctctcctcgtctgagaactcgctgttatctcgatcctaat tcgagtaatagtttgcctgcttctcgtttctaatttgttttcgttaatttcaacaagtgattcaagca gccttcccgactctgacccccaattggaggtaattctgagtgatatatatctagttaaattttatttt gtctgtatcagcatcgtgggtactttgtctttgattaggagtttaagacggaaattgccagattgaag tccctgatacaagatatggtgaaacaatttatgttaatatattagtcaagactttttatgcatataag ttggatacaactgaaaatttcaccgatttaagatcattaaaatccgattactgtccagggtatttcac gggaacttttcccacatcacaaccgcggatgaggctgagcatcaagaacggatccttgagtaggcttt gaagcgagtgcgtgggcacaaggtgagatgttactgaacatatactacaatgttattttctttttatc aaaaaatgcttcaaactagtttttcttaaaattattaaaaccatggtttgacagCAAGTTTTGGAGAA GAACAGCTCTCCTCCTGCACCACCAGCTGCTTCACAGgtatgtaactcggaacatattttataacatc atgaagcggacatgcattaagataaagtagctggaagctagagtgtggaagcattgcagaggggtttc taatcctttctgttggcaatgcatttagTTAAATCCATCTCCAGAAACAGAGCATACAAATGGTATTG GCGCAgaaagtacaaataataactcacatcttcaaatattaaatgttttggactccaatggccttctt ccctcgaggtgtgtagcaatatcggactcaaaaaaacagaattagtttataatttacaaaacctgagg ttaccggaagaagggagctccacacatcgttatagcctgagtttttttgtcttaattcttgatggcat cgttcgttaggaataattgaactgttctctctgttcttttcaGAGACCAGACAGCCTGTTGCTCAAAT CCTAACTCCACCTTCAGCTCTGCTGGATGGCCGAGGTTTGGCGGACGACAACGATGAGCAACATGCAC AGCGTGGATATATGACCAATGTCAACTTGTTCCCCTGGACTGAAATTTATCCTACAGgtaaaagtatt tcattattttacagtaaatatttgatatttccgggttttttttccttttcaaacggtaatattgaata agtaccgtcccttttcataaaagGTGACATGCATTATAATATGTCAGGTGATTCTTAA

>L42c6007F-g32961_AGL8 ATGGAGCTCATAAGCAATGAGAGATCTCGTATGGTGACCTATCAGAAGAGAACGAGAGGCCTGATAAA GAAGATGGAAGAGTTCCATATTTTGTGCGACGTAGATGCCTGTTTGATCATCATAGGTCCAAAGTCCA ACCATCAACCTGCTGGTTTAGTGACTTGGCCTACCGATAGCGATGAAATGATGCGCATAATAAACAGA TACAGGGAAGAGGGATCTAGAGATACACGTGTGAAAAAGACGCAGGACCTGTCTGATTACTTTGCTAC ACGCAAAAGGAAACTTGTTCATGAGATTGCTGGAGTCCGCAAGGCAAGCATGGAAGCAAAGTTCCCCA TATGGTCCGATCGTTTGAATCTTCTGTCGTTTCAGCAACTCAAGGCACTTGACTCTGTTCTTGACAAC AAACTTGAGTTCGCAAAAAGGAGGGTTTTAGAAATGGGAGGGAAAGCATGTATGAGGGAAGGTGATCC 138

CCTGTCAGGGAGTGAAGGAGGTGGACATCTTCTCCCTCATTTGGGGGTTACACCCTCAAAATATGTCG ATCCTTTTTACCAGAAGATGATGGAGTTGAAGCCCGTTGACGTGGAATTCAAGGAACTTGACAGGCAA CCCATGGCTTATCCGTATCACCAGATGGTTCCGTTAAATTTTAATCTTACTCCCGCCTTAAATACGCT AATGATGAAAGTGAATGGTGCAGATCCCGCGCAATCTGCTGGCATGATTGCCAGTAGCAGCAACAATA TTCCTTTCTCATACTCTCCAGTTAGCGATTCGGCTTGTTATCATCCCATTGCTCCCACGGTGGAGAAT GAGACATTCTTCAACTTTTCCCGTGCATACACTCCTGTAAGCTACAGTGGTCAGCCGAGCCAACCATC GCTTCCCTACCTTCAGTCTCCTATGATGTTCAATTTCTCTCCTCAAAATGGTATCACTCAATTTGACG ATTTTTCTGATTTAAAAGGATTTGGAATGCACAAGGGTGAAGGCAACTTTTAG

>L42c1065g13848_AGL11 ATGGGGAGAGGAAAGATCGAGATCAAGAGGATTGAGAACACCACAAATCGTCAGGTTACCTTCTGCAA GAGGAGGAATGGACTCTTGAAGAAAGCTTATGAATTATCAGTTCTTTGCGATGCTGAAGTTGCCCTCA TAGTCTTCTCTAGCCGTGGACGCCTTTATGAATACTCCAACAACAAgtaaaattcttatgagtttcct cccttgatctttggatcttgctaattttctttcttgaaaaaaaaaagagaggcctttttcttgctatc atatgaagatactttatttctgcctgcactgacaggaagaaaaaagggacagtgcaggtgtgaatctg ctgcctgcagtcacttcagttgaaatagcttggatcatatcattatacccttcactgaaacgatcttc tctttggatgtatcttatgtttaacatatatagtcttaacatgagaaatgttggatcttatgtgaaga tttaagaaaggttaaggcttttaatttttcaaaattcctatgttgactgctactgatctgctcagtac catatcttaacaagatgtgcaatgccagtgaaacaatatgtcagttccttgaaccttaaggatgatag ggttggggagtagacatataaaaaccatagatgtacaaaagtagacatattctttgtgattcattcat ctgtaggatgcctaaagagcagaaactgttggatgcatatatcttgtagacaggccaaatgggttcta aaacagaagcagcagcgcagtactcgtttaccatggtcctactcctatgtttttcccctctggtgtag cagttttacttgtggggatttatattctgacttctagtgttttgtggattctctcagttctaatggtc ttccatttccacttttagcctttgaaagacttattcttctcttctgtcttcatttacagcaattccaa tgttaccttcttttgagtttcatgtactctgggaatgaatgaaagaagatgcatggctatgggccctt tactgtcactcaactttctgaacgcgtgatgattagactgaggccttaaagtaaaaaagaaataatag atttttttctggatggaactgatcattcaggaaccaaatttttacataaaataataggatggaggcat cctgaagaacacagaaattaatcaattgtcctctacctttgaaagtcttttttctgtgtggtttatta tatgttaacagggcattgaaccttgttctggttcttatcccagCAGCATCAAAACAACCATAGAGAGG TACAAGAAGGCTAGTTCAGATAGTGCAAATGCAAATACTGTCACAGAAATCAATGCCCAGgtcagctt ttgtatcctgcttttctgaatatgaagagcaatgacagtatcaactggtgtttgagatggaaagcaac aaatgagtttcatggaatctgacagagatggatgtaagaaatacttactaactaagtacatgtgattt catcacagTATTACCAACAAGAATCAGCAAAGCTTCGGCAACAGATTCAAATGCTGCAGAATTCAAAC AGgtttctgtgtttctttcctcttcctcattcttgtttcaaactgaagctgaaaacttataaatatag aaactaatggttggtttgatcgtccatctttttcttttctgtggcttgcaataagttaaatggtatcc tgaaaattgattctactagctgctgtcatcctagacaccacatagttaggaggcagtactattgctag ttgacactataattcccttgtctacttcgtagGCACTTGATGGGTGATTCCTTGAGTTCTTTAACCGT GAAAGAGCTGAAGCAGCTTGAAAATAGGCTCGAGCGAGGCATCACTAGAATCAGGTCAAAGAAGgtaa gatattttagaaacgggacgtgcctgcatttactgaagttctgataatttgtagaagaaaatttctca agtttttcctgatgcaagtcttttaagaactttggtgatatgtgcttgcaagacctgcttatgtgtca agtaaaagagttatttctgtcatagcaactgctattgccatgcatgtctagaagaatactggagggtt agccctaatcctgcaaacctgtgaagtatatccatccttaaattgccccattatgactgtatgtaaga taatcaaaagcaaagaatgtaatatgcatcttccatggggaaatgattgaaattaataacttgaataa gaattatgatctttcaatattcgaatcctaagaattggattcgacctatatcgttagtagaatatcca tcttaatcttgaagatatgaacacaacagacgttcatacttgtgttgttagtagggtgctcatcttca tacctgattccatgaatgttgttctattctgcatattttcatgtgaagggtgtagaactagctcttgt attcttcctgtattctttctttgatacaggaatgttgatatagtatctcgcaggtcattttttgacat acctgatctgaattgaacctaacagtttcttgtctattgcaacagCATGAACTGCTGCTTGCTGAGAT TGAGTTTCTACAGAAAAGGgtaaattcctgcatttttctcttgtttcacctccattttcaggtatttc ttttggtccacaagataaaatccttgattccaaccttttcttgtagGAGATTGAGCTGGAAAATGAAA GTGTGTGCATTCGGACAAAGgtagtttaaccatattaattccttatctagtttacattttaccttatc gacgagtatttggctcaatgacatcttctggtatcaagggataaaacgttctaagttggatccaggtg ttaaaggcagggtattgggtagaatcgttatataaaaaaaagaaaatattaactatgcttcttctgat ggcaaactcaaaccttcatcgtgtgaaccttcagATAGCAGAAGTGGAGAGGCTGCAGCAAGCAAATA TGGTTACTGGTGCTGAGTTAAATGCAATCCATGCTTTAGCTTCTCGCAATTTCTTTAGCCCTCAAATG ATGGAGGGTGGAAACTCATATTCACAGCCTGACAAGAAGATGCTTCATCTTGGGTAA 139

>L42c2945F-g24062_AGL104 ATGAGAAAGAACTGCTTAAGCTGTCGAGAACGAAACAACTTCGTCAAAAGAAGATCAACTCTTCTGAA AAAAGCTGGGGAGCTTGCTACACTGAGTGGGGCTAAGGTGTGTTTGGTCAGTTATGATGATGACGGAG AGCTTCATACATGGCCAGAGAACCGAACCGAGGCTGCTAATATTATCTCGGAATACATGAATAATAGA TATGATATGGATGGTACACGCACACGAAAGCTAGACCTCTGTGGTTTCTTGGCGGCAAAAAAGAAGAA AGTTGAAGCGAAGGAGGTCCGGGCATTGAATAGCAGGATTGACATAGTCGCCTCGCAAACAAAAGACA AGATGGACATATTCAGTGCCGTGTTGAGGATTTGTACGGATAATATGCCACAGGAATCGCTGACAGAA CTGGCTAGTTTCTATAAGAGCACGGTGAAGAGTTTGATCGATAGAATAAAGTTTGTCAAAGACAAGAA GCTAAAAGAGACACCCAAGAAGGATGACCAGGAGGTACTTTACTCATCTACCTTGTATGGAAAGTGTT CGTCTGGGCCAAATATTCTTGATTTGGAGACACAACCACTCTCCCATACTGCTTTGTTGAATTGTGAT TATCAAAAAGATCCTTCGTATGCTTATTTGATTGAGACGGATCCTATGGGTTGTGGCACAAATTATGT TGGAAGTACTAGCAACTGTATGGACGGGACTGGTATGATTTTTGGCAACTATAGCAGTTCTGTGGGTC ATTACAAGAATATAGGAAGTGATAACAACAATGCGAATGAAATTGCTCGGGATTCTTTCTTGAATTTG GGAAACACAGTCAGTAATATCATGAATTCTGATATGAGTTTGATCGGTGCTTACAACAATATTGGTTG TATCTTACCTTGCAATTCTAACAAAAATATAGGATACGGGAGTGCTACTACCTATATGGATGTGATTG GAATTAATATGGGTGCGTGTAGCACCGAAATGGACTATCACATGAATAGAGGAAGAGGTAGCGACAAT GTGGATGAAATTGCTTGGGACTCATTCTTGAATGTGGGTAACAGTGGCGGTCATATGAAGAATTCCAA CATGGGTTTGGTTATTACAGACAGCAACAATGGTGGTATTGTACCATGTCAGTCTTACATGAATATAG GATCTGGGGTTGCTAGCAACCATATGGTTATGAGTGCATTGAATCTGGAGAGTACTATGATCAACATG GCTGCAAATACAAGGAATGACAACAACGACATGAGTTTTGCAGTAGTGGATTATCCTGGAGATTTAAT TGGTGAAAAAATACCATTCAACCCAGCTGTGCCTGCGCATGATCAAGAGTTGCGGCCTCTCAAAGCCT TCCCAATTTCAACATTTCCAGGCGATCCATGGGATTGGGGTCAAGAGTTAATGCCTGCCATCAGCAGT CTAGGAAAAAGCAAGTATCTGCAATCGTAG

>L42c3093F-g24659_AGL27 ATGGGACGTGGAACCCTGAAAATGGAGCTCATAAGCAACGAGAGATCTCGACTGATAACCTACCATAA ACGGAAAAAAGGATTGACGAAGAAAGCTCGGGAGTTCAACATTCTGTGCGATGTGGATGCATGTGTAA TCATATTCGGTCCAAGAGTGAGCGATCGTGAGGTTGATATTGAAACCTGGCCAGCTGATCGTAACGAT GTAATGCGGATTATCAAAAGATACCGCACCGAAGGCTCTGAGCGGAAGAAAACCCAAGATTTATCTGA TTTCTTTGTGAATCGAAAGAAGAGAGTAGACGATGAGAGAGCCAAATTACGCAAGGCCTGCCTGGAAG CGAAATTTCCCTTATGGGACAATCGTCTCGACTTCCTATCGGTCGACCAGCTCAAGGCACTCGCTACT GAGATTGATGTTAAGCTTGAGACTGCAAAAACTAGACTTTTGCAGATAAAGGGGAACCATTTTTTCAC AGTGGATCACAACCCTGCCATAGGGACGAAGCGGAGCTCCGTTAGCGATAGAACAAACCTCATGGCCT CAACTTTTGCCAATGCCTGGCATCAAAAGAATGCTGAGTTTGAAGTTCTTAATCAGCAGCAGCAGCAG CCATTTTCCTGCATCAAGCCATTAGACATGCACATGCCCTCGTATTACAGTCCATCTGATCAAGCTTT ACAACAGATGATGCCTGGCAGTTCTAACCATGTAAATAATCCTCTGTTCATGATGCTTCTGATGGGCG GGGAAGACTACGGTCAGTTTGGTAATATGTACGGTGGCAACTTTCCCTGTACACCCAGTAAAGCCCCG GTGTATTACAATTATGATCCGGCTCCTGAGATGCTCGGGAACACGATGATCAACAATCCCAGGGCACA CCCCGGCAGCTACTATGGTCGAACAAGGCAACATATGTTGCCATATCCTCGGCAAGTTCCGGAGATGA CAAACTTTGTTCCTCAAATGCCTCAATTGCATGCTCCTCAACGGTCGGACTATGGTGAATTCATTACT GAGCTTGACATTAGTAAGAAATAA

>L42c3332F-g25531_AGL80 ATGACAAGAAAGAAGGTTAAGCTAGTGTGGATAGCGAACGATGCTGCTAGGAAAGCTAGTCTCAAGAA AAGAAGAGCTGGTTTACTGAAAAAAGTGAGTGAACTAACCACTCTTTGTGGTGTTAAGGCTTTTGTTA TCATCTACAGTCCAGATGATCCAGAACCAGCTGTCTGGCCATCACGTGCTGTGGTGGAGGAACTCCTC CATAGGTTCCAATCCTTGCCAGACATGGAGCGGACAAAGAAAATGACGAATCAAGAAAGTTACTTGAA GGAGAGGATGGGCAAATTGCAAGACCAAGGCAAGAAGAACGAGAGGAAAAACATGGATATGGAGTTGA ACTATCTCATGCACCAACTTTACCAAGGTAGGGGAGCTCAAGGTCTCAGTTATTCTGAAATGGAAGGT TTGACTTGGCTCGTGCAGGAAAAAGTGAAGGACATCAGGAAAAGGGTCGAATACTTTGAGCAGGTTCC TCCGTTTTCATCTGATTTATTTCCAAACAGAGACCCGATGGTTGGGGGTGATGCTGATGATGTGACTG GGGAGAATAACCCTACTGATCCAATCCCAACATTCCCAGACCAATGGCTTATTGATGCAATGAAACAC AAAGATAGCAGTACCGGCGCTGGTAGCTCCAGGAGTGATATCGGATTGCCACATCCATATACTAGTGA 140

TGGTGGTAGTTCTAGTGCTGGAACTGACCTCAGCTTCTTCCGCAGAAGCAATGTTGGGGGCAGTATTG CTGGTCAGGGCTTCGGTATTGGGGCACCCAACCACCCCAACTTCGGAGGCCACAGTGGAGGAAACCTC TACGATATGGGGCTTGCTCATGGGAATATGGTGGGTGGCGCGCCTGATGGAAATTATTATGATGCGGG ACTGCCTCATGGAACTATGGGTGGCAACACTAGTGGTGGAAACAACTTCAATCTGGAGTTTTCACAAG GTAATACCTTTGATCTTGGTCCAAACCACCAAAATATTGGTGAAAATGCTCCAGGCCTTGGGCGGCCT GCAGgtgagacaatttaccataggtttacccctgttaataaattttcaaagtttctcttatggataca atcaaatttagttttctagcaaacgataatatgttgcacctaactaaagctacagGTTCAAATGCCAT CCATGGCATGGGGCTGCCTCATGGGAACTTTGCACGAAGCAATATTGGAGGGCATGGTTTCACCGCGC TGGGGTTTACTGATCATGGCCATCCTGGAAGCAGCAGTGCTGGAGCTGGTGGAAGTGGTGCTGGAGCT AGTGGAAGTGGTGCTGGTGCAGGTCCAAGTGACGGCGCTGGGTTGCATGGACTCTTCGGAACTGGAAA TGATGATCGAATGGCATCTGATGGAACCAAGAATTGGCCGCCGAGTGATTTCCCTCATTAA

>L42c3920g27456+g27457_AGL11 ATGGGCAGGGGGAAGATCGAGATCAAGAGGATTGAGAACACCACAAATCGTCAGGTTACCTTCTGCAA GAGGAGGAATGGACTCTTGAAGAAAGCTTATGAACTGTCAGTTCTTTGCGATGCTGAAGTTGCTCTGG TAGTCTTCTCTACTCGAGGTCGCCTCTATGAGTACTCCAACAACAAgtaaatcgcttctcttcctctt acttcttccacttccggtcttgttcttaagctatcttcctcaaacctatccacttcctttcttatcat aaaagtccttgtcatttgtatcacatgagtttagaagttttagtttttcttatcggttgtaaaattaa tctttgaccggatttcactcgacctgaaattctttactaagtctgtgatcattaagaaaaaaaaaaca tttagattttcaagaaattgtctgaactgcagaatcgtgtagtgtataacacagattggctggacatt ttttactgtaatttctttctgatgtgattgaaaccctaatgaaaacttcaagaatatgcagatcctct atagtttatctttttgtgtttagactctacctgtgaactcgacccacaaccagcaagcaccaattttt cagaagacttatttaataggatgttatttttatattagtgtcgaatcgaaatccgagaagagactgaa gtgccgaaaaagaaaaattcagacaaaataacttaacgtttcttgagctataagaatatttatatgct taaatatacaatatcagtgttttgcttggagtgccaaatcttggaaaactctctgcacagattggaaa agcatggccattatggaatgatgggggataagaggaaatgaaggaataatttagactgttccttgtga ttcatgttctagccttgacagagctcttgaatagtactcgtagctatatatgaattttgaaaagaggc agtagtactccttccttgttcaccatggtcctatcttatcttttcccctctggtttagcagtttactt gtggtatttcttgacctctgattctttgcctttccagtgttcgtgaattctctcagttctgattgtct ttcatttccatttcaagctttggaagaacccaaatcttctttgtgtccgtctttgtttacatcaactc caatgttaccttcttttagggctctgagcccttgaccatcacttgccttttccatgcttcaaggatta atggaagacattgcatggttccaatggtccttggcttgtgatgattcattctactacttaggcctcca aaagttttcatgatatatattcattatggctattaagcattccttacttttctagtgtaaattctggt ttcctgttttgatttttgtcagtaaaatctgagaaaaaagctcttctgctttacatggcagctgCATC AAATCAACTATAGAGAGGTATAAGAAGGCTAGTTCAGATAATACAAACACCAGTTCCATCACAGAGAT CAATGCCCAGgtaacctttgtttcctgttctattatatatgtctatggaggctttagacaagttcctg caattatggaagtacatcagataaatacttgctcccaaactgttaaaacacagTACTATCAACAAGAA TCAGCAAAGCTTAGGCAACAAATTCAAATGCTGCAGAATTCAAACAGgtactcttttattttccttca ttttgtttttcttgttcttacatcaaacaagtatgtaggatatgatgtcttttccatatatatcatag cttctggactgcattaactgaaaccattgatgtaaaatgatttctttttgtcaagaacttactacata cttctacccatcattccattcccctatgtgcagGCACTTGATGGGTGATTCCTTGAGTTCCTTAACGG TGAAAGAACTGAAGCAGGTTGAGAATAGGCTAGAGCGAGGCATCACCAGAATCAGATCAAAGAAGgta agatatgatgcaacttggaagtgggaagtgcccttctgaactgaaaatagaaagaatttctgttgatg gaaattttgtttgtgagttttgataatatcacataacattattcactccaagtagcagatttcaccag aagttgtcctgagggctgttcatgaaacattttgatttgaataagaaatgttcaagatcttaaacatt cgtttagtgttcgatttctaaaaatatggattaagtttataagatacgtgtagataaaaatctggaaa aagattaatgctgtatcggactatctgagggtgatattcttctgatatgaagaaaaccaactttatac atggtttgctcaatggttttattcttttcctttgttcttcgagtaatggcattcctatcgtaaggttt aacacttccttgtccactgcaacagCATGAAATGCTGCTAGCTGAAATCGAGTACTTGCAGAAAAGGg taaattcctgcatcttatgtacatcattctcttgttctagtttctgacagaaaaatatagaaaaaccc ttcttcattgactggtttcatcacatacttcgacctgttcttgtagGAGATTGAGCTGGAAAATGAAA GTGTATGCATTCGGACCAAGgtactgaaacaatactgtctgattcctacccctgattatcatgttatc cttcaaccagcccataaataaagcttgaacattcatggtgatcgaacacttgcagATAGCAGAAGTTG AGAGGCTTCAGCAAGCAAATATGGTTACTGGGGCAGAACTGAATGCAATCCATGAGTTGGCTTCCCGA AATTTCTTCAACCCTCAAATGATTGAGGGTGGTAACTCTTCCTCACATCCTGACAGGGAGATCCCCCA TCTCCGGTAA 141

>L42c6251F-g33452_AGL6 ATGGGTAGAGGAAAAATAGTGCTGGAGAGGATAGAGAACAAGGCCAGTCGTCAAGCAACATTCTTCAA AAGAAGAAAAGGTTTGATCAAAAAGGCTTATGAGCTCTCAGTGCTCTGTGATGCTGAGGTTGGTCTCA TCATTTTCTCTGGCCGTGGCAAGCTCTTCGAATTTGGAAGCACGGAgtaagttcttcccggttgttcc catcttccttcactctctgtattcgtatccttcatcccttctcattttattttttatcaagagccagg gttttgcattgttagtgaaggacagaaatatctaccggcgaaaaagccaacagagtactacataagtc tcagtaaatgaccacagaattaggcaaaggaacgaagagaactttgccagttataaacagcattactg tgtttaatcgactttgcaattaattaagatctgaaactaattaattggttaacccatgcaggaaccat aaagatggatgtacttatgtagtttatattgctgaagaaattccgggatgagaaaagattgacaggtt acgtacgtaggggattatagataattaggtgatatcaaccagtaatctcctgacacattgttctgtcc ttcgtcactttcccacgaccaagacatgtcgaagcgcctactgtataccattctaggatgacagataa attgctttccacgaatttgaaaaatgaaaaaactatttaaaaaggcagattaattccaagatagagta gggttttcccctctctcgctctccttcatgccgtaaagttggtagccacttcctgaacttcttatcta tttgatcttcgttgatttttcatcgttggcttgcttggttgcatgctccctttctgttttttttcttt catgtgattttcatttagacaatttcccttcttaaatatagCATGTACAAAATCCTCCAGCGATATCG ACAATGTCAATTTGGCTATGAAGAGAACAGCATTACCCAAAAGGGGTCACAGgtttgtttatctttaa caaaaccggcatataccatattttattcttacactatcacggttcactctatcttgtttcctttcttt tttgacaaaccagACCTTGTACCAAGAGGTGGCAAGGTTGAGGACAATATATGAATCGCTTGAGCGTT CTGAGAGgtacttatgagatatcttgtttacttattactaaaatggacttttatgacaaaaataacaa tttgatatatatttgcgtcgtacgtacgtttccttagACATTTTCATGGAGAGAATCTTGGACACCTT AACGCCAAACAGTTGCAAAAGATTGAGACAAGAGCTGACAAGACTCTCTCACTAGTAAGGCAACGAAA Ggtacatgtataattgtatgcatccacagcagtttaaccatttgtcaatattgttcagatctgcaata tagttatatttaaaacgataaattccagtattggtaactaataatctctccggccgtcattgcagaca gagttgatgtatgaaaggttggaagcattacgaaaaatggtatatatatttataagatttgcattccg acattaattcccagctttcgctcatttttttatgaagtgatcttactatgggattcaaccctattgtc ccacatgataaaatcagcaagtatcatgtgtataaacaaaataagtttttaatacttacgccgcggct cttcgtgatcgatgctggcagGAGGGTGCTCTCCGAGAAGAAAATAAACAGCTCAAGATTAAGgttta tccttgaattcccagctagttctatctgcagtcggttatgacctcggcgctaaaccatatatgtcttt agctgaccgttaatattgcagCTGGAGGGTCATCACAGTCTTCAAGCTACCCAGGTTGCAGAACAGCC CTGCACTACTACAGCAGGCGAAAAGCACATTAAGATGCGTTCTTCCCTGTCAAATCTTGCTAACTCAG CTCTCAGTTTGCGTATGGGgtaaacctctttacctccctggtaaattctatactttttttatggattt ttgtcatgagaaagtacttctatttgccagcaaatgaaggtagacctctgtaatttggtggtgatata tacacagagactagttgctttcaaaagaagcacactaccaaatgtattgccgatgggaaaatccttca agaagcgaaggagtacccttggtagcacaagaataataatcggagttggaaattggaaaacgcattcc agctatgctatgaatttcagaacataactaattaagtgggtcatagtttccttttctgttgtcttgtt gtctttcaagtcaacctataatattttattattgaacatttatgtccctcctccatgaaaatataaaa caaggatcttgtcccctgagcagtgcacttttgcaaacgcaccatctattcatgggtagggggtggtg cgtgtacaacgatcgtactagcaataatggatacaggatatatagtacttattgtgttaatattggat ccgttcaaaaaaaccctggaggaaaatcatataccaataaggtttacggtcataaattccacagATCT AGCCAGTACTATAGCCACCCTGCACCCGACTCCATTGCCTCTAGTTTTGCTAATTTTGTGGGTAAATC CACGTCAGTTTAA

>L42c9690g39044_AGL12 ATGACTCGTGGAAAGGTTCAGATGAAGCGTATTGAGAATCCAGTGCACAGGCAGGTTAGCTTCTGTAA GCGCCGAGCAGGGCTGCTTAAGAAGGCCAAGGAGCTCTCTGTCCTGTGCGATGCTGAGATTGGAGTTG TCATTTTCTCCTCCCATGGAAAGCTCTTCGAACTGGCCACTAAGGGgtatatatctaccttctttctt tcttcctttccttccttccttccttacttcaaccttcctggagatgtaacccagttgttataatctac ttttgatggagcaagAACCATGCAAGGACTTGTAGAGAGGTACGTCAAGTCCACCACAGGAGTCCAGC CAGAGCAACCCAAAGAGACTCAGACTCTGgtacagtgatgcagattctgtctcttctgttatgtatat aacaaactgtatagttcttagacaagtattgatggtgaatgtcctgactatgttcatgttagaacaaa ttttatgttacatgggatagctatgcattgtttcagcttgtaataaatgctgctagtttgttttgctt cccagGATGTGAAGGAGGAGATTGACATGTTGAAACAGGAAATTGAGGACCTGCAAAAGGGATTCAGg tatgtatcaggaatgatctgttttagggaaaaaattccaggatatcagttaagtagaagaatgaccta cctgctgtactatcaacacagGTACTTCTTGTTTGGAGGAGCAGCAGCTGCAGAAATGACTTTGGATG AACTGCTAGTTCAAGAAAAGCATCTTGAAATGTGGATTTGTCACATTCGCTCCACCAAGgtccaaaca 142

taaacaacagattactgtgtttcttttctgtcacaggttttagttctgattaatgattccatgcagAT GAATACTATTTTCAAGGAAATCCAGCTTCTGAGGAACACGgtgagtgttccaggcacttcatgactag aactgaactcagaattctcttgattaggactttcatagcttcaggaactctttatctttgccagaaac actagattgacatttgttttccttcaattcttttctgttttggtggtatatgcagGAAGAGGTATTAC AAGCTACAAATGAGTATCTCCATGACAAGgtgaaaacaagagtaatagctctcattttttttcctttt tagtgcaggaatctttctgatctcacagcatcagaattatctttctgcagGTGGTGGAGAACTTTGGG ATCACAAACTTTGCATCAGTACCTACATGCATGCCGTGCTCTgtaattatacaaaatgaaatatttca atattaagattagctctttaaactactgttggtaatttaatatcagTTGTTCCATGTTAATGGATTAC GCAATCATATTACGATCCGGTTTAATGGGTTAGTCTGTGTGCATAGAGTTATAAATGTAATATTGTGT ATTATACTGGATTGTTTCTTTATGATCTAG

>L42c11479F-g41143_AGL80 ATGACCAGAAAGAAGGTTAAGCTTGCATTCATCGCCAATGACGCTGCAAGAAAAGCAACCTTCAAAAA AAGGAAGAAGGGTCTTATCAAGAAGGTCAGCGAACTGAGCACTCTGTGTGGGGTTGATGCGTGCGCTA TCATCTACAGCCCGTATGAGACCCAGCCCGAGGTCTGGCCCTCGCATACTGGGGTCCAGCGGGTGTTG TCTCACTTCAAGCAGATGCCTGAGATGGAGCAGAGCAAGAAGATGATGAATCAGGAGACCTTCCTCCG CCAAAGGATTGCCAAGGCCGGCGAGCAACTCAAGAGACAGCGGAAGGACAATCGGGAGAAGGAGGTAA CCGAGATCATGTTCCGAGGTCTGTTGGGAAAGAGCTTGCTCCACTTAAACATGATGGACTTGAACGAT CTTGATTGGTTGATCGAGCAGCACATCAAGGAGATCAACAAGAGGGCCGACACACTCAAGAATGGCGG GAATCCACCTCCTAACCAGCCCGCCCTGCAAGTGGCACCACCATCTGCTGCGGGAGAAGCTGGACCAA GTGGAGTGCAGCGCGAATCCCCAGCGCTGCAGCTGCATCAGCAGCAGGATCACAAACCTCCCTTTGAG TTAAATGCTGAAAACATGCAAAGGCATCAATGGTTCATGGACTACATGAACCCTCCTCATCCTCACCA TCCTCAAGAGTCCATGGCCTTCGGCGGGGATGACATGATGCCTCCTTTTGGGGACAATAACAACCACA ATGCTCTTTGGTCAAATGGCTTCTTCCATTGA

ANEXO 2: Lista de sequências proteicas dos genes MADS-box encontrados na biblioteca LIB15042 no formato FASTA.

>L42c2g142_AGL62 MAKKQPSIGRQKIKIEKILKKNHLQVTFSKRRAGLFKKASELCTLCGVEIAITVFSPANKAFSFGHPD VESVIDRFLARNPSRNSGAYRLFEAHRNANVRDLNVQLTHALSQLEAERKHGEALNHIRKASQSQRWW EDPIEELGFQELDQLRSALEELKKKVTEEANKMVIESANSLPFFTQHGILPVEHLETKPEICTASGIT RVSDFGYGHGIF

>L42c18g641_PIci MGRGKIEIKRIENSSNRQVTYSKRRNGIIKKAKEITVLCDAKVSLVIFGSSGKMHEYCSPSTTLVDLL DKYHKQSGKRLWDAKHENLSNEIDRIKKENDSMQIELRHLKGEDITSLHHKELLALEKALENGLVGVR EKQMDYYRMKEKNNKILEDEGKRLSFILQQQEMAIEEDAREMENAYHQQKLREYSSQIPFAFRVQPIQ PNLQERM

>L42c70g1984_TT16 MGRGKIAIKRIENQTTRQVTFSKRRAGLLKKTHELSVLCDAQIGLIIFSSTGKLCQYCTEPLRMENII ERYQKVTGTRIPEQDSREQLYGELAVLRKETRRLQLTVRRYTGEDMGSIPFEELHDLEQELERSVNKV RDRKQNELLQQQLENLRRKERLLEEENGSMYRWIQDHRVAMEYQQAAMEAKPVDHQQVLDQFPFCGEP SSVLQLATIPPQVQPYHLQLAQPNLQGHNV

>L42c80g2219_SVPouJOINTLESS MAREKIQIRKIDNTTARQVTFSKRRRGIFKKAEELSVLCDADVALIIFSSTGKLFEYSSSRMKEILER HSLHSKNLQKLEQPSLELQLVENSNFTRMSKEVSEKSHQLRHMRGEELQDLSLEQLQQLEKSLEVGLS 143

RVIEKKGEKIMKEIGDLHRKGMQLMEENERLKQQVEICNLRRQAGTDSDNLACEEGQSSESMTNACNS NGPPHDNESSDTSLKLGLV

>L42c84g2315+2316_SEP3 MGRGRVELKRIENKINRQVTFAKRRNGLLKKAYELSVLCDAEVALIIFSNRGKLYEFCSSSMLKTLER YQKCNYGAPEPNVSAREAELSSQQEYLKLKARFEALQRSQRNLLGEDLAPLSSKELESLERQLDMSLK QIRSTRTQYMLDQLTDLQRKEHLLSEANKSLKQRLVEGYHATSLQLNPGAEDVGYGRQQPQGDIFFHP LDCEPTLQIGYPNEPMSVVTAGPSMNNYMPGWLP

>L42c131_CMB1 ou SEP MGRGKVELKRIENKINRQVTFAKRRNGLLKKAYELSVLCDAEVALIIFSNRGKLYEFCSSPRSMMKTL EKYQKCSYTALEAGQSVDEIQQNSYQEYLKLKASVEALQRSQRNLLGEDLAPLNTTELEQLERQLETS LEQIRSTKTQSMLDQIADLQGRERLLLEVNGGLRRKVEESSNPQLPLQLAWEAEGQNTAYNRLPPQSE GFFQALRGNPTLGSRYNHMEGAEEINIPDHPQNITGFFPGWML

>>L42c137g3398+g3399_MADS-6 ou SEP MGRGRVELKRIENKINRQVTFSKRRHGLMKKAHELSVLCDAEIALIIFSSRGKVYDFGSSSVPKTLER YQRCCIAPQDSTIELETQGWYQEVTKLKAKYESLQRTQRHLLGEDLGPLSVKELAGLEKQLEGALAVA RQRKTQIMVEQMEDLRKKERHLGDLNKHLKFKLEAEGQNLKAIQDLWGTGAGDGSSSSYHMHHSQPNP MDCDPGPVLQIGYPHHYASAEGPSVTKSMAEETNFIQGWVL*

>L42c349g6707_23like MGRGKIAIRRIDNSTSRQVTFSKRRNGLLKKAKELSILCDAEVGLIIFSSTGKLYDYSSTSMKPVIDR YVKMKEEQYEVLNPASELKFWQSEAANLRKELQYLQERHRKLMGEELSGMSITDLQNLEGQLEMSLKG VRMKKDQTMIEQIKGLNCKGNLIYQENQELHKKIGLIRQENADLCKIFGARDVEGSKGNDNTIRTSGN GYDLHSSVQLQLSQPQPQPHSNDAPTSIKLGRRQVWRNAPICTNEICCRETVQHQHPSPLVCNVS

>L42c761-g11284+g11285_SEP1 MGRGRVELKRIENKINRQVTFAKRRNGLLKKAYELSVLCDAEVALIVFSTRGKLYEFCSTSNMLKTLE RYQKCSYGVEDVSKPAKELESSYREYLKLKARFETLQRTQRNLLGEDLGPLNTKDLEQLERQLEGSLK LVRSTKTQYMLDQLADLQNKEHLLLEANRTLTIKLDEISARNHLRQWEDGEQSIPYGHQQAHSQGLFQ ALECNPTLQIGYNSVGTDQIPASSHSQQVNGFIPGWML

>L42c951-g12947_CALacho MGRGKVELKRIENPTSRQVTFSKRRNGLLKKALELSILCDAEVSLIVFSPTGKLYQFASHEMDWTISK YRSEVGFSSPSSQRSSFGFEFWRRAVEELSKTIDKMEARLRHFSGEDISTLGMKDLKQLERQLRTGVE RVRSKKRRIISEHISLLKGQQKALQEENVRLQKRVSHDGRAAKRSLCFYRGLKEQGGHCRHVLSGIRM GWIKGRIIIQ

>L42c981-g13177_TM6 MGRGKIEIKMIENPTNRQVTYSKRRNGIFKKAQELTVLCDAQVSLITFSKTGKFHEFTSPSTTTKKIY DQYQKAAGIDLWSTHYERMKEQLKKLQEINRKLRREIRQRIGEDLDMKDVDIDELRTLEQKMDASLEL VRERKFHVIKTQTDTYKKKVRNLEQRQGNLLLNIEAKCEDPHYGLVDDEGVYESSVEMASGSSNLFAF HLHQTHNPSVHLGGAFGSPAFHLP

>L42c995_g13289_PIsi MGRGKVEIKRIENSTNRQVTYSKRKNGIIKKAQEITTLCDAKVFLLMFAGSGKMHEYCSPSTTLDDVL DKYQRQSGNRLWGAEHESLKNEIDRIKKENDTMKIELRHLKGQDLTSLSHRELMTISEALENGINTVR EKQVDYCRMMEQKTQVLEDECKHLGYLLHQGDMAMEVDEKSQMESAYHQERLREYNSQMPFPFRLQPI HPNLQNQMYY

>L42c2769g23371_AP1 MGRGRVQLKRIENKINRQVTFSKRRAGLLKKAHEISVLCDAEVALIVFSHKGKLFEYSTDSGMEKILE RYERYSYAERQLVATDIDSEGNWAMEYKRLKAKVELLEINHRHYLGEDLESVSLKELQSLEQQLDASL KHIRSRKQNQLMYESISELQRKEKAIHEHNNLLEKQIKEKEKEVTQQSLWNQPSHGPSTSSLLLQQPF IPCLNTGCTYQEETSEARRNELDLTLEPIYSCHLGCFAT 144

>L42c3920g27457_AGL11 MGRGKIEIKRIENTTNRQVTFCKRRNGLLKKAYELSVLCDAEVALVVFSTRGRLYEYSNNNIKSTIER YKKASSDNTNTSSITEINAQYYQQESAKLRQQIQMLQNSNRHLMGDSLSSLTVKELKQVENRLERGIT RIRSKKHEMLLAEIEYLQKREIELENESVCIRTKIAEVERLQQANMVTGAELNAIHELASRNFFNPQM IEGGNSSSHPDREIPHLR

>L42c7965g36517_AP3 MARGKIQIKKIENSTNRQVTYSKRRNGLFKKAHELTVLCDARVSLIMFSYTGKLHEFISPSTSTKQMF DDYQTATGIDLWNSQYMRMQENLKSLNEVNRNLRKEIGHRIGESLNDLSFNDLRSLEQEMDGAAKAIR ERMNKTLTNQIETSRKKFKSAEEMHGNLLFQLEARSEGPHYGFEDNGGEYDIVIGFQNGGPRIFAL

>L42c10703-g40293_AGL18 MTEEKKRMGRGKIEIKRIENLNSRQVTFSKRRNGLLKKARELSVLCDAEVAVIVFSSTGKLYEFSSTS MEHTLSRYSSGPDLVTTNEHPSNNPEVEQLKSADVDSLKDEVSKLRLTCLQMMGQHLDGLSFKELHHI EHQLSRGISSVKDKKDQLLIEQLKKSRLQEQKAMLEIEALRKQVEELRQASKPRLPSLEFNPLERRFS LPDPKAVCSRQLEEADDISDTSLHLGLASDADRKRKALRIESHSNDSGSLVASE

>L42c15306g44690_B-sister.1 MARGKIQIRKIENSTNRQVTYSKRRNGLFKKAHELTVLCDARVSLIMFSSSGKLHEYISPSTSTKQMF DDYGKAMDIDLWNSHYVKMQENLKRLKEVNRNLRKEIRHRIGGSLNDLSSDDLRSLEQEMDSASKTIR ERLNKVLTNQIETSKKKLKSAEQIHGNLVFQLEAISEDPHYGLDDNKGEYDIVIGFQSGGPHIFAL

>L42c18174g46819_B-sister.2 MARGKIQIRKIENSTNRQVTYSKRRNGLFKKAHELTVLCDARVSLIMFSSSGKLHEYISPSTSTKQMF DDYGKAMNIDLWNSHYVKMQENLKRLKEVNRNLRKEIRHRIGGSLNDLSSDDLRSLEQEMDSASKTIR ERLNKVLTNQIETSKKKLKSAEQIHGNLVFQLEAISEDPHYGLDDNKGEYDIVIGFQSGGPHIFAL

>L42c26215g51483_AGL15 MGRAKNEIKRIDNANSRQVTFSKRRNGLLKKARELSILCDAEIAVIVFSNTGKLFEFSSSGMRKTILR YNKFRDSTEPARAEQGTEKQDLMEQGVLNDEISSLKVKPLRLLGNDLTGLSLKELQHLEQQLNEGLKC VKEKLLMEELEQSRFQRAMLENETLRKQVEELPGLFPSSDHSLATYLDCYAEKKCSLVNIASSIPHGA RHCSVEMVDSEPTLFWGLPREAYLKRTVQERENLFNDSESRLGLK

>L42c2527g22277_FBP MGRGKTKIIRIENHLARQVTFSKRRAGLFKKSHELSVLCDAEIACIIFSCNGNPFEFCSESSSLQNII NRYLISKGLQMPPYDTEGSPCLLYGELKRMREEIDDLELSLQRYTGQNLSSLHYEHLMGLEKQLVSSV NKVRARKFELVQEQIDSLGRKVKTLYEGNEQLQHHLTMRDYQVAAVEPHDHRSQVIDQFYFLGEDPRS ELHLAPLPTEFQPHTIQPTLPSLQDFSLHLTNYGNLQTRSTRHAAFFYTLMENNSLICSLF

>L42c737-g11039_SEP MGRGRVELKRIENKINRQVTFAKRRNGLLKKAYELSVLCDAEVALIIFSNRGKLYEFCSTSNMIKTLE RYQKCSYGTEEVNKPAKELESSYREYLKLKARFESLQRTQRNLLGEDLGPLNTKELEQLERQLEGSLK QVRSTKTQFMLDQLADLQNKEHMLLEANRALTLKLEEFSARNNLRQWEDGAQSMSYAHQHAQSQGLYQ PLECNPTLQIGYNPVCSDQMTTTSHAQQVSGFIPGWML

>L42c74g2081_AGL65 MGRKKLIIQKLECIKARQAKYSKRKIGLLKKAKELSVLCDVDVAVATFSPTGKPTLFVGRNKELSTIM DNLSSISVEEREERSVFPVLNKHGVGTDVVYSLFLNSADRCSVEAYRMQMERLQELKEKLDEKRRILR DWKYPDDIDDLAKIRLMEDHLLGTLHRIWTKITMDYLQMDLLEQQRLYEATEMLQELQYVDLSLPGPS YSMP

>L42c213g4731AGL62 MSEKKTRGKQKIDIKEIEDEENKLITFSKRRSGIYKKASEICTLTGSEVAFLVFSPAGKPFSFATSSI EYVASCFLGLELPPQTVDNTYSIVEAHRLMRINNLTQQHNDLLHKVELTEETTKRLVEKLKGKNYRGW 145

WEANTNELNTQELTEMENRFENLQVNLKAVLHQKRNAGYCSFPAPPIDPNNVLTDPFTYNPDDHQTSI PHGQHFRHPDPKGKRKVIE

>L42c213g4732_AGL63 MSEKKTKGRQKIDMKEIEDDDKKLITFSKRRSGIYKKASELNTFTGADVAFVVFSPGRKPFSFATSSV DSVANRFLGREPARVIHNAHPIVEAYRQMRVVNDLNMKHNELLRKSEVEMDKTDVLKEKLKGKSYKGW WEANTIELNKQELMEMEKRFKKLNVNLNIILENILRQKKNGESSSFPAPPIDPDNMLMDPFTSTPDDQ INPPTLSPRDPKGKRKVME

>L42c213g4733_AGL29 MGRRKIEIKMVKDSNSRQVTFSKRRAGLFKKAYELATLCGAQVVTVVFSPGGKPFSFGNPDVESVTRK FLNQEDKPKLVTRRHGHVDSKQEAKRQKLNNELNDLFKQLQAEKRKGETLDHMHNVSGLKPISLDELL KTKKALEGLQDKLIRHLTEVEASSSLLLLSKTPVNDEERFRIAGTGWHGKMELFLGAASKRYDKGKDM NKIVSFAFL

>L42c213-g4745_AGL61 MSEKKTKGKQKIDMREIEDEDKKSITFSKRRSGIYKKASELNTFTCAEVAFVVFSPAGKPFSFATSSV ESVANRFLCRETPQGADSATAVVEAYRQMRVNDVTMQHNEVLHRLEGETDKSKVLKEKLKDKHYKGWW EADIYELNTQQLREMESRLISLNVNLQTILRQKKDGENTSFPAPPIDPTNMITDPLTSNPAQQNNPPA VHPEDPKGKRKVME

>L42c239g5131AGL6 ou AP1 MGRGKVVLERIENKISRQVTFSKRRNGLMKKAYELSVLCDAEVGLIIFSSRGKLFEFGSADMSKILQR YRECYYGSQGNNIDKNGSQTLYEEVSRLRTRYESLQRCQRHLLGEDLGPLTVKELQKIERQADKTLSQ VRQRKTQLMYQKLEELRKMYKAVALCLYKVITVHMFETEGLSKQVKWKNHKIVLDSYKFFNDIQYHKL IGFTSDMNKIWESDLGEENKQLRLKLEGGQCLQATKGARHPGNSAGGCILPNPINF

>L42c0g45+46_SVP ou JOINTLESS MAREKIKIKKIDNLTARQVTFSKRRRGLFKKAQELSVLCDAEVAVIVFSATGKLFEYSSSSMKHVLER YSLHCDNIGKQSHPSLELQLENNNFLTLSKEVAEKNRELRRGEDIQGLNLEELRKLEKMLEVGLGRVH ETKDQRIINEIRALERKGEQLAEENQLLQQKMVTIFKGKTHVLQESQVVQEEGVSSESATTTNVCSCS SGPSLEDDSSDTSLKLG

>L42c303-g6059 MTRRKIQIKKIDNTSARQVTFSRRRRGLFKKAYELSTLCDAQIGLMVFSTTGKLFEYSTTSMKQVLQQ HNYLRLMNLNKLENTALEPQLDGRLSAVLSEQLAETTRELRLMTGEDIQELTMEELEKLENSIEGSLR RVTETKGNILDNITSALKRKESQLVEEHQRLREQIMNLTVTPPLLERGPSLESIKISTTSSPDAPPDS LVIYNFL

>L42c507g8630_AGL80 MTRKKVKLAFIANDSARKATFKKRKVGLMKKVSELSTLCGVDACAIVYSPFDNRPEVWPSPSGIHRVL SKFKQMPEMEKCKKMVNQESFLRQRINKGAEQLKRLRKDNREKEVTQAMYQCLMGQSLLHLTMMDLTD LGWLIDQNVMEINKRSEMLKNGGVPPPPQQPLLIHPAPPSLAQEAGPSGVQHEPQLPQPMQENANQRS PFVDNIQNQQWFMDFTSPTPLPPQESQEPVAFGRNELVMPSGDCNSLHSPWSGGFYP

>L42c405g7419_AGL65 MGRVKLKIKRLESSSNRQVTYSKRRSGILKKAKELSILCDIDIALLMFSPTGKPTLFHGERSSIEEVI AKFAQLTPQERAKRKLESLEALKKTFKKLDHDVNVQDFLGANSQNFEELTDRIGLMQVKFTEICKRLS YWSNPDKINSLEQLRQMEESLKNSINLIRQHKEHIGKHQLFPVEYTGQCQNGMALPMMLSGEQEAQPL SWLLSDDNQHQMLSNDPNFLPHRETEFSTDASFPGYSSYFGSGKQDVGSSMSVDNAGHEGGGLSELNT SGCFNLETADQLSYPSYSGLNFPHSKTTKPERDMNLQGPHALHQVNNNIETSTPLYDNEPRTWVSVPG PCSVAMLQENSYHQVKPFLFNSCSSRIDFNASDFIIVGDELVIWWRYNGCCSTSS

>L42c555-g9164_SOC1 146

MVRGKTQMRRIENATSRQVTFSKRRNGLLKKAFELSVLCDAEVALIIFSPRGKLCEFASSSMQATIER YHRHIKENQANIKPVEQNMQQLKSETADMMKKIEVLEVTKRKLLGENLGACTFEELQQLERQLEKSVN IIRARKNQVFKEQIDQLKEKERVLLVENARLSIQLGTDLLSGSTEQTKHTPEEESSLVSDVETELFIG LPETRTKRFPPGN

>L42c577-g9374_AGL30 MGRVKLKIKKLENTNGRQATYAKRKHGIMKKANELSILCDIDIILLMFSPTGKPSICKGSRSIEEVIS KFAQLAPQERAKRKLESLEALKKTFKKLDHDVNIPEFLGTRSQTIVDLSNQARLLQHQLSESHKRLRF WTNIDKINSVEHLRQLENSLKQSLNGIQAHKENIGKQQLMSLECNNQFNNGMPVAFRMGAEQQLPHMS WVSNNDNQQIVLPEDSNLLSHRDVECSGSSSFGSFSGYFGLGKTSELSHSGQESSLSSLLNELSGAAS MRQQLTGNYACLPYNMNILNDGKFQSAADLSSQKSPVDFHANGSFEAPKLDYESTPGSWASTSGTCAI SMFDEHLYSQIEAANYWHGFLAIGIKNGADSTQ

>L42c1633g17674_AGL19 MGRGKIVIRKIDNAASRQVTFSKRRKGLIKKAKELAILCDADVGLVIFSSTGKLYEYANTSSISLEVN FLGCISQNWQEEVAILRQQLHNLQENRRQLMGERLHGLSVKDLQNLESKLEMSLQGIRSKKEQILTDE IQELYRKVNVSHQENIELHRKANLIQKENMELYMKVYGTRDANTRTGNSLITSNINSDKRYEMPVHLQ LCQPDQQNHETQQKAPM

>L42c1677g17962_AGL19 MVRGKTQMKRIENITSRQVTFSKRRNGLIKKAFQLSVLCDAEVALIVFSTRGKLYEFFSSSQSEIIDR YQRKNKDLGINYGKASSENLKCVEQDAFVLAKKIQQLDVSTRNLSGYGLETCSIPDLKQLENQLERSL TRIKARKNQLFKEQIGKLKKEEKILLEEKKRLQEECGGEPLLQFADNRQQITPDIESMPMDVETDLFI GPPESRMGQKP

>L42c8683g37643_AGL62 MPRKSKGRQKLEMVKIPNESNLMVTFSKRRSGLFKKASELSTLCGAEVCMIVFSPGKKVFSFGHPSVE KIVDRFLTGNVPQTSGALQLIEAHRSARVCDLNMQLTQVLNQMEVEKRRGVELDRIREAGKTRCWWEA PIEELEGTQLEQLKGALLELKKHVTKQAEQILIQSTSLPPPPPPPPPAAAASFTPNILPATAAVPSFT STIPPPASIASFTPTARGPAVPFNPRDVAFNRNMVPYGYNLGFGNDFS

>L42c8707g37678+g37679_AGL23 MGRGKIVIRRIDNSSSRQVTFSKRRNGLLKKAKELAILCDAEVGVMIFSSTGKLYDFSSTRAPELNEI ILSYRVRFTSMMGEELSKLTIKDLQNLENQLEMSLRGVRMKKDQILMDEIQELNRKGNLVHQENMELY KKVYGTKDLNGERISLFSNGSVTGEDLHVPIHLQLSQPQQQNYEARSRTANSRRLQMHQ

>L42c9908F-g39327_AGL80 MTRKKVKLAWIANDAARKASLKKRRAGLMKKVSELSILCGVNAFVIIYSPDDPEPVFWPSHPVVEKLL MRFQSMPELERTKKMTNQESYMKERVKKLQDQAKKYERKKMDLELCYLMHQLYQVGGVNELRTSEIEG LIWLINEKIKDLRKKIENSAGDFNEVNNPVDAYSAFQDQWSNDGMKHKRSCTGAGSSTMTDARAPHRY YNDGDGSSSVGTALSIFRRSNAGDMSTDHGPGLCYGRPHHANLRALYESSLHRSGPSHGDMGGRKAEV NYFIVGLTHGNTGDNNNGGNKIDLELPPEDNSDLGPNRQAVGENNHGPRRSHGSITDLNTLVSDSAGN GCDGPPLGGDDDARINSHTVDGSGGSDTAVNESIGVGNNDGIPVDATKNSPDNNSSA

>L42c4358_F-_g28803_AGL62 MLTMKKDKKQTKGRQKIEMKPIQKKSNLQVTFSKRRAGLIKKASELSLLCGAKIAVIAFSPGNKIFSF GHPDVDTVINRYVDANYGPRGEMDEEALSVGSHPQVLQWNREYEEARNGLEEEKKMCLEMNHESNREQ ENEGYAGCWWDTAIDDMGLEELEEYVKAMQELKRNVDGRANGLMMASQTGPTDEHWLS

>L42c4848F-gg30162_AGL18 MTEEKKRMGRGKIEIKRIENLNSRQVTFSKRRNGLLKKARELSVLCDAEVAVIVFSSTGKLYEFSSTS MEHTLSRYSSGPDLVTTNEHPSNNPEVEQLKSADVDSLKDEVSKLRLTCLQMMGQHLDGLSFKELHHI EHQLSRGISSVKDKKDQLLIEQLKKSRLQEQKAMLEIEALRKQVEELRQASKPRLPSLEFNPLERRFS LPDPKAVCSRQLEEADDISDTSLHLGLASDADRKRKALRIESHSNDSGSLVASE

147

>L42c17121g46112_AGL62 MLTIKKGQKQTKGRQKIEIKPIQQKSNLQVTFSKRRAGLMKKASELSLLCGAEVAVVAFSPGNKVFSF GHPDVDTVIDRFLAENYGSRKPLDTLVVANHPQVNQWNREYGEAMKEMEEEKMRLTMIKECNKESEND INAGFWWDITIDNMGLEELEEYIKAMQELRKNVAIRANGLMEDNQPGNQNMDAGIGGIGPGDDHWLF

>L42c16813g45887_AGL29 MGRRKIEIKMVKDSGSRQVTFSKRRTGLFKKAHELAILCAVQVAIIVFSPGGKPFSFGNPNVESVVMR FLNEENKPRGATKAHADLRQEAKLRKLNNELNRLLNQLQAERRKGEMLDHMLKVSGHKLQPLAELSID ELLKRKSTLEDLKEKLGRHLIEVEASSSLLLLSQKPVEGNDQ

>L42c22100g49274_geneA_AGL62 MARKSKGRQKVEMVKMNKESNLQVTFSKRRSGLFKKASELSTLCGAEIAIIVFSPGKKVFSFGHPGVE TVIDRFLTRNPPQMSGTMKLIEAHRNANIRDLNIQFTQVQNQLEMEKKRGEEFNQIRKAKQPQSWWES PVEELALPQLEQLKASLEELKRNVAKQADRVLIQSSYPPQFYGSTSGGGMLPSSDQSRNNIGFNTHMF PPYVYDYGQGRGFF

>L42c23877_F-g50258geneA_AGL61 MASTKKSSIGLFKKASEPCTLCGVDIEVTVFSPANKTFSFGHPDVDSVIDRLLEAERKRGEALNQIRK ASRRQCWWETPIEKLGLEELQRLRDTLEELRKMVVESVLPFFTLDGIEPVKNFDIKPAIIAASTTRIN NSGYPF

>L42c23877_F-g50258geneB_AGL62 MARKSKGRQKVEMVKMNKESNLQVTFSKRRSGLFKKASELSTLCGAEIAIIVFSPGKKVFSFGHPGVE TVIDRFLTRNPPQMSGTMKLIEAHRNANIRDLNIQFTQVQNQLEMEKKRGEEFNQIRKAKQPQSWWES PVEELALPQLEQLKASLEELKRNVAKQADRVLIQSSYPPQFYGSTSGGGMLPSSDQSRNNIGFNTHIF PPYVYDYGQGRGFF

>L42c24333g50500_AGL29 MGRRKIEIKMVKDSGSRQVTFSKRRTGLFKKAHELAILCAVQVAIIVFSPGGKPFSFGNPNVESVVMR FLNEENKPRGATKAHADLRQEAKLRKLNNELNRLLNQLQAERRKGEMLDHMLKVSRHKLQPLAELSID ELLKRKSTLEDLKEKLGSYLIEVEASSSLLLLSQKPVEGNDQ

>L42c32F-g1074_AGL103 MTRPCTAMRTFSSRMRTIQKKAQELAVLCDIEVALVCYDATGEVLTWPEDKDRVKEIILKHKNHRLPG DDDDDDAAAAPAAPATNPQPHCVGSSKVNEKLREFYPSWDERFNSFSVELLSIGVDHVNDILEDVRYL KRLIAPADQFDVPQCSTAGLSDVDQPPFVYDSDGEEEEEEDEGGSSEGDGSSDTSSMDELDGDGQ

>L42c139F-_g3412_AGL80 MTRKKVKLAYITNDAARKATFKKRKKGLMKKVSELSTLCGIEACAVIFSPYDSQPEVWPSSLGVQRVL SHFKNLPEMEQSKKMVNQESFIRQRIVKAAEHLKKQRKDNREKEITQVMYQNLIGNTLHNLNMLDLND LGWVIDQNLKEITKRMEVLTNKNDSKELAVSGRERGPSSVEHAPHGGESRPASFEGSVDTLQRQPPWF MDLINQQDPMGFGGEEMIQHFGDNSQGSLWPNAFLP

>L42c249F-g5272+g5271_SVP MKDVLARYNLHSNNISKFSQQPSLELQLENSNHSRLSKEVTEKSHQLRRLRGEDLQGMNLEELQKLEK MLEMGLGRVLDTKGERIMNEISTLERKGAQLLEENKQLKQKVAMICRENKLVLLEPDTAVQEEGMSSE SATNICSCSSGPPLEDDSSDISLKLG

>L42c6545g34029_AGL62 MSRKSKGRQKLELVKIRNESNLMVTFSKRRSGLFKKASELSTLCGAEVVIIVFSPGKKVFSFGHPSVD EVLDRFLTGNVPRTSGALQLIEAHRSVMVRELNMQLTQILNQLEMEKRRGEDLDRVRRSGQRQRWWES PTEELNLQQMGQLKAVLQQLREQVAKQAEEILIQSANPPPPPFASTSAGAIVPYNPNDNGFNTNMDPS SSAAVVPYNPGNIGFPTSASPYGYNPAGFRNGFF

>L42c37143F-g56310_AGL(talvez incompleto) 148

MGKRRNTAIRMLETRAQRAVSLTKRRQGLFKKAAELCIEFNNQVGIIVVTPSSPSSWKKVHVFGHSSP EAIFSAYMNGCVPEAPNSESLAAAFTIYDEFKRLETQVATAKKEKRKPAGVPQRIRDVCNEILESDSL KELEKALSILQSHIQENDNRQHNSTRIQNCVNYSANDSTSTPDTDEQTAHPKEIDSNGTLAALCTMLP LPPPLN

>L42c16041F-g45276_AGL61 MSTGMSTGKKTRGKQKIELKLIENEDTKITTFSKRRSGISKKASELVTLTGADVAVVSFSPAGKPYAF GSPSVAAVTNRFLGLETSRPRDRTAPIVEAHRQARINRLNQQQTHLAQRLEDEQKKCKIMMKKMEGLD TKGWWDAKVENLHKPELLELETKFNDLLVNLRTNLLEKRNGASSSALNPSVDQHPERPNA

>L42c16041 g45277_AGL61 MAGKQTKGRQKITMKRIENEEDRLITFSKRRSGIYKKASELVTLCGAEVSVVVFSPAGKPFTFGHPAV EAPVIRYLGQNPRPEDYSHPLVEAHRKARINELNHLHNQILGRLEVEKHREIVLKQMISGQESKGWWE TPIEELDLQQLKQMYEMMKELHQELCCKMEEHRLNKASSFSNIPRHVTSPFVFNANEAATSADKYGYG NGHYQIVNN

>L42c35190g55549_AGL62 MDATDNNEQRHRPRPRIPSKGRRKIELKKVEKQSSRYVTFSKRKKGLFRKATEISTLCGAEVAVLVFS EKGRVFTFGHSDVDEVLDRYLSERGDDHPADDDWNRTAPGSSVNKANDSIYGLEEQGGNPGENDVNNS GDFWWDLPIEKMGTEELEDYLHSLKELKSNVIARIEIIGGNNNPWTESGIINQFII

>L42c28885F-g52789_AGL15 MGRAKNEIKRIDNANSRQVTFSKRRNGLLKKARELSILCDAEIAVIVFSNTGKLFEFSSSGMRKTILR YNKFRDSTEPARAEQGTEKQDLMEQGVLNDEISSLKVKPLRLLGNDLTGLSLKELLHLEQQLNEGLKC V

>L42c0g72+73_AGL23 MGRGKILIRRIDNSTSRQVTFSKRRSGLLKKAKELAILCDAEVGVMIFSSTGKLYDFCSMISVIERFN KSKEEHQMGNLNSEMKFWQGEAASLRQQLQSLQENHRKMMGEELSDLTIRDLQNLENQLEMSLHGVRM KKEQILVDEIQELNRKGTILHQENMELYKKAYGTKDANGTNGNSLFRNGFGIGEDLHVPVHLQLSQPQ QQNYDEPTSATKLGTLQLRQ

>L42c395F-g7289_AGL82 MRRKRANLQFLEEKARLVTYPKRRATLLKKASELSILCGVDVCLVIFGPNCQNDLGFNLETWPSSSAE VKRIINNYRDSAQPKIRHFPDYFANRDKLVKQARENNLKARYPTWDARLDQLSADQNTLLLGRLNTKI EVAEQKLVMLKENPIMMKQAATPRLPCSSRFGQTVSFHKDDYPKLGNENMPSTCSYRALVISYPDVPL DVQMPTIPFQQVHGSQMITCNSVSGLSNSNNCDPYHMERFSFQKATPFQFQQSDCTTWYPNLMDDPCI NQFGGIGLIPGPDSWYNARPVTSRYEFGQSNDHADSSKNYSSASMMAHGSHPQYDPPGFPYPAQSSQG NFKQGKEDIQNNEPESYSVK

>L42c601g9657_AGL61 MEEKKRQTRRTEIKKIEKKSACATTFTKRRQGLFRKTEKFCTSCGANAAVVLFSPQLGKPYSYGHPSV DSVMAQFLKDNDEASTSTANSSSASQNNRQGNGVDLRETGTPESNAEGRGVHVPADWWNESLEGMDLD ELNRFEAALLKLKKNLLSQIEEKKNRERRLQDFFSYRSVLVAPSSEITAAIENSDTVWFKLQVVKGKS LQFLGWPLNVVIAFIAKNLILPLRYLLLTEANFDIC

>L42c733F-g11005_AGAMOUS4(P.edulis) MSSVSVLISYRKAMAYITESREASPQRKLGRGKVEIKRIENTTNRQVTFCKRRNGLLKKAYELSVLCD AEVALIVFSTRGRLYEYSNSSSVKSTIERYKKASADTNTTGSVSEANAQFYQQEAAKLRQQISNLQNS NRNMLGESLSGLTAKDLKNLESRLEKGISKIRSKKNELLFAEIEYMQKREIDLHNNNQLLRAKIAENE RKRQNMNLMPGGSNYEMMQSHQTYDSRNYSQVNALPSNNHYEHQDQMALQLV

>L42c915g12623_AGL19 MVRGKTQMKRIENATSRQVTFSKRRNGLLKKAFELSVLCDAEVALIVFSTRGKLYEFSSSSTSKTIER YQRKFRELVNSGKAGSENMQHVKEDTFSMAKRIEHLEVSKRKLLGEGLEPCSTDELQQLENQLEKSLT 149

RIRAKKTQLLREQIEKLKQEERFLLEENKKLREKCGMEPLEQYSSKRQKTAVDRDSMQIDVETELFIG PPESRVAQKL

>L42c1065F-g13842_AGL12 MARGKVQMKRIENTVHRQVTFCKRRSGLLKKAKELSVLCDAEIGVVIFSAQGKLFELATTGTMQGLME RYLKSSRGAQAEIPKETLPLEAKEEINMLKLEIEVLQKGLRYMFGGGAAEMSLDELLVLEKQLEMWIY HIRSTKMEIMLKEIQLLKNKEGVLQAANQYLQDKVEENFQITDFGSIAAMCRPCPLTIQNEIFQF

>L42c4622g29539+g29541_AGL42 ou SOC1 MVRGKIQMRRIENDTSRQVTFSKRRNGLLKKACELSVLCDAEVAVIVFSQRGRLYEFASNEYVSYSIK YKPFVCFEIFSLFSPKAAIDHAPEKQMQQLKHESVTMAHTIELLKTSQRKFMGLCLDTSSVEQLQEIA NQLDRSLSTVRARKDQMLQEQIDQLKAREIELFEENARLSEKCGVEPCSQSAACKEGLTYLSLTGDRA EVETELFIGLSQMRDSS

>L42c5042F-g30691_FLC MGRKKLELKLIENKSRRRVTFSKRRHGLIKKAQELSVLCDAQVALLISSSLGKRYQFASSLATILARY NNHVEDKAPTSIDVNNKTSDSMHTNSKSPSQLLQTVHRNIESIDIEHLKMSELTQLEEHLLVLLSKIR NRKMTLTLEYLKPINDKRLICFKQERFTRQENEIIEKEISSSKNRNVADDDDTMERDDGNGNRTSARS KRASGSALVEDFRRAVCAGFEYPAFASFDDSVIGSYFSGHVDEDEEEEEEVNGGRIRDDSGGVYIVAA WNIVDSDAMWIGDFLYRVFLDALGYSFVYGVLCGWCCLYDFHVGSVPALLCIATASLSSAEGGSR

>L42c5234g31183_AGL104 MGRVKIQIKRIENTTNRQVTFSKRRNGLIKKTYELSVLCDIDVALIMFSPSGRVSLFSGNKSIEEILA RYLNLPDHERGWLPNQEQVLEKNSSPPAPPAASQLNPSPETEHTNGIGAETRQPVAQILTPPSALLDG RGLADDNDEQHAQRGYMTNVNLFPWTEIYPTGDMHYNMSGDS

>L42c6007F-g32961_AGL8 MELISNERSRMVTYQKRTRGLIKKMEEFHILCDVDACLIIIGPKSNHQPAGLVTWPTDSDEMMRIINR YREEGSRDTRVKKTQDLSDYFATRKRKLVHEIAGVRKASMEAKFPIWSDRLNLLSFQQLKALDSVLDN KLEFAKRRVLEMGGKACMREGDPLSGSEGGGHLLPHLGVTPSKYVDPFYQKMMELKPVDVEFKELDRQ PMAYPYHQMVPLNFNLTPALNTLMMKVNGADPAQSAGMIASSSNNIPFSYSPVSDSACYHPIAPTVEN ETFFNFSRAYTPVSYSGQPSQPSLPYLQSPMMFNFSPQNGITQFDDFSDLKGFGMHKGEGNF

>L42c1065g13848_AGL11 MGRGKIEIKRIENTTNRQVTFCKRRNGLLKKAYELSVLCDAEVALIVFSSRGRLYEYSNNSSIKTTIE RYKKASSDSANANTVTEINAQYYQQESAKLRQQIQMLQNSNRHLMGDSLSSLTVKELKQLENRLERGI TRIRSKKHELLLAEIEFLQKREIELENESVCIRTKIAEVERLQQANMVTGAELNAIHALASRNFFSPQ MMEGGNSYSQPDKKMLHLG

>L42c2945F-g24062_AGL104 MRKNCLSCRERNNFVKRRSTLLKKAGELATLSGAKVCLVSYDDDGELHTWPENRTEAANIISEYMNNR YDMDGTRTRKLDLCGFLAAKKKKVEAKEVRALNSRIDIVASQTKDKMDIFSAVLRICTDNMPQESLTE LASFYKSTVKSLIDRIKFVKDKKLKETPKKDDQEVLYSSTLYGKCSSGPNILDLETQPLSHTALLNCD YQKDPSYAYLIETDPMGCGTNYVGSTSNCMDGTGMIFGNYSSSVGHYKNIGSDNNNANEIARDSFLNL GNTVSNIMNSDMSLIGAYNNIGCILPCNSNKNIGYGSATTYMDVIGINMGACSTEMDYHMNRGRGSDN VDEIAWDSFLNVGNSGGHMKNSNMGLVITDSNNGGIVPCQSYMNIGSGVASNHMVMSALNLESTMINM AANTRNDNNDMSFAVVDYPGDLIGEKIPFNPAVPAHDQELRPLKAFPISTFPGDPWDWGQELMPAISS LGKSKYLQS

>L42c3093F-g24659_AGL27 MGRGTLKMELISNERSRLITYHKRKKGLTKKAREFNILCDVDACVIIFGPRVSDREVDIETWPADRND VMRIIKRYRTEGSERKKTQDLSDFFVNRKKRVDDERAKLRKACLEAKFPLWDNRLDFLSVDQLKALAT EIDVKLETAKTRLLQIKGNHFFTVDHNPAIGTKRSSVSDRTNLMASTFANAWHQKNAEFEVLNQQQQQ PFSCIKPLDMHMPSYYSPSDQALQQMMPGSSNHVNNPLFMMLLMGGEDYGQFGNMYGGNFPCTPSKAP VYYNYDPAPEMLGNTMINNPRAHPGSYYGRTRQHMLPYPRQVPEMTNFVPQMPQLHAPQRSDYGEFIT ELDISKK 150

>L42c3332F-g25531_AGL80 MTRKKVKLVWIANDAARKASLKKRRAGLLKKVSELTTLCGVKAFVIIYSPDDPEPAVWPSRAVVEELL HRFQSLPDMERTKKMTNQESYLKERMGKLQDQGKKNERKNMDMELNYLMHQLYQGRGAQGLSYSEMEG LTWLVQEKVKDIRKRVEYFEQVPPFSSDLFPNRDPMVGGDADDVTGENNPTDPIPTFPDQWLIDAMKH KDSSTGAGSSRSDIGLPHPYTSDGGSSSAGTDLSFFRRSNVGGSIAGQGFGIGAPNHPNFGGHSGGNL YDMGLAHGNMVGGAPDGNYYDAGLPHGTMGGNTSGGNNFNLEFSQGNTFDLGPNHQNIGENAPGLGRP AGSNAIHGMGLPHGNFARSNIGGHGFTALGFTDHGHPGSSSAGAGGSGAGASGSGAGAGPSDGAGLHG LFGTGNDDRMASDGTKNWPPSDFPH

>L42c3920g27456+g27457_AGL11 MGRGKIEIKRIENTTNRQVTFCKRRNGLLKKAYELSVLCDAEVALVVFSTRGRLYEYSNNNIKSTIER YKKASSDNTNTSSITEINAQYYQQESAKLRQQIQMLQNSNRHLMGDSLSSLTVKELKQVENRLERGIT RIRSKKHEMLLAEIEYLQKREIELENESVCIRTKIAEVERLQQANMVTGAELNAIHELASRNFFNPQM IEGGNSSSHPDREIPHLR

>L42c6251F-g33452_AGL6 MGRGKIVLERIENKASRQATFFKRRKGLIKKAYELSVLCDAEVGLIIFSGRGKLFEFGSTDMYKILQR YRQCQFGYEENSITQKGSQTLYQEVARLRTIYESLERSERHFHGENLGHLNAKQLQKIETRADKTLSL VRQRKEGALREENKQLKIKLEGHHSLQATQVAEQPCTTTAGEKHIKMRSSLSNLANSALSLRMGSSQY YSHPAPDSIASSFANFVGKSTSV

>L42c9690g39044_AGL12 MTRGKVQMKRIENPVHRQVSFCKRRAGLLKKAKELSVLCDAEIGVVIFSSHGKLFELATKGTMQGLVE RYVKSTTGVQPEQPKETQTLDVKEEIDMLKQEIEDLQKGFRYFLFGGAAAAEMTLDELLVQEKHLEMW ICHIRSTKMNTIFKEIQLLRNTEEVLQATNEYLHDKVVENFGITNFASVPTCMPCSLFHVNGLRNHIT IRFNGLVCVHRVINVILCIILDCFFMI

>L42c11479F-g41143_AGL80 MTRKKVKLAFIANDAARKATFKKRKKGLIKKVSELSTLCGVDACAIIYSPYETQPEVWPSHTGVQRVL SHFKQMPEMEQSKKMMNQETFLRQRIAKAGEQLKRQRKDNREKEVTEIMFRGLLGKSLLHLNMMDLND LDWLIEQHIKEINKRADTLKNGGNPPPNQPALQVAPPSAAGEAGPSGVQRESPALQLHQQQDHKPPFE LNAENMQRHQWFMDYMNPPHPHHPQESMAFGGDDMMPPFGDNNNHNALWSNGFFH