Evolução do S-locus

em

José Pedro Oliveira Pimenta Dissertação de Mestrado apresentada à Faculdade de Ciências da Universidade do Porto em Área Científica 2018

Evolução do S-locus

em Rosaceae

José Pedro Oliveira Pimenta Mestrado em Biologia Funcional e Biotecnologia de Plantas Departamento de Biologia 2018 Orientador Cristina Alexandra Gonçalves Paula Vieira, Investigadora auxiliar no IBMC, [email protected] Coorientador Jorge Manuel de Sousa Basto Vieira, Investigador principal no IBMC, [email protected] Endereço R. Alfredo Allen, 4200-135 Porto

Todas as correções determinadas pelo júri, e só essas, foram efetuadas. O Presidente do Júri, Porto, ______/______/______

Evolução do S-locus em

Rosaceae José Pedro Oliveira Pimenta Mestrado em Biologia Funcional e Biotecnologia de Plantas Departamento de Biologia

Eu, José Pedro Oliveira Pimenta, aluno com o número 201307759, inscrito no mestrado Biologia Funcional e Biotecnologia de Plantas presente ano letivo 2017/18, declaro por minha honra que sou o autor da totalidade do texto apresentado, não aprento texto plagiado, e tomei conhecimento das consequências de uma situação de plágio.

Porto, data 01 de Outubro de 2018

Agradecimentos

Quero agradecer à minha orientadora, Cristina Vieira, pelos ensinamentos proporcinados ao longo deste ano, incluindo todo o apoio oferecido. Não esquecendo o apoio do co- orientador Jorge Vieira.

Aos meus colegas de laboratório queria agradecer pelos bons momentos, divertimentos e apoio, neste ano letivo.

Não esquecendo a minha família e amigos, agradeço pelo conforto e pelo apoio neste caminho percorrido e por me terem ajudado a definir a pessoa que sou hoje.

i

Resumo

Em Rosaceae, dois sistemas distintos de auto incompatibilidade gametofítica (AIG) foram descritos. Estes sistemas diferem quer nos genes envolvidos na especificidade da reação, quer no tipo de reação. Assim, em , existem somente dois genes, um feminino (denominado por S-RNase) e outro masculino (denominado por SFB) envolvidos na especificidade desta reação. Os genes do mesmo S-haplótipo interagem, e como resultado desta interação a S-RNase fica ativa e degrada o RNA do tubo polínico de pólen geneticamente relacionado (self-pólen). Em Malus, Pyrus e Sorbus (Maleae) o gene feminino é também uma proteína com atividade ribonucleica (também denominado por S-RNase), mas existem múltiplos genes do pólen, denominados SFBBs, envolvidos na determinação da especificidade da reação de AIG. Neste caso, nenhum dos SFBBs tem afinidade para a S-RNase do mesmo S-haplótipo, mas cada um deles reconhece as diferentes S-RNases presentes numa determinada população. Ambos os componentes da reação de AIG nestas espécies tiveram histórias evolutivas diferentes. Embora o sistema de AIG tenha aparecido há 120 milhões de anos (Ma), diferentes duplicados dos genes ancestrais estão envolvidos na determinação desta reação em Prunus e em espécies de Malus, Pyrus e Sorbus (espécies de Maleae que estão a divergir à 30 Ma; Figura 4). A identificação de genes (feminino e masculino) da linhagem de Prunus em Fragaria (Potentilleae; que está a divergir à cerca de 100 Ma) sugere que o sistema ancestral seria do tipo de Prunus. Contudo, como o sistema em espécies de Maleae funciona de forma idêntica ao descrito em Petunia (Solanaceae), tem sido sugerido que este sistema possa também existir no ancestral de Rosaceae. Neste trabalho, identificamos a partir de análises genómicas, o possível gene feminino deste sistema em espécies de Vauquelinia (Maleae) e Gillenia (Gillenieae), que divergiram depois da separação de Prunus e Maleae à 46 e 48 Ma, respetivamente. A presença de genes da linhagem da S-RNase de Malus e não da linhagem de Prunus nestas espécies, sugere que à 52 Ma o sistema de AIG podia ser semelhante ao de espécies de Malus. Contudo, para confirmar esta hipótese, análises semelhantes às aqui realizadas para o gene feminino teriam de ser feitas para o(s) gene(s) do S-pólen. Análises genómicas dos genes da linhagem da S-RNase em Physocarpus (ancestral à separação de Maleae e Prunus) revelaram a presença de sequências da linhagem de Prunus, o que sugere que o ancestral de Rosaceae teria um sistema semelhante ao de Prunus e que o sistema presente em Malus teria evoluído de novo. Mais uma vez, análises do(s) gene(s) masculino(s) terão de ser realizados nesta espécie para validar esta hipótese. Contudo, estas análises não podem ser realizadas em genomas fragmentados como os analisados neste trabalho, pois os genes do S-pólen pertencem a uma das maiores famílias de genes em plantas, em que os genes apresentam níveis de divergência baixos (o que implica não reconhecer estes genes como diferentes). Para validar se o sistema AIG no ancestral de Rosaceae era do tipo de Prunus, neste trabalho analisamos 12 genomas de Rosa (Roseae, ancestral a Physocarpus). Neste caso, o grande número de espécies analisadas, mesmo que os genomas usados tenham uma cobertura baixa (ou seja, sejam incompletos), permite assumir que um gene está ausente num genoma, se o mesmo não for identificado em nenhuma das espécies analisadas. Assim, podemos concluir que a linhagem do gene feminino de Malus não está presente em Rosa,

ii e que o gene responsável pela especificidade feminina neste grupo de espécies é da linhagem de Prunus. Neste trabalho, usamos a segregação do alelo S2-RNase em R. arvensis para validar que as sequências putativas S-RNase estão de facto envolvidas em AIG. Devido à qualidade dos genomas de R. chinensis e R. multiflora pudemos também fazer análises do(s) gene(s) S-pólen. Em Rosa, a S-RNase identificada está localizada no cromossoma 3. Assim, fizemos análises filogenéticas de todos os genes com semelhança aos genes S-pólen de Malus e Prunus que se localizavam neste cromossoma em R. chinensis. Incluímos, nesta análise, todos os genes que tinham estas características pertencentes a R. multiflora. O resultado sugere que o gene masculino que determina a especificidade AIG é do tipo de Malus. Assim, a história evolutiva dos dois genes envolvidos em AIG é diferente. O estudo da evolução dos dois sistemas AIG em Rosaceae é mais complexo e requer análises dos genes femininos e masculinos em espécies da linhagem de Geum e Rubus para perceber a sua evolução.

Palavras chave: Auto-incompatibilidade gametofítica (AIG), S-RNase, SFB, SFBB, S- locus, Rosa, Amygdaloideae

Abstract

In Rosaceae, two distinct systems of gamethophytic self-incompatibility (GSI) are described. These systems differ in both the genes involved in the specificity and the type of reaction. Thus, in Prunus, there are only two genes, one female (denominated as S- RNase) and the other male (called SFB) involved in the specificity of this reaction. The genes of the same S-haplotype interact with each other, and, as result of this interaction, the S-RNase becomes active and degrades the pollen tube RNA of the pollen genetically related (pollen self). In Malus, Pyrus and Sorbus (Maleae), the female gene is also a protein with a ribonucleic activity (also called S-RNase), but there are multiple pollen genes, called SFBBs, involved in determining the specificity of the GSI reaction. In this case, none of the SFBBs have affinity for the S-RNase of the same S-haplotype, but each of them recognizes the different S-RNases present in a given population. Both components of the GSI reaction, in this species, have different evolutionary histories. Although, GSI system appeared 120 million years (MY) ago, different duplicates of the ancestral gene are involved in determining this reaction in Prunus and in the species of Malus, Pyrus and Sorbus (Maleae species that are diverging at 30 MY; Figure 4). The identification of genes (female and male) of the Prunus lineage in Fragaria (Potentilleae; wich is diverging about 100 MY) suggests that the ancestral system would be of the Prunus type. However, as the system present in the species of Malus, Pyrus and Sorbus (Maleae), functions in the same way as described in Petunia (Solanaceae), it has been suggested, that this system may also exist in the Rosaceae ancestor. In this work, we identified from the genomic analyses the possible female gene, of this system, in Vauquelinia (Maleae) and Gillenia (Gillenieae) species, wich diverged after the Prunus separation at 46 and 48 MY, respectively. The presence of genes of the Malus S-RNase lineage and not of the Prunus lineage in these species, suggests that at 52 MY the GSI

iii system could be similar to the Malus species. Nevertheless, to confirm this hypothesis, similar analyses to those performed here for the female gene would have to be carried out for the S-pollen gene. Genomic analyses of S-RNase lineage genes in Physocarpus (ancestral to Malus and Prunus separation) revealed the presence of Prunus lineage in the sequences, suggesting that the Rosaceae ancestor would have a similar system to Prunus and the system present in Malus have evolved de novo. Again, analyses of the male gene(s) will have to be performed on this species to validate this hypothesis. However, these analyses cannot be performed on fragmented genomes like those analysed in this work, because S-pollen gene belongs to one of the largest gene families in , where genes have low levels of divergence (which implies not to recognize these genes as different). To validate whether the GSI system in the Rosaceae ancestor was of the Prunus type, in this work we analysed 12 genomes of Rosa (Roseae, ancestral to Physocarpus). In this case, the large number of species analysed, although the genomes used have low coverage (incomplete), allows to assume that one gene is absent in a genome, if it is not identified in any of the analysed species. Therefore, we can conclude that the lineage of the female gene in Malus is not present in Rosa, and that the gene responsible for the female specificity, in this group of species, is from the Prunus lineage. In this work, we used the segregation of the S2-RNase allele in R. arvensis to validate whether the putative S-RNase sequences are indeed involved in GSI. Due to the quality of two of the genomes of Rosa (R. multiflora and R. chinensis) we also performed analyses for the S-pollen gene(s). In Rosa, the identified S-RNase is located in the chromosome 3. Thus, we carried out phylogenetic analyses of all genes with similarity to the S-pollen genes of Malus and Prunus that were located in this chromosome in R. chinensis. We included, in this analyses, all the genes that had these characteristics belonging to R. multiflora. The result suggests that the male gene that determines the GSI specificity is of the Malus type. Therefore, the evolutionary history of the two genes involved in GSI is different. The study of the evolution of the two GSI systems in Rosaceae is more complex and requires analyses of the female and male genes in the species of Geum and Rubus to perceive its evolution.

Key words: Gametophytic Self-incompatibility (GSI), S-RNase, SFB, SFBB, S-locus, Rosa, Amygdaloideae

iv

Índice

Agradecimentos...... i Resumo...... ii Abstract...... iii Lista de Figuras...... vii Lista de Tabelas...... viii Lista de Abreviações...... ix 1.Introdução...... 1 1.1 Auto-polinização...... 1 1.2 Auto-incompatibilidade...... 1 1.3 Gene da S-RNase...... 4 1.4 Gene da F-box...... 5 1.5 Evolução do sistema AIG em Rosaceae...... 7 1.6 Família de Rosaceae...... 8 1.7 Objectivos...... 10 2. Materiais e Métodos...... 11 2.1 Análise do ponto isoelétrico (PI) de S-RNases de Malus e de Prunus...... 11 2.2 Identificação, no NCBI, de dados genómicos das espécies de interesse...... 11 2.3 Montagem do genoma ...... 12 2.4 Caracterização do gene S-pistilo...... 13 2.5 Caracterização de genes S-pólen em Rosa chinensis e R. multiflora...... 13 2.6 Caracterização do gene S-locus em Rosa arvensis...... 13 2.6.1 Material vegetal...... 13 2.6.2 Extração do DNA genómico de R. arvensis...... 14 2.6.3 PCR (“Polymerase chain reaction”)...... 14 2.6.4 Extração do DNA do gel de agarose – QIAEX gel extraction protocol...... 15 2.6.5 Clonagem- “TOPO TA cloning control reaction”……………………………..15 2.6.6 Extração do DNA plasmídico – protocolo NZYminiprep...... 15 2.6.7 Sequenciação...... 16

v

3. Resultados e Discussão...... 17 3.1 Valores de PI (ponto isoelétrico) em diferentes regiões da proteína codificada pelo gene S-RNase em Rosaceae...... 17 3.2 Análise do gene da S-RNase na subfamília das Amygdaloideae...... 18 3.3 Identificação do gene putativo da S-RNase no género de Rosa...... 27 3.4 Análises de segregação do gene putativo da S-RNase em Rosa arvensis...... 47 3.5 Caracterização do S-pólen em Rosa...... 49 4. Conclusão...... 54 5. Trabalho Futuro...... 55 6. Referências...... 56 7. Dados suplementares...... 63

vi

Lista de Figuras

Figura 1. Representação simplificada da regulação da morte celular programada (MCP) no sistema AIG de Papaveraceae (A) e Rosaceae (B)...... 4 Figura 2. Estrutura do S-locus de Prunus...... 6 Figura 3. Modelo colaborativo do reconhecimento “non-self”, juntamente com a estrutura do S-locus de Malus...... 7 Figura 4. Cladograma das espécies de Rosaceae e tipo de AIG nas espécies estudadas...... 9 Figura 5. Ponto isoelétrico das sequências proteicas das S-RNases de Prunus...... 17 Figura 6. Ponto isoelétrico das sequências proteicas das S-RNases de Malus...... 18

Figura 7. Relação filogenética das sequências de Vauquelinia com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 1...... 21

Figura 8. Relação filogenética das sequências de Vauquelinia com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 2 e a região dos dois motivos proteicos (sequência completa)...... 22

Figura 9. Relação filogenética das sequências de Vauquelinia com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 2 e a região de ambos os motivos proteicos (sequência completa)...... 23

Figura 10. Relação filogenética das sequências de Gillenia com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 1...... 25

Figura 11. Relação filogenética das sequências de Physocarpus com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 1...... 26

Figura 12. Relação filogenética das sequências de Rosa com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 2 e a região que cobre ambas as regiões proteícas (Sequências completas)...... 46 Figura 13. Produtos de amplificação, a partir do DNA genómico, das diferentes variedades de Rosa arvensis...... 47 Figura 14. Confirmação da inserção do fragmento de aproximadamente 300 bp...... 48

Figura 15. Produtos de amplificação, a partir das sequências obtidas da sequênciação, com a utilização do primer foward específico S2 com o primer reverse RA11...... 49 Figura 16. Localização das possíveis F-box, em R. chinensis, ao longo do cromossoma 3...... 51 Figura 17. Localização dos cinco genes F-box nos scaffold sc0001861 e sc0006888 (respetivamente) de R. multiflora...... 51 Figura 18. Relação filogenética das sequêncas de Rosa com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do F-box...... 52

vii

Lista de Tabelas

Tabela 1. Motivos que permitem distinguir os genes S-RNase e S-lineage de outros genes T2- RNase (Vieira et al. 2008)...... 5 Tabela 2. Genomas de Rosaceae disponíveis no NCBI, usadas para a caracterização do gene da S-RNase...... 11 Tabela 3. Indivíduos utilizados para o estudo de segregação...... 13 Tabela 4. Parâmetros utilizados para a amplificação do plasmídeo inserido no vetor pCRTM 4-TOPO, com a utilização dos primers M13 Forward e M13 Reverse...... 16 Tabela 5. Sequências de Vauquelinia com homologia a S-RNases de Rosaceae...... 19 Tabela 6. Sequências de Kageneckia com homologia a S-RNases de Rosaceae...... 24 Tabela 7. Sequências de Gillenia com homologia a S-RNases de Rosaceae...... 24 Tabela 8. Sequências de Physocarpus com homologia a S-RNases de Rosaceae...... 25 Tabela 9. Sequências de R. multiflora com homologia a S-RNases de Rosaceae...... 28 Tabela 10. Sequências de R. damascena com homologia a S-RNases de Rosaceae...... 29 Tabela 11. Sequências de R. chinensis INRA com homologia a S-RNases de Rosaceae...... 30 Tabela 12. Sequências de R. chinensis presente no NCBI com homologia a S-RNases de Rosaceae...... 31 Tabela 13. Sequências de R. odorata com homologia a S-RNases de Rosaceae...... 32 Tabela 14. Sequências de R. odorata gigantea com homologia a S-RNases de Rosaceae...... 33 Tabela 15. Sequências de R. rugosa 14 com homologia a S-RNases de Rosaceae...... 34 Tabela 16. Sequências de R. rugosa 19 com homologia a S-RNases de Rosaceae...... 35 Tabela 17. Sequências de R. laevigata com homologia a S-RNases de Rosaceae...... 36 Tabela 18. Sequências de R. moschata com homologia a S-RNases de Rosaceae...... 37 Tabela 19. Sequências de R. xanthina com homologia a S-RNases de Rosaceae...... 38 Tabela 20. Sequências de R. arvensis com homologia a S-RNases de Rosaceae...... 39 Tabela 21. Sequências de R. majalis com homologia a S-RNases de Rosaceae...... 41 Tabela 22. Sequências de R. minutifolia com homologia a S-RNases de Rosaceae...... 41 Tabela 23. Sequências de R. persica com homologia a S-RNases de Rosaceae...... 43 Tabela 24. Gene F-box com semelhança a Prunus SFBs, Malus SFBBs, e Prunus SLFL genes localizados no cromossoma 3 de R. chinensis...... 50

viii

Lista de Abreviaturas bp- pares de base

DNA- ácido desoxirribonucleico

AIG- auto-incompatibilidade gametofítica

GSI- gametophytic self-incompatibility

AI- auto-incompatibilidade

AIE- auto-incompatibilidade esporofítica

AP- auto-polinização

Ma- milhões de anos

MCP- morte celular programada

PI- ponto isoelétrico

RNA- ácido ribonucleico

S-RNase- T2-RNase que determina a especificidade feminina

SFB- “S-haplotype specific F-box”- gene S-pólen Prunus

SFBB- “S-locus F-box brothers”- genes S-pólen Malus

SFLF- “S-locus F-box like”- genes F-box de Prunus que estão na região do S-locus mas não estão implicados na especificidade da reação AIG

SLF- “S-locus F-box”; genes S-pólen de Petunia

ix

1. Introdução

1.1. Auto-polinização

As angiospérmicas são presentemente o grupo de plantas mais frequentes, consistindo num grupo grande e variado com mais de 300000 espécies (Naik, 1984). São definidas como o grupo de plantas com flor, em que possuem óvulos fechadas dentro de um ou mais carpelos, embora haja exceções (Naik, 1984). A flor, de uma forma genérica, é constituída pela parte masculina (as anteras) e a pela parte feminina (os pistilos), geralmente na mesma estrutura floral. A presença desta arquitetura floral (hermafroditismo) leva a um aumento na probabilidade de ocorrer a auto-polinização (AP). A AP é uma boa estratégia quando a quantidade de polinizadores é reduzida, como por exemplo nos limites de distribuição de uma população ou após a destruição parcial da população por acção do fogo (Kalisz et al., 2004; Iwano e Takayama, 2011). Contudo, esta estratégia reprodutiva causa diminuição da variabilidade genética e acumulação de mutações deletérias, levando a uma redução do potencial adaptativo e a redução da flexibilidade evolutiva (Charlesworth e Charlesworth, 1993; Takebayashi e Morrell, 2001; Roalson e McCubbin, 2003). Deste modo, as angiospérmicas desenvolveram vários mecanismos de prevenção à AP, incluindo mecanismos de prevenção genéticos, denominadas por auto-incompatibilidade (Charlesworth e Charlesworth, 1993).

1.2. Auto-incompatibilidade

A auto-incompatibilidade (AI) é uma barreira genética (pré-zigótica) que descrimina o pólen relacionado geneticamente do pólen geneticamente não relacionado, permitindo somente a polinização do pólen não relacionado (De Nettancourt, 1997). A descriminação do pólen “self” do pólen “non-self” é realizada pelo sistema reprodutor feminino (Iwano e Takayama, 2012) e em muitas angiospérmicas é controlado por um único locus, com múltiplos haplótipos, denominado por S-locus (De Nettancourt, 2001). A incompatibilidade ocorre quando a informação genética do pólen é idêntica ao expresso no pistilo, resultando na inibição da germinação do grão de pólen ou do crescimento do tubo polínico (Watanabe et al., 2012). Este mecanismo genético previne a auto- polinização e mantêm os níveis elevados de heterozigotia, e pensa-se que este mecanismo tem tido um papel importante na diversificação e expansão das angiospérmicas. (Stebbins, 1950; Iwano e Takayama, 2012).

A AI pode ser classificada consoante a sua morfologia, em heteromórfica ou homomórfica. As espécies que apresentam a AI heteromórfica possuem flores com diferentes morfologias, por exemplo, podem possuir um pistilo longo e um estame curto (“pin”) ou um pistilo curto com estames longos (“thrum”), e estão presentes em espécies de Primula (Primulaceae), Fagophyrum (Polygonaceae) e Averrhoa (Oxalidaceae). A polinização nesta divisão ocorre entre flores com morfologias diferentes e o tubo polínico cessa o seu crescimento quando o pólen é oriundo de flores com a mesma forma (Allen et al. 2011; Watanabe et al. 2012). Neste caso, o locus que controla a polinização cruzada e o fenótipo da incompatibilidade também controla a forma da flor (o tamanho dos pistilos

1 e dos estames). Embora o sistema tenha sido descrito por Darwin em 1877 (Darwin, 1877; Franklin-Tong, 2008), os mecanismos genéticos não estão completamente caracterizados, uma vez que, os polimorfismos sexuais evoluíram de forma independente nas várias angiospérmicas que apresentam este sistema. Contudo, no caso de Primula vulgaris, a partir do pressuposto de que os genes além de estarem relacionados com a incompatibilidade, também estão relacionados com o dimorfismo sexual, determinou-se a existência de cinco genes (CCMT, GLOT, CYPT, PUMT e KFBT) no S-locus que só são encontrados no genoma com o fenótipo “thrum”, como uma inserção hemizigótica (Li et al. 2015; Huu et al. 2016; Burrows e McCubbin 2017). Estes genes do S-locus, foram identificados a partir da sequência de grandes contigues provenientes de livrarias BAC, que por hibridação in situ demonstraram estar localizados próximo da região do centrómero do maior cromossoma metacêntrico de Primula. Estes contigues foram obtidos pela análise genética de recombinantes de três cruzamentos bem como de mutantes (Li et al. 2015). O gene CCMT (motivo conservado de cisteína) codifica uma proteína com um domínio carboxi (C)-terminal que é conservado em monocotiledóneas e em dicotiledóneas, o gene PUMT codifica uma proteína Pumilio-like39 que se liga ao RNA, o gene KFBT codifica uma proteína semelhante à Kelch repetitiva F-box presente na Arabidopsis, que está envolvida na regulação da atividade da citocinina. O gene PvGLO2 tem homologia com os fatores de transcrição MADS-box e o gene CYP734A50 está envolvido na regulação hormonal (Burrows e McCubbin 2017). Assim foi sugerido que, o S-locus regula indiretamente uma grande quantidade de genes e provavelmente leva a um diferencial nas cascatas de expressão entre os dois tipos de flores (Burrows e McCubbin 2018).

As flores das plantas homomórficas só possuem uma forma e estão divididas em auto- incompatibilidade esporofítica (AIE) e auto-incompatibilidade gametofítica (AIG) (Hinata et al. 1993, De Nettancourt, 2001), dependendo, se o fenótipo 2.6AI do pólen é determinado pelo o seu próprio genótipo haplóide ou gametofítico (AIG) ou pelo genótipo diplóide ou esporófito (AIE) (Iwano e Takayama, 2012).

O sistema AIE de Arabidopsis (Brassicaceae) é controlado por uma única região no genoma. Esta região é composta por dois genes em desiquilíbrio gamético que codificam o S-locus. O gene do pólen é rico em cisteínas (SCR) e o receptor femenino é uma cinase (SRK) presente no estigma, em que, a ligação entre a molécula receptora e o ligando levam à rejeição do pólen “self” (Durand et al. 2014). O reconhecimento do fenótipo do pólen é controlado pelo genótipo diplóide parental. Apesar da maioria das plantas ser heterozigótica, o reconhecimento do fenótipo do pólen é tipicamente determinado por um dos alelos, de acordo com a sua posição relativa dos alelos na hierarquia ou com as interações de dominância-recessividade entre os S-alelos (De Nettancourt, 2001). Estes componentes moleculares não foram encontrados em espécies de Convolvulaceae (Rahman et al. 2007) e Asteraceae (apresentam AIE, Allen et al. 2011), o que sugere que este sistema evoluiu independentemente múltiplas vezes. O género Leavenworthia (Brassicaceae) apresenta dois genes em desiquilíbrio gamético que exibem características de S-locus, tais como altos níveis de polimorfismo e padrões de expressão característicos

2 do S-locus. Além disto, os genes do S-locus do género Leavenworthia ocupam a mesma posição genómica de dois genes que não são S-locus em Arabidopsis (são parálogos aos genes SRK e SCR de Arabidopsis), sugerindo que estes genes evoluíram para assumir o sistema de reconhecimento AI no género Leavenworthia. Deste modo, foi proposto que os genes S-locus em Brassicacea possuem origens independentes e que os genes S-locus ancestral se perderam em Leavenworthia (Chantha et al. 2013).

O sistema AIG é o sistema mais comum de AI em Angiospérmicas (Sassa 2016; Franklin-Tong e Franklin 2003). Embora na maioria das espécies exista um único S-locus, no caso de Secale cereal L. (o centeio) e em outras gramíneas o sistema é determinado pela ação complementar de dois loci expressos na zona haplóide, denominados por S e Z. A rejeição do pólen ocorre quando ambos os alelos S e Z do grão de pólen haplóide são expressos no tecido estigmático (Hackauf e Wehling 2005; Klaas et al. 2011). O sistema AIG pode ser dividido em dois grupos de acordo com os genes envolvidos na especificidade AI, que pode ser determinada por proteínas transmembranares do pólen mediadas pelo Ca2+ (presente em Papaveraceae), ou determinada por ribonucleases, denominadas S-RNases (presente em Solanaceae, Rosaceae e Plantagenaceae; Iwano e Takayama 2012; Meng et al. 2010).

Nas Papaveraceae, o sistema AIG é determinado por proteínas transmembranares do pólen mediadas pela sinalização dos catiões Ca2+. O S-locus desta família é constituído pelo determinante feminino (PrsS-“Papaver rhoeas stigmatic”), expresso no estilete, e o determinante masculino (PrpS-“Papaver rhoeas pollen”), que é expresso no pólen (Wheeler et al. 2009). Neste sistema, quando o S-haplótipo masculino reconhece o S- haplótipo feminino, há um aumento na libertação Ca2+ do citosol (excreção do Ca2+) e uma despolimerização da actina do citoesqueleto do tubo polínico, levando à inibição do pólen e à morte celular programada (MCP; Figura 1A; Wheeler et al. 2009, Wheeler et al. 2010, Wu et al. 2011, Iwano and Takayama 2012).

O sistema AIG também pode ser determinado por genes da família T2-RNase expressos no pistilo (denominados S-RNase). Este sistema AIG está presente nas Solanaceae, Rosaceae, Scophulariaceae e Rubiaceae (Igic e Kohn 2001; Lai et al. 2002; Entani et al. 2003; Ushijima et al. 2003, McClure 2009, Meng et al. 2010). A S-RNase é o componente feminino da AI, é expressa no pistilo e tem atividade de ribonuclease. No caso de uma reação de incompatibilidade, esta proteína funciona, possivelmente, como uma toxina que degrada especificamente o RNA do tubo polínico (Roalson e McCubbin 2003; Nowak et al. 2011).

Inicialmente, pensava-se que a rejeição do pólen “self” e inibição posterior do tubo polínico era feita somente com a interação das S-RNases que degradam o RNA do pólen “self”, que assim cessa o crescimento do tubo polínico. Contudo, sabe-se que a MCP tem o papel importante na rejeição do pólen “self”, quando há a interação entre o componente feminino e o(s) componente(s) masculino(s) e consequente rejeição do pólen “self”. Estudos de polinização in vitro e in vivo realizados em diferentes espécies identificaram

3 alterações na integridade do citoesqueleto, que podem desencadear MCP após interações pólen-pistilo, em polinizações com pólen “self”.

As S-RNases são capazes de especificamente disromper a localização das ROS (moléculas hemicamente reativas derivadas do oxigénio como consequência do metabolismo celular) localizadas na extremidade do tubo polínico, causadas por alterações mitocondriais e decréscimo da NADPH oxidase na mitocôndria e no citosol. Estas alterações levam à modificação na corrente de Ca2+ intracelular, uma despolimerização do citoesqueleto de actina e a degradação do DNA nuclear, características da MCP (Figura 1B; Serrano et al. 2015).

A

B

Figura 1. Representação simplificada da regulação da morte celular programada (MCP) no sistema AIG de Papaveraceae (A) e Rosaceae (B) (Serrano et al. 2015). A presença da S-RNase em espécies de Angiospérmicas distantes, assumindo que este gene é responsável por este mecanismo AI, sugere que este sistema emergiu no ancestral comum de três quartos das espécies de plantas, há mais de 120 Ma, antes da separação de Asteridae e Rosidae (Igic e Kohn 2001; Steinbachs e Holsinger 2002; Vieira et al. 2008; Ramanauskas et al. 2017).

1.3. Gene da S-RNase

O gene da S-RNase pertence à família de genes T2-RNases e encontra-se em todos os reinos (bacteria, fungi, animais e plantas), excetuando um grupo específico denominado por Archae (Condon e Putzer 2002; Nicholson 2011; Ramanauskas et al. 2017). A grande distribuição destas proteínas sugere que as RNases têm um papel biológico importante, o que explica a sua conservação durante a evolução (Ramanauskas et al. 2017).

4

Nas plantas, a família das T2-RNases, para além de participarem nos mecanismos de AI (Ramanauskas e Igic 2017), desempenham outros processos biológicos, como a resposta ao dano, senescência ou a resposta à invasão de patogénicos (Kimura et al. 2004; Lers et al. 2006; Köck et al. 2006; Ramanauskas et al. 2017). As T2-RNases das plantas, segundo as análises filogenéticas, podem ser divididas em três classes (I, II ou III, Igic e Kohn 2001). A classe I é constituída por RNases com dois ou três intrões, em que a maior parte das proteínas possuem um ponto isoelétrico (PI) acídico, sendo expressas durante a senescência e a falta de fosfato, na maior parte da linhagens de plantas terrestres (Ramanauskas et al. 2017). A classe II apresenta mais de quatro intrões e produzem proteínas com PI acídicos. Esta classe é expressa constitutivamente, o que sugere que estas proteínas podem ter um papel de “housekeeping” (Ramanauskas et al. 2017). A classe III, a que pertence o gene da S-RNase, possui um ou dois intrões, produzem proteínas com valores básico de PI e são expressas restritivamente nos eudicotes (Igic e Kohn 2001; Vieira e Charlesworth 2002; Ramanauskas et al. 2017).

O gene da S-RNase possui um ou dois intrões (característico da classe III) e codifica uma proteína com PI superior a 8,5, apresentando motivos aminoacídicos específicos no domínio funcional da sua proteína (Tabela 1, Igic e Kohn 2001; Ramanauskas et al. 2017). Três padrões aminoacídicos, descritos em Vieira et al. (2008), são usados para distinguir o gene da S-RNase e genes S-lineage (genes com a mesma origem da S-RNase, mas não envolvidos na AI) de outros genes T2-RNase. Os motivos proteicos 1 e 2 são específicos do gene da S-RNase, enquanto o motivo proteico 4 nunca é encontrado nas S-RNases ou em genes S-lineage. O motivo proteico 3 está presente tanto na S-RNase como em genes S-lineage (Vieira et al. 2008). As características das S-RNases, juntamente com as análises filogenéticas, podem ser usadas para identificar as sequências pertencentes à linhagem da S-RNase (Vieira et al. 2008). O gene feminino da AIG está sobre seleção balanceadora, em que a S-RNase rara é que tem maior vantagem seletiva, pois tem maior probabilidade de fecundar os indivíduos de uma dada população (Wright 1939; Charlesworth 2006; Newbigin et al. 2008). Assim, as S-RNases são genes que possuem elevados níveis de diversidade nucleotídica, superiores a 20%. Este parâmetro é o que destingue a S-RNase de genes S-lineage (Vieira et al. 2008).

Tabela 1. Motivos que permitem distinguir os genes S-RNase e S-lineage de outros genes T2-RNase (Vieira et al. 2008).

Motivo Padrão aminoacídico proteico 1 [FSV][AST][AITV][HNR]G[ILV]W[PQ][DEGNS][DHIKNST] 2 W[AILMPTV][DEHNQR][AFLMV][^ACHNPW][^CMP][^CW] 3 [HY]EW 4 (ausência) [CG]P[QLRSTIK][DGIKNPSTVY][ADEIMNPSTV][DGKNQST]

5

1.4. Gene F-box

O gene F-box é o componente AIG do pólen, podendo o seu número variar de um único gene F-box, no caso de Prunus (Rosaceae; S-haplótipo específico do gene F-box abreviada por SFB), até 18 genes F-box, como em Malus, Sorbus e Pyrus (Rosaceae; S- locus F-box irmãos, abreviados por SFBBs), Petunia e Nicotiana (Solanaceae; S-locus F- box, abreviado por SLFs) (Aguiar et al. 2015). As proteínas F-box, expressas pelos genes acima descritos são componentes ubiquitina ligase Skp1-Cullin-F-box-type (Qiao et al. 2004).

No caso de Prunus, que possui um único gene S-pólen, observam-se níveis de polimorfismo elevados, como o observado para o gene da S-RNase. O gene SFB é expresso unicamente em anteras e no pólen. As análises filogenéticas demostram uma história de co-evolução entre os genes do S-pólen e do S-pistilo, evidenciando que o SFB é o único gene masculino presente no S-locus (Entani et al. 2003; Ushijima et al. 2003; Ikeda et al . 2004; Sonneveld et al. 2005; Nunes et al . 2006; Ramanauskas et al. 2017).

A presença de vários F-box no S-locus, como nas espécies de Maleae, Petunia e Nicotiana, em que o reconhecimento é do tipo “non-self” (observar secção 1.5), os níveis de diversidade são diferentes para ambos os determinantes do S-locus. Deste modo, é expectável níveis baixos de diversidade no S-pólen nestas espécies pois a seleção não actua a nível do gene mas sim dos diferentes genes de um S-haplótipo (Kubo et al. , 2010; Minamikawa et al. 2010; Aguiar et al. 2013; Pratas et al. 2018).

Como os genes, que determinam a especificidade AIG, estão sobre a seleção balanceadora, é possível identificar os aminoácidos que estão sobre seleção positiva. Em Prunus, o número de sítios selecionados positivamente, é semelhante em alelos do S- gene. No entanto, o mecanismo de reconhecimento “non-self”, os genes S-pólen são altamente homólogos entre si, sendo expectável que se liguem à mesma zona da S-RNase. Portanto, a diversidade alélica, entre os diferentes S-pólens, não é necessária e não é favorecida pela seleção natural (Minamikawa et al. 2010; Aguiar et al. 2013; Pratas et al. 2018).

Figura 2. Estrutura do S-locus de Prunus. Neste género o modelo de interação é o inibidor geral, em que há interação entre a S-RNase e o SFB é do mesmo haplótipo. A presença de diferente números de genes S-pólen implica diferentes mecanismos de reconhecimento. No caso de Prunus, a interação entre os determinantes feminino e masculino possuem um reconhecimento do tipo “self”, ou seja, pensa-se que o SFB se

6 liga à S-RNase do mesmo S-haplótipo, ativando-a (Yamane et al. 2003, Ushijima et al. 2004, Tao et al. 2007). Resumidamente, em Prunus, o sistema de interação entre as duas moléculas de reconhecimento (F-box e a S-RNase) é denominado por modelo inibidor geral (Yamane et al. 2003, Ushijima et al. 2004, Tao et al. 2007; Ramanauskas et al. 2017). Assim, os dois S-genes precisam de co-evoluir para o reconhecimento específico, já que ambos os genes apresentam níveis similares de diversidade e o número de aminoácidos sobre a seleção positiva é o mesmo (estes aminoácidos poderão estar envolvidos na determinação específica; Figura 2; Yamane et al. 2003, Ushijima et al. 2004, Tao et al. 2007; Ramanauskas et al. 2017). As SLFLs (F-box like) encontram-se na proximidade do S-locus, mas não estão envolvidos na reação de especifidade da AI. Estes genes são filogeneticamente próximos de SFBBs de Malus mas são expressos noutros tecidos para além do pólen e das anteras (Figura 2; Aguiar et al. 2015).

O modelo colaborativo de reconhecimento “non-self” foi proposto para explicar as interações de vários genes S-pólen, presente em Solanaceae, Plantaginaceae e Maleae. As S-RNases reconhecem as SLF/SFBB de haplótipos diferentes (Figura 3). As proteínas SLF/SFBB para cada S-haplótipo interagem e desintoxicam, via proteossoma de ubiquitina, um conjunto de S-RNases, excluindo as S-RNases “self” (Figura 3; Kubo et al. , 2010; Iwano e Takayama, 2011; Fujii et al. 2016).

Figura 3. Modelo colaborativo do reconhecimento “non-self”, juntamente com a estrutura do S-locus de Malus. 1.5. Evolução do sistema AIG em Rosaceae

O sistema AIG (baseado nas S-RNase) evoluiu uma única vez, antes da separação das Asteridae e Rosidea, à 120 Ma (Igic e Kohn 2001; Steinbachs e Holsinger 2002; Vieira et al. 2008; Ramanauskas et al. 2017). Na família das Rosaceae, existem dois mecanismos AIG (estes dois mecanismos estão descritos no subcapítulo anterior), em que, no caso de Prunus, possui apenas uma F-box e na sub-família Maleae tem múltiplos F-box. Desta forma, para se perceber como estes dois mecanismos evoluíram, é necessário utilizar análises comparativas, com espécies divergentes (Yamane et al. 2003, Ushijima et al. 2004, Tao et al. 2007; Kubo et al. , 2010; Iwano e Takayama, 2011; Fujii et al. 2016; Ramanauskas et al. 2017). Duas hipóteses explicam o sistema AI ancestral em Rosaceae: a primeira hipótese implica que o sistema ancestral é o mesmo que está presente em Prunus e que o sistema presente em Malus evoluiu de novo. A segunda hipótese presupõe que o sistema ancestral possui dois loci, em que um deles é igual ao que está presente em

7

Prunus e o outro loci é semelhante ao que está presente em Malus, uma vez que o sistema que está presente em Malus, apresenta semelhanças com AIG de Petunia (Solanaceae) e Antirrhinum (Plantaginaceae), duas espécies ancestrais a Rosaceae (Aguiar et al. 2015).

A evolução por duplicação de múltiplos genes foi sugerida para explicar a evolução do AIG em Rosaceae (Jung et al. 2012). Denota-se que a única evolução do gene S-RNase não exclui a possibilidade de que os genes S-RNase parálogos podem determinar a especificidade do pistilo em diferentes espécies. De facto, análises comparativas entre o S-pólen e a S-RNase de Malus e Prunus demonstram que estes genes não são ortólogos (Aguiar et al. 2015). Análises filogenéticas revelam que os genes putativos do S-locus em Fragaria apresentam uma relação filogenética próxima com os genes S-locus de Prunus, o que sugere que o sistema presente em Prunus pode ser o sistema ancestral. Em Fragaria, a região putativa do S-locus possui sintenia com o S-locus de Prunus, o que suporta a hipótese que os genes S-locus destes dois géneros possuem um ancestral comum (Aguiar et al. 2015). No entanto, devido às similaridades do tipo de reconhecimento AIG entre Malus e Petunia (mútiplos F-box), a hipótese de que o S-locus ancestral de Rosaceae é composto por dois loci (um dos loci é semelhante ao que está presente em Prunus/Fragaria e o outro é semelhante ao S-locus de Malus) não pode ser excluida (Aguiar et al. 2015).

Para distinguir as duas hipóteses, é necessário caracterizar a região S-locus em outras espécies de Rosaceae. Assim, neste trabalho, caracterizaram-se T2-RNases com homologia às S-RNases no genoma de Kageneckia (Maleae), Gillenia (Gillenieae), Vauquelinia (Maleae), Physocarpus (Neillieae), pertencentes à subfamília da Amygdaloideae. Análises semelhantes foram feitas no género de Rosa (Roseae) da subfamília Rosoidea. Posteriormente, análises filogenéticas foram feitas para identificar os genes putativos das S-RNases nestes géneros. Para caracterizar funcionalmente o gene da S-RNase de Rosa, foram utilizadas análises de segregação em R. arvensis.

1.6. Família de Rosaceae

Rosaceae é uma família das angiospérmicas, da ordem das , com mais de 3000 espécies. Esta família, com uma distribuição mundial, possui interesse económico para a espécie humana, tanto a nível alimentar como ornamental. Esta família de angiospérmicas encontra-se dividida por três subfamílias: Amygdaloideae (nesta subfamília estão presentes os géneros de Prunus e Malus), Rosoideae (em que está presente o género de Rosa) e Dryadoideae (a subfamília mais pequena das Rosaceae, Xiang et al. 2016). Xiang et al. (2016) utilizou 4180 genes ortólogos para estabelecer a relação filogenética entre as diferentes espécies de Rosaceae. A divisão das Amygdaloideae e Rosoideae ocorreu há 100 Ma, no Cretáceo, originando dois ramos distintos, apresentando sete tribos em Amygdaloideae. A separação das tribos Kerrieae, Exochordeae e Sorbarieae das tribos Maleae e Gillenieae ocorreu há 92 Ma. A separação de Gilleneae e Maleae ocorreu há 52 Ma. Além do mais, a tribo Maleae possui um maior número de cromossomas, se comparado com as espécies de Gilleneae, indicando a possibilidade da ocorrência de uma duplicação total do genoma (DTG) nas espécies de Maleae (o DTG mais recente em

8

Rosaceae). Contudo, os géneros de Kageneckia (Maleae) e Vauquilenia (Maleae) não apresentam DTG (Figura 4; Xiang et al. 2016).

Malus Sistema de Pyrus Maleae reconhecimento non-self" Sorbus

Crateagus Amygdaloideae Amelanchier Vauquelinia ? Kageneckia ? Gillenia ? Kerria Prinsepia Prunus Amygdaleae Sistema de Aruncus reconhecimento self" Physocarpus ? Sibbaldia A linhagem das S-RNases Fragaria Potentilleae

em Fragaria é semelhante Rosoideae Comarum ao sistema de Prunus Dasiphora Potentilla Cliffortia Hagenia Rosa ? Geum Rubus

Filipendula

120 100

60 20 80 40 0 Age (Mya) 105 9690 62 52 45 29

Figura 4. Cladograma das espécies de Rosaceae e tipo de AIG nas espécies estudadas. O círculo azul indica o evento de duplicação mais recente na família das Rosaceae, segundo Xiang et al. 2016. A vermelho encontra-se os géneros analisados neste trabalho, para os quais espécies foram sequenciadas e estão disponíveis no NCBI. Em Rosoideae, a separação entre as diferentes tribos ocorreu entre, aproximadamente, 82 Ma e 62 Ma (Figura 4). Nesta subfamília está presente o género Rosa (Xiang et al. 2016). O género Rosa (plantas lenhosas e ornamentais) possui um grande interesse económico, já que estas plantas são utilizadas, pela espécie humana, como decoração, alimentação e criação de fragâncias. Devido à hibridação interespecífica e eventos de poliploidismo, tornam a história evolutiva destas espécies muito complexa, já que os níveis de ploidia podem variar entre 2n=2 e 2n=10 (Hibrand et al. 2018).

Em Rosa estudos de segregação permitem revelar potenciais reguladores genéticos que determinam características de interesse para a espécie humana, tais como floração contínua, número de pétalas, e densidade dos espinhos, que estão correlacionadas com a auto-incompatiblidade (Hibrand et al. 2018). Para identificar o sistema AI de Rosa, caracterizaram-se as sequências putativas das S-RNases em 12 espécies (Rosa multiflora, R. damascena, R. chinensis, R. odorata, R. rugosa, R. laevigata, R. moschata, R. xanthina, R. arvensis, R. majalis, R. minutifolia e R. persica). Todas estas espécies são AI (Schanzer e Vagina, 2007; MacPhail e Kevan, 2009). Em R. chinensis, Hibrand et. 2018 propôs três sequências denominadas por S26-RNase, S30-RNase e S36RNase como genes putativos de S-RNase. Contudo, as três sequências putativas não possuem característica de S- RNase, pois os genes são expressos noutros órgãos, como as anteras ou as folhas (Hibrand et. 2018). Estas sequencias, juntamente com as identificadas neste trabalho foram

9 caracterizadas filogeneticamente. Em R. chinensis, após identificar o gene putativo da S- RNase, que está localizado no cromossoma 3, como descrito anteriormente (Hibrand et al. 2018) procedemos à caracterização de genes F-box neste cromossoma. Igual metodologia foi aplicada aos contigues de R. multiflora que continam o gene S-RNase. Deste modo identificamos a região putativa do S-locus em Rosa.

1.7. Objectivos

A família Rosaceae é uma família de grande interesse económico, pois muitas espécies produzem frutos usados na alimentação humana. O mecanismo de AI é um entrave à produção de frutos, pois implica a coexistência de vários cultivares. Nesta família outras espécies como Rosa, que tem um papel fundamental na floricultura, apresentam várias características que determinam o valor da flor (como o número de pétalas, e número de espinhos) associadas à AI. Assim, estudos de AI são fundamentais nestas espécies. Por outro lado, perceber como sistemas complexos, como a AI, evoluem é uma questão fundamental em Biologia.

Este trabalho tinha como objectivo a caracterização do S-locus ancestral putativo de Rosaceae, bem como identificar os genes envolvidos em AI do genero de Rosa.

10

2. Materiais e Métodos

2.1. Análise do ponto isoelétrico (PI) de S-RNases de Malus e de Prunus

Utilizou-se a sequência P. avium S3-RNase (AJ298312) como query no Blastn. Selecionou-se Prunus como base de dados e utilizou-se baixa homologia, obtendo todas as entradas de Prunus com homologia ao nosso query. Todas as sequências contendo as palavras completa e DNA linear foram selecionadas para análise (Tabela Suplementar 1). A mesma metodologia foi usada para obter sequências nucleotídicas de Maleae usando como query a sequência M. domestica Sh-RNase (AB032247), e Malus e Pyrus como bases de dados (Tabela Suplementar 2). Após a identificação das sequências nucleotídicas, organizou-se os dados: no caso de Prunus dividiu-se os dados em quatro grupos: o primeiro exão mais a região do motivo proteico 1, a região do motivo proteico 1, a região do motivo proteico 2 e a sequência nucleotídica completa(Tabela Suplementar 1). No caso de Malus, organizou-se os dados referente à região do motivo proteico 1, a região do motivo proteico 2 e a sequência nucleotídica completa (Tabela Suplementar 2). Para cada sequência, calculou-se o valor do PI da proteína codificada por estas sequências nucleotídicas, com a utilização do ExPASy (https://web.expasy.org/compute_pi/, Gasteiger et al. 2005).

2.2. Identificação, no NCBI, de dados genómicos das espécies de interesse

A base de dados do NCBI assembly possui os genomas montados, como o de Rosa multiflora, R. damascena e R. chinensis. Os genomas presentes no NCBI assembly podem ser comparados com as sequências aminoacídicas de referência das S-RNases (Prunus, com o número de acesso AJ298312; Malus, com o número de acesso AB032247; e Fragaria com os números de acesso gi561957436, gi561674690 e gi561985884), com a utilização do tblastx. As sequências putativas obtidas, por este método serão caracterizadas, em termos dos motivos aminoacídicos que a sua proteína putativa confere e o ponto isoelétrico.

A base de dados SRA (“Sequence Read Archive”, https://www.ncbi.nlm.nih.gov/sra) do NCBI possui leituras genómicas ou transcriptómicas referentes à subfamília de Rosaceae. Com base nas relações filogenéticas das espécies desta família, estabelecidas recentemente por Xiang et al. 2016. Selecionaram-se as espécies correspondentes a cada tribo para as quais existam dados de sequenciação genómico. A base de dados SRA, presente no NCBI, possibilita o download das sequências de interesse (Tabela 2), no formato FASTQ.

11

Tabela 2. Genomas de Rosaceae disponíveis no NCBI, usadas para a caracterização do gene da S-RNase. Os genomas encontram-se montados (Assembly) ou em pequenos fragmentos de sequênciação (SRA).

Base de dados Espécie (subfamília) Número de acesso

Assembly Rosa damascena (Roseae) PRJNA322107

Assembly R. multiflora (Roseae) PRJDB4738

Assembly/SRA R. chinensis (Roseae) PRJNA413292/SRR7077020

SRA Kageneckia oblonga (Maleae) SRX1570293/ SRX1568359

SRA Vauquelinia californica (Maleae) SRX1550524/ SRX1529442

SRA Gillenia stipulate (Gillenieae) SRX1583691

SRA Physocarpus opulifolius SRX1583744/ SRX1567867 (Neillieae)

SRA R. moschata (Roseae) SRR7077017/ SRR6175508

SRA R. laevigata (Roseae) SRR7077018

SRA R. rugosa (Roseae) SRR7077019/ SRR6175514

SRA R. persica (Roseae) SRR7077021

SRA R. xanthina spontanea (Roseae) SRR7077022

SRA R. minutifolia (Roseae) SRR7077023

SRA R. odorata (Roseae) SRR6175507/ SRR6175516

SRA R. arvensis (Roseae) SRR6175512

SRA R. majalis (Roseae) SRR6175513

2.3. Montagem do genoma

Os ficheiros FASTQ de cada espécie, com características de genómico, foram descarregados no SRA (Tabela 2). Antes do tratamento computacional removem-se os adaptadores presentes nos “reads”. As ferramentas do FASTQ, implementadas na plataforma Galaxy (Blankenberg et al 2010; Goecks et al. 2010) são utilizadas para remover os “reads” das sequências de ambas as zonas terminais.

Procede-se à montagem de novo do genoma de cada espécie (Tabela 2), utilizando o programa Abyss 2.0 (Jackman et al. 2017), para a formação de “contigs”. Os programas do SSPACE (Boetzer et al. 2011) e Minimus2 (Sommer et al. 2007), juntam os “contigs” e formam os “scaffold. Os “open reading frames” putativos foram obtidos com o BDBM (https://www.sing-group.org/BDBM/). Procedeu-se ao blast (utilizando o tblastx) com as sequências de referência indicadas em 2.2. Consideram-se as sequências que possuem um valor superior a 0,05. Para a análise foram consideradas todas as sequências com tamanho superior a 100 bp. O programa SEDA (http://www.sing-group.org/seda/) permitiu

12 convergir as sequências obtidas (“contigs” que apresentam 100% de homologia) e remover aquelas que são redundantes. As sequências obtidas foram analizadas para as características do gene em estudo.

2.4. Caracterização do gene S-pistilo

Para cada espécie da família da Rosaceae, presentes na Tabela 2, caracteriza-se as sequências do gene putativo da S-RNase, obtidas em 2.2. Por homologia (utilizando o tblastn, https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=tblastn&PAGE_TYPE=BlastSearc h&LINK_LOC=blasthome) com a sequência aminoacídica de referência de Prunus (com o número de acesso AJ298312) Malus (com o número de acesso AB032247) e Fragaria (com os números de acesso gi561957436, gi561674690 e gi561985884), identificou-se as sequências codificantes do gene em estudo. Com as sequências putativas codificantes obtidas, determina-se as sequências aminoacídicas putativas (com a utilização do programa ProSeq versão 2.0, http://en.bio-soft.net/format/ProSeq.html) e calcula-se o ponto isoelétrico (PI), com a utilização do programa ExPASy (https://web.expasy.org/compute_pi/). Comparou-se as sequências aminoacídicas com os padrões caracteristicos das S-RNases. As sequências com as características do gene da S- RNase foram utilizadas para a construção das árvores filogenéticas. As árvores filogenéticas foram obtidas usando o algoritmo de alinhamento do ClustalW2 presente no MEGAX (https://www.megasoftware.net/).

2.5 Caracterização de genes S-pólen em Rosa chinensis e R. multiflora

Para as espécies de R. chinensis e R. multiflora, em que os contigues têm mais de 30 Kb, procedemos à identificação de genes S-pólen F-box na região do gene S-RNase putativo. No caso de R. chinensis esta análise foi executada para todo o cromossoma 3. As sequências F-box foram obtidas por homologia (utilizando o tblastn, https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=tblastn&PAGE_TYPE=BlastSearc h&LINK_LOC=blasthome) com as sequências aminoacídicas de P. avium S3-SFB (AY571665 ), P. mume SLFL1 (AB280956 ), e Malus S3-SFBB3 (AB5398459). As sequências obtidas foram utilizadas para a construção das árvores filogenéticas. As árvores filogenéticas foram obtidas usando o algoritmo de alinhamento do ClustalW2 e presente no MEGAX (https://www.megasoftware.net/).

2.6. Caracterização dos genes do S-locus em Rosa arvensis

2.6.1 Material vegetal

Folhas da espécie de Rosa arvensis com diferentes haplótipos (Tabela 3) foram utilizadas para a extração do DNA genómico, recorrendo ao método presente em 2.6.2.

13

Tabela 3. Indivíduos utilizados para o estudo de segregação. Os S-haplótipos foram estabelecidos de acordo com os progenitores usados para obter estes indivíduos (Pascal, comunicação pessoal).

S-haplótipo Indivíduo(s) S1S2 E404; Osenbuhr (OSO) S1S3 E201; E400; E412 S2S3 E200 S3S6 Widensolen (Wi) S4S5 Urlozenholz (Ur) S1S(2/4) E459 S2S(3/6) E433; E435 S(1/2)S(4/5) E893; E894 2.6.2 Extração do DNA genómico de R. arvensis

Selecionaram-se duas a três folhas de cada indivíduo de Rosa arvensis com o haplótipo conhecido (Tabela 3) para um almofariz, esmagando o tecido vegetal em azoto líquido. Recolhe-se o pó obtido, para um tubo e procedemos à extração de DNA genómico de usando o método de Ingram et al. 1997, com pequenas alterações. Resumidamente, ao do tecido em pó adicionamos o tampão de extração (50 mM EDTA; pH 8; 0.1 mM NaCl; 0.1 M Tris–HCl, pH 8; 1% (p/v) dodecil sulfato de sódio (SDS)) que permite a quebra da parede e da membrana celular, obtendo os núcleos que contêm o DNA genómico.

Centrifugaram-se os tubos a 4000 rpm para precipitar os núcleos, desprezando o sobrenadante. Ressuspende-se a pellet com 300 µl de tampão de extração, de seguida, adiciona-se 300 µl de tampão de lise nucleica (NaCl 400 mM; EDTA 25 mM; Tris-HCl 50 mM, pH 8) mais 120 µl de sarcosil a 5% (v/v). Agita-se os tubos e incuba-se a 65ºC durante 20 min. Após este período de incubação, adiciona-se 600 µl de clorofórmio. Centrifuga-se a mistura a 11000 rpm num período de 5 min, desprezando a pellet. Adiciona-se 600 µl de fenol-clorofórmio (numa proporção de um para um) ao sobrenadante, procedendo a uma centrifugação a 11000 rpm durante 5 min.

Ao sobrenadante adiciona-se 600 µl de clorofórmio (neste passo, o sobrenadante é aplicado às colunas Phase Lock Gel (PLG; Eppendorf) e adiciona-se o clorofórmio), procedendo de novo à centrifugação descrita anteriormente. Adiciona-se 500 µl de isopropanol ao sobrenadante, centrifugando a mistura durante 2 min a 11000 rpm. Remove-se o sobrenadante e à pellet obtida adiciona-se 200 µl de etanol 75%, com uma centrifugação durante 2 min. O álcool adicionado permite a precipitação do DNA, ficando retido na pellet após a centrifugação. Remove-se o sobrenadante e procede-se à secagem do etanol. Após o período de 10 minutos de secagem, dissolve-se a pellet em 50 µl de H2O com 5 µl de RNaseA (Ingram et al. 1997).

2.6.3 PCR (“Polymerase chain reaction”)

A partir dos locais conservados das sequências putativas do gene da S-RNase de Rosa multiflora e R. arvensis (obtidas em 2.2) foram desenhados primers (Figura Suplementar

14

1). Os primers desenhados são utilizados para a amplificação do gene da S-RNase em Rosa arvensis nos diferentes haplótipos da Tabela 3.

As condições utilizadas na amplificação do DNA genómico são uma desnaturação inicial a 95 ºC durante 5 min, procedida por uma segunda desnaturação a 95 ºC por 30 seg. A fase do emparelhamento tem um período de 45 seg, com uma temperatura de 52 ºC (Figura Suplementar 1). A extensão do primer é a uma temperatura de 72 ºC durante 2 min, existindo uma repetição de 35 ciclos desde a segunda desnaturação até à fase da extensão. Termina a fase da amplificação durante 5 min a 72 ºC (fase da extensão final).

2.6.4 Extração do DNA do gel de agarose – QIAEX gel extraction protocol

Após o corte dos produtos de amplificação, com o tamanho esperado (Figura Suplementar 1), adiciona-se 450 µl de QX1 (tampão de solubilização) por cada 0,1 gramas de produto com a adição de 10 µl de lã de vidro a cada tubo. Incuba-se os tubos a 50ºC durante 10 min. De seguida, centrifuga-se a mistura à velocidade máxima, num período de 1 min. Despreza-se o sobrenadante e à pellet acrescenta-se 500 µl de QX1, com a ressuspensão da pellet, centrifugando de novo a mistura ressuspendida (durante um minuto à velocidade máxima). Procede-se à adição de 500 µl de PE (tampão de lavagem), após a remoção do sobrenadante, ressuspendendo a pellet. Centrifuga-se esta mistura à velocidade máxima e durante um minuto, sendo necessária a repetição da lavagem com PE. Remove-se o sobrenadante e segue-se à secagem da pellet (num período de 10 min). Ressuspende-se a pellet em 3 µl de H20 e espera-se 10 min para a eluição do DNA da pellet. Centrifuga-se um minuto à velocidade máxima e transfere-se dois µl do sobrenadante para um tubo limpo para posterior clonagem.

2.6.5 Clonagem- “TOPO TA cloning control reaction”

Aos 2 µl de DNA, adicionou-se 0,3 µl de vetor pCRTM 4-TOPO mais 0,5 µl de solução salina, com um período de incubação de 5 min. Este período de incubação permite que o fragmento de DNA seja inserido no vetor. A mistura é adicionada às células competentes, procedendo-se a uma incubação em gelo durante 30 min. Após este período de incubação, segue-se o choque térmico das células competentes (o choque térmico permite que o vetor mais o fragmento inserido consiga atravessar a parede celular bacteriana e entre para o citoplasma). As células competentes são incubadas a 42 ºC durante 30 s e colocadas imediatamente em gelo durante dois min. Após o período de dois min, adiciona-se 100 µl de meio SOC às células transformadas. Incuba-se as células a 37 ºC durante 1h10min, com agitação horizontal. Este período de incubação permite a multiplicação do vetor mais o fragmento inserido. Procede-se ao plaqueamento das células transformadas, com uma incubação “overnight”.

2.6.6 Extração do DNA plasmídico – protocolo NZYminiprep

As colónias, com o fragmento inserido no vetor e com padrões de corte enzimáticos diferentes, são selecionadas para recrescer, em meio líquido (5 ml de LB para 5 µl de ampicilina, com um crescimento “overnight” a 37 ºC e com agitação horizontal).

15

Centrifuga-se os tubos a 4000 rpm num período de 10 min, desprezando o sobrenadante. Ressuspende-se a pellet em 250 µl de tampão A1 (tampão de ressuspensão) e adiciona-se 250 µl de tampão A2 (tampão de lise), invertendo os tubos. Adiciona-se 300 µl de tampão A3 (tampão de neutralização) e centrifuga-se a mistura durante 10 min à velocidade máxima. O sobrenadante é aplicado nas colunas (NZYminiprep) e centrifuga-se as colunas durante um minuto. Despreza-se o líquido presente no tubo coletor e adiciona-se 500 µl de tampão AY (tampão de lavagem), centrifugando durante um minuto. O líquido obtido após a centrifugação é desprezado e adiciona-se 600 µl de tampão A4 (tampão de lavagem), com o tempo de espera de três minutos após a adição do tampão A4. Procede- se a uma centrifugação durante um minuto e elimina-se os resíduos presentes no tubo coletor, centrifugando de novo para a eliminação do tampão de lavagem (tampão A4), durante um minuto. Coloca-se a coluna em tubos limpos e elui-se em 50 µl de H20, com um tempo de espera de cinco minutos antes da centrifugação.

2.6.7 Sequenciação

2.6.7.1 Amplificação do plasmídeo - ABI PRISM BigDye cycle-sequencing

Para sequenciar o plasmídeo (vetor mais fragmento) é necessário amplificá-lo. Deste modo, a cada tubo, adiciona-se 2 µl de Big DYE mais 0,63 µl de um do primers M13 (na sequenciação só se amplifica uma das cadeias do plasmídeo). A esta mistura, adiciona-se 2,6 µl de DNA plasmídico, extraído em 2.4.6. Com os ciclos presentes na Tabela 4.

Tabela 4. Parâmetros utilizados para a amplificação do plasmídeo inserido no vetor pCRTM 4-TOPO, com a utilização dos primers M13 Forward e M13 Reverse.

Parâmetros temperatura /tempo Passos Temperatura/tempo Desnaturação 96ºC – 2 min Desnaturação 95ºC – 30 seg Emparelhamento 50ºC – 15 seg 25 x Extensão 60ºC – 4 min

2.6.7.2 Limpeza dos produtos de sequênciação

Para cada 3 tubos de sequenciação, prepara-se uma solução de stock de 50 µl de etanol (EtOH) a 95% com 2 µl de NaAC (acetato de sódio) 3M. Adicionar 15 µl desta mistura a cada tubo de sequenciação, vortexando cada tubo durante 30 segundos. Incuba-se as amostras em gelo, durante 30 min, e de seguida centrifugam-se à velocidade máxima, com o mesmo período de tempo. Despreza-se o sobrenadante e adiciona-se 150 µl de EtOH a 75%, a cada tubo. Centrifuga-se as amostras à velocidade máxima durante 2 min, desprezando o sobrenadante. Procede-se à secagem dos tubos para remover o excesso do etanol, para não ocorrer interferências de leitura na sequenciação. As amostras tratadas foram sequenciadas pela STAB vida (https://www.stabvida.com/pt/).

16

3. Resultados e Discussão

3.1. Valores de PI (ponto isoelétrico) em diferentes regiões da proteína codificada pelo gene S-RNase em Rosaceae

A maior parte das sequências obtidas neste trabalho são sequências parciais, em que só possuem a região nucleotídica que contém o primeiro motivo proteico (Tabela 1) ou a região nucleotídica do segundo motivo proteico (Tabela 1). Deste modo, a utilização do PI como uma característica para identificação da S-RNase só é possível se ambas as regiões codificarem para proteínas com PI a cima de oito como observado nas S-RNases completas (Igic e Kohn 2001; Ramanauskas et al. 2017). Assim, procedemos à análise de PI das diferentes regiões para S-RNases de Prunus e Malus.

Na base de dados do NCBI, encontra-se 29 proteínas da S-RNase em 14 espécies diferentes de Prunus (Tabela Suplementar 1). O gene da S-RNase de Prunus possui três regiões exónicas (Entani et al. 2003; Tao et al. 2007). A região exónica 1 é bastante pequena (≈ 100 bp) e não possui qualquer motivo aminoácido que possa ser usado para a sua identificação. As regiões exónica 2 e 3 podem ser facilmente identificadas pela presença do motivo proteico 1 e motivo proteico 2, respetivamente (ver a Tabela 1). Assim, consideramos três grupos: o exão 1 mais o exão 2, o exão 2 e o exão 3 (região do segundo motivo proteico). Para estes três grupos procedemos ao cálculo do PI (PI1+2, PI2 e PI3). O PI1+2 variou entre 8,80 e 10,16, e o PI2 (região do motivo proteico 1 sem a região exónica 1) variou entre 8,55 e 10,62. O PI3 (região do segundo motivo proteico) variou entre 8,58 e 9,48. A análise do PI da proteína total da S-RNase apresentou uma variação de 9,02 até 9,65 (Figura 5), como reportado na literatura (Igic e Kohn 2001; Ramanauskas et al. 2017).

12

10 PI 8

6 0 5 10 15 20 25 Número da sequência de acordo com Tabela Suplementar 1

1 e 2 exão 2 exão 3 exão completa

Figura 5. Ponto isoelétrico das sequências proteicas das S-RNases de Prunus. Em Malus, 46 sequências encontram-se disponíveis no NCBI, pertencentes a quatro espécies diferentes (Figura 6, Tabela Suplementar 2). Em Malus, o gene da S-RNase possui dois exões. O exão 1 pode ser facilmente identificado pelo motivo proteico 1 e o exão 2 é identificado pelo motivo proteico 2 (Tabela 1). Assim, dividimos as sequências de acordo com os exões e calculamos o PI das proteínas codificadas por estas regiões. Nos dados apresentados da Figura 6, a proteína total apresenta valores de PI entre 8,59 e 9,53, como reportado na literatura (Igic e Kohn 2001; Ramanauskas et al. 2017). O PI da região proteica codificada pelo 1º exão varia entre 5,29 e 9,47, enquanto a região proteica

17 codificada pelo 2º exão, o PI varia entre 8,75 e 9,61. 31 sequências (Figura 6) apresentam valores abaixo de 8 (analisando somente o primeiro exão). Isto implica que não se podemos excluir sequências putativas parciais que cobrem somente o primeiro exão, a partir do valor o PI.

12

10

PI 8

6

4 0 5 10 15 20 25 30 35 40 45 Número da sequência de acordo com Tabela Suplementar 2

1 exão 2 exão Completa

Figura 6. Ponto isoelétrico das sequências proteicas das S-RNases de Malus. Assim, consideramos para análises futuras todas as sequências que cubram as regiões do primeiro e do segundo motivo aminoacídico, típico das S-RNases, que codificam para proteínas que apresentam PI a cima de 7. Nas sequências parciais, considerámos todas as sequências, independetemente do PI, que cubram a região do primeiro motivo proteico. Para as sequências que só apresentam a região do motivo proteico 2, que codifica para proteínas putativas, considerou-se valores de PI igual ou superior a 7.

3.2. Análise do gene da S-RNase na subfamília das Amygdaloideae

No NCBI está disponível o genoma das espécies V. californica, K. oblonga, G. stipulate e P. opulifolius, todas pertencem à subfamília das Amygdaloideae (Tabela 2; Figura 4). Os géneros Vauquelinia e Kageneckia, bem como Malus, Pyrus e Sorbus, pertencem à tribo Maleae, sendo Kageneckia a espécie mais divergente. Gillenia pertence à tribo Gillenieae e está a divergir de Maleae à 52 Ma. Physocarpus é um outgroup a Maleae e Amygdaleae (Prunus), estando a divergir destes há 91 Ma (Xiang et al. 2016). Os genomas destas espécies estão disponíveis na base de dados NCBI em formato SRA (reads) e por isso neste trabalho procedemos à sua montagem como descrito em Material e Métodos. As sequências obtidas foram anotadas após BlastX, de acordo com a homologia obtida com sequências de S-RNases. A homologia na região dos motivos proteicos 1 e 2 permite identificar as possíveis regiões codificantes, pois em todas as S- RNases descritas existe um intrão a separar estes motivos (Igic e Kohn 2001; Vieira e Charlesworth 2002; Ramanauskas et al. 2017). Procurámos regiões de conservação de “Splicing” de intrões para anotação putativa dos mesmos.

No genoma de V. californica foi possível identificar 34 sequências com homologia a sequências de S-RNase de Malus, Prunus e Fragaria. A sequência valq2 é a única sequência que cobre a região do primeiro e do segundo motivo proteico das S-RNases.

18

26 sequências correspondem à região do último exão, embora 12 sequências, não cubram a região correspondente ao motivo 2 (Tabela 5, assinaladas com *). 7 sequências cobrem a região correspondente ao motivo 1 do padrão aminoacídico típico das S-RNases (Tabela 5). 9 sequências têm o motivo 2 conservado, mas somente uma sequência tem o motivo proteico 1 conservado.

Tabela 5. Sequências de Vauquelinia com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. n.d* - A sequência não inclui a região onde se localiza o motivo. 1 - A sequência não possui qualquer similaridade proteica com a base de dados do NCBI. A vermelho estão marcados os PIs abaixo de 7.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo1 Motivo2 PI (bp) (%) cover (%)

valq 1 305 2º Pyrus XP_009337655.1 39 95 n.d* 8,37 bretschneideri - valq 2 300 1º/2º Prunus avium XP_021826742.1 41 72 RIIHGLWPAN WPSLLEL 9,22

valq 3 213 2º Pyrus XP_009360332.1 93 97 WPSLSCP 6,92 bretschneideri - valq 4 264 2º M. domestica XP_008336990.1 69 54 - n.d* 9,85

valq 5 237 2º M. domestica XP_008358499.1 56 69 - WTNLDVR 4,72

valq 6 501 2º Pyrus XP_009340635.1 79 99 WWDWEKG 9,18 bretschneideri -

valq 8 357 2º Pyrus XP_009340665.1 86 99 n.d* 8,64 bretschneideri - valq 9 174 2º Pyrus XP_009337655.1 63 82 WPDVKNG 9,67 bretschneideri - valq 11 183 1º Prunus dulcis AAF82615.1 75 96 FGIHGLWPNY - 4,95

valq 12 342 2º Pyrus XP_009334944.1 60 92 WPNFDIT 7,82 bretschneideri - valq 13 2º Pyrus XP_009337655.1 53 94 WPDVIKG 5,83 bretschneideri - valq 15 96 2º n.d1 - n.d* 9,50 valq 17 144 2º Pyrus ABD72921.1 53 79 n.d* 10,04 bretschneideri - valq 18 183 2º Pyrus XP_009340635.1 93 98 WWDWKKG 6,25 bretschneideri - valq 21 171 2º Prunus avium CAI05947.1 59 85 - WPDVKSG 7,88 valq 22 135 2º S.aucuparia AAM28171.1 79 71 - n.d* 9,31 valq 26 168 2º Prunus mume ABV72003.1 44 89 - n.d* 6,78 valq 27 162 2º Pyrus XP_009337655.1 60 98 n.d* 8,10 bretschneideri - valq 29 156 2º Prunus dulcis AAF82615.1 90 96 - WPTVACP 5,02 valq 30 156 2º M. domestica XP_008389464.1 88 100 - WPSLKCP 5,58 valq 31 147 1º M. spectabilis AIG55248.1 98 100 FTVHGLWPSN - 4,35 valq 103 1º n.d1 FILFPFWTSG 4,14 32.1 - valq 108 2º Prunus avium AAW50824.1 61 100 WPDVQNG 8,98 32.2 - valq 33 99 2º Pyrus XP_009337655.1 67 100 WPNVKTG 5,99 bretschneideri - valq 35 126 1º Prunus avium XP_021807879.1 52 100 FKIHGLWPSN - 9,40 valq 36 126 1º Pyrus XP_009360332.1 100 100 FGIHGLWPNY 7,92 bretschneideri - valq 37 123 1º Prunus dulcis AAF82615.1 100 100 FGIHGLWPNY - 6,72 valq 38 120 2º Pyrus XP_009337655.1 75 100 n.d* 4,74 bretschneideri - valq 39 114 2º M. fusca AKJ23223.1 84 100 - WPNVLNR 6,92

19

valq 40 108 2º E. japonica ACC66151.1 81 100 - n.d* 9,60 valq 41 105 1º Prunus ACJ22520.1 55 94 FTIHGLWPSN 10,18 spinosa - valq 42 78 2º Pyrus ABG49099.1 95 80 WPNVLNR 5,45 Pyrifolia - valq 43 84 2º Prunus mume XP_008228033.1 83 85 - n.d* 5,21 valq 44 63 2º Prunus AFJ20682.1 81 100 n.d* 8,19 virginiana -

Devido ao facto das sequências obtidas não cobrirem a mesma região, subdividimo-las de modo a proceder a análises filogenéticas (Figuras 7, 8 e 9; Figura Suplementar 2; e Figura Suplementar 3). De acordo com os resultados destas análises, a sequência valq 31 (Figura 7), as sequências valq 2, valq40 (Figura 8), valq17 e valq22 (Figura 9) ficam agrupadas com as sequências de S-RNases de Maleae. Nenhuma das sequências identificadas agrupam com as S-RNases de Prunus. Podemos assim concluir que em Vauquelinia, o sistema de AI é semelhante ao observado em Malus. O alinhamento das quatro sequências que agrupam com as S-RNases de Maleae indica que estas sequências podem representar dois alelos S-RNases do indíviduo estudado, uma vez que a valq17 e a valq40 não se sobrepõem, assim como a valq2 e a valq22. Estas sequências podem representar diferentes regiões de dois alelos (Figura Suplementar 4). Para confirmar esta inferência é necessário desenhar primers para as regiões valq17 e valq40 e para as regiões valq2 e valq22. Este resultado é inesperado, uma vez que o aparecimento do sistema de AI de Malus está descrito como associado à duplicação total do genoma mais recente, que ocorreu na subfamília da Amygdaloideae na bifurcação entre Malus e Crataegus, há 30- 45 M.a (Xiang et al. 2016).

20

P. avium S1-RNaseAB028153 P. dulcis S7-RNase AY291118 P. mume scaffold241 33 S-RNase Prunus S-RNase 99 P. avium S5-RNase AJ298314 P. avium S3-RNase AJ298312 83 P persica ppa018459m S2-RNase 100 63 P. dulcis SM-RNase DQ099895 F. niponica gi561805796 Prunus SRNaselineage F. nipponica gi561674690 gi561985884 gi561957436 Prunus SRNaselineage MDP0000250548A S-RNase lineage 1

100 P. persica ppa024151m S-RNase lineage 1 100 P. mume scaffold442 35 S-RNase lineage 1 P. persica ppa011133m Prunus PA1 gene 98 P. avium PA1 AB096918 Prunus PA1 gene valq35 valq41 F. nipponica gi561877040 SRNaselineage1 valq31

99 MDP0000266136 S3-RNase 93 P. pyrifolia S9-RNase AB104909

85 MDP0000345854 S2-RNase Maleae S-RNase M. domestica SH-RNase AB032247 P. bretschneideri S34-RNase DQ414813 P. pyrifolia S4-RNase AB009385 99 P. ussuriensis S35-RNaseDQ839240 MDP0000160706 97 MDP0000682955 MDP0000267606AT2Lineage Outgroup

0.2

Figura 7. Relação filogenética das sequências de Vauquelinia com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 1. A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (500 réplicas) é apresentada junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilizando o método p-distance e está nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 28 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Um total de 881 posições foram analisadas. A sequência MDP0000267606AT2Lineage Outgroup foi como âncora. As sequências de referência estão marcadas a preto. A verde estão as sequências nucleotídicas de Vauquelinia correspondentes ao 1º exão.

21

94 MDP0000682955 99 valq8 MDP0000160706 95 valq6 97 valq4 valq18 F. niponica gi561805796 Prunus SRNaselineage valq1 100 valq26 valq13 valq21 valq38 valq27 valq44 valq9 F. nipponica gi561674690 gi561985884 gi561957436 Prunus SRNaselineage valq43 valq5

96 MDP0000250548A S-RNase lineage 1 24 78 valq12 79 P persica ppa024151m S-RNase lineage 1 99 P mume scaffold442 35 S-RNase lineage 1 F. nipponica gi561877040 SRNaselineage1 valq29 valq3 88 valq30

100 P. persica ppa011133m Prunus PA1 gene P. avium PA1 AB096918 Prunus PA1 gene

78 P. avium S3-RNase AJ298312 P. mume scaffold241 33 S-RNase 86 P. dulcis S7-RNase AY291118 P. avium S1-RNaseAB028153 Prunus S-RNase P. avium S5-RNase AJ298314 P. persica ppa018459m S2-RNase 99 P. dulcis SM-RNase DQ099895 valq2 MDP0000345854 S2-RNase 77 P. pyrifolia S4-RNase AB009385 88 P. ussuriensis S35-RNaseDQ839240 P. pyrifolia S9-RNase AB104909 Maleae S-RNase MDP0000266136 S3-RNase P. bretschneideri S34-RNase DQ414813 M. domestica SH-RNase AB032247 valq40 valq15 MDP0000267606AT2Lineage Outgroup

0.2

Figura 8. Relação filogenética das sequências de Vauquelinia com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 2 e a região dos dois motivos proteicos (sequência completa). A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (500 réplicas) é apresentada junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p-distance e está nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 46 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Um total de 862 posições foram analisadas. A sequência MDP0000267606AT2Lineage Outgroup foi como ancora. As sequências de referência estão marcadas a preto. A azul estão as sequências nucleotídicas de Vauquelinia correspondentes ao 2º exão. A vermelho está a única sequência de Vauquelinia.

22

P. bretschneideri S34-RNase DQ414813 valq22 valq17

M. domestica SH-RNase AB032247 Maleae S-RNase P. ussuriensis S35-RNaseDQ839240 P. pyrifolia S4-RNase AB009385 MDP0000266136 S3-RNase 99 P. pyrifolia S9-RNase AB104909 MDP0000345854 S2-RNase F. niponica gi561805796 Prunus SRNaselineage

87 MDP0000160706 100 MDP0000682955 F. nipponica gi561674690 gi561985884 gi561957436 Prunus SRNaselineage

100 P. persica ppa011133m Prunus PA1 gene P. avium PA1 AB096918 Prunus PA1 gene

81 P. avium S3-RNase AJ298312 P. avium S1-RNaseAB028153 88 P. dulcis S7-RNase AY291118 Prunus S-RNase P. mume scaffold241 33 S-RNase P. avium S5-RNase AJ298314 P. persica ppa018459m S2-RNase 99 P. dulcis SM-RNase DQ099895 F. nipponica gi561877040 SRNaselineage1 MDP0000250548A S-RNase lineage 1

89 P. persica ppa024151m S-RNase lineage 1 99 P. mume scaffold442 35 S-RNase lineage 1 MDP0000267606AT2Lineage Outgroup

0.2

Figura 9. Relação filogenética das sequências de Vauquelinia com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 2 e a região de ambos os motivos proteicos (sequência completa). A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (500 réplicas) é apresentada junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p-distance e está nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 27 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Um total de 862 posições foram analisadas. A sequência MDP0000267606AT2Lineage Outgroup foi como âncora. As sequências de referência estão marcadas a preto. A azul estão as sequências nucleotídicas de Vauquelinia correspondentes ao 2º exão. Em Kageneckia foram identificadas 14 sequências que possuem homologia com as sequências de S-RNase de Prunus, Malus e Fragaria (Tabela 6). Nenhuma destas sequências cobre as regiões correspondentes aos dois motivos proteicos das S-RNases (Tabela 6). Cinco sequências cobrem a região do primeiro motivo proteico, mas só uma sequência é que possui o motivo proteico conservado (kag8; Tabela 6). Sete sequências cobrem a região correspondente ao motivo 2, mas somente em duas é que o motivo está conservado (kag6 e kag12). Duas sequências não cobrem a região do motivo 1 (kag15) e do motivo 2 (kag16). As sequências foram divididas em três grupos (sequências com o primeiro motivo aminoacidico e sequências com o segundo motivo proteico). Nenhuma das 14 sequências agrupa com sequências de S-RNases de Prunus ou Maleae (Figura Suplementar 5, Figura Suplementar 6, e Figura Suplementar 7).

Tabela 6. Sequências de Kageneckia com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1)

23 estão marcados a azul. PI – Ponto isoelétrico. n.d* - A sequência não inclui a região onde se localiza o motivo. A vermelho estão marcados os PIs abaixo de 7.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo1 Motivo2 PI (bp) (%) cover (%)

kag 2.1 198 2º Prunus avium CAH89259.1 47 100 - WPSVVTQ 9,03 kag 2.2 270 1º Prunus cerasus ABW17268.1 45 67 FTIHGSGVHL - 7,76

kag 4 63 1º n.d1 FTVRIILAID - 4,21 kag 5.1 186 2º M. domestica XP_008369871.1 67 88 - WPKFDIC 6,24

kag 5.2 156 1º Pyrus XP_009370664.1 71 78 FTMHGLWRSN 11,56 bretschneideri -

kag 6 339 2º Pyrus XP_009370664.1 63 99 WPNFDNS 9,30 bretschneideri -

kag 7 213 2º Prunus dulcis AAF82615.1 67 94 WPTLACP 5,01 - kag 8 177 1º Pyrus XP_009370664.1 75 100 FTTHGLWPSN 9,75 bretschneideri -

kag 10 183 1º Pyrus XP_009370664.1 60 100 FKMQGLWPGN 9,10 bretschneideri - kag 11 225 2º Prunus dulcis AAF82615.1 88 92 - WPTLACP 6,24 kag 12 168 2º M. domestica XP_008358499.1 69 96 - WPNFDNS 8,71

kag 14 135 2º Pyrus XP_009360332.1 93 100 WPSLSCP 4,58 bretschneideri - kag 15 150 1º n.d1 n.d* - 10,55 kag 16 105 2º Pyrus XP_009370664.1 76 60 n.d* 8,50 bretschneideri -

No caso de Gillenia, só foi possível identificar uma sequência com homologia a S-RNases de Prunus, Malus e Fragaria, correspondente ao primeiro exão (Tabela 7). Esta sequência em análises filogenéticas agrupa com as S-RNases de Maleae (Figura 10). Podemos assim sugerir que o sistema AI em Gillenia é do tipo presente em Malaea.

Tabela 7. Sequências de Gillenia com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. n.d* - A sequência não inclui a região onde se localiza o motivo.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query cover Motivo1 Motivo2 PI (bp) (%) (%)

Gillenia 93 1º M. domestica MG598507.1 89 96 n.d* 4,22 -

24

100 P. persica ppa018459m S2-RNase P. dulcis SM-RNase DQ099895 P. avium S3-RNase AJ298312 Prunus S-RNase P. dulcis S7-RNase AY291118 99 P. mume scaffold241 33 S-RNase P. avium S1-RNaseAB028153 P. avium S5-RNase AJ298314 F. niponica gi561805796 Prunus SRNaselineage F. nipponica gi561674690 gi561985884 gi561957436 Prunus SRNaselineage P. persica ppa011133m Prunus PA1 gene 100 P. avium PA1 AB096918 Prunus PA1 gene MDP0000160706 100 MDP0000682955

100 P. persica ppa024151m S-RNase lineage 1 99 P. mume scaffold442 35 S-RNase lineage 1 97 MDP0000250548A S-RNase lineage 1 F. nipponica gi561877040 SRNaselineage1 P. bretschneideri S34-RNase DQ414813 M. domestica SH-RNase AB032247 99 P. ussuriensis S35-RNaseDQ839240 P. pyrifolia S4-RNase AB009385 Maleae S-RNase MDP0000345854 S2-RNase P. pyrifolia S9-RNase AB104909 MDP0000266136 S3-RNase Gillenia MDP0000267606AT2Lineage Outgroup

0.1

Figura 10. Relação filogenética das sequências de Gillenia com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 1. A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (500 réplicas) é apresentada junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p-distance e está nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 26 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Um total de 902 posições foram analisadas. A sequência MDP0000267606AT2Lineage Outgroup foi como âncora. As sequências de referência estão marcadas a preto. A verde está a sequência nucleotídica de Gillenia. No caso de Physocarpus, 10 sequências com homologia a Prunus, Malus e Fragaria foram identificadas. Contudo, não foi possível identificar sequências que apresentam os dois motivos proteicos (Tabela 8). Duas sequências cobrem a região do primeiro motivo aminoacídico que está conservado. Quatro sequências apresentam o segundo o motivo proteico, mas só em duas sequências é que o motivo é conservado. Quatro sequências não apresentam motivos aminoacídicos, em que uma sequência é referente ao primeiro exão e as outras três são referentes ao 2º exão. As sequências foram divididas em três grupos para proceder a análises filogenéticas (Figura 11; Figura Suplementar 8, e Figura Suplementar 9). A sequência phys11 agrupa com as sequências de Prunus S-RNase. Este resultado sugere que o sistema AIG em Physocarpus é do tipo de Prunus.

Tabela 8. Sequências de Physocarpus com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. n.d* - A sequência não inclui a região onde se localiza o motivo. A vermelho estão marcados os PIs abaixo de 7.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query cover Motivo1 Motivo2 PI (bp) (%) (%)

phys 1 462 2º Prunus avium CAC27788.1 42 78 - WPDVVNG 9,46 phys 2 276 2º Prunus dulcis AAF82615.1 82 77 - WPTLACP 5,73

phys 3 156 1º Prunus cerasus BAB84687.1 60 76 FTIHGIWPSN - 9,40

25

phys 4 249 2º Prunus mume XP_008235627.1 44 85 - RPSLLQS 9,10

phys 5 219 2º Prunus mume XP_008235627.1 46 91 - n.d* 8,83

phys 6 174 1º Prunus BAF56284.1 47 84 FTVHGLWPGN 6,99 speciosa -

phys 7 123 2º Prunus BAF56250.1 69 87 WPNVESS 6,02 speciosa - phys 9 105 2º Prunus mume BAC66632.1 54 100 - n.d* 8,53

phys 10 93 2º Pyrus XP_009360332.1 97 100 n.d* 4,74 bretschneideri -

phys 11 60 1º Prunus ADZ74126.1 94 85 n.d* 7,94 pseudocerasus -

P. avium S5-RNase AJ298314 phys11 P. avium S1-RNaseAB028153 P. mume scaffold241 33 S-RNase P. persica ppa018459m S2-RNase Prunus S-RNase 79 P. dulcis SM-RNase DQ099895 97 P. dulcis S7-RNase AY291118 P. avium S3-RNase AJ298312 F. nipponica gi561674690 gi561985884 gi561957436 Prunus SRNaselineage P. persica ppa011133m Prunus PA1 gene 100 P. avium PA1 AB096918 Prunus PA1 gene MDP0000345854 S2-RNase

99 P. pyrifolia S4-RNase AB009385 100 P. ussuriensis S35-RNaseDQ839240 Maleae S-RNase M. domestica SH-RNase AB032247 P. bretschneideri S34-RNase DQ414813 MDP0000266136 S3-RNase 100 P. pyrifolia S9-RNase AB104909 MDP0000160706 100 MDP0000682955 F. nipponica gi561877040 SRNaselineage1 MDP0000250548A S-RNase lineage 1 98 89 P. persica ppa024151m S-RNase lineage 1 98 P. mume scaffold442 35 S-RNase lineage 1 MDP0000267606AT2Lineage Outgroup

0.2

Figura 11. Relação filogenética das sequências de Physocarpus com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 1. A história evolutiva foi inferida utilizando o método Neighbor- Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (500 réplicas) são apresentados junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p-distance e estão nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 25 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Um total de 899 posições foram analisadas. As sequências de referência estão marcadas a preto. A verde está a sequência nucleotídica de Physocarpus correspondente ao 1º exão. A mais recente duplicação total do genoma na subfamília da Maleae ocorreu na bifurcação entre Malus e Crataegus, à 30-45 M.a (Xiang et al. 2016). Pensa-se que esta duplicação poderá ser o evento causador para o surgimento do sistema de auto- incompatibilidade presente na tribo Malae (Jung et al. 2012). Contudo, os nossos

26 resultados indicam que em Vauquelinia (Maleae) e Gillenia (Gillenieae) existem genes da linhagem de Malus S-RNase, sugerindo que o sistema de Malus é ancestral a estes grupos. Em Physocarpus, os genes identificados com a homologia a Rosaceae S-RNases agrupam com os genes de Prunus sugerindo que o sistema ancestral em Rosaceae é do tipo de Prunus. Para validar estas inferências devem ser feitas análises semelhantes com os genes que determinam a especificidade AIG masculinos.

3.3. Identificação do gene putativo da S-RNase no género de Rosa

Foram identificadas 414 sequências no género Rosa com homologia a S-RNases de Prunus, Malus e Fragaria nas 12 espécies estudadas (R. multiflora, R. damascena, R. chinensis, R. odorata, R. rugosa, R. laevigata, R. moschata, R. xanthina, R. arvensis, R. majalis, R. minutifolia e R. persica). O genoma das espécies de R. multiflora, R. damascena e R.chinensis está disponível no NCBI montado. Os genomas das restantes espécies estão disponíveis nesta base de dados em formato SRA (reads) e por isso neste trabalho procedemos à sua montagem como descrito em Material e Métodos. Em sumário, as sequências foram anotadas após BlastX, de acordo com a homologia obtida com sequências de S-RNases. A homologia na região dos motivos proteicos 1 e 2 permite identificar as possíveis regiões codificantes, pois em todas as S-RNases descritas existe um intrão a separar estes motivos (Igic e Kohn 2001; Vieira e Charlesworth 2002; Ramanauskas et al. 2017). Procurámos regiões de conservação de “Splicing” de intrões para anotação putativa dos mesmos. A presença de codões stop na região putativa codificante foi considerada como indicativo de genes não funcionais. Como todas as espécies analisadas são AI (Schanzer e Vagina, 2007; MacPhail e Kevan, 2009) estas sequências não foram incluídas nas análises. Nas análises filogenéticas só são inseridas as sequências que possuem ambos os motivos proteicos e/ou as sequências que abrangem a região do segundo motivo, uma vez que as restantes sequências possuem um tamanho menor que 200 bp.

Na espécie de R. multiflora foram identificadas e anotadas 30 sequências. 21 destas sequências possuem as regiões dos dois motivos proteicos das S-RNases. Seis sequências que apresentam a região dos dois motivos, codificam proteínas putativas que apresenta um valor de PI abaixo de 7 (10 R. mutiflora, 12 R. multiflora, 17 R. multiflora, 19 R. multiflora, 20 R. multiflora e 23 R. multiflora), e por isso estas sequências não foram incluidas nas análises filogenéticas. Cinco sequências apenas possuem a região do segundo motivo proteico e três das cinco sequências possuem este motivo conservado. Nesta espécie só foram identificadas e anotadas seis sequências que cobrem a região do primeiro motivo proteico. Apenas uma sequência possui o motivo 1 conservado (Tabela 9).

27

Tabela 9. Sequências de R. multiflora com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo1 Motivo2 PI (bp) (%) cover (%) sc0027296 606 1º/2º Prunus GU997632.1 73 41 FTIHGLWPNN WPDVKNA 8,38 speciosa sc0008185 406 2º Prunus GU997632.1 72 43 WPDVKNA 8,91 speciosa -

sc0005442 629 1º/2º M. domestica XM_008360277.2 83 7 FSIHGMWPSN WPSYTGL 9,25 sc0006888 594 1º/2º Prunus dulcis AB026836.1 71 55 YTIHGLWPNN WPNLENS 8,38

sc0001267 246 1º Prunus GU997632.1 72 65 FTLHGFWPSN 9,14 speciosa -

sc0000091 639 1º/2º Prunus dulcis FN599510.1 75 11 FTVHGIWPTN WPSVVTN 8,31

sc0006034 480 2º Prunus AB289898.1 68 37 WPNVKYP 9,26 speciosa - sc0001861 657 1º/2º Prunus mume AB101437.1 68 82 YTIHGLWPSN WPNLENL 8,37

sc0004365 592 1º/2º Pyrus XM_009339380.1 86 6 FHVHGIWPSN WPSVLTT 8,53 bretschneideri

sc0008973 672 1º/2º Prunus dulcis KM225272.1 86 6 FTIHGLWPSN WRSYLIA 6,26 sc0013809 708 1º/2º Prunus avium XM_021952187.1 78 8 FTIGHVWPAN WPNVERA 8,95 sc0004094 426 1º/2º Prunus dulcis FN599510.1 74 17 FTVHGIWPTN WPSFRRD 6,56 sc0000240 624 1º R.chinensis XM_024322499 89 92 FTVHGIWPTN - 8,52 co8169294 276 2º Prunus AB289898.1 68 64 WPNVKYP 7,89 speciosa - sc0005791 702 1º/2º M. domestica XM_008360277.2 84 5 FHVHGIWPSN WPSVLTQ 8,33 sc0002677 675 1º/2º Prunus dulcis FN429351.1 94 4 FTIHGLWPSN WPQLIAR 9,12 sc0004200 204 1º/2º Prunus persica DQ269993.1 93 13 FKIHGLWPAN WTNLIGNS 5,08 co8400001 171 1º Prunus dulcis FN429351.1 94 19 FTIHGLWPSN - 7,93 sc0000029 591 1º/2º Prunus mume XM_008223508.2 84 98 FGIHGLWPNY WPTLACP 4,71 sc0010226 591 1º/2º Prunus mume XM_008223508.2 84 98 FGIHGLWPNY WPTLACP 4,73 sc0005298 711 1º/2º Prunus HQ615602.1 92 5 FTIHGLWPSN WPDVKPT 9,42 armeniaca sc0031058 686 1º/2º Prunus EU253959.1 80 5 FTLHGFWPFN WKSYMRS 7,53 pseudocerasus sc0004401 401 1º/2º Prunus EU253959.1 80 10 FTLHGLWPFN WKSYMRS 6,07 pseudocerasus sc0001309 459 1º/2º Prunus dulcis AY613347.1 78 11 FTLHGLWPQA WPNLKHT 9,22 sc0010184 687 1º/2º Prunus avium EF429142.1 97 4 FTIHGLWPSN WPNVYYY 8,68 sc0017665 624 1º/2º Prunus mume AF432846.1 86 5 WTIHGLWAER WPSIMGK 7,64 sc0001239R 615 1º/2º Prunus mume AF432846.1 86 5 WTIHGLWAER WPSIMGK 7,64 sc0016675 402 2º Prunus mume AF432846.1 86 8 - WPSIMGK 8,31 sc0005476 148 1º Prunus mume XM_008239851.1 77 98 FTIGGIWPYT - 9,26 sc0004329 155 2º Prunus dulcis KY059853.1 87 24 - WPSLSTD 4,51

Em R. damascena, 41 sequências foram identificadas e anotadas, em que 13 sequências possuem as regiões dos dois motivos proteicos. Duas destas sequências possuem os motivos proteicos conservados. Destas 13 sequências, três sequências (R. damascena LYNE01010381, R. damascena LYNE01008943 e R. damascena LYNE01009301) codificam para proteínas putativas que apresentam um valor de PI abaixo de 7, e por isso estas sequências não foram incluídas nas análises filogenéticas. 14 sequências possuem a 28 região do segundo motivo aminoacídico das S-RNases e quatro destas sequências possuem o motivo 2 conservado. 11 sequências cobrem a região do primeiro motivo proteico e apenas três sequências possuem o motivo 1 conservado (Tabela 10). Três sequências não cobrem a região dos motivos conservados (assinalado com * na Tabela 10) e não foram consideradas nas análises filogenéticas.

Tabela 10. Sequências de R. damascena com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. n.d* - A sequência não inclui a região onde se localiza o motivo. A vermelho estão marcados os PIs abaixo de 7.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo 1 Motivo 2 PI (bp) (S- RNase) (%) Cover (%) LYNE01013388 444 2º Prunus avium AAP92436.1 43 91 - WPDLRNG 6,40 LYNE01000519 669 1º/2º Prunus cerasus ABW74348.1 46 93 FTIHGLWPSN WPDVGGG 9,22 LYNE01001972 672 1º/2º Prunus salicina BAF91848.1 43 83 FTIHGLWPNN WPDVKNA 8,39 LYNE01000746.2 480 2º M. domestica XP_008358499.1 37 77 - WPQLISH 5,37 LYNE01000746.3 195 1º Prunus avium XP_021802445.1 45 84 FTLHGLWASN - 3,93 LYNE01000746.5 183 1º Prunus dulcis CAZ68888.2 49 75 FTTHGLWPSN - 8,71 LYNE01000746.6 210 1º Prunus salicina BAC75458.1 47 74 FTIHRLWASN - 7,92 LYNE01017708 435 2º Prunus dulcis AAZ67004.1 46 91 - WPNVKYP 7,15 LYNE01001980 849 1º/2º Prunus avium XP_021814736.1 32 85 FHVHGIWPSN WPSVLTT 7,27 LYNE01003052 678 1º/2º Prunus salicina BAF91848.1 32 94 FTVHGIWPTN WPSVLTD 8,63 LYNE01001192 639 1º/2º Prunus avium XP_021814736.1 35 85 FTIHGVWPAN WPNVERA 8,14 LYNE01010381 612 1º/2º Prunus mume XP_008228033.1 43 87 CSIHGMWPSN WPSYTGL 6,13 LYNE01001343 648 1º/2º Prunus avium ABW08113.1 32 95 FHVHGIWPSN WPSVLTQ 7,72 LYNE01033207 231 1º Prunus cerasus ABW74348.1 56 87 FTLHGFWPSN - 8,58 LYNE01004478.2 360 1º Pyrus x XP_009360332.1 82 90 FGIHGLWPNY 4,87 bretschneideri - LYNE01004478.3 444 1º/2º Prunus mume XP_008221612.1 78 87 FGIHGLWPNY WPSMSCP 7,12 LYNE01004102.1 636 1º/2º Prunus mume XP_008235627.1 30 83 FTLHGLWPFN WKSHMRS 7,65 LYNE01004102.2 465 2º Prunus mume XP_008235627.1 31 85 - WKSYMRS 5,74 LYNE01008943 555 1º/2º Prunus mume XP_008235627.1 31 89 FTLHGLWPFN WKSYKRS 5,38 LYNE01194748 156 2º Prunus avium CAH89259.1 45 98 - WPSVVTN 6,29 LYNE01009301 633 1º/2º Prunus mume XP_008235627.1 30 75 FTLHRLWPFN WKSYMRS 5,99 LYNE01000876 345 1º/2º Pyrus x XP_018503533.1 36 96 FTLHGLWPQ WPDLTHS 7,79 bretschneideri LYNE01052144 403 1º/2º Prunus avium XP_021826742.1 44 76 FTVHGIWPTN WPSVRRD 8,60 LYNE01027901 513 2º Prunus mume XP_008235627.1 32 72 - WKSYKRS 4,78 LYNE01240977 174 2º M. domestica XP_008358499.1 46 93 - WPSVLTQ 5,77 LYNE01076522 333 2º Prunus avium XP_021814736.1 36 85 - n.d* 6,07 LYNE01233280 129 1º Prunus mume BAF91152.1 55 100 FHVHGIWPSN - 6,90 LYNE01000464 738 2º Prunus avium XP_021807879.1 24 44 - WPSIMGK 7,20 LYNE01181471 127 2º Prunus ABR28070.1 45 99 WPSVVTN 5,40 cerasifera - LYNE01002353 162 2º Prunus webbii ABY19367.1 36 87 - n.d* 8,28 LYNE01009427 633 2º Prunus mume XP_008235627.1 29 72 - WPGISGK 4,60 LYNE01017367 195 2º Prunus dulcis AGH17535.1 43 61 - n.d* 7,78 LYNE01025807 498 1º M. domestica XP_008358499.1 30 53 FTLYGLWPFN - 9,21 LYNE01008366 312 1º Prunus dulcis AAF82615.1 90 46 FGIHGLWPNY - 6,67 LYNE01003854 324 1º Prunus dulcis AGH17537.1 49 42 FSVHGLWPSN - 7,12 LYNE01006482 234 2º Prunus avium CAG25708.1 36 92 - WPQLIAH 5,13 LYNE01003763 261 1º Prunus salicina ABW88928.1 49 51 FSVHGLWPSN - 8,26 LYNE01017422 423 2º Prunus avium ABW08113.1 29 87 - WKNYEKG 4,54 LYNE01000179 483 2º Pyrus x XP_009337655.1 30 77 WPNVKFW 8,13 bretschneideri - LYNE01145892 90 2º Prunus dulcis CBI68347.1 67 96 - WPATFCS 4,21 LYNE01007656 300 1º/2º Prunus AHJ59551.1 35 65 FFIHGVLGAL 8,79 armeniaca -

29

Em R. chinensis foram anotados dois genomas: o genoma disponível em https://iris.angers.fr/obh/ (assinalado como INRA; Hibrand et al. 2018) que não está anotado, e o genoma disponível na base de dados do NCBI assembly (assinalado como NC) que está anotado. No genoma INRA foram identificadas e anotadas 22 sequências com homologia a S-RNases. 20 destas sequências cobrem a região do primeiro e segundo motivo proteico. Neste grupo de sequências estão incluídos os genes putativos S-RNase (S30-, S26-, e S36- RNase) descritos por Hibrand et al. 2018. Três sequências possuem os motivos proteicos conservados. Cinco sequências (9 R. chinensis INRA, 10 R. chinensis INRA, 11 R. chinensis INRA, 12 R. chinensis INRA e a S26-RNase (denominada neste trabalho como 20 R. chinensis INRA) codificam para proteínas putativas que apresentam valores de PI abaixo de 7, e por esta razão foram excluídas das análises filogenéticas. A sequência 7 R. chinensis INRA foi também removida, pois a região do motivo proteico 1 é tão divergente que quando alinhada com as outras sequências cria gaps que impede a análise dessa região. Apenas duas sequências possuem a região que cobre o segundo motivo proteico e apenas uma destas sequências possui o motivo 2 conservado e codifica para uma proteína putativa que apresenta um PI acima de 7,5 (Tabela 11).

Tabela 11. Sequências de R. chinensis INRA com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo1 Motivo2 PI (bp) (%) cover (%) 1_ R_chinensis 438 2º Prunus spinosa ABG76209.1 38 73 - WPDVKPT 9,97 2_R_chinensis 594 1º/2º Prunus dulcis AAZ67004.1 46 83 FTLHGFWPSN WPNVKYP 8,77

3_R_chinensis 570 1º/2º Prunus dulcis AGH17535.1 44 58 FTVHGIWPTN WPSVRRD 9,42 4_R_chinensis 714 1º/2º Prunus GU997632.1 73 33 FTIHGLWPNN WPDVKNA 8,63 speciosa

5_R_chinensis 582 1º/2º Prunus KY499716.1 92 4 FTLHGLWEQN WPDLTKD 9,20 armeniaca

6_R_chinensis 527 1º/2º Prunus avium XM_021952187.1 73 17 FTVHGIWPTN WPSVVTN 8,49

7_R_chinensis 432 1º/2º Prunus dulcis KY059853.1 87 9 ITIERFWCSI WSSLSAT 8,60 8_R_chinensis 462 1º/2º Prunus dulcis AY613347.1 78 11 FTLHGLWPQA WPNLKHT 9,34

9_R_chinensis 570 1º/2º Prunus EF17339.1 84 8 WTVHGLWAER WPSIMGK 6,40 armeniaca

10_R_chinensi 829 1º/2º Prunus mume XM_016796527.1 88 3 FTLHGLWDQN WPDLSAD 5,62 s

11_R_chinensi 299 1º/2º F. vesca XM_004287659.2 73 85 FTLHGLWPQA WPDLTHS 6,56 s 12_R_chinensi 537 1º/2º Prunus dulcis AF157011.1 81 78 FGIHGLWPNY WPTLACP 4,73 s 13_R_chinensi 423 2º Prunus EF173399.1 81 9 - WPGISGK 4,82 s armeniaca 14_R_chinensi 681 1º/2º Prunus dulcis KM225272.1 86 6 FTIHGLWPSN WRSYLIA 7,54 s 15_R_chinensi 717 1º/2º Pyrus XM_009339380.1 86 5 FHVHGIWPSN WPSVLIT 8,71 s bretscheideri

30

16_R_chinensi 579 1º/2º Prunus EU253959.1 80 7 FTLHGLWPFN WKSYMRS 8,54 s pseudocerasus 17_R_chinensi 444 1º/2º Prunus avium AY259115.1 69 59 FQISGLIGIH WPDLRNG 8,95 s 18_R_chinensi 711 1º/2º M. domestica XM_008360277.2 84 5 FHVHGIWPSN WPSVLTQ 8,98 s 19_R_chinensi 570 1º/2º Prunus mume XP_008235627.1 33 80 FTIHGLWPNN WPDLRNG 8,42 s 20_R_chinensi 681 1º/2º Prunus KF975455.2 88 13 FTIHGLWPSN SLSLSLS 6,48 s (S26) armeniaca 21_R_chinensi 705 1º/2º Prunus avium KJ590779.1 94 4 F-IHGLWPSN WPSFTRR 7,15 s (S30) 22_R_chinensi 660 1º/2º M. spectabilis FJ943269.1 78 7 FTIHGLWPSN WPDVIHG 7,57 s (S36) No genoma de R. chinensis disponível no NCBI (Tabela 12) foram identificadas apenas 11 sequências completas. Destas, metade codifica para proteínas que apresentam um PI abaixo de 7, e por isso não foram consideradas nas análises filogenéticas. Das restantes somente uma sequência apresenta ambos os motivos conservados (Tabela 12).

No total foram consideradas 20 sequências completas destes dois genomas em análises filogenéticas. Nenhuma destas sequências é igual, o que sugere que ambos os genomas estão parcialmente sequenciados.

Tabela 12. Sequências de R. chinensis presente no NCBI com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo1 Motivo2 PI (bp) (%) cover (%) NC_037094 336 1º/2º Prunus dulcis AAG09465.1 42 86 FTIGGIWPYT WPAITIL 9,54 NC_037091 693 1º/2º Prunus dulcis AAF82615.1 79 100 FGIHGLWPNY WPTLACP 4,74

NC_037090 684 1º/2º Prunus BAF91848.1 52 95 YTIHGLWPSN WPNLERP 8,81 salicina NC_037089 696 1º/2º Prunus avium XP_021814736.1 36 90 FTVHGIWPTN WPSVVTN 8,95

NC_037091 681 1º/2º Prunus persica XP_007223919.1 87 100 FGIHGLWPNY WPSMSCP 5,54 NC_037093 690 1º/2º Prunus avium ABR19609.1 45 89 FTIHGLWPNN WPDVKNA 8,80

NC_037091 798 1º/2º Pyrus ABY65898.1 25 65 FTLHGLWDQN WPDLSAD 5,76 bretschneideri NC_037090 660 1º/2º Prunus avium XP_021814736.1 35 82 FTIHGVWPAN WPNVERA 8,34

NC_037093 864 1º/2º Prunus mume XP_008235857.1 80 95 FTIHGLWPDY WPSLSCG 6,08 NC_037091 345 2º Pyrus XP_009360332.1 42 96 - RPSLACP 6,24 bretschneideri NC_037089 708 1º/2º Prunus avium ABW08113.1 32 94 FHVHGIWPSN WPSVLTQ 8,87 NC_037089 483 1º/2º Prunus mume XP_008228033.1 38 86 FHVHGIWPSN WPSVLTT 6,12

Em R. odorata foram identificadas e anotadas 44 sequências com homologia com S- RNases de Prunus, Malus e Fragaria. 13 sequências possuem os dois motivos proteicos das S-RNases e apenas duas sequências possuem os motivos proteicos conservados. Contudo quatro sequências codificam proteínas putativas que apresentam um valor de PI abaixo de 7 e por isso não foram incluídas nas análises filogenéticas (6 R. odorata, 7 R. odorata, 27 R. odorata e o 43 R. odorata). 15 sequências cobrem a região do primeiro motivo aminoacídico das S-RNases e 13 sequências cobrem a região do motivo 2. Seis sequências possuem a região do motivo 1 conservado e cinco sequências possuem a

31 região do motivo 2 conservado. Três sequências correspondentes ao último exão não possuem a região do segundo motivo proteico (assinaladas com * na Tabela 13) e não foram incluídas nas análises filogenéticas.

Tabela 13. Sequências de R. odorata com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7. n.d* - A sequência não inclui a região onde se localiza o motivo.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo 1 Motivo 2 PI (bp) (S-RNase) (%) Cover (%) 1 186 1º Prunus salicina BAC75458.1 47 83 FTIHRLWASN - 8,59 2 123 1º Prunus AFI24534.1 53 95 FHVHGIWPSN 8.05 virginiana - 3 654 1º/2º Prunus mume XP_008228033.1 41 86 FSIHGMWPSN WPSYTGL 9,13 4 207 1º Prunus salicina ABW88928.1 43 94 FSVHGLWPSN - 9,38 6 513 1º/2º Prunus mume XP_008221612.1 80 78 FGIHGLWPNY WPSMSCP 6,32 7 513 1º/2º Prunus mume XP_008221612.1 80 78 FGIHGLWPNY WPSMSCP 6,32 8 369 2º Prunus dulcis AAZ57491.1 50 97 - n.d* 7,06 9 108 2º Prunus avium CAH89259.1 49 97 - n.d.* 6.28 10 372 2º Prunus dulcis ATQ63985.1 31 91 - WPNLVAP 9.36 11 204 1º Prunus tenella AJP09158.1 45 92 FTIHGLWPSN - 5,19 12 486 1º Prunus dulcis BAA95317.1 33 72 FTLHGLWPQA - 8.26 13 297 2º F. vesca XP_004301433.1 78 85 - n.d.* 9.77 14 168 2º M. domestica XP_008358499.1 45 94 - WPSVLIT 5,36 16 120 1º Prunus avium XP_021826742.1 50 100 FTVHGIWPTN - 9.68 17 201 1º Prunus cerasus ABW74348.1 56 100 FTLHGFWPSN - 9,30 18 111 2º Prunus dulcis AGH17535.1 54 100 - WPSVRRD 6,92 19 240 1º Prunus ACU98969.1 38 96 FTIHGLWPSN 7,67 pseudocerasus - 20 126 1º Prunus avium XP_021826742.1 52 100 FTVHGIWPTN - 8.83 21 210 1º Prunus ACU98969.1 40 95 FTIHGQWPSN 5,38 pseudocerasus - 22 696 1º/2º Pyrus XP_009370664.1 41 93 FFIHGLWPSN WPSFTRR 8,09 bretschneideri 25 189 1º Prunus mume BAF91153.1 48 96 FTIHGLWPNN - 9,73 26 450 2º Pyrus XP_009334944.1 42 91 WRSYLIA 7,65 bretschneideri - 27 696 1º/2º Prunus dulcis AAF82615.1 79 99 FGIHGLWPNY WPTLACP 4,79 28 408 2º Pyrus XP_009337655.1 30 94 WSSLSAT 8,58 bretschneideri - 29 129 1º Prunus dulcis CAZ68888.2 50 100 FTTHGLWPSN - 7,96 30 147 1º Prunus ACU98969.1 51 100 FTIHGLWPNN 9,42 pseudocerasus - 31 435 2º Prunus salicina ABG36934.1 48 83 - WPDVKNA 6,99 32 315 1º/2º Prunus dulcis CAZ68888.2 38 98 ITVHGLWPSN WSDVEKG 8,54 33 519 1º/2º M. domestica XP_008358499.1 36 96 FTIHGVWPAN WPNVERA 9,21 34 177 2º Prunus salicina AAP97310.1 33 93 - WPSIMGK 8,11 35 408 1º/2º Prunus dulcis CBI68347.1 36 69 FTIHGLWPSN WPNVYYY 9,04 36 294 1º/2º Prunus webbii ABY19369.1 41 97 ITVHGLWPSN WSDVEKG 8,66 37 112 2º Prunus ABR28070.1 51 100 WPSVVTN 5,35 cerasifera - 38 120 1º Prunus AFI24534.1 49 95 FHVHGIWPSN 7,00 virginiana - 39 417 2º Prunus dulcis AAZ67004.1 46 95 - WPNVKYP 7,68 40 87 1º Prunus humilis ABR68013.2 66 86 YTIHGLWPSN - 9,05 41 627 1º/2º Prunus dulcis CAE84600.1 39 34 WTIHGLWTCE WPSNNKN 8,73 42 825 1º/2º Prunus BAF56262.1 34 21 FTLHGLWEQN WPDLTKD 9,21 speciosa 43 225 1º/2º Prunus AHJ59551.1 47 78 FKIHGLWPAN WPNLIGN 5,51 armeniaca 44 258 2º M. domestica XP_008358499.1 47 61 - WPSVLTQ 5,80 45 249 2º M. domestica XP_008369871.1 48 28 - WPSTYKE 6,10 46 444 2º Prunus tenella AJP09161.1 44 77 - WPDLRNG 6,40

32

47 420 2º Prunus dulcis AAZ06135.1 45 77 - WPDVIHG 6,99 48 468 1º/2º Prunus dulcis ATQ63986.1 44 50 FTIHGLWPSN WPDVKRT 10,07

Da análise da subespécie R. odorata gigantea, 46 sequências foram identificadas e anotadas. Apenas três sequências contêm as regiões dos dois motivos proteicos das S- RNases e nenhuma destas sequências possui os motivos conservados. 14 sequências só possuem a região do primeiro motivo e seis sequências possuem o motivo conservado. 13 sequências de R. odorata gigantea contêm a região do segundo motivo proteico, sendo que quatro sequências possuem o motivo conservado. 13 sequências não possuem as regiões do motivo proteico das S-RNases (assinaladas com *; Tabela 14) e não foram incluídas nas análises filogenéticas.

Tabela 14. Sequências de R. odorata gigantea com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7. n.d* - A sequência não inclui a região onde se localiza o motivo.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo 1 Motivo 2 PI (bp) (S-RNase) (%) Cover (%) 1 198 1º Prunus avium XP_021807553.1 96 71 FGIHGLWPNY - 5,29 2.1 279 1º F. vesca XP_004302280.2 38 73 FTIHGLWPSN - 5,96 2.2 429 2º R. chinensis XP_024190063.1 34 93 - WPNVYYY 8,85 3.1 273 1º Prunus persica XP_007209575.1 39 83 FTTHGLWPSN - 8,43 3.2 174 2º Prunus BAF56242.1 55 87 WPDVEKG 6,95 speciosa - 4 420 2º Prunus mume BAC66630.1 45 85 - WPDVIHG 6,99 5 345 1º/2º F. vesca XP_004287707.1 61 81 FTLHGLWPQA WPDLTHS 8,87 6 360 2º Prunus avium AIB53822.1 44 85 - n.d* 6,99 7 339 2º Prunus mume BAF91156.1 31 77 - WKSYGSG 9,54 8 171 1º Prunus dulcis AAF82615.1 88 98 FGIHGLWPNY - 4,66 9 246 1º Prunus salicina ABW88928.1 40 85 FSVHGLWPSN - 8,51 10 237 2º Prunus avium ABF69847.1 58 84 - WPDLKNG 8,89 11 411 1º/2º R. chinensis XP_024190063.1 100 88 FTIHGVWPAN WPNVERA 9,35 12 378 2º F. vesca XP_011462721.1 36 92 - WKSYKRS 4,99 13.1 390 2º M. domestica AWL24787.1 31 97 - n.d* 9,22 13.2 315 2º - - n.d* 9,25 14 216 2º R. chinensis XP_024178267.1 98 72 - n.d* 9,14 15 126 1º Prunus ACU98969.1 46 83 FTIHGLWPNN 9,50 pseudocerasus - 16 249 1º Prunus ACU98969.1 38 92 FTIHGLWPSN 8,46 pseudocerasus - 17 300 2º Prunus dulcis ATQ63985.1 29 89 - n.d* 9,45 19 297 1º R. chinensis XP_024178267.1 46 68 FFIHGLWPSN - 4,56 20 198 1º Prunus dulcis AAF82612.2 43 87 FTIHGLF - 4,41 21 273 2º Prunus mume XP_008228033.1 32 97 - n.d* 5,35 23 303 2º R. chinensis XP_024178267.1 98 93 - WPSVVTN 7,30 25 282 1º R. chinensis XP_024177989.1 88 62 FHVHGIWPSN - 6,96 26 204 2º Prunus BAF56274.1 52 45 WSDVEKG 6,49 speciosa - 27 228 1º Prunus mume BAF91157.1 41 82 ITVHGLWPSN - 8,97 28 237 2º Prunus avium XP_021802445.1 44 65 - WKSYKRS 5,33 29 240 1º Prunus salicina ABW88929.1 49 57 FTIHRLWPSN - 9,86 30 255 2º M. domestica XP_008358499.1 49 100 - WPSFTRR 8,78 31 237 1º/2º Prunus persica XP_007201311.2 40 81 FTLHGLWDQN WPDLSAD 9,06

33

32 220 1º Prunus salicina ABW88924.1 54 76 FTIHGLWPSN - 6,68 33.1 123 2º R. chinensis XP_024190063.1 80 97 - n.d* 6,73 33.2 105 1º - n.d* - 4,57 34 156 2º Prunus mume XP_008221730.2 58 69 - n.d* 8,90 36 138 2º Prunus dulcis AAF82615.1 80 100 - WPTLACP 4,67 37 162 2º R.chinensis XP_024177989.1 94 57 - n.d* 9,23 38 102 1º Prunus mume BAF91152.1 59 94 n.d* - 8,20 39 105 2º Prunus salicina AAP97310.1 46 100 - WPDISGK 5,41 40 123 1º R. chinensis XP_024177989.1 92 95 FHVHGIWPSN - 8,05 41 126 2º R. chinensis XP_024190063.1 100 97 - n.d* 8,61 42 120 1º Prunus avium AHF82102.1 56 90 n.d* - 6,72 43 108 2º F. vesca XP_004302280.2 71 94 - n.d* 8,99 44 102 2º R. chinensis XP_024196661.1 100 100 - WPSMSCP 5,44 45 105 2º Prunus avium CAH89259.1 48 88 - n.d* 8,06 46 84 2º Prunus BAL04891.1 65 92 n.d* 6,84 davidiana -

Em R. rugosa foram identificadas e anotadas sequências para dois indivíduos desta espécie (Rugosa 14 e Rugosa 19). Em R. rugosa 14 foram identificadas 39 sequências, em que 17 sequências cobrem a região do primeiro e do segundo motivo proteico das S- RNases. Cinco destas sequências possuem a região dos motivos proteicos conservados. Das 12 sequências completas, três sequências (6 R. rugosa 14, 15 R. rugosa 14 e a 17 R. rugosa 14) codificam proteínas que apresentam um valor de PI abaixo de 7, que não foram incluídas nas análises filogenéticas. 11 sequências cobrem a região do primeiro motivo proteico e oito destas sequências possuem o motivo 1 conservado. Nove sequências cobrem a região do último exão. Três sequências possuem a região do motivo 2 conservado. Duas sequências não cobrem a região do segundo motivo proteico (assinalado com * ; Tabela 15), e por isso não foram incluídas em análises filogenéticas.

Tabela 15. Sequências de R. rugosa 14 com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7. n.d* - A sequência não inclui a região onde se localiza o motivo.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo 1 Motivo 2 PI (bp) (S-RNase) (%) Cover (%) 1 177 1º Prunus salicina ABW88928.1 51 72 FSVHGLWPSN - 9,15 2 171 1º Prunus salicina BAC75458.1 54 96 FTIHGLWPSN - 8,55 3 132 1º Prunus avium XP_021826742.1 49 97 FTVHGIWPTN - 9,19 4 81 2º M. domestica XP_008369871.1 69 96 - n.d* 8,15 5 423 2º Prunus dulcis AAF82615.1 79 99 - WPTLACP 4,75 6 468 1º/2º M. domestica XP_008358499.1 40 90 -HVHGIWPSN WPSVLTQ 6,22 7 138 1º Prunus cerasus ABB40578.1 44 95 FTLHGLWATN - 5,21 8 384 1º/2º Prunus mume XP_008221612.1 89 85 FGIHGLWPNY WPSMSCP 7,78 9 528 1º/2º Prunus persica XP_020409186.1 40 85 FSIHGMWPSN WPSYTGL 8,16 10 114 2º M. domestica XP_008369871.1 57 97 - WPQLIAR 8,16 11 126 1º F. vesca XP_004302280.2 62 100 FTIHGLWPSN - 5,21 12 105 1º F. vesca XP_004302280.2 80 100 FTIHGLWPSN - 8,06 13 570 1º/2º Prunus salicina BAF42766.1 43 90 FTIHGLWPNN WPDVKNA 8,13 14 570 1º/2º Prunus salicina BAF42766.1 43 90 FTIHGLWPNN WPDVKNA 8,13 15 228 1º/2º Prunus mume XP_008235627.1 41 98 FTVHGIWPTN WPSVRTD 6,44 16 366 1º/2º Prunus tenella ABL86035.1 39 81 FTLYGLWPIN WKNYEKG 9,08 17 507 1º/2º Prunus avium XP_021807879.1 39 89 LLLHGLWPAN WPNLTGD 6,05

34

18 411 1º/2º Prunus dulcis AAL35959.2 38 84 ITVHGLWPSN WSDVEKG 8,79 19 411 1º/2º Prunus dulcis AAL35959.2 38 84 ITVHGLWPSN WSDVEKG 8,79 22 684 1º/2º Prunus mume XP_008238073.1 52 84 FTIGGIWPYT WPSPSCP 9,35 23 156 1º Prunus dulcis ABW04806.1 58 98 FTIHGLWPSN - 7,93 24 168 1º Prunus dulcis AAF82615.1 88 100 FGIHGLWPNY - 4,66 26 435 2º Prunus avium XP_021807879.1 25 75 - WHGLYGK 4,76 27 42 1º Prunus dulcis BAH56561.1 77 92 FHVHGIWPSN - 6,92 28 399 1º/2º Prunus dulcis AAU88206.2 51 100 FTIHGLWPSN WPDLENG 7,87 29 381 1º/2º Prunus dulcis AAU88206.2 51 100 FTIHGLWPSN WPDLENG 7,87 30 249 2º R. chinensis XP_024190063.1 40 84 - WPNTYKD 5,16 31 150 1º Prunus dulcis ACZ55924.1 49 92 FTIHGLWPSN - 7,95 32 423 2º Prunus salicina ABG36934.1 48 95 - WPDVGGG 8,87 33 408 2º Pyrus XP_009370664.1 35 92 WPNVVTP 9,24 bretschneideri - 34 450 2º Pyrus XP_009370664.1 41 92 WRSYPIG 7,66 bretschneideri - 35 444 1º/2º Prunus avium CAC27788.1 37 95 FTIHGLWPSN WPNVETP 9,34 36 171 2º M. domestica XP_00839464.1 63 71 - WLACPSS 5,99 37 108 2º Pyrus XP_009337655.1 61 100 WPSVMTD 4,80 bretschneideri - 38 93 1º Prunus avium XP_021826742.1 55 100 FTIHGLWPNN - 5,08 39 261 1º/2º R. chinensis XP_024195588.1 87 100 FTLHGLWDQN WPDLSAD 7,21 40 549 1º/2º F. vesca XP_004287707.1 50 75 FTLHGLWPQA WPDLTHS 7,10 41 549 1º/2º F. vesca XP_004287707.1 50 75 FTLHGLWPQA WPDLTHS 7,10 42 120 2º R. chinensis XP_024178267.1 98 100 - n.d* 8,86

Em R. rugosa 19, 25 sequências foram anotadas e identificadas com homologia com S- RNases de Prunus, Malus e Fragaria. Cinco sequências cobrem a região do primeiro e do segundo motivo proteico. Uma sequência deste grupo (11 R. rugosa 19) foi removida das análises filogenéticas porque a região do 2 motivo é divergente e quando alinhada com as restantes sequências impede o uso desta região em análises filogenéticas. Nenhuma das sequências apresenta os motivos proteicos conservados. Oito sequências cobrem a região do primeiro motivo proteico, sendo que cinco sequências possuem este motivo proteico conservado. Nove sequências cobrem a região do segundo motivo proteico e quatro sequências possuem a região do motivo 2 conservado. Três sequências, embora apresentem homologia com o último exão, não cobrem a região do segundo motivo proteico (assinaladas com * ; Tabela 16) e foram excluídas das análises filogenéticas.

Tabela 16. Sequências de R. rugosa 19 com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7. n.d* - A sequência não inclui a região onde se localiza o motivo.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo 1 Motivo 2 PI (bp) (S-RNase) (%) Cover (%) 1 582 1º/2º Prunus mume XP_008235627.1 31 79 FTLHGLWPFN WKSYMRS 8,82 3 165 2º Prunus salicina AAP97310.1 31 98 - WPSIMGK 6.92 4 183 1º Prunus cerasus ABB40578.1 50 85 FTIHGLWPSN - 7,97 5 411 2º Prunus avium AIB53822.1 32 72 - WPSNDNE 5,21 6 216 1º Prunus AHJ59551.1 52 84 FTLHGFWPSN 9,26 armeniaca - 7 198 1º Prunus PQQ19550.1 96 71 FGIHGLWPNY 5,29 yedoensis - 8 201 2º Prunus avium XP_021802445.1 48 100 - WPQLISH 6,00 9 270 2º Prunus salicina BAC20936.1 39 98 - n.d* 6,89 10 420 2º Prunus dulcis AAZ67004.1 45 95 - WPNVKYP 8,85

35

11 342 1º/2º Prunus persica XP_020409186.1 38 85 FHVHGIWPSN MASVLTT 7,18 12 126 2º Prunus tenella ABL86031.1 50 90 - WPSVLID 4,86 13 189 2º Prunus BAF56257.1 27 100 WPGISGK 4,60 speciosa - 15 186 2º Prunus avium ABF69847.1 57 100 - WPDLRNG 6,06 16 159 1º Prunus salicina ABW88924.1 49 81 FTLHGLWASN - 4,20 17 258 2º Prunus spinosa ABG76213.1 29 95 - n.d* 9,81 18 270 2º Prunus salicina BAC20936.1 35 87 - n.d* 6,89 20 408 2º Prunus dulcis ABA26546.1 28 96 - WPSLSTD 5,52 21 207 1º Prunus ACU98969.1 40 97 FTIHGLWPSN 8,23 pseudocerasus - 22 435 1º/2º Pyrus XP_018503533.1 29 77 FTLHGLWPQA WPNLKHT 9,36 bretschneideri 24 516 1º/2º M. domestica XP_008358499.1 37 96 FTIHGVWPAN WPNVERA 9,21 25 141 1º Prunus AHJ59551.1 59 72 FTIHGLWPSN 4,41 armeniaca - 26 249 1º Prunus mume ABV72000.1 52 72 FTIHGLWPNN - 6,79 27 147 1º Prunus ACU98969.1 51 100 FTIHGLWPNN 9,42 pseudocerasus - 28 411 1º/2º Prunus dulcis AAX62734.1 30 70 WTIHGLWTYE WPINNKN 9,24 29 543 2º Prunus avium ABR19609.1 38 64 - WPDVLNG 9,65

Em R. laevigata foram identificadas e anotadas 31 sequências, em que 11 sequências cobrem a região dos dois motivos proteicos. Contudo, quatro destas sequências codificam proteínas putativas com valor de PI abaixo de 7 (11 R. laevigata, 17 R. laevigata, 25 R. laevigata, e 26 R. laevigata) e, por isso, não foram incluídas nas análises filogenéticas. Das sete sequências consideradas para trabalho filogenético, nenhuma possui os motivos proteicos conservados. Seis sequências possuem a região do primeiro motivo proteico e quatro sequências possuem este motivo conservado. 12 sequências abrangem a região do segundo motivo proteico, sendo que seis sequências possuem o motivo conservado. Duas sequências, embora cubram parcialmente o último exão, não possuem a região do segundo motivo proteico (assinaladas com *; Tabela 17), e por isso não foram incluídas nas análises filogenéticas.

Tabela 17. Sequências de R. laevigata com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7. n.d* - A sequência não inclui a região onde se localiza o motivo.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo 1 Motivo 2 PI (bp) (S-RNase) (%) Cover (%) 1 228 2º R.chinensis XP_024190063.1 100 98 - n.d* 6,74 2 108 2º R. chinensis XP_024190063.1 42 72 - n.d* 7,62 3 339 1º Prunus dulcis BAA95317.1 46 67 FTIHGLWPSN - 6,53 4 486 2º Prunus webbii ABJ97523.1 42 87 - WPDLKNG 8,84 5 210 2º F. vesca XP_004302280.2 66 97 - WPQLIAR 7,90 6 450 2º Pyrus XP_009334944.1 44 91 WRSYLIG 6,94 bretschneideri - 7 255 2º Prunus persica XP_007223919.1 82 78 - WPSMSCP 9,15 8 243 1º Prunus mume BAF91151.1 57 64 FTIHGLWPNN - 9,19 9 150 1º Prunus AHJ59551.1 59 98 FTIHGLWPSN 7,93 armeniaca - 10 438 2º Prunus persica BAJ41467.1 52 93 - WPNVEKV 8,25 11 594 1º/2º Prunus dulcis AAF82615.1 82 98 FGIHGLWPNY WPTLACP 4,73 12.1 453 1º Prunus mume ABV56006.1 46 39 FTIHGLRPSN - 8,68 12.2 450 2º Prunus dulcis ATQ63985.1 36 89 - WPDVERL 8,35

36

13 435 2º Prunus mume XP_008235627.1 30 82 - WPSISTQ 4,78 16.1 276 1º F. vesca XP_004287707.1 57 80 FTLHGLWPQA - 7,90 16.2 267 2º F. vesca XP_004287707.1 47 96 - WPNLKHT 9,57 17 492 1º/2º F. vesca XP_004301433.1 74 85 FTLHGMWASN WPTLLDN 4,77 18 267 2º R. chinensis XP_024190063.1 99 100 - WPNVERA 7,84 19 438 1º/2º R. chinensis XP_024178267.1 42 97 FHVHRIWPSN WSSVLTA 9,14 20 420 2º Prunus avium XP_021807879.1 24 93 - WPSLYAN 5,17 21 540 1º/2º Prunus persica XP_020409186.1 39 83 FSIHGMWPSN WPSYTGL 9,16 22 252 2º Prunus mume XP_008221612.1 50 76 - WPSLACP 5,01 24 516 1º/2º Prunus webbii AAZ91368.1 35 51 ITVHGLWPSN WSDVEKG 8,39 25 582 1º/2º F. vesca XP_004287707.1 28 91 FTLHGLWDQN WPDLSAD 6,52 26 561 1º/2º Prunus avium XP_021814736.1 41 95 FTIHGLWPSN WPQLIAH 5,46 27 717 1º/2º Prunus avium ABW08113.1 33 90 FHVHGIWPSN WPSVLTQ 7,96 28 420 2º Pyrus XP_009370664.1 44 88 WPQLIPY 8,45 bretschneideri - 30 546 1º/2º R. chinensis XP_024178267.1 95 96 FTVHGIWPTN WPSVLTD 8,71 31 234 1º F. vesca XP_004302280.2 57 96 FTIHGLWPSN - 6,71 32 390 1º/2º F. vesca XP_004287707.1 57 90 FTLHGLWPQA WPDLTHS 7,40 33 432 1º/2º Prunus dulcis AAG09465.1 46 87 FTIGGIWPYT WPSLPCP 9,49

36 sequências foram identificadas e anotadas em R. moschata. Destas 36 sequências, 12 possuem as regiões correspondentes aos dois motivos proteicos das S-RNases e quatro destas sequências codificam proteínas putativas que apresentam valores de PI abaixo de 7 (4 R. moschata, 19 R. moschata, 32 R. moschata e 33 R. moschata). Uma das sequência possui a região dos dois motivos proteicos conservados. Oito sequências cobrem a região do primeiro motivo proteico e 12 sequências possuem a região do segundo motivo aminoacídico das S-RNases. Duas sequências que cobrem a região do primeiro motivo proteico é conservado e quatro sequências que cobrem a região do segundo motivo aminoacídico é conservado. Quatro sequências não cobrem a região do segundo motivo proteico (marcado pelo *; Tabela 18).

Tabela 18. Sequências de R. moschata com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7. n.d* - A sequência não inclui a região onde se localiza o motivo.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo 1 Motivo 2 PI (bp) (S-RNase) (%) Cover (%) 1 147 2º Prunus AEB96592.1 37 87 n.d* 6,75 armeniaca - 2 264 1º/2º Prunus mume BAC56114.1 33 75 FTLHRLWHQN WPDLSRD 9,49 3 219 2º Prunus AEB96592.1 29 90 n.d* 8,66 armeniaca - 4 621 1º/2º Prunus mume XP_008235627.1 30 64 FTLHGFWPFN WKSYKRS 5,29 5 408 2º Prunus mume XP_008235627.1 26 80 - WPNPFWN 5,40 6 408 2º Prunus mume XP_008228033.1 34 71 - WPSFSTT 5,33 7 135 1º Prunus avium XP_021826742.1 52 97 FTVHGIWPTN - 9,15 9 147 2º Prunus avium CAH89259.1 39 73 - WPSLYGK 5,41 10 417 2º Prunus dulcis AAZ67004.1 45 95 - WPNVKYP 8,62 11 471 1º/2º Prunus mume XP_008228033.1 36 85 FTIHGVWPAN WPNVERA 8,59 12 174 1º Prunus salicina BAC20942.1 53 98 YTIHGLWPSN - 9,41 13 423 2º Pyrus XP_009360333.1 84 99 WPTLACP 4,75 bretschneideri - 14 168 1º Prunus dulcis AAF82615.1 88 100 FGIHGLWPNY - 4,66 15 105 1º Prunus dulcis CAZ68888.2 54 74 FTIHGLWPSN - 7,82 16 300 1º/2º M. domestica XP_008358499.1 43 90 FTIHGLWSSN WPQLIAR 8,88 17 501 1º/2º Prunus mume BAC56114.1 25 97 FTLHGLWDQN WPDLSAD 8,83 18 660 1º/2º Prunus ADZ48269.1 45 88 FTIHGLWPNN WPDVKNA 7,55 pseudocerasus

37

19 375 1º/2º Prunus avium BAA36388.1 36 85 FHVHGIWPSN WPSVITQ 6,01 20 135 2º Prunus AFJ20682.1 66 91 WPNVEVP 4,70 virginiana - 23 450 2º Prunus mume XP_008228033.1 44 84 - WPSYTGL 9,15 24 321 2º Prunus dulcis AAG09465.1 50 56 - WPSLACP 9,01 25 438 1º/2º Prunus avium AAP92435.1 41 73 ITVHGLWPSN WSDVEKG 9,04 26 291 2º Prunus avium AAP92437.1 43 96 - n.d* 9,30 27 261 2º Prunus mume XP_008235627.1 33 83 - WPSTYKE 5,57 28 147 2º Pyrus XP_018503533.1 40 93 WPSIMGK 6,92 bretschneideri - 29 171 2º Prunus tenella AJP09158.1 44 100 - n.d* 8,02 30 75 1º Prunus dulcis ABW04806.1 59 100 FTIHG - 8,08 31 441 1º/2º Prunus mume XP_008221612.1 83 74 FGIHGLWPNY WPSMSCP 7,09 32 213 1º/2º Prunus CAO51500.1 42 94 FTVHGIWPTN WPSVLTN 5,67 cerasifera 33 546 1º/2º Prunus PQM42298.1 38 38 FTLHGLWPQA WPDLTHS 6,48 yedoensis 34 186 1º Prunus dulcis CBI68347.1 65 62 FTIHGLFFFW - 5,30 36 372 2º Prunus mume XP_008235627.1 32 91 - WPNLVTP 9,34 37 207 1º Prunus avium CAC27788.1 41 84 FSVHGLWPSN - 9,13 39 168 1º Prunus AHJ59551.1 68 75 FTIHGFWPSN 9,06 armeniaca - 40 162 2º Prunus avium XP_021802445.1 67 51 - WPQLMSH 5,78 41 627 1º/2º Prunus dulcis CAE84600.1 38 34 WTIHGLWTCE WPSNNKN 8,58

Na espécie R. xanthina foram identificadas e anotadas 34 sequências. 15 sequências possuem as regiões correspondentes aos dois motivos proteicos das S-RNases, e duas destas sequências possuem a região dos motivos proteicos conservados. Seis sequências codificam proteínas putativas que possuem valores de PI abaixo de 7 (1 R. xanthina, 12 R. xanthina, 18 R. xanthina, 19 R. xanthina, 24 R. xanthina, e 31 R. xanthina). Oito sequências abrangem a região do motivo proteico um, enquanto, nove sequências abrangem somente a região do segundo motivo proteico. Três sequências possuem a região do motivo 1 conservado e três sequências possuem a região do motivo 2 conservado. Duas sequências com homologia ao último exão não cobrem a região do segundo motivo proteico (assinalado com *; Tabela 19) e não foram incluídas nas análises filogenéticas.

Tabela 19. Sequências de R. xanthina com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7. n.d* - A sequência não inclui a região onde se localiza o motivo.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo 1 Motivo 2 PI (bp) (S-RNase) (%) Cover (%) 1 687 1º/2º Prunus avium XP_021814736.1 29 73 FTLHGLWPFN WKSYERS 4,95 2 360 1º/2º Prunus BAF56268.1 39 68 FTLHGLWPQA WPNLKHA 9,06 speciosa 3 228 2º Prunus AAO33411.1 29 73 n.d.* 6,74 armeniaca - 4 207 2º Prunus avium XP_021814736.1 35 78 - n.d.* 9,05 6 444 2º Prunus avium AAP92436.1 45 95 - WPDLRNG 9,18 7 780 1º/2º Prunus avium CAC27785.1 29 95 LTIHGLWPGF WPNVKSP 8,75 9 654 1º/2º Pyrus XP_009370664.1 39 97 LTIHGLWPSN MAPVNCS 8,60 bretschneideri 10 168 1º Prunus dulcis AAF82615.1 88 100 FGIHGLWPNY - 4,66 11 756 1º/2º Prunus dulcis AAZ06135.1 32 93 FTLHGMWASN WPTLLDN 7,68 12 678 1º/2º Prunus salicina BAF91848.1 25 95 FSIHGVWPEN WPNVVIP 4,44 13 552 1º/2º Prunus mume BAF91157.1 38 87 ITVHGLWPSN WSDVEKG 9,23 14 153 2º Prunus ABS84177.1 35 78 WPSIMGK 6,92 armeniaca -

38

15 255 1º Prunus mume ABV72002.1 46 87 FTIHGLWPSN - 5,28 16 420 2º Prunus dulcis AAZ67004.1 49 95 - WPNVKFP 8,64 17 186 1º Prunus webbii ABY19369.1 60 70 FTIHGLWPNN - 8,00 18 648 1º/2º M. domestica XP_008358499.1 39 82 FTIHGLWPSN CPQLIAH 6,38 19 441 1º/2º Prunus mume XP_008221612.1 83 74 FGIHGLWPNY WPSMSCP 6,21 20 423 2º Prunus dulcis AAF82615.1 79 99 - WPTLACP 4,75 21 399 1º/2º Prunus dulcis CBI68340.1 41 77 FSVHGLWPSN WPDLERG 9,87 22 222 1º Prunus avium AAP92435.1 54 95 FTIHGFWPSN - 8,96 23 756 1º/2º Prunus avium XP_021814736.1 38 94 FFIHGLWPSN WPSNFSG 9,67 24 498 1º/2º Prunus persica BAJ41469.1 30 90 FTLHGLWPVN WKNYEKG 4,99 25 546 2º Prunus PQM42593.1 38 99 WPSLACP 5,07 yedoensis - 27 435 2º Prunus salicina ABG36934.1 49 83 - WPDVKNA 7,78 28 217 1º Pyrus pyrifolia ABI48529.1 32 100 FKIHGLWPTN - 6,51 29 516 1º/2º Prunus mume XP_008228033.1 37 86 FTIHGVWPAN WPNVERA 9,01 30 192 1º Prunus avium XP_021826742.1 47 90 FTVHGIWPPN - 7,97 31 519 1º/2º Prunus tenella AJP09162.1 34 95 FTVHGIWPTN WPSVLTD 6,65 32 291 1º Prunus mume XP_016650390.1 40 74 FSIHGMWPSN - 7,44 33 450 1º Prunus avium XP_021814736.1 43 85 - WRSYLIG 7,66 34 411 2º Prunus avium AIB53822.1 31 72 - WPSNDNE 4,82 35 207 1º Prunus salicina ABW88928.1 51 94 FTIHGLWPNN - 9,06 36 447 2º Prunus avium XP_021814736.1 46 81 - WPSYTGL 8,84 37 417 1º/2º Prunus mume XP_008228033.1 38 86 FHVHGIWPSN WPSLLTK 7,00

Em R. arvensis, 35 sequências foram identificadas e anotadas. Destas, sete possuem regiões com os dois motivos proteicos, contudo duas codificam proteínas putativas que apresentam PI abaixo de 7 (R. arvensis 27 e R. arvensis 33). Só uma das sequências possui os dois motivos proteicos conservados. Foram identificadas e anotadas 12 sequências que cobrem a região do primeiro motivo proteico da S-RNase e 13 sequências cobrem a região do segundo motivo proteico. Quatro sequências possuem a região do motivo 1 conservado e quatro sequências possuem a região do segundo motivo aminoacídico conservado. Três sequências não cobrem a região do segundo motivo aminoacídico (assinalado com *; Tabela 20) e foram excluídas das análises filogenéticas.

Tabela 20. Sequências de R. arvensis com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7. n.d* - A sequência não inclui a região onde se localiza o motivo.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo 1 Motivo 2 PI (bp) (S-RNase) (%) Cover (%)

1 180 2º R. chinensis XP_024178267.1 97 100 - WPSVLTD 5,39 2 660 1º/2º Prunus webbii ABJ97523.1 34 97 FTIHGLWPYN WPDAHSV 8,88 3 420 2º Prunus avium XP_021807879.1 25 77 - WPSIMGK 7,79 4 627 1º/2º S. aucuparia ABP01655.1 30 70 WTIHGLWAYR WPSNNPN 8,38

5 318 2º F. vesca XP_004301433.1 74 94 - n.d* 9,28 6 195 1º Prunus webbii ABY19370.1 54 89 YTIHGLWPSN - 9,39 7 177 2º Prunus webbii BAL04970.1 53 86 - WPSYTGL 7,91 8 237 2º R. chinensis XP_024177989.1 83 75 - WPSVLTQ 5,02 9 357 1º Prunus tenella ABL86036.1 48 49 FLLHGLWPAN - 7,81

39

10 408 2º Prunus mume XP_008235627.1 31 89 - WKSYMRS 7,76 11 396 2º Prunus dulcis AAZ06135.1 50 88 - WPNLEYG 7,09 13 312 2º Prunus avium XP_021814736.1 38 84 - n.d* 9,46 14 153 1º R. chinensis XP_024178267.1 96 100 FTVHGIWPTN - 8,71 15 216 1º Prunus ABE27180.1 51 98 FTIHGLWPNN 8,99 armeniaca - 16 246 2º R. chinensis XP_024196470.1 83 42 - WPSLARP 8,07 18 252 1º Prunus salicina ABW88928.1 41 79 FSVHGLWSSN - 9,34 19 690 1º/2º R. chinensis XP_024190063.1 92 99 FTIHGVWPAN WPNVERA 8,96

20 411 2º Prunus avium XP_021807879.1 40 92 - WPNLTGD 5,74 21 420 2º Prunus mume BAC66630.1 45 85 - WPDVIHG 6,58 22 75 1º Pyrus pyraster AGF70062.1 54 92 FTIGGIWPYT - 9,11 23 159 1º F. vesca XP_004302280.2 64 94 FTIHGLWPSN - 5,30 24 444 2º Prunus salicina ABF61823.1 44 95 - WPDLRNG 7,63 25 465 1º/2º F. vesca XP_004302280.2 65 94 FTIHGLWPSN WPQLIAR 9,05 26 450 2º Pyrus XP_009370664.1 49 84 WPSFTRR 8,81 bretschneideri -

27 579 1º/2º Prunus dulcis AAF82615.1 82 99 FGIHGLWPNY WPTLACP 4,73 29 129 1º F. vesca XP_004302280.2 53 97 FTLHGIWASN - 5,08 32 231 1º Prunus avium XP_021807553.1 85 77 FGIHGLWPNY - 4,97 33 441 1º/2º M. domestica XP_008356274.1 36 71 FTLHGLWPQA WPDLTHS 6,03

34 246 1º Prunus ACU98969.1 38 93 FTIHGLWPSN 7,87 pseudocerasus -

35 210 1º F. vesca XP_004302280.2 72 82 FTIHGLFFFG - 6,51 36 255 2º M. domestica XP_008389464.1 76 89 - WPSMSCP 8,91 38 408 2º R. chinensis PRQ44491.1 52 98 - WPNPIPN 6,55 39 426 1º/2º Prunus tenella AJP09162.1 40 91 ITVHGLWPSN WPDVEKG 9,05

40 87 1º Prunus dulcis AAZ67004.1 53 100 6,88 FWIHGMWPS - 41 108 2º Prunus dulcis AAZ06135.1 72 50 - n.d* 8,96

Na espécie R. majalis foram identificadas e anotadas 18 sequências com homologia com S-RNases de Prunus, Malus e Fragaria. Três sequências cobrem a região dos dois motivos proteicos e uma das sequência codifica uma proteína putativa que apresenta um valor de PI valor abaixo de 7 (14 R. majalis), que não será incluida nas análises filogenéticas. Apenas uma sequência possui os motivos proteicos conservados. Cinco sequências cobrem a região do primeiro motivo proteico e duas sequências possuem a região do motivo 1 conservado. Cinco sequências cobrem a região do segundo motivo proteico conservado e duas sequências possuem a região do motivo 2 conservado. Cinco sequências cobrem a região do último exão, mas como não cobrem a região do segundo motivo (assinaladas com *; Tabela 21) não foram incluídas nas análises filogenéticas.

Tabela 21. Sequências de R. majalis com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1)

40 estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7. n.d* - A sequência não inclui a região onde se localiza o motivo.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo 1 Motivo 2 PI (bp) (S-RNase) (%) Cover (%) 1 297 1º R.chinensis XP_024195588.1 77 100 FTLHRLWHHN - 9,78 2 411 2º F. vesca XP_004287707.1 55 54 - WPDLTHS 9,08 4 114 2º F. vesca XP_004301433.1 84 97 - n.d* 7,95 5 189 2º R. chinensis XP_024178267.1 81 100 - n.d* 7,06 6 231 1º Prunus cerasus ABW74348.1 56 87 FTLHGFWPSN - 9,26 8 132 1º R.chinensis XP_024178267.1 98 100 FTVHGIWPTN - 8,04 9 216 2º Prunus avium CAH89259.1 29 91 - WPSIMGK 6,29 10 108 2º R. chinensis XP_024178267.1 89 100 - WPSVMTD 4,80 11 600 1º/2º Prunus ADZ76512.1 43 86 FTIHGFWPSN WPDLADG 8,40 speciosa 12 315 2º F. vesca XP_004301433.1 73 89 - n.d* 9,70 13 444 2º Prunus cerasus ABW74348.1 47 90 - WPNLERR 6,46 14 780 1º/2º Prunus avium XP_021814736.1 29 77 FTLHGLWPFN WKSYNHI 5,74 15 204 1º Prunus AFI24534.1 48 92 FTIHGLWPSN 4,20 virginiana - 16 243 2º M. domestica XP_008358499.1 41 97 - WRSYPIA 6,06 17 354 2º R. chinensis PRO44167.1 66 96 - n.d* 5,16 18 369 2º Pyrus XP_009337655.1 41 91 n.d* 6,20 bretschneideri - 19 183 1º Prunus dulcis ACZ55924.1 51 75 FTIHGLWPSN - 8,71 20 591 1º/2º Prunus ADZ48269.1 46 90 FTIHGLWPNN WPDVKNA 8,44 pseudocerasus

38 sequências foram identificadas e anotadas em R. minutifolia, em que 12 sequências possuem os dois motivos proteicos das S-RNases e duas destas sequências possuem as regiões dos motivos proteicos conservados. Três destas sequências codificam proteínas putativas que apresentam PI abaixo de 7 (2 R. minutifolia, 8 R. minutifolia, e 36 R. minutifolia). Estas sequências não foram inseridas nas análises filogenéticas. Nove sequências cobrem a região do primeiro exão e quatro sequências possuem o motivo 1 conservado. 13 sequências cobrem a região do segundo motivo proteico e quatro sequências possuem o motivo 2 conservado. Três sequências não cobrem a região do segundo motivo proteico (marcado pelo *; Tabela 22) e não foram incluídas nas análises filogenéticas.

Tabela 22. Sequências de R. minutifolia com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7. n.d* - A sequência não inclui a região onde se localiza o motivo.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo 1 Motivo 2 PI (bp) (S-RNase) (%) Cover (%) 2 198 1º/2º Prunus AHJ59551.1 42 75 FKIHGLWPAN WPNLIGN 5,46 armeniaca 3 72 2º Pyrus XP_009370664.1 55 91 n.d* 4,66 bretschneideri - 4 513 1º/2º Prunus dulcis AAZ67033.1 44 75 FTIHGLWPSN WPQLIAR 9,06 6 168 1º Prunus dulcis AAF82615.1 92 94 FGIHGLWPNY - 4,66 7 366 1º Prunus mume ABV72000.1 66 36 YTIHGLWPSN - 9,15 8 471 1º/2º Prunus mume XP_008221612.1 89 76 FGIHGLWPNY WPSMSCP 6,56 9 252 2º Pyrus XP_009370664.1 55 45 WPQLIAH 5,41 bretschneideri -

41

10 108 1º Prunus dulcis CBI68340.1 46 100 FTIHGLWPNN - 6,73 11 162 2º Prunus avium AAW50824.1 58 66 - WKNYEKG 9,39 12 519 1º/2º Prunus avium XP_021807879.1 30 95 FHVHGIWPSN WPSVLTT 7,16 13 141 1º Prunus tenella ABL86025.1 47 95 FTIHGLWPNN - 6,89 14 111 1º Prunus mume XP_008235627.1 46 94 FTVHGIWPTN - 9,24 15 405 2º Prunus persica XP_020409186.1 46 40 - WKSYNHI 5,33 16 189 1º Prunus dulcis CBI68347.1 69 53 FTIHGPFFFL - 5,28 17 750 1º/2º Prunus webbii CAM84222.1 40 33 FTIHGLWLSS WPNVVYG 9,60 18 189 2º Prunus avium CAH89259.1 42 50 - WPSIMGK 5,46 19 204 2º M. domestica XP_008389464.1 50 60 - WLACPSS 5,33 20 432 2º Prunus dulcis AAZ67004.1 51 86 - WPNLEIG 8,25 21 705 1º/2º Pyrus XP_009370664.1 38 97 FTVHGLWPTK WPQLKAH 9,46 bretschneideri 23 486 1º/2º Prunus BAF56270.1 39 87 ITVHGLWPSN WPDVEKG 7,09 speciosa 24 162 1º Prunus AFI24534.1 48 90 FHVHGIWPSN 6,01 virginiana - 25 432 2º Prunus dulcis AAZ06135.1 34 97 - WPTLLDN 8,79 26 207 1º Prunus avium CAC27788.1 45 92 FSVHGLWPSN - 9,26 27 429 1º/2º Prunus mume XP_008238073.1 66 58 FTIGGIWPYT WPSLSCP 9,64 28 60 1º Prunus mume BAF91152.1 78 90 FTIHGLWPSN - 5,08 29 306 2º M. domestica XP_008358499.1 34 96 - n.d* 5,90 30 174 2º Prunus BAF56274.1 57 72 WPDVEKG 6,95 speciosa - 31 393 1º/2º Prunus dulcis AAT72309.1 37 34 FTLHGLWPQA WPDLTHS 8,47 32 75 2º Pyrus XP_009337655.1 67 100 WPSVMTD 4,80 bretschneideri - 33 477 2º Prunus tenella AJP09161.1 44 77 - WPDLRNG 9,02 34 624 1º/2º Prunus salicina BAF42766.1 44 91 FTIHGLWPNN WPDVKNA 8,86 35 768 1º/2º Prunus BAF56247.1 38 47 FTIHGLWPSN WPDAHNP 9,17 speciosa 36 495 1º/2º Prunus ABY82412.1 35 50 GLWPFN WKSYMRS 4,90 pseudocerasus 38 471 1º/2º Prunus mume XP_008235627.1 34 92 FTIHGLWPTS WPNVVTP 9,62 39 423 2º Prunus dulcis AAF82615.1 79 99 - WPTLACP 4,75 40 177 2º M. domestica XP_008358499.1 50 45 - WPSLYGK 4,78 41 411 2º Prunus mume XP_016651189.1 34 72 - WPSNDNE 4,93 43 195 2º Prunus tenella AJP09162.1 41 98 - n.d* 8,66

Em R. persica foram identificadas 25 sequências com homologia com S-RNases de Prunus, Malus e Fragaria. 16 sequências cobrem as regiões dos dois motivos proteicos e quatro sequências possuem as regiões dos dois motivos conservados. Seis sequências codificam proteínas putativas que apresentam PI abaixo de 7 (1 R. persica, 7 R. persica, 9 R. persica, 10 R. persica, 13 R.persica e 21 R. persica), pelo qual não foram inseridas nas árvores filogenéticas. Duas sequências cobrem a região do primeiro motivo proteico, mas nenhuma apresenta o motivo conservado. Três sequências cobrem a região do segundo motivo aminoacídico e uma delas apresenta o segundo motivo conservado. Quatro sequências foram excluídas das análises filogenéticas pois, embora correspondam à região do último exão, não cobrem a região do segundo motivo proteico (assinalado com *; Tabela 23).

42

Tabela 23. Sequências de R. persica com homologia a S-RNases de Rosaceae. Os aminoácidos que não estão de acordo com os padrões aminoacídicos 1 e 2 (Tabela 1) estão marcados a azul. PI – Ponto isoelétrico. A vermelho estão marcados os PIs abaixo de 7. n.d* - A sequência não inclui a região onde se localiza o motivo.

Nome Tamanho Exão Semelhança Nº de acesso Identidade Query Motivo 1 Motivo 2 PI (bp) (S-RNase) (%) Cover (%) 1 384 1º/2º Prunus POM42298.1 29 73 FTLHGLWDQN WPYLSRD 6,55 yedoensis 2 135 2º Prunus avium XP_021814736.1 42 73 - n.d* 8,63 3 204 2º Prunus AAP97310.1 59 42 WPKASCY 6,24 salicina - 4 222 2º Prunus AAO33411.1 29 75 n.d* 7,93 armeniaca - 5 699 1º/2º Prunus mume XP_008238073.1 54 83 FTIGGIWPYT WPSLSCP 9,52 6 711 1º/2º Prunus mume XP_008235627.1 31 63 WTIHGLWPVR WPSLSGK 7,18 7 708 1º/2º Prunus mume XP_008235627.1 32 67 FTLHGLWPFN WKSYKRS 5,02 8 321 1º/2º Prunus mume BAF91157.1 35 99 FTVHGIWPTN WPSVRTD 8,47 9 423 1º/2º Prunus mume XP_008221612.1 77 73 FGIHGLWPNY WPSMSCP 6,56 10 591 1º/2º Prunus dulcis AAF82615.1 82 99 FGIHGLWPNY WPTLACP 4,64 11 420 1º/2º Prunus ABY19372.1 42 85 FTIHGLWPSN WPDVRKA 9,18 webbii 12 507 1º/2º M. domestica XP_008358499.1 42 71 FTIHGLWPSN WPQLIAR 9,38 13 618 1º/2º Pyrus XP_009337655.1 33 59 FILHGLWPVN WKNCEKG 4,74 bretschneideri 14 639 1º/2º Prunus dulcis AAZ57491.1 46 94 FSIHGLWPSN WPDVEKG 8,85 15 177 2º Prunus avium AHF82105.1 33 98 - n.d* 9,78 16 174 1º Prunus avium BAA88127.1 49 67 NTIHAHWPTN 10,57 17 417 1º/2º Prunus BAF56268.1 35 55 FTLHGLWLQA WPNLKHT 9,46 speciosa 18 201 1º Prunus PQQ08708.1 42 68 FTLHGLWAIN 4,31 yedoensis - 19 189 2º Prunus avium AHF82105.1 34 92 - n.d* 9,72 20 537 1º/2º Prunus XP_020409186.1 37 59 FTIHGVWPTN WPNVERA 8,29 persica 21 270 1º/2º Prunus XP_020409186.1 41 100 FHVHGIWPSN WPSVLTT 6,17 persica 23 555 1º/2º Prunus mume BAF91157.1 39 87 VTVHGLWPSN WPDVETG 8,81 24 396 2º Prunus avium ABW08113.1 31 93 - WKNYEKG 5,01 25 606 1º/2º Prunus dulcis BAA95317.1 47 93 FSIHGLWPSN WPDVEKG 8,88 26 180 2º Pyrus XP_009370664.1 50 73 WPQLIAH 5,38 bretschneideri -

Em sumário, 138 sequências foram identificadas com homologia com S-RNases de Prunus, Malus e Fragaria, que cobrem as regiões dos dois motivos proteicos. Estas sequências foram usadas em análises filogenéticas, juntamente com as sequências de referencia reportadas em Aguiar et al. 2015. Para a região do motivo proteico 2 foram analisadas 72 sequências.

A análise filogenética das sequências que cobrem as regiões do primeiro e do segundo motivo proteico das S-RNases, evidencia três sequências, duas de R. mutliflora (4 R. multiflora sc0006888 3 101 50444 49983, 8 R. multiflora sc00018612 135 50453 49992) e uma de R. chinensis (3 R. chinensis NC_ 037090_1 XP_ 024190016_1 LOC112193982), que agrupam com S-RNases de Prunus. Nenhuma sequência agrupa com as S-RNases de Malaea. Este resultado indica que o determinante feminino de Rosa é da linhagem da S-RNase de Prunus (Figura 12). As duas sequências de R. chinensis, a S30-RNase e a S36-RNase (marcadas a verde), propostas por Hibrand et al. 2018 como envolvidas em AIG, não agrupam com as S-RNases de Prunus ou de Maleae. Assim, análises filogenéticas evidenciam que estas sequências, embora codifiquem proteínas putativas com PI acima de 7, não são os genes para o determinante feminino na espécie

43 de R. chinensis (Figura 12). É de notar que a outra sequência (S26-RNase) indicada como possível S-RNase foi excluída por codificar uma proteína com PI abaixo de 7.

Análises filogenéticas em que as sequências que cobrem a região do motivo proteico 2 são incluídas (Figura 12) indicam que em R. odorata (8 R. odorata 14 10020536 410 3633), R. arvensis (R. arvensis 11 1784980 1628), R. majalis (13 R. majus 1287739 724 6828), R. minutifolia 20 (R. minutifolia 2424379 1420 26160) agrupam com as S-RNases de Prunus (Figura 12). Nesta análise o grupo de sequências que está agrupado com as S- RNases de Prunus possui um “bootsrap” baixo (abaixo de 70) devido à inclusão de sequências que, embora possuam o segundo motivo proteico das S-RNases, cobrem parcialmente o último exão. A remoção destas sequências incompletas faz com que o “bootstrap” aumente para 98, demonstrando uma forte homologia com as S-RNases de Prunus (Figura Suplementar 10).

44

11 sc0013809R R. multiflora 29 14 423_1 PI 8.95 33 R. odorata 9858520 2804 25230 PI 9.21 8 R. chinensis NC_037090_1 XP_024190063_1 LOC11219403 PI 8.34 75 R. damascena LYNE01001192 PI 8.14 11 R. odorata gigantea 1117558 512 1260 PI 9.35 98 29 R. xanthina 882428 2875 132398 PI 9.01 99 11 R. moschata08 3214125 1442 25199 PI 8.59 18 R. laevigata 6706589 1964 60628 PI 7.84 81 77 20 R. persica 7104714 1953 88585 3284556 PI 8.29 99 13 ssc0000240 R. multiflora 8 62 50351 49959 PI 8.52 R. damascena LYNE01076522 23 R. odorata gigantea 1117557 312 1131 PI 7.30 99 6 R. chinensis INRA 13 63 50468 49998 PI 8.49 99 R. damascena LYNE01003052 PI 8.63 30 R. laevigata 3654729 792 24457 PI 8.71 96 4 R. chinensis NC_ 037089_1 XP_ 024178267_1 LOC112184234 PI 8.95 6 R. multiflora ssc0000091 PI 8.31 84 R. arvensis 13 9693390 530 PI 9.46 3 R. chinensis INRA 8 20 50253 50591 PI 9.42 15 R. chinensis INRA 2 38 50181 50627 PI 8.71 19 R. laevigata 11053818 878 23000 5491047 PI 9.14 99 99 9 R. multiflora sc0004365 18 46 50148 49630 PI 8.53 99 R. damascena LYNE01001980 PI 9.7 29 R. minutifolia 9637635 309 9175 PI 5.90 83 18 R. chinensis INRA 5 100 70914 70345 PI 8.98 96 88 R. damascena LYNE01001343 PI 7.72 11 R. chinensis NC_ 037089_1 XP_ 024178028_1 LOC112183941 PI 8.87 97 44 R. odorata 14 16831816 321 4789 9679415 PI 5.80 15 sc0005791 R. multiflora 10 65 50483 49974 PI 8.33 90 27 R. laevigata 11009939 1338 74699 1523939 PI 7.96 97 11 R. xanthina 4446882 1001 22983 PI 7.68 25 R. minutifolia 9835606 1938 60686 2747813 PI 8.79 99 R. arvensis 5 9646971 576 PI 9.28 99 12 R. majalis1201476 976 21285 PI 9.70 17 R. rugosa 19 15482556 352 13077 1330673 PI 9.81 99 P. avium PA1 AB096918 P. persica ppa011133m PA1 99 18 R. majalis 4212884 518 8521 PI 6.20 R. arvensis 20 9725158 2020 PI 5.74 R. damascena LYNE01000746 99 R. damascena LYNE01006482 9 R. minutifolia 5832671 475 8136 PI 5.41 21 R. minutifolia 2534985 1681 26253 PI 9.46 99 99 28 R. laevigata 11073223 1841 47513 9043614 PI 8.45 F. nipponica gi561877040 S-RNase lineage1 99 16 R. multiflora sc0002677 19 63 459_1 PI 9.12 99 R. arvensis 25 Pru Ma 9790752 1368 PI 9.05 99 P. mume scaffold442 35 S-RNase lineage 1 94 99 P. persica ppa024151m S RNase lineage 1 M. domestica MDP0000250548A S-RNase lineage 1 99 14 R. chinensis INRA_1 163 50414 49968 PI 7.54 26 R. odorata 14 4549248 1732 10819 PI 7.65 34 R. rugosa 14 8264722 579 10015 1267328 PI 7.66 87 97 33 R. xanthina 7339753 1199 30575 489488 PI 7.66 99 6 R. laevigata 11056476 1750 45811 5827939 PI 6.94 16 R. majalis 4166719 246 2381 PI 6.06 98 21 R. chinensis 30-RNase INRA_1 133 93281 928291 PI 7.15 99 99 22 R. odorata 5675235 3362 32060 PI 8.09 99 30 R. odorata gigantea 471370 256 526 PI 8.78 23 R. xanthina 7405035 1573 53887 4568695 PI 9.67 92 21 R. laevigata 4498314 3260 122634 PI 9.16 23 R. mochata 08 11469439 947 18282 4406478 PI 9.15 99 9 R. rugosa14 3376924 2219 50424 PI 8.16 36 R. xanthina 7398935 640 22016 3967444 PI 8.84 95 3 R. odorata 9439350 2017 20408 PI 9.13 99 3 R. multiflora sc0005442 PI 9.25 99 3 R. chinensis NC_ 037090_1 XP_ 024190016_1 LOC112193982 PI 8.81 8 R. odorata 14 10020536 410 3633 PI 7.06 4 R. multiflora sc0006888 3 101 50444 49983 PI 8.38 99 99 8 R. multiflora sc0001861 2 135 50453 49992 PI 8.37 Rosa S-RNase R. arvensis 11 1784980 1628 PI 7.06 64 99 13 R. majalis 1287739 724 6828 6.46 72 20 R. minutifolia 2424379 1420 26160 PI 8.25 P. avium S3-RNase (AJ298312) P. mume scaffold241 33 S-RNase 99 P. avium S5-RNase (AJ298314) 80 P. avium S1-RNase (AB028153) P. dulcis S7-RNase (AY291118) Prunus S-RNase 70 P. dulcis SM-RNase (DQ099895) 99 P. persica ppa018459m S2-RNase 26 R. mochata 08 11130769 645 5619 PI 9.30 86 96 16 R. xanthina 681016 1837 43898 PI 8.64 99 10 R. rugosa 19 2893342 1685 48143 2exonPI 8.85 99 10 R. mochata 08 8409203 1161 12137 PI 8.62 84 R. damascena LYNE01017708 97 2 R. chinensis INRA 7 22 54967 55443 PI 8.77 99 39 R. odorata 14 16849258 1753 33534 13021139 PI 7.68 14 R. persica 5038331 2502 59977 PI 8.85 99 25 R. persica 3971328 2016 46364 PI 8.85 99 28 R. rugosa14 2246601 865 8489 PI 7.87 90 18 R. moschata08 189032 1390 25583 PI 7.55 72 4 R. chinensis INRA 9 21 50316 50747 PI 8.63 96 1 R. multiflora sc0027296 PI 8.38 13 R. rugosa14 698200 911 20090 PI 8.13 75 20 R. majalis 952266 935 21039 PI 8.44 34 R. minutifolia 3062686 1253 96174 PI 8.86 R. damascena LYNE01001972 PI 8.39 99 31 R. odorata 14 9804561 718 11155 PI 6.99 81 6 R. chinensis NC_ 037093_1 XP_ 024164552_1 LOC112171624 PI 8.8 99 27 R. xanthina 1404081 624 22958 PI 7.78 F. nipponica gi561674690 gi561985884 gi561957436 S-RNase lineage 99 32 R. rugosa 14 3181798 1084 9534 PI 8.87 99 R. damascena LYNE01000519 PI 9.29 11 R. majalis 1725532 1005 11580 PI 8.40 96 F. niponica gi561805796 S-RNase lineage 73 18 R. rugosa 19 9743021 426 9644 PI 6.89 99 4 R. laevigata 5178906 1158 20110 PI 8.84 99 33 R. minutifolia 6110445 1961 36303 PI 9.02 99 6 R. xanthina 1887785 2443 50300 PI 9.18 R. arvensis 24 3908687 1013 PI 7.63 46 R. odorata 14 2839841 1320 14812 PI 6.40 R. damascena LYNE01013388 99 17 R. chinensis INRA 4 75 50441 50001 PI 8.42 99 19 R. chinensis2018 4 75 388 22.b PI 8.42 9 R. rugosa 19 3735633 930 20538 PI 6.89 99 M domestica MDP0000160706 M domestica MDP0000682955 56 13 R. xanthina 5003946 1284 25490 PI 9.23 93 99 23 R. persica 3415306 1420 51157 PI 8.81 43 R. minutifolia 9804389 196 10706 742702 PI 8.66 99

45

99 M domestica MDP0000160706 M domestica MDP0000682955 56 13 R. xanthina 5003946 1284 25490 PI 9.23 93 99 23 R. persica 3415306 1420 51157 PI 8.81 43 R. minutifolia 9804389 196 10706 742702 PI 8.66 99 R. arvensis 21 7266108 1426 PI 5.58 99 4 R. odorata gigantea 3210051 821 3204 PI 6.99 99 22 S36 R. chinensis INRA_1 115 122767 122351 PI 7.57 47 R. odorata 14 5500093 2364 21132 PI 6.99 10 R. odorata 14 6782620 563 4468 PI 9.36 17 R. odorata gigantea Fragaria 5933534 386 798 PI 9.45 91 38 R. minutifolia 2743688 807 31126 PI 9.62 99 36 R. mochata 08 9151230 714 9158 PI 9.34 99 33 R. rugosa 14 5417023 634 12258 PI 9.24 7 R. xanthina 6702763 2339 43811 PI 8.75 81 29 R. rugosa 19 15154090 601 15052 PI 9.65 35 R. rugosa14 4934545 670 9080 PI 9.34 99 76 11 R. persica 5761241 1569 70724 PI 9.18 81 21 R. multiflora sc0005298 30 1 1 47 PI 9.42 99 99 48 R. odorata 16721167 606 9490 24144 PI 10e07 25 R. multiflora sc0010184 39 1 1 447 PI 8.68 R. arvensis 2 70334 1172 PI 8.88 87 16 R. chinensis INRA 3 96 88949 88542 PI 8.54 99 R. arvensis 10 9733599 979 PI 7.76 99 R. damascena LYNE01004102 97 R. damascena LYNE01004102 PI 7.75 99 12 R. odorata gigantea 2930890 499 1514 PI 4.99 75 99 15 R. minutifolia 856706 662 13577 PI 5.33 24 R. persica 1565780 2488 113815 PI 5.01 7 R. odorata gigantea 1227797 766 2361 PI 9.54 17 R. majalis 2250841 518 6687 PI 5.16 92 41 R. minutifolia 5573948 1456 18288 PI 4.93 99 34 R. xanthina 520450 1214 20469 PI 4.82 99 5 R. rugosa 19 9467046 1546 38019 PI 5.21 75 27 R. mochata 08 7093171 1916 29317 PI 5.57 99 30 R. rugosa 14 2715265 628 7145 PI 5.16 28 R. rugosa 19 15145548 2314 51510 PI 7.87 99 41 R. moschata 08 4246146 1929 33980 PI 8.58 99 41 R. odorata 16722839 1930 35027 127798 PI 8.73 13 R. laevigata 1778647 1137 31316 PI 4.78 99 6 R. mochata 08 11444001 556 10631 693134 PI 5.33 99 28 R. odorata 14 12500139 1431 22539 PI 8.58 99 R. damascena LYNE01000179 2 5 R. mochata 10993390 1459 25728 PI 5.40 99 R. arvensis 38 9714368 1776 PI 6.55 97 86 20 R. laevigata 8106164 1405 49652 PI 5.87 26 R. rugosa 14 8270753 1839 41918 1839802 PI 4.76 99 27 R multiflora sc0017665 27 32 336_1 PI 7.64 99 28 R multiflora sc0001239 27 32 336_1 PI 7.64 R. arvensis 3 7777824 1329 PI 7.79 R. damascena LYNE01000464 PI 7.20 45 R. odorata 14 16831999 902 13557 9707005 PI 6.10 R. arvensis 26 1120074 809 PI 8.81 R. arvensis 4 9725729 3171 PI 8.38 17 R. minutifolia 7616448 903 12602 PI 9.60 99 12 R. persica 7092042 3216 148049 2227341 PI 9.38 9 R. xanthina 7369532 1671 65690 1938073 PI 8.60 21 R. xanthina 7335766 1704 36054 319904 PI 9.87 8 R. persica 7099750 464 27071 2845977 PI 8.47 R. arvensis 19 9766182 2924 PI 8.86 1 R. rugosa 19 7 096011 986 24178 PI 9.15 99 16 R. moschata 08 1449387 806 12816 PI 8.88 99 4 R. minutifolia 9873354 643 27116 6517978 PI 9.06 17 R. moschata08 313213 526 9551 PI 8.83 99 2 R. moschata 7908027 271 3908 PI 9.49 99 42 R. odorata 11410455 2285 23630 PI 9.21 99 5 R. chinensis INRA 10 16 50196 50690 PI 9.20 39 R. rugosa14 1310710 1006 47549 PI 7.21 99 22 R. rugosa19 9362492 1712 42677 PI 9.35 99 2 R. majalis 1622242 2078 25125 PI 9.08 78 R. damascena LYNE01000876 PI 7.79 81 40 R. rugosa14 1649392 1798 39923 PI 7.10 99 17 R. persica 4796121 1837 86358 PI 9.46 99 24 R. multiflora sc0001309 7 66 50435 49926 PI 9.22 99 12 R. odorata 16795619 1674 27547 5540122 8e26 8 R. chinensis INRA 15 27 49851 50372 PI 9.34 99 P. pyrifolia S4-RNase (AB009385) P. ussuriensis S35-RNase (DQ839240) P. bretschneideri S34-RNase (DQ414813) M. domestica SH-RNase (AB032247) 99 M. domestica MDP0000266136 S3-RNase Maleae S-RNAse 99 P. pyrifolia S9-RNase (AB104909) M. domestica MDP0000345854 S2-RNase 99 24 R. mochata 08 6578814 2040 33221 PI 9.01 99 R. arvensis 16 4615576 1925 PI 8.07 25 R. xanthina 7410334 646 22582 5212703 PI 5.07 98 39 R. minutifolia 9840329 1097 37951 3108608 PI 4.75 5 R. rugosa 14 2161582 1417 25563 PI 4.75 99 99 13 R. mochata 08 7926905 1706 29243 PI 4.75 20 R. xanthina 7394724 1195 40527 3609636 PI 4.75 5 R. persica 7056797 1656 51339 92275 PI 9.52 99 33 R. laevigata 11053458 2603 73124 5448190 PI 9.49 95 22 R. rugosa14 8255884 1994 38446 507549 PI 9.35 97 27 R. minutifolia 1994699 3508 118131 585 PI 9.64 M domestica MDP0000267606AT2Lineage Outgroup 0.050

Figura 12. Relação filogenética das sequências de Rosa com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 2 e a região que cobre ambas as regiões proteícas (Sequências completas). A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (10000 réplicas) é apresentada junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p-distance e está nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 210 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Houve um total de 1517 posições obtidas. As sequências 1 R. chinensis NC_ 037094_1 XP_ 024173652_1 ; 18 R. rugosa 14 8301669 1382 27737 6945682; 2 R. xanthina 7412128 1056 38892 5484524; 21 R. odorata gigantea 3281793 323 795; 22 R. laevigata 3431542 891 31397; 24 R. laevigata 11073071 2249 66574 8989254; 2 R. moschata 08 9204087 764 8422; 31 R. odorata gigantea 2928323 239 606; 32 R. odorata 13386905 361 3582; 35 R. minutifolia 9423435 2363 49248; 36 R. odorata 3508099 356 3171; 6 R. odorata gigantea 6765444 784 2688; 7 R. laevigata 256521 1303 51130; 8 R. rugosa 14 8275561 3070 65640 2331476; R. arvensis 36 771701 1245; R. arvensis 399692093 1970; R. damascena LYNE01004478; e R. damascena LYNE01052144 foram removidas. A cinzento estão as sequências completas. As sequências que possuem o 2º exão estão marcadas a preto. Azul estão as sequências de referência. A verde estão as sequências de R. chinensis descritas por Hibrand et al. 2018. Em sumário, das análises das sequências de 12 espécies de Rosa que apresentam homologia com as S-RNases de Prunus, Malus ou Fragria, em seis espécies (R. chinensis,

46

R. multiflora, R. majlis, R. odorata, R. arvensis e R. minutifolia) identificámos alelos putativos de S-RNases que pertencem à linhagem das S-RNases de Prunus. Com base na localização do alelo identificado em R. chinensis, o S-locus está localizado no cromossoma 3. Este resultado está de acordo com as análises dos descendentes obtidos de dois cruzamentos de R. chinensis (cultivar ‘Old Blush’ e ‘Yesterday’) e R. wichurana que indicaram o cromossoma 3 como a localização do S-locus de Rosa. Neste cromossoma está também dois loci que determinam a floração contínua e as flores com pétalas duplas (Hibrand et al. 2018). Para confirmar que estas sequências são de facto S- RNases é necessário proceder a estudos de segregação, com indivíduos cujos S-haplótipos foram caracterizados por descendência (cruzamentos controlados com um número reduzido de indivíduos).

3.4. Análises de segregação do gene putativo da S-RNase em Rosa arvensis

O conjunto de primers denominado por RA11 foi desenhado a partir das sequências R. arvensis 11 1784980 1628, R. multiflora 4 sc0006888 101 50444 49983 e R. multiflora 2 sc0001861, 135 50453 49992 (Figura Suplementar 1). Para este conjunto de primers é esperado um produto de amplificação com um tamanho de aproximadamente 300 bp (Figura 13).

300 bp

Osenbuhr Urlozenholz E E E E E E 1 - Widensolen E E E 100

404 404 412 433 435 459 893 200 200 201 400

Kb DNA Kb ladder

bp DNA ladder DNA bp

( ( ( ( ( ( ( ( (

S S S S S S S S S

1 1 2 2 1 1 2 1 1

S S / / / / S S S

S S S S

(

2 3 3 3 3

S 3 3 2 2

) ) ) ) )

1 S S S /

(

(

S

S

S 6 6 4

S

4

3

2 ) ) )

4

S

S

)

S

5

6

5

)

) )

Figura 13. Produtos de amplificação, a partir do DNA genómico, das diferentes variedades de Rosa arvensis. Os produtos de amplificação foram visualizados no gel de agarose de 1,5%.

47

Purificaram-se os produtos de amplificação do gel de agarose com o tamanho esperado para três indivíduos: Osenbuhr (OSO), E200 e E404. Os fragmentos foram clonados como descrito em Material e Métodos. Para cada indivíduo foram analizadas 16 colónias, após a confirmação do tamanho do fragmento (Figura 14).

A B

Figura 14. Confirmação da inserção do fragmento de aproximadamente 300 bp nas colónias analizadas correspondentes à clonagem da amplificação do indivíduo OSO (representado pela letra a; A), ao indivíduo 200 (representado pela letra b; B) e o indivíduo 404 (representado pela letra c; C). B- os fragmentos de DNA são referentes ao indivíduo 404.

Para verificar se as colónias eram semelhantes, os produtos de amplificação de cada colónia foram digeridos com duas enzimas “four cutter” (DdeI e a HinfI). A digestão com a enzima DdeI não é informativa pois os produtos de amplificação não foram digeridos. O resultado da digestão corte com a enzima HinfI é igual em todas as colónias dos três indivíduos (Resultados não apresentados). Para cada um dos indivíduos, três clónias foram sequenciadas como descrito em Materiais e Métodos.

Os resultados da sequenciação demonstram que os fragmentos nos três indivíduos estudados (E404, E200 e o OSO) são iguais, o que sugere que pode representar o mesmo alelo S-RNase. Como os três indivíduos analisados têm em comum o S2-haplótipo (Tabela 3), é possível que esta sequência represente este alelo. Esta sequência é igual à identificada no genoma de R. arvensis. O indivíduo sequenciado é o OSO, o que está de acordo com os nossos resultados. De acordo com a Figura 13, um produto de amplificação com tamanho de aproximadamente 300 bp surge em cinco indivíduos que possuem o S2- haplótipo (OSO - Osenbuhr; S1S2), 200 (S2S3), 404 (S1S2), 435 (provável haplótipo S2S6) e o 893 (provável haplótipo S2S5). Contudo, a presença deste produto de amplificação no indivíduo Ur - Urlozenholz; S4S5) indica que este conjunto de primers também amplifica outros alelos S-RNase.

48

200 bp

1 1

100

E E E E E

Urlozenholz

E E

Widensolen

Osenbuhr

E E

E

-

200 201 400 404 412

435 459

KbDNA ladder

893 894

433

bp DNAladder

( ( ( ( (

( (

( (

(

S S S S S

S S

S S

S

2 1 1 1 1

2 1

1 1

2

S S S S S

/ /

/ /

/

S S

S S

S

3 3 3 2 3

(

3 2

S

2 2

3

) ) ) ) )

S S

1

( / /

S

(

S S

S

S

6 4

S

6

4 4

3

4

) )

2

)

S S

S

S

)

5 5

6

5

) ) ) )

Figura 15. Produtos de amplificação, a partir das sequências obtidas da sequênciação, com a utilização do primer foward específico S2 com o primer reverse RA11. Novo primer foward específico foi desenhado para o haplótipo S2-RNase (TGCCACTCCTCCGCTGCG) e, juntamente com o primer reverse RA11, obteve-se uma amplificação de tamanho esperado (com o valor aproximado de 200 bp). O resultado demonstra que só os indivíduos OSO (Osenbuhr; S1S2), 200 (S2S3), 404 (S1S2) e 435 (provável haplótipo S2S6) possuem o S2-haplótipo (Figura 15).

3.5. Caracterização do S-pólen em Rosa

Com base nos resultados obtidos neste trabalho, o determinante feminino do sistema de AIG em Rosa é da linhagem das S-RNases de Prunus. Assim, é esperado que o S-locus de Rosa seja constituído por uma S-RNase da linhagem de Prunus e um gene da linhagem SFB, como observado em Prunus. Para determinar o tipo de gene S-pólen em Rosa, procedemos à identificação e anotação de genes na vizinhança da S-RNase que possuam homologia com genes S-pólen de Malus (SFBBs) e de Prunus (SFB). No caso de R. chinensis, esta análise foi efetuada em todo o cromossoma 3, enquanto que em R. multiflora, porque o genoma está fragmentado, a análise foi realizada nos dois scaffolds (sc0001861 e sc0006888), em que as S-RNases foram identificadas. Em R. chinensis, na região da S-RNase existem 16 genes com homologia com genes S-pólen de Prunus e Malus (Tabela 24; Figura 16). Contudo sem análises filogenéticas é impossível determinar se todos estes genes pertencem à mesma linhagem.

49

Tabela 24. Gene F-box com semelhança a Prunus SFBs, Malus SFBBs, e Prunus SLFL genes localizados no cromossoma 3 de R. chinensis. Deve notar-se que a S-RNase está localizada entre o gene 30 NC_037090_1_1097 e o gene 56 NC_037090_1_18825, na posição 5488716 a 5498387. * genes que possivelmente pertencem à região do S-locus. # genes que possivelmente estão na vizinhança do S-locus.

Nome do gene Localização 10 NC_037090_1_270 1507747 1509120 184 NC_037090_1_1081 * 5375622 5376560 61 NC_037090_1_18841* 5433148 5434392 30 NC_037090_1_1097* 5475850 5477151 56 NC_037090_1_18825* 5558222 5559472 70 NC_037090_1_1132* 5618754 5619989 23 NC_037090_1_18798* 5720698 5722023 41 NC_037090_1_18795* 5734186 5735463 48 NC_037090_1_1159* 5751338 5752603 55 NC_037090_1_1180* 5803902 5805155 85 NC_037090_1_18776* 5808024 5809247 45 NC_037090_1_18762* 5856394 5857662 92 NC_037090_1_18755* 5879526 5880743 8 NC_037090_1_1315* 6536594 6537988 32 NC_037090_1_18484# 7143024 7144325 37 NC_037090_1_18482# 7149272 7150558 114 NC_037090_1_1487# 7425762 7426949 5 NC_037090_1_17983 9568955 9570373 134 NC_037090_1_17068 14254770 14255927 14 NC_037090_1_16327 17725765 17727120 53 NC_037090_1_15883 19789495 19790751 43 NC_037090_1_15875 19818837 19820111 166 NC_037090_1_4218 21203124 21204203 98 NC_037090_1_4296 21569130 21570335 65 NC_037090_1_14785 26018972 26020213 118 NC_037090_1_14310 28383240 28384418 112 NC_037090_1_14306 28397189 28398376 74 NC_037090_1_7370 36186560 36187792 75 NC_037090_1_12138 38266966 38268198 12 NC_037090_1_11176 43723185 43724546

50

cv

1081

_

RNase

-

1

18798 18776 18762

1315

_

S

1132

18841

487

_ _ _

_

_

_

18482 1

1097

1 1 1

1

18825

1

1

_ _

_

_ _ _

_

_

_

_

1 1

1

1

_ _

_

_

037090

_

037090 037090 037090

037090

037090

NC

037090

_ _ _

_ _

cc_ cccccc c

037090 037090

037090

037090

18755

_ _

_

_

NC NC NC

NC

_

box box

NC

NC

1

-

NC NC

NC

_

F NC

box box box box

box box

box box

- - -

-

box box

-

-

159

F F F

F

box box box box

box box

box box

F

- -

-

F

1

-

_

F F

F

F

1

037090

1180

_

_

_

1

_

NC

18795

18484

_ 037090

_

box box

-

1 _

1

F

_

_

037090

NC

_

NC

box box

037090 -

cv cv 037090

_

F

_ box box

vvvvvvvv- v

F

NC

NC

box box

box box

-

- F F

Figura 16. Localização das possíveis F-box, em R. chinensis, ao longo do cromossoma 3.

Em R. multiflora existem 5 genes com semelhança a genes S-pólen de Prunus e Malus (Figura 17). Sem análises filogenéticas não é possível determinar a linhagem a que estes genes pertencem. Como é informativo saber se ambas as linhagens de genes S-pollen de Rosaceae estão presentes nos genomas de Rosa, anotámos, para o genoma de R. chinensis, todos os genes com homologia a genes S-pólen de Rosaceae. Análises semelhantes foram também realizadas no genoma de R. arvensis. Análises filogenéticas foram realizadas com todas as sequências obtidas e com sequências de referência usadas em Aguiar et al. 2015 de Prunus (SFB e as SLFLs) e de Malus (SFBBs).

cv

1

3

2 4 5

box box

box box

-

box box box box

-

- - -

F

F

RNase

F F F -

cv cv cvcvS cv cv

0006888 0006888

0006888 0006888

0006888 0006888 0006888 0006888

Sc

Sc

Sc Sc Sc

2

4 3

5

1

box box

box box box box

box box

box box

-

- -

-

-

F

F F

RNase

F

F

-

S

0001861 0001861 0001861

0001861 0001861 0001861 0001861

0001861 0001861

Sc Sc

Sc Sc cv Sc cv 1cm 10 Kb

Figura 17. Localização dos cinco genes F-box nos scaffold sc0001861 e sc0006888 (respetivamente) de R. multiflora. As análises filogenéticas (Figura 18) evidenciam que as sequências na vizinhança das S- RNases de Rosa agrupam com sequências SFBBs de Malus e as SLFLs de Prunus. Este resultado sugere que o sistema AIG é diferente em Rosa e em Prunus.

51

100 R. chinensis 7144325 7143024 chromosome3 100 R. chinensis 18482 7150558a7149272 chromosome3 100 R. chinensis 9570373 9568955 chromosome3 R. chinensis 6536594 6537988 chromosome3 R. multiflora sc0001861 F-box1 100 R. chinensis 5880743 5879526 chromosome3 R. chinensis 5375622 5376560 chromosome3 100 R. chinensis 5618754 5619989 chromosome3 93 100 R. multiflora sc0006888 F-box5 85 R. multiflora sc0001861 F-box2 P. persica ppa016317m 100 P. persica ppa021716m 99 100 P. avium SLFL1-S2 (AB360340) Prunus SLF1 P. dulcis SLFc (AB081587) 100 P. dulcis SLFd (AB101660) P. mume Sf-SLFL1 (AB280956) R. chinensis 5735463 5734186 chromosome3 R. chinensis12138 38268198 38266966 chromosome3 100 100 R. multiflora sc0006888 F-box4 100 R. multiflora sc0001861 F-box5 R. chinensis 5559472 5558222 chromosome3 92 100 P. hybrida S9-FBX1 (AB933000) Petunia SLF P. mume Sf-SLFL3 (AB280958) Prunus SLF R. chinensis 5475947 5477151 chromosome3 100 R. multiflora sc0006888 F-box3 100 R. multiflora sc0001861 F-box4 89 R. multiflora sc0001861 F-box3 70 85 R. multiflora sc0006888 F-box1 100 R. chinensis 5434392 5433148 chromosome3 R. chinensis 5751338 5752603 chromosome3 100 P. persica ppa019333m Prunus SLF 100 R. multiflora sc0006888 F-box2 R. chinensis 5722023 5720698 chromosome3 86 P. persica ppa016207m 100 P. persica ppa025849m P. mume SLFL2 (AB280957) Prunus SLF2 100 100 R. chinensis 5803902 5805155 chromosome3 100 R. chinensis 5809247 5808024 chromosome3 95 R. chinensis 5857662 5856394 chromosome3 99 M. domestica S1-SFBB7 (MG458517) 71 M. domestica S10-2-SFBB7- SFBB21 (MG458526) 100 M. domestica S1-SFBB5 (MG458492) M. domestica S1-SFBB6 (MG458504) M. domestica S1-SFBB8 (MG458530) 100 M. domestica S1-SFBB16 (MG458629) 91 M. domestica S1-SFBB13-SFBB1 (MG458583) 100 99 M. domestica S1-SFBB1-SFBB13 (MG458439) M. domestica S1-SFBB24 (MG458668) M. domestica S1-haplótipo 90 M. domestica S1-SFBB2 (MG458453) M. domestica S1-SFBB3 (MG458465) M. domestica S1-SFBB18 (MG458650) 81 M. domestica S1-SFBB14 (MG458600) M. domestica SFBB15 (MG458628) M. domestica S1-SFBB11-SFBB9 (MG458560) M. domestica S1-SFBB4 (MG458475) M. domestica S1-SFBB17 (MG458640) 73 M. domestica S1-SFB12 SFBB10 (MG458573) M. domestica S1-SFBB9 -SFBB11 (MG458537) M. domestica S1-SFBB10- SFBB12 (MG458550) P. axillaris S19-SLF11 (AB933047) 100 P. hybrida S7-FBX1 (AB932986) 100 N. alata DD6 (EF420256) 97 P. hybrida S22m-SLF8A (AB933129) 100 P. axillaris S19-SLF8 (AB933044) 98 P. axillaris S19-SLF8 (AB933043) R. chinensis 17727120 17725765 chromosome3 R. chinensis 21569130 21570335 chromosome3 100 R. chinensis 14255927 14254770 chromosome3 R. chinensis 21203124 21204203 chromosome3 R. chinensis 28384418 28383240 chromosome3 100 R. chinensis 28398376 28397189 chromosome3 100 R. chinensis 7425762 7426949R chromosome3 P. avium SFB3 (AY571665) Prunus SFB R. chinensis 36186560 36187792 chromosome3 100 R. chinensis 1507747 1509120 chromosome3 R. chinensis 26020213 26018972 chromosome3 R. chinensis 19790751 19789495 chromosome3 100 R. chinensis 19820111 19818837 chromosome3 99 R. chinensis 11176 43724546 43723185 chromosome3

0.050

52

Figura 18. Relação filogenética das sequências de Rosa com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do F-box. A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (800 réplicas) são apresentados junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p- distance e estão nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 79 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Está presente o grupo do SFBB de Malus (a vermelho), o grupo das SLF de Prunus (a verde) e Petunia (a rosa). A azul estão as sequências de referência. A vermelho estão as sequências F-box de R. chinensis (evidenciado na Figura 16) e as F-box de R. multiflora (evidenciado na Figura 17). A verde encontra-se as 3 possíveis sequências F-box de R. chinensis (Figura 16).

53

4. Conclusão

Ao identificarmos, neste trabalho, linhagens de S-RNase de Malus em Valquelinia e Gillenia, podemos afirmar que esta linhagem existe há pelo menos 52 Ma. Contudo, nestas análises, usámos apenas um genoma de uma espécie de cada género. Por esta razão, não podemos ter a certeza de que a ausência de uma determinada linhagem possa ser o resultado da fragmentação dos genomas estudados. Para confirmar esta observação, múltiplos genomas de espécies para cada género devem ser analisados. Podemos, contudo, concluir que a origem da linhagem de Malus S-RNase não está associada com a última duplicação do genoma. Podemos também postular que a linhagem de Malus S- RNase existe em todas as espécies de Maleae, bem como em espécies da tribo Gillenieae.

A presença de genes da linhagem de Prunus S-RNase em Physocarpus e Rosa sugere que o ancestral de Rosaceae possuía um sistema semelhante ao de Prunus. Este resultado está de acordo com as observações feitas em Fragaria (Potentilleae). Destas análises podemos também confirmar a ausência de genes da linhagem de Malus S-RNases, pois múltiplos genomas (12 de Rosa e um de Physocarpus) foram analisados. Sequências putativas da S-RNase de Rosa foram identificadas em R. chinensis, R. multiflora, R. arvensis, R. odorata, R. majalis, e R. minutifolia. Estas sequências foram usadas para desenhar primers para regiões conservadas e amplificar o alelo S2-RNase em R. arvensis. Análises de segregação deste alelo em indivíduos de R. arvensis permitiram confirmar que o gene identificado em Rosa é de facto a S-RNase. Análises de polimorfismo e identificação de sítios positivamente selecionados devem ser também realizados para confirmar definitivamente que o gene S-RNase de Rosa foi identificado.

O gene S-RNase de Rosa está localizado no cromossoma 3, de acordo com a localização prévia do S-locus em Rosa (Hibrand et al. 2018). Neste trabalho, procedemos à caracterização dos genes das linhagens de Prunus e Malus S-pólen localizados neste cromossoma no genoma de R. chinensis. Análises semelhantes foram também realizadas nos dois “contigs” de R. multiflora para os quais se identificaram também as S-RNases. Análises filogenéticas destes genes revelaram que pertencem à linhagem de S-pólen de Malus. Isto implica que o sistema AIG ancestral possa funcionar de maneira semelhante a Malus, pela presença de múltiplos genes masculinos, embora o gene feminino seja da linhagem de Prunus. Como trabalho futuro é essencial determinar os níveis de polimorfismo para estes genes e determinar se os genes S-pólen de um dado S-haplótipo apresentam evidência para seleção positiva, como observado em Malus. Em conclusão, os sistemas AIG de Malus e Prunus são diferentes do sistema AIG em Rosa. Esta observação levanta a hipótese que os ambos os sistemas de Malus e Prunus evoluíram de novo.

54

5. Trabalho Futuro

Para provar a hipótese de que o sistema ancestral AIG funciona da mesma maneira que em Malus (“non-self recognition”), é necessário proceder às análises de segregação ao gene S-pólen (como foram feitas para o gene da S-RNase; ver Resultados 3.5) e identificar as posições aminoacídicas que estão sobre a seleção positiva (que são responáveis pela especificidade AIG).

Para estabelecer se o sistema encontrado em Rosa é o sistema ancestral, é necessário caracterizar a região do S-locus em Rubus e Dryas, que são espécies ancestrais a Rosa.

Como nenhuma sequência de S-RNase obtida possui os seus motivos proteicos conservados é necessário refinar estes padrões, para incluir as sequências identificadas neste trabalho.

55

6. Referências

Aguiar, B., Vieira, J., Cunha, A. E., Fonseca, N. A., Reboiro-Jato, D., Reboiro-Jato, M., Fdez-Riverola, F. Vieira, C. P. (2013). Patterns of evolution at the gametophytic self-incompatibility Sorbus aucuparia (Pyrinae) S-pollen genes support the non-self recognition by multiple factors model. Journal of Experimental Botany. 64(8):2423-34. doi: 10.1093.

Aguiar B., Vieira J., Cunha A. E., Fonseca N. A., AmyIezzoni, Nocker S., Vieira. C. P. (2015). Convergent Evolution at the Gametophytic Self-Incompatibility System in Malus and Prunus. PLOS ONE: e0126138. DOI:10.1371.

Allen, A. M., C. J. Thorogood, M. J. Hegarty, C. Lexer and S. J. Hiscock (2011). Pollen–pistil interactions and self-incompatibility in the Asteraceae: new insights from studies of Senecio squalidus (Oxford ragwort). Annals of Botany 108(4): 687-698.

Blankenberg, D., Von Kuster G., Coraor N., Ananda G., Lazarus R., Mangan M., Nekrutenko A., Taylor J. (2010). Galaxy: a web-based genome analysis tool for experimentalists. Current protocols in molecular biology, 19.10.01-19.10.21 doi: 10.1002/0471142727.mb1910s89.

Boetzer M, Henkel CV, Jansen HJ, Butler D, Pirovano W (2011). Scaffolding pre- assembled contigs using SSPACE. Bioinformatics. 27(4):578-9

Burrows, B. A. and A. G. McCubbin (2017). Sequencing the genomic regions flanking S-linked PvGLO sequences confirms the presence of two GLO loci, one of which lies adjacent to the style-length determinant gene CYP734A50. Reproduction 30(1): 53- 67.

Burrows, B. and A. McCubbin (2018). Examination of S-Locus Regulated Differential Expression in Primula vulgaris Floral Development. Plants, 7,-38; doi:10.3390.

Chantha, S. C., A. C. Herman, A. E. Platts, X. Vekemans and D. J. Schoen (2013). Secondary evolution of a self-incompatibility locus in the Brassicaceae genus Leavenworthia. PLoS Biol 11(5): e1001560.

Charlesworth, B., Morgan, M. T., and Charlesworth, D. (1993). The effect of deleterious mutations on neutral molecular variation. Genetics, 134 (4), 1289–1303.

Charlesworth, D. (2006). Balancing selection and its effects on sequences in nearby genome regions. PLoS Genetics, 2 (4), 379–384.

Condon, C., and Putzer, H. (2002). The phylogenetic distribution of bacterial ribonucleases. Nucleic Acids Research, 30 (24), 5339–5346.

Darwin C (1877). The different forms of flowers on plants of the same species. Murray, London, UK.

56

De Nettancourt, D. (1997). Incompatibility in angiosperms. Sexual Plant Reproduction 10(4): 185-199.

De Nettancourt, D. (2001). Incompatibility and incongruity in wild and cultivated plants, Springer Science and Business Media. In: Incompatibility and Incongruity in Wild and Cultivated Plants. Springer, Berlin, Heidelberg.

Durand, E., R. Méheust, M. Soucaze, P. M. Goubet, S. Gallina, C. Poux, I. Fobis- Loisy, E. Guillon, T. Gaude and A. Sarazin (2014). Dominance hierarchy arising from the evolution of a complex small RNA regulatory network. Science 346(6214): 1200- 1205.

Entani T., Iwano M., Shiba H., Che F. S., Isogai A. and Takayama S. (2003). Comparative analysis of the self‐incompatibility (S‐)locus region of Prunus mume: identification of a pollen‐expressed F‐box gene with allelic diversity. Genes to Cells 8(3): 203-213.

Franklin-Tong V.E. and Franklin C. (2003). Gametophytic self-incompatibility inhibits pollen tube growth using different mechanisms. Cell Press. 8 (12), 598-605.

Franklin-Tong V. E. (2008). Self-Incompatibility in Flowering Plants, Evolutions, Diversity, and Mechanisms, ©Springer-Verlag Berlin Heidelberg.

Fujii, S., Kubo, K., and Takayama, S. (2016). Non-self- and self-recognition models in plant self-incompatibility. Nature Plants. 2. 16130.

Gasteiger, E., C. Hoogland, A. Gattiker, S. e. Duvaud, M. R. Wilkins, R. D. Appel and A. Bairoch (2005). Protein Identification and Analysis Tools on the ExPASy Server. The Proteomics Protocols Handbook. J. M. Walker. Totowa, NJ, Humana Press: 571-607.

Goecks, J., Nekrutenko, A. and Taylor, J (2010). Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences. Genome Biol 11, R86, doi: 10.1186/gb-2010-11-8-r86.

Haas B. J., Papanicolaou A., Yassour M.,Grabherr M., Blood D. P., Bowden J., Couger M. B.,Eccles D.,Li B., Lieber M.,MacManes M. D., Ott M., Orvis J., Pochet N., Strozzi F., Weeks N. , Westerman R., William T., Dewey C. N., Henschel R., LeDuc R. D., Friedman N. e Regev A. (2013). De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature protocols 8, 1494-1512, doi: 10.1038/nprot.2013.084.

Hackauf, B. and P. Wehling (2005). Approaching the self-incompatibility locus Z in rye (Secale cereale L.) via comparative genetics. Theoretical and Applied Genetics 110(5): 832-845.

Hernandez, D., François, P., Farinelli, L., Østerås, M. and Schrenzel, J (2008). De novo bacterial genome sequencing: millions of very short reads assembled on a desktop computer. Genome Res 18, 802-809, doi: 10.1101/gr.072033.107.

57

Hinata, K., M. Watanabe, K. Toriyama and A. Isogai (1993). A Review of Recent Studies on Homomorphic Self-Incompatibility. International Review of Cytology. K. W. Jeon, M. Friedlander and J. Jarvik, Academic Press. 143: 257-296.

Hibrand L., Ruttink T., Hamama L., Kirov I., Lakhwani D., Zhou N., Bourke P, Daccord N., Leus L., Schulz D., Geest HV., Hesselink T., Laere KV., Balzergue S, Thouroude T., Chastellier A., Jeauffre J., Voisine L., Gaillard S., Borm T., Arens P., Voorrips R., Maliepaard C., Neu E., Linde M., Paslier MC., Berard A., Bounon R., Clotault J., Choisne N., Quesneville H., Kawamura K., Sakr S, Smulder R, Schijlen E., Bucher E., Debener T., Riek J., Foucher F. (2018). A high-quality sequence of Rosa chinensis to elucidate genome structure and ornamental traits. Nature Plants 4, pages473–484. doi: 10.1038/s41477-018-0166-1.

Huu, C. N., C. Kappel, B. Keller, A. Sicard, Y. Takebayashi, H. Breuninger, M. D. Nowak, I. Bäurle, A. Himmelbach, M. Burkart, T. Ebbing-Lohaus, H. Sakakibara, L. Altschmied, E. Conti and M. Lenhard (2016). Presence versus absence of CYP734A50 underlies the style-length dimorphism in primroses. eLife 5: e17956.

Igic, B. and J. R. Kohn (2001). Evolutionary relationships among self-incompatibility RNases. Proceedings of the National Academy of Sciences of the United States of America 98(23): 13167-13171.

Ikeda, K., Igic, B., Ushijima, K., Yamane, H., Hauck, N. R., Nakano, R., Tao, R. (2004). Primary structural features of the S-haplotype-specific F-box protein, SFB, in Prunus. Sexual Plant Reproduction , 16 (5), 235–243

Ingram, G. C., Doyle S., Carpenter R., Schultz E., Simon R. e Coen E. (1997) Dual role for fimbriata in regulating floral homeotic genes and cell division in Antirrhinum. Embo J 16, 6521–6534.

Iwano, M., Takayama, S., Chen, X., and Laux, T. (2011). Self/non-self discrimination in angiosperm self-incompatibility. Curr Opin Plant Biol. 15(1):78-83 Available at https://doi.org/10.1016/j.pbi.2011.09.003

Iwano, M. and S. Takayama. (2012). Self/non-self discrimination in angiosperm self- incompatibility. Curr Opin Plant Biol 15(1): 78-83.

Jackman S. D., Vandervalk B.P., Mohamadi H., Chu J., Yeo S., Hammond S.A., Jahesh G., Khan H., Coombe L., Warren R.L., Birol I. (2017). ABySS 2.0: resource-efficient assembly of large genomes using a Bloom filter. Genome Res 27, 768- 777, doi: 10.1101/gr.214346.116.

Jung S., Cestaro A., Troggio M., Main D., Zheng P., Cho I., Folta K. M., Sosinski B., Abbott A., Celton J., Arús P, Shulaev V., Verde I., Morgante M., Rokhsar D., Velasco R. e Sargent D. J. (2012) Whole genome comparisons of Fragaria, Prunus and Malus reveal different modes of evolution between Rosaceous subfamilies. BMC genomics 13:1–12. doi:10.1186/1471-2164-13-1PMID:22214261

58

Kakui, H., Tsuzuki, T., Koba, T., and Sassa, H. (2007). Polymorphism of SFBB -?? And its use for S genotyping in Japanese pear (Pyrus pyrifolia). Plant Cell Reports, 26 (9), 1619–1625.

Kalisz S, Vogler DW, Hanley KM. (2004). Context-dependent autonomous self- fertilization yields reproductive assurance and mixed mating. Nature 430(7002):884-7.

Kimura, K., Numata, T., Kakuta, Y., and Kimura, M. (2004). Amino acids conserved at the C-terminal half of the ribonuclease T2-family contribute to protein stability of the enzymes. Bioscience, Biotechnology, and Biochemistry , 68 (8), 1748–1757.

Klaas M., Yang B., Bosch M., Thorogood D., Manzanares C., Armstead IP., Franklin FC., Barth S. (2011) Progress towards elucidating the mechanisms of self- incompatibility in the grasses: further insights from studies in Lolium. Ann Bot. 2011 Sep;108(4):677-85. doi: 10.1093/aob/mcr186. Epub 2011 Jul 27. Köck, M., Stenzel, I., and Zimmer, A. (2006). Tissue-specific expression of tomato Ribonuclease LX during phosphate starvation-induced root growth. Journal of Experimental Botany , 57 (14), 3717–3726.

Kubo, K., Entani, T., Takara, A., Wang, N., Fields, A. M., Hua, Z., Toyoda, M., Kawashima, S., Ando, T., Isogai, A., Kao, T., Takayama, S. (2010). Collaborative Non-Self Recognition System in S-RNase-Based Self-Incompatibility. Science, 330 (6005), 796–799.

Lai, Z., W. Ma, B. Han, L. Liang, Y. Zhang, G. Hong and Y. Xue (2002). An F-box gene linked to the self-incompatibility (S) locus of Antirrhinum is expressed specifically in pollen and tapetum. Plant Molecular Biology 50(1): 29-41.

Lers, A., Sonego, L., Green, P. J., and Burd, S. (2006). Suppression of LX ribonuclease in tomato results in a delay of leaf senescence and abscission. Plant Physiology , 142 (2), 710–21.

Li J., Webster M., Wright J., Cocker J., Smith M., Badakshi F., Heslop-Harrison P. and Gilmartin. (2015). Integration of genetic and physical maps of the Primula vulgaris S-locus and localization by chromosome in situ hybridization. New Phytologist. 208: 137-148.

MacPhail V. and Kevan P. (2009). Review of the Breeding Systems of Wild Roses (Rosa spp.). Floriculture and Ornamental Biotechnology 3 (Special Issue 1), 1-13. Global Science Books.

McClure, B. (2009). Darwin's foundation for investigating self-incompatibility and the progress toward a physiological model for S-RNase-based SI. J Exp Bot 60(4): 1069- 1081.

Meng, X., P. Sun and T.-h. Kao (2010). S-RNase-based self-incompatibility in Petunia inflata. Annals of Botany 108(4): 637-646.

59

Minamikawa, M., Kakui, H., Wang, S., Kotoda, N., Kikuchi, S., Koba, T., and Sassa, H. (2010). Apple S-locus region represents a large cluster of related, polymorphic and pollen-specific F-box genes.

Naik, V. N. (1984). of angiosperms, Tata McGraw-Hill Education.

Newbigin, E., Paape, T., and Kohn, J. R. (2008). R-NAse-based self-incompatibility: puzzled by pollen S. The Plant Cell , 20 (9), 2286–2292.

Nicholson AW (2011). (ed) Ribonucleases, Nucleic Acids and Molecular Biology. ©Springer-Verlag Berlin Heidelberg 26, DOI 10.1007/978-3-642-21078-5_4.

Nowak, M. D., Davis, A. P., Anthony, F., and Yoder, A. D. (2011). Expression and trans-specific polymorphism of self-incompatibility R-NAses in Coffea (Rubiaceae). PLoS ONE, 6 (6). Available at https://doi.org/10.1371/journal.pone.0021019

Nunes, M. D. S., Santos, R. A. M., Ferreira, S. M., Vieira, J., and Vieira, C. P. (2006). Variability patterns and positively selected sites at the gametophytic self-incompatibility pollen SFB gene in a wild self-incompatible Prunus spinosa (Rosaceae) population. New Phytologist , 172 (3), 577–587.

Pratas M. I., Aguiar B., Vieira J., Nunes V., Teixeira V., Fonseca N. A., Iezzoni A., Nocker S., Vieira C. P. (2018). Inferences on specifcity recognition at the Malus×domestica gametophytic self-incompatibility system. Scientific Reports 8:1717.

Qiao, H., H. Wang, L. Zhao, J. Zhou, J. Huang, Y. Zhang and Y. Xue (2004). The F- Box Protein AhSLF-S2 Physically Interacts with S-RNases That May Be Inhibited by the Ubiquitin/26S Proteasome Pathway of Protein Degradation during Compatible Pollination in Antirrhinum. The Plant Cell 16(3): 582-595.

Rahman, M. H., M. Uchiyama, M. Kuno, N. Hirashima, K. Suwabe, T. Tsuchiya, Y. Kagaya, I. Kobayashi, K. Kakeda and Y. Kowyama (2007). Expression of stigma- and anther-specific genes located in the S locus region of Ipomoea trifida. Sexual Plant Reproduction 20(2): 73-85.

Ramanauskas, K., Iyer, L., and Igić, B. (2017). The evolutionary history of plant T2/S- type ribonucleases. PeerJ , 5:e3790.

Roalson, E. H., and McCubbin, A. G. (2003). S-RNases and sexual incompatibility: Structure, functions, and evolutionary perspectives. Molecular Phylogenetics and Evolution, 29 (3), 490– 506.

Sassa, H., Kakui, H., Miyamoto, M., Suzuki, Y., Hanada, T., Ushijima, K., Kusaba, M., Hrano, H., Koba, T. (2007). S-locus F-box brothers: Multiple and pollen-specific F- box genes with S haplotype-specific polymorphisms in apple and Japanese pear. Genetics, 175 (4), 1869– 1881.

60

Sassa H. (2016). Molecular mechanism of the S-RNase-based gametophytic self- incompatibility in fruit trees of Rosaceae. J-Stage, 66(1), 116-121.

Schanzer I. and Vagina A. (2007). ISSR (Inter Simple Sequence Repeat) markers reveal natural intersectional hybridization in wild roses [Rosa L., sect. Caninae (DC.) Ser. and sect. Cinnamomeae (DC.) Ser.]. Wulfenia 14: 1–14.

Serrano I., Romero-Puertas MC., Sandalio LM., Olmedilla A. (2015). The role of reactive oxygen species and nitric oxide in programmed cell death associated with self- incompatibility. Journal of Experimental Botany, 66 (10), 2869–2876.

Sommer DD, Delcher AL, Salzberg SL, Pop M. (2007). Minimus: a fast, lightweight genome assembler. BMC Bioinformatics. 8:64.

Sonneveld, T., Tobutt, K. R., Vaughan, S. P., and Robbins, T. P. (2005). Loss of Pollen- S Function in Two Self-Compatible Selections of Prunus avium Is Associated with Deletion / Mutation of an S Haplotype – Specific F-Box Gene. The Plant Cell, 17 (1), 37–51.

Stebbins, G. L. (1950). Variation and evolution in plants, Geoffrey Cumberlege.; London.

Steinbachs, J. E. and K. E. Holsinger (2002). S-RNase–mediated Gametophytic Self- Incompatibility is Ancestral in . Molecular Biology and Evolution 19(6): 825829.

Takebayashi, N., and Morrell, P. L. (2001). Is self-fertilization an evolutionary dead end? Revisiting an old hypothesis with genetic theories and a macroevolutionary approach. American Journal of Botany. 88(7):1143-50.

Tao, R., A. Watari, T. Hanada, T. Habu, H. Yaegaki, M. Yamaguchi and H. Yamane (2007). Self-compatible peach (Prunus persica) has mutant versions of the S-haplotypes found in self-incompatible Prunus species. Plant Molecular Biology 63(1): 109-123.

Ushijima, K., H. Sassa, A. M. Dandekar, T. M. Gradziel, R. Tao and H. Hirano (2003). Structural and Transcriptional Analysis of the Self-Incompatibility Locus of : Identification of a Pollen-Expressed F-Box Gene with Haplotype-Specific Polymorphism. The Plant Cell 15(3): 771-781

Ushijima, K., H. Yamane, A. Watari, E. Kakehi, K. Ikeda, N. R. Hauck, A. F. Iezzoni and R. Tao (2004). The S haplotype‐specific F‐box protein gene, SFB, is defective in self‐compatible haplotypes of Prunus avium and P. mume. The Plant Journal 39(4): 573- 586.

Vieira, C. P., and Charlesworth, D. (2002). Molecular variation at the self- incompatibility locus in 65 natural populations of the genera Antirrhinum and Misopates. Heredity, 88 (3), 172–181.

61

Vieira J., Fonseca N. A., Vieira C. P. (2008). An S-RNase-Based Gametophytic Self- Incompatibility System Evolved Only Once in Eudicots. J Mol Evol 67:179–190

Watanabe, M., K. Suwabe and G. Suzuki (2012). Molecular genetics, physiology and biology of self-incompatibility in Brassicaceae. Proceedings of the Japan Academy, Series B 88(10): 519-535.

Wheeler, M. J., B. H. J. de Graaf, N. Hadjiosif, R. M. Perry, N. S. Poulter, K. Osman, S. Vatovec, A. Harper, F. C. H. Franklin and V. E. Franklin-Tong (2009). Identification of the pollen self-incompatibility determinant in Papaver rhoeas. Nature 459: 992.

Wheeler, M. J., S. Vatovec and V. E. Franklin-Tong (2010). The pollen S-determinant in Papaver: comparisons with known plant receptors and protein ligand partners. Journal of Experimental Botany 61(7): 2015-2025.

Wright, S. (1939). The Distribution of Self-Sterility Alleles in Populations. Genetics, 24 (4), 538–552.

Wu, J., S. Wang, Y. Gu, S. Zhang, S. J. Publicover and V. E. Franklin-Tong (2011). Self-Incompatibility in Papaver rhoeas Activates Non-specific Cation Conductance Permeable to Ca2+ and K+. Plant Physiology 155(2): 963-973.

Xiang Y., Huang CH., Hu Y, Wen J., Li S., Yi T., Chen H., Xiang J. and Ma H. (2016). Evolution of Rosaceae Fruit Types Based on Nuclear Phylogeny in the Context of Geological Times and Genome Duplication. Mol. Biol. Evol. 34(2):262–281.

Yamane, H., K. Ushijima, H. Sassa and R. Tao (2003). The use of the S- haplotypespecific F-box protein gene, SFB, as a molecular marker for S-haplotypes and self-compatibility in Japanese apricot (Prunus mume). Theoretical and Applied Genetics 107(8): 1357-1361

62

7. Dados suplementares

Tabela Suplementar 1. S-RNases de Prunus obtidas a partir do DNA genómico. Ponto isoelétrico (PI) da proteína do primeiro e segundo exão, só do segundo exão, do terceiro exão e da sequência completa.

Código PI GenBank 1+2exão 2exão 3exão 1+2+3exão AB479468 1 9,96 10,05 8,58 9,29 AB479467 2 9,51 9,51 9,38 9,49 AB479469 3 9,51 9,51 9,38 9,49 AY259115 4 9,59 9,78 8,59 9,18 AY259114 5 9,34 9,57 9,17 9,31 AY259113 6 9,51 9,57 9,04 9,33 KF951503 7 9,78 10,15 8,84 9,36 KF975455 8 8,80 8,55 9,00 9,02 GU997632 9 9,30 9,26 8,59 9,02 GU968646 10 9,70 9,73 9,36 9,54 GU968644 11 9,81 9,86 9,17 9,51 GU968643 12 10,05 10,15 8,99 9,46 GU968642 13 8,81 9,86 8,59 9,26 GU968641 14 9,64 9,73 9,06 9,41 AB364468 15 10,06 10,20 8,82 9,37 AB364462 16 8,84 9,02 9,48 9,36 DQ422947 17 9,96 9,82 8,61 9,31 EU035975 18 9,76 9,82 9,13 9,44 EU035974 19 9,34 9,30 9,01 9,23 HQ615602 20 9,70 9,73 8,80 9,27 HQ913631 21 9,70 9,73 9,06 9,43 HQ913630 22 9,88 9,94 8,81 9,36 EU042130 23 9,51 9,73 8,96 9,25 EU042128 24 9,51 9,73 8,96 9,25 EU042127 25 9,51 9,73 8,96 9,25 DQ385842 26 9,94 10,03 8,60 9,27 AB467371 27 10,16 10,62 9,28 9,65 AB467370 28 10,16 10,62 9,28 9,65 EF636469 29 9,70 9,73 8,97 9,37

Tabela Suplementar 2. S-RNases de Malus obtidas a partir do DNA genómico. Ponto isoelétrico (PI) da proteína do primeiro exão, do segundo exão e da sequência completa.

Código GenBank PI 1 exão 2 exão Completa MG598511 1 6,36 9,56 9,18

63

MG598510 2 6,80 9,28 8,98 MG598509 3 8,52 9,36 9,22 MG598508 4 7,71 8,93 8,80 MG598506 5 6,51 9,32 9,01 MG598505 6 6,51 9,18 8,86 MG598504 7 6,68 9,61 9,25 MG598503 8 6,69 9,60 9,29 MG598502 9 5,34 9,57 9,09 MG598501 10 6,49 9,46 9,17 MG598500 11 5,96 9,54 9,07 MG598499 12 6,50 9,35 8,99 MG598498 13 6,69 9,24 8,98 MG598497 14 8,57 9,05 9,03 MG598496 15 8,52 9,46 9,30 MG598495 16 6,68 9,46 9,15 MG598494 17 6,51 9,42 9,13 MG598493 18 6,68 9,42 9,22 MG598492 19 6,50 9,32 8,97 MG598491 20 7,74 9,09 8,92 MG598490 21 9,41 9,00 9,24 MG598489 22 8,52 9,44 9,29 MG598488 23 7,70 9,28 9,08 MG598487 24 5,29 9,57 8,98 KT724706 25 9,15 9,21 9,26 AB540122 26 8,52 9,30 9,19 AB540121=MG598507 27 8,54 9,28 9,19 AB779647 28 6,68 9,51 9,16 AB779646 29 8,57 9,02 9,01 FJ946628 30 8,52 9,74 9,53 KF588567 31 6,68 9,54 9,18 GQ180466 32 5,39 9,54 9,07 AB025421 33 8,81 8,75 8,87 AB045711 34 8,55 9,03 9,01 AY250989 35 9,45 9,13 9,33 AB104908 36 7,75 9,60 9,30 EU477840 37 6,21 9,56 9,17 AY249428 38 6,49 8,85 8,59 AB009385 39 6,50 9,49 9,17 KX214125 40 8,52 9,24 9,14 KX214124 41 7,75 9,60 9,30 AB731592 42 6,69 9,24 8,98 AB545982 42 9,47 9,06 9,34 AB545981 44 6,50 9,49 9,17 EU477839 45 6,21 9,56 9,17 KY608876 46 7,70 9,15 8,97

64

10 20 30 40 50 60 70 80 RA11 GCTCCTCCATTGGAAGCCAGACTGAAGATCTCTTGGCCCAACCTAGAATATGGGAGTGATGCATCGTTTTGGAAAAGAGA Rm4 GCTCCTCCATTGGAAGCCAAACTGAAGATCTCTTGGCCTAACCTAGAAAATTCGAGTGATGCGCACTTTTGGGAACTTCA Rm8 GCTCTTCCATTGGAAGCCAAACTGAAGATCTCTTGGCCTAACCTAGAAAATTTGAGTGATGCGCAGTTTTGGGAACTTGA Primer F ------GGAAGCCARACTGAAGAT------Primer R ------

90 100 110 120 130 140 150 160 RA11 GTGGGACAGACATGGCACTTGTTCGATGCAGACACTTACACAAACACAATACTTCGATCGAGCCCATAAAATTTGGGTGG Rm4 GTGGAACAAACATGGCAAGTGTTCGGAGCCGACATTTACGCAATCCCAATACTTCGATCGAGCCCATCAAATTTGGATGA Rm8 ATGGAACAGACATGGCAAGTGTTCGGAGCCGACATTTACGCAAACCCAATACTTCAATCGAGCCCATGAAATTTGGATGA Primer F ------Primer R ------

170 180 190 200 210 220 230 240 RA11 AGAATA------ATATTACTGACATCCTCCGACAAGCAAGCGTCGTATCGGGGACAACAAGAGACTACGCACAGATAGAG Rm4 TGGAGAATATTAATATTACTAGTATCCTCCAAAATGTAAACATCGTATCAGGGAAAACAAAAAGCTACGAAGAGATAGAA Rm8 TGGATGACATTAATATTACTGATATCCTCCAAAATGTTCACATCGTATCAGGGAAACAAAAAACCTACGCAGAGATAGAA Primer F ------Primer R ------

250 260 270 280 290 300 310 320 RA11 TTGCCCATAAGAACAAAAACTCAAAAGATGCCACTCCTCCGCTGCGGAAAGACTCGGTTGTTGCATGAAGTCGTTCTCTG Rm4 TTTCCCATTGAATCAAAAACTCACAAGACACCACTCCTTCACTGCATAAACACTCAGAAGTTGCATGAAGTGGTACTTTG Rm8 TTTCCCATTGAATCAAAAACTCAAAAGACAATCCTCCTTCGCTGCCTAAACCCTCAGAAGTTGCATGAAGTGGTAATTTG Primer F ------Primer R ------AGTSGTWMTYTG

330 340 350 360 370 380 390 400 RA11 CTGGGACCATGATGCAAAACGTATGATCGACTGTGATGCTTCAGAAACAAATTGCCCAATCTATAATATCGATGTTCTAT Rm4 CTGGGACCATGCTGCAAAAAAATTGATCGACTGTAAACATACAGAAGCAACATGCTCAAGGAATAGTCCAATTGAGATTC Rm8 CTGGGACCATGCTGCAAAAAATATGATCGACTGTAATCGTACAGAAGCAACATGCTCAAACAGCAGTCTAATTGATGTTC Primer F ------Primer R CTGGGA------

RA11 AG--- Rm4 TATAG Rm8 TATAG Primer F ----- Primer R -----

Figura Suplementar 1. Alinhamento das sequências de R. multiflora (4 R. multiflora sc0006888 3 101 50444 49983 PI 8.38 (Rm4) 8 R. multiflora sc0001861 2 135 50453 49992 PI 8.37 (Rm8)) com o genoma de R. arvensis. Os primers (F e R) foram desenhados a partir das zonas conservadas. É esperado um amplificado com 300 bp e a temperatura de emparelhamento é de 52 ºC.

65

100 P. persica ppa018459m S2-RNase P. dulcis SM-RNase DQ099895 P avium S3-RNase AJ298312 Prunus S-RNase P. mume scaffold241 33 S-RNase 100 P. avium S1-RNaseAB028153 P. dulcis S7-RNase AY291118 85 P. avium S5-RNase AJ298314 F. niponica gi561805796 Prunus SRNaselineage F. nipponica gi561674690 gi561985884 gi561957436 Prunus SRNaselineage P. persica ppa011133m Prunus PA1 gene 99 P. avium PA1 AB096918 Prunus PA1 gene

100 MDP0000266136 S3-RNase P. pyrifolia S9-RNase AB104909 M. domestica SH-RNase AB032247 100 Maleae S-RNase P. bretschneideri S34-RNase DQ414813 MDP0000345854 S2-RNase P. pyrifolia S4-RNase AB009385 99 P. ussuriensis S35-RNaseDQ839240 95 MDP0000250548A S-RNase lineage 1

99 P. persica ppa024151m S-RNase lineage 1

98 100 P. mume scaffold442 35 S-RNase lineage 1 MDP0000160706 99 MDP0000682955 F. nipponica gi561877040 SRNaselineage1 valq36 valq32.1 valq11 valq37 MDP0000267606AT2Lineage Outgroup

0.2

Figura Suplementar 2. Relação filogenética das sequências de Vauquelinia com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 1. A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (500 réplicas) é apresentada junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p-distance e está nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 29 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Um total de 881 posições foram analisadas. A sequência MDP0000267606AT2Lineage Outgroup foi como âncora. As sequências de referência estão marcadas a preto. A verde estão as sequências nucleotídicas de Vauquelinia correspondentes ao 1º exão.

66

80 P. pyrifolia S4-RNase AB009385 P. ussuriensis S35-RNaseDQ839240 P. bretschneideri S34-RNase DQ414813 73 M. domestica SH-RNase AB032247 Maleae S-RNase MDP0000266136 S3-RNase 92 97 P. pyrifolia S9-RNase AB104909 82 MDP0000345854 S2-RNase 99 valq42 valq39 F. niponica gi561805796 Prunus SRNaselineage valq33 MDP0000160706 100 MDP0000682955 F. nipponica gi561674690 gi561985884 gi561957436 Prunus SRNaselineage

100 P. persica ppa011133m Prunus PA1 gene P. avium PA1 AB096918 Prunus PA1 gene

86 P. avium S3-RNase AJ298312 P. avium S1-RNaseAB028153 88 P. dulcis S7-RNase AY291118 P. mume scaffold241 33 S-RNase Prunus S-RNase P. avium S5-RNase AJ298314 P. persica ppa018459m S2-RNase 99 P. dulcis SM-RNase DQ099895 F. nipponica gi561877040 SRNaselineage1 valq32.2 MDP0000250548A S-RNase lineage 1

93 P. persica ppa024151m S-RNase lineage 1 99 P. mume scaffold442 35 S-RNase lineage 1 MDP0000267606AT2Lineage Outgroup

0.2 Figura Suplementar 3. Relação filogenética das sequências de Vauquelinia com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 2. A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (500 réplicas) é apresentada junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p-distance e está nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 29 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Um total de 862 posições foram analisadas. A sequência MDP0000267606AT2Lineage Outgroup foi como âncora. As sequências de referência estão marcadas a preto. A azul estão as sequências nucleotídicas de Vauquelinia correspondentes ao 2º exão.

67

10 20 30 40 50 60 valq2 ------ESPAEAILKDWFSPR valq22 ------valq17 ------valq40 ------P. bretschneideri S34-RNase(DQ414813) MGMTGMIYMVTMVFSLTVLVLCSSTVGYDYFQFTQQYQPAVCNSSTTPCKDPAD---KLF M. domestica SH-RNase (AB032247) -MGTGMIYMVMMVFSLILLILPSSTVGFDYYQFTQQYQPAVCNSNPTPCKDPTD---KLF

70 80 90 100 110 120 130 valq2 IIHGLWPANYLARVKCNHVASRTEFNTNMVSPSLSMRSAWPSLLEL--DMYFWVNEYHKLGTCARFNGQN valq22 ------valq17 ------valq40 ------IQN P_bretschneideri_S34_RNase TVHGLWPSNWNGSHPVNCTNKT-MNSLTMGNLTAQLEIIWPNVLNRNDHAGFWNRQWNKHGTCGVPKIND M_domestica_SH_RNase TVHGLWPSNSNGNDPKYCNAQQ-YQ--TMKILEPQLVIIWPNVLNRNDHEGFWRKQWEKHGSCASSPIQN 140 150 160 170 180 190 200 valq2 --QYLRKARLICILTTGV------valq22 ------NASEILSKARIEPEGKT--QVEIENAIRKGTNNKALKPVSYTHLT--LP-- valq17 ------KCHMQRFQHEALKLK--RHKKTRRTKL valq40 QKHYFDTV--IKMYLTQKQNVSHILSKANIGPEGK------P_bretschneideri_S34_RNase SLQYFRTV--IKMYITQKQNVSEILAKANIKPEGKNRTLVDILKAIRSGTNNKAPKLKCQKK--SSMTEL M_domestica_SH_RNase QKHYFDTV--IKMYTTQKQNISEILSKANIKPGRKNRTLVDIENAIRNVINNMTPQFKCQKNTRTSLTEL 210 220 230 valq2 ------valq22 ------valq17 VEVTICSNHSGEYLIDCPRPFK------valq40 ------P_bretschneideri_S34_RNase VEVSLCSDHNITQFINCPRPFPQGSPHFCPNNSIQY M_domestica_SH_RNase VEVGLCSDSNLTQFINCPRPFPRGSRYFCPTNIQ-Y

Figura Suplementar 4. Alinhamento das sequências aminoacídicas codificadas pelas sequências nucleotídicas putativas das S-RNases de Vauquelinia.

100 P. persica ppa018459m S2-RNase P. dulcis SM-RNase DQ099895 P: avium S3-RNase AJ298312 Prunus S-RNase P. mume scaffold241 33 S-RNase P. avium S1-RNaseAB028153 99 P. dulcis S7-RNase AY291118 P. avium S5-RNase AJ298314 F. niponica gi561805796 Prunus SRNaselineage

77 P. persica ppa011133m Prunus PA1 gene 100 P. avium PA1 AB096918 Prunus PA1 gene F. nipponica gi561674690 gi561985884 gi561957436 Prunus SRNaselineage

100 MDP0000160706 MDP0000682955

97 P. persica ppa024151m S-RNase lineage 1 P. mume scaffold442 35 S-RNase lineage 1 F. nipponica gi561877040 SRNaselineage1 kag4 93 kag15 MDP0000345854 S2 RNase

98 P. pyrifolia S4-RNase AB009385 100 P. ussuriensis S35-RNaseDQ839240 Maleae S-RNase 100 MDP0000266136 S3 RNase P. pyrifolia S9-RNase AB104909 M. domestica SH-RNase AB032247 P. bretschneideri S34-RNase DQ414813 kag2.2 kag10 kag8 MDP0000250548A S-RNase lineage 1 kag5.2 MDP0000267606AT2Lineage Outgroup

0.2

Figura Suplementar 5. Relação filogenética das sequências de Kageneckia com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 1. A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap”

68

(500 réplicas) é apresentada junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p-distance e está nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 31 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Um total de 880 posições obtidas A sequência MDP0000267606AT2Lineage Outgroup foi como âncora. As sequências de referência estão marcadas a preto. A verde estão as sequências nucleotídicas de Kageneckia correspondentes ao 1º exão.

100 P. persica ppa018459m S2-RNase P. dulcis SM-RNase DQ099895 P. avium S3-RNase AJ298312 Prunus S-RNase P. mume scaffold241 33 S-RNase P. avium S1-RNaseAB028153 100 P. dulcis S7-RNase AY291118 P. avium S5-RNase AJ298314 F. niponica gi561805796 Prunus SRNaselineage F. nipponica gi561674690 gi561985884 gi561957436 Prunus SRNaselineage P. persica ppa011133m Prunus PA1 gene 100 P. avium PA1 AB096918 Prunus PA1 gene

100 MDP0000160706 MDP0000682955

F. nipponica gi561877040 SRNaselineage1 70 100 P. persica ppa024151m S-RNase lineage 1 90 P. mume scaffold442 35 S-RNase lineage 1 90 99 kag12 kag5.1 91 MDP0000250548A S-RNase lineage 1 99

M. domestica SH-RNase AB032247

100 MDP0000266136 S3-RNase

100 P. pyrifolia S9-RNase AB104909 MDP0000345854 S2-RNase Maleae S-RNase P. bretschneideri S34-RNase DQ414813 P. pyrifolia S4-RNase AB009385 98 P. ussuriensis S35-RNaseDQ839240 kag14 kag7 72 kag11 MDP0000267606AT2Lineage Outgroup

0.1

Figura Suplementar 6. Relação filogenética das sequências de Kageneckia com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 2. A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (500 réplicas) é apresentada junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p-distance e está nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 32 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Um total de 898 posições foram analisadas. A sequência MDP0000267606AT2Lineage Outgroup foi como âncora. As sequências de referência estão marcadas a preto. A azul estão as sequências nucleotídicas de Kageneckia correspondentes ao 2º exão.

69

97 P. pyrifolia S4-RNase AB009385 P. ussuriensis S35-RNaseDQ839240

MDP0000345854 S2-RNase Maleae S-RNase MDP0000266136 S3-RNase 100 P. pyrifolia S9-RNase AB104909 100 M. domestica SH-RNase AB032247 P. bretschneideri S34-RNase DQ414813 F. nipponica gi561674690 gi561985884 gi561957436 Prunus SRNaselineage P. persica ppa011133m Prunus PA1 gene 100 P. avium PA1 AB096918 Prunus PA1 gene F. niponica gi561805796 Prunus SRNaselineage P. dulcis S7-RNase AY291118 P. avium S5-RNase AJ298314 99 P. mume scaffold241 33 S-RNase P. avium S1-RNaseAB028153 Prunus S-RNase P. avium S3-RNase AJ298312 P. persica ppa018459m S2-RNase 100 P. dulcis SM-RNase DQ099895

100 MDP0000160706 MDP0000682955 F. nipponica gi561877040 SRNaselineage1 P. mume scaffold442 35 S-RNase lineage 1 94 P. persica ppa024151m S-RNase lineage 1 92 87 MDP0000250548A S-RNase lineage 1 100 kag16 MDP0000267606AT2Lineage Outgroup

0.2

Figura Suplementar 7. Relação filogenética das sequências de Kageneckia com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 2. A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (500 réplicas) é apresentada junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p-distance e está nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 26 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Um total de 898 posições obtidas. A sequência MDP0000267606AT2Lineage Outgroup foi como âncora. As sequências de referência estão marcadas a preto. A azul está a sequência nucleotídica de Kageneckia correspondente ao 2º exão.

70

100 P. persica ppa018459m S2-RNase P dulcis SM-RNase DQ099895 P. avium S3-RNase AJ298312 Prunus S-RNase P. mume scaffold241 33 S-RNase P. avium S1-RNaseAB028153 100 P. dulcis S7-RNase AY291118 73 P. avium S5-RNase AJ298314 F. niponica gi561805796 Prunus SRNaselineage F. nipponica gi561674690 gi561985884 gi561957436 Prunus SRNaselineage P. persica ppa011133m Prunus PA1 gene 100 P. avium PA1 AB096918 Prunus PA1 gene MDP0000345854 S2-RNase

100 P. pyrifolia S4-RNase AB009385 100 P. ussuriensis S35-RNaseDQ839240

81 P. bretschneideri S34-RNase DQ414813 Maleae S-RNase M. domestica SH-RNase AB032247 MDP0000266136 S3-RNase 100 P. pyrifolia S9-RNase AB104909 MDP0000160706 100 MDP0000682955 F. nipponica gi561877040 SRNaselineage1 phys3 phys6 MDP0000250548A S-RNase lineage 1 83 75 P. persica ppa024151m S-RNase lineage 1 100 P. mume scaffold442 35 S-RNase lineage 1 MDP0000267606AT2Lineage Outgroup

0.1

Figura Suplementar 8. Relação filogenética das sequências de Physocarpus com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 1. A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (500 réplicas) é apresentada junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p-distance e está nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 27 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Houve um total de 899 posições obtidas. A sequência MDP0000267606AT2Lineage Outgroup foi como âncora. As sequências de referência estão marcadas a preto. A verde estão as sequências nucleotídicas de Physocarpus correspondentes ao 1º exão.

71

100 MDP0000160706 MDP0000682955 phys2 89 phys10 phys1 99 phys9 phys4 phys5 F. nipponica gi561877040 SRNaselineage1 89 MDP0000250548A S-RNase lineage 1

97 P. persica ppa024151m S-RNase lineage 1 100 P. mume scaffold442 35 S-RNase lineage 1 P. persica ppa011133m Prunus PA1 gene 100 P. avium PA1 AB096918 Prunus PA1 gene phys7 F. nipponica gi561674690 gi561985884 gi561957436 Prunus SRNaselineage MDP0000345854 S2-RNase M. domestica SH-RNase AB032247 100 100 MDP0000266136 S3-RNase Maleae S-RNase P. pyrifolia S9-RNase AB104909 P. bretschneideri S34-RNase DQ414813 P. pyrifolia S4-RNase AB009385 98 P. ussuriensis S35-RNaseDQ839240 F. niponica gi561805796 Prunus SRNaselineage P. avium S3-RNase AJ298312 P. dulcis S7-RNase AY291118 89 P. avium S1-RNaseAB028153

100 P. persica ppa018459m S2-RNase Prunus S-RNase P. dulcis SM-RNase DQ099895 P. mume scaffold241 33 S-RNase P. avium S5-RNase AJ298314 MDP0000267606AT2Lineage Outgroup

0.2

Figura Suplementar 9. Relação filogenética das sequências de Physocarpus com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 2. A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (500 réplicas) é apresentada junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p-distance e está nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 32 sequências nucleotídicas. Todas as posições ambíguas foram removidas por cada par de sequências. Um total de 878 posições foram analisadas. As sequências de referência estão marcadas a preto. A azul estão as sequências nucleotídicas de Physocarpus corrrespondentes ao 2º exão.

72

100 P. persica ppa018459m S2-RNase P. dulcis SM-RNase (DQ099895) P. avium S1-RNase (AB028153) P. dulcis S7-RNase (AY291118) Prunus S-RNase P. mume scaffold241-33 S-RNase 100 P. avium S5-RNase (AJ298314) 98 P. avium S3-RNase (AJ298312) 3 R. chinensis NC_037090_1 XP_024190016_1 LOC112193982 PI 8.81 100 4 R. multiflora sc0006888 3 101 50444 49983 PI 8.38 S-RNase Rosa 100 8 R. multiflora sc00018612 135 50453 49992 PI 8.37 2 R. chinensis INRA 7 22 54967 55443 PI 8.77 14 R. persica 5038331 2502 59977 PI 8.85 85 100 25 R. persica 3971328 2016 46364 PI 8.85 100 28 R. rugosa14 2246601 865 8489 PI 7.87 100 R. damascena LYNE01000519 PI 9.29 11 R. majalis 1725532 1005 11580 PI 8.40 99 87 F. niponica gi561805796 S-RNase lineage 99 17 R. chinensis INRA 4 75 50441 50001 PI 8.42 100 19 R. chinensis INRA 18 4 75 388 PI 8.42 F. nipponica gi561674690-gi561985884-gi561957436 S-RNase lineage 20 R. majalis 952266 935 21039 PI 8.44 100 6 R. chinensis NC_037093_1 XP_024164552_1 LOC112171624 PI 8.8 100 34 R. minutifolia 3062686 1253 96174 PI 8.86 13 R. rugosa 14 698200 911 20090 PI 8.13 R. damascena LYNE01001972 PI 8.39 1 R. multiflora sc0027296 PI 8.38 82 4 R. chinensis INRA 9 21 50316 50747 PI 8.63 86 18 R. moschata 08 189032 1390 25583 PI 7.55 100 P. persica ppa024151m S-RNase lineage 1 100 P. mume scaffold442 35 S-RNase lineage 1 M. domestica MDP0000250548 S-RNase lineage 1 100 16 R. multiflora sc0002677 19 63 459 1 PI 9.12 100 R. arvensis 25 9790752 1368 PI 9.05 95 100 F. nipponica gi561877040 S-RNase lineage1 21 R. minutifolia 2534985 1681 26253 PI 9.46 92 14 R. chinensis INRA 1 163 50414 49968 PI 7.54 100 21 R. chinensis S30-RNase INRA 1 133 93281 928291 PI 7.15 100 100 22 R. odorata 5675235 3362 32060 PI 8.09 23 R. xanthina 7405035 1573 53887 4568695 PI 9.67 87 21 R. laevigata 4498314 3260 122634 PI 9.16 100 9 R. rugosa 14 3376924 2219 50424 PI 8.16 93 3 R. multiflora sc0005442 PI 9.25 94 3 R. odorata 9439350 2017 20408 PI 9.13 100 21 R. multiflora sc0005298 30 1 1 47 PI 9.42 99 48 R. odorata 16721167 606 9490 24144 PI 10.07 11 R. persica 5761241 1569 70724 PI 9.18 100 25 R. multiflora sc0010184 39 1 1 447 PI 8.68 35 R. rugosa 14 4934545 670 9080 PI 9.34 99 38 R. minutifolia 2743688 807 31126 PI 9.62 76 7 R. xanthina 6702763 2339 43811 PI 8.75 79 35 R. minutifolia 9423435 2363 49248 PI 9.17 100 R. arvensis 2 70334 1172 PI 8.88 P. persica ppa011133m PA1 100 P. avium PA1 (AB096918 ) 11 R. xanthina 4446882 1001 22983 PI 7.68 R. damascena LYNE01001343 PI 7.72 95 18 R. chinensis INRA 5 100 70914 70345 PI 8.98 100 11 R. chinensis NC 037089 1 XP 024178028 1 8629 LOC112183941 PI 8.87 15 R. multiflora sc0005791 10 65 50483 49974 PI 8.33 94 97 27 R. laevigata 11009939 1338 74699 1523939 PI 7.96 19 R. laevigata 11053818 878 23000 5491047 PI 9.14 74 100 R. damascena LYNE01001980 PI 9.7 100 9 R. multiflora sc0004365 18 46 50148 49630 PI 8.53 15 R. chinensis INRA 2 38 50181 50627 PI 8.71 99 R. damascena LYNE01003052 PI 8.63 86 6 R. chinensis INRA 13 63 50468 49998 PI 8.49 99 4 R. chinensis NC 037089 1 XP 024178267 1 9582 LOC112184234 PI 8.95 94 99 30 R. laevigata 3654729 792 24457 PI 8.71 94 6 R. multiflora ssc0000091 PI 8.31 99 R. damascena LYNE01052144 PI 8.60 100 3 R. chinensis INRA 8 20 50253 50591 PI 9.42 13 R. multiflora ssc00002408 62 50351 49959 PI 8.52 90 20 R. persica 7104714 1953 88585 3284556 PI 8.29 100 11 R. moschata 08 3214125 1442 25199 PI 8.59 99 29 R. xanthina 882428 2875 132398 PI 9.01 71 11 R. odorata gigantea 1117558 512 1260 PI 9.35 R. damascena LYNE01001192 PI 8.14 8 R. chinensis NC 037090 1 XP 024190063 1 15056LOC11219403 PI 8.34 11 R. multiflora sc0013809 29 14 423 1 PI 8.95 33 R. odorata 9858520 2804 25230 PI 9.21 100 M. domestica MDP0000160706 M. domestica MDP0000682955 95 22 R. chinensis S36-RNase INRA 1 115 122767 122351 PI 7.57 100 25 R. moschata 08 9204087 764 8422 PI 9.04 100 88 18 R. rugosa14 8301669 1382 27737 6945682 PI 8.79 24 R. laevigata 11073071 2249 66574 8989254 PI 8.39 100 R. arvensis 399692093 1970 PI 9.05 88 23 R. persica 3415306 1420 51157 PI 8.81 83 13 R. xanthina 5003946 1284 25490 PI 9.23 100 27 R. multiflora sc0017665 27 32 336 1 PI 7.64 100 28 R. multiflora sc000123927 32 336 1 PI 7.64 100 R. damascena LYNE01000464 PI 7.20 28 R. rugosa 19 15145548 2314 51510 PI 7.87 100 41 R. moschata 08 4246146 1929 33980 PI 8.58 100 41 R. odorata 16722839 1930 35027 127798 PI 8.73 R. arvensis 4 9725729 3171 PI 8.38 1 R. rugosa 19 7 096011 986 24178 PI 9.15 91 R. damascena LYNE01004102 PI 7.75 100 16 R. chinensis INRA 3 96 88949 88542 PI 8.54 100 5 R. chinensis INRA 10 16 50196 50690 PI 9.20 100 42 R. odorata 11410455 2285 23630 PI 9.21 31 R. odorata gigantea 2928323 239 606 PI 9.06 94 100 39 R. rugosa 14 1310710 1006 47549 PI 7.21 21 R. xanthina 7335766 1704 36054 319904 PI 9.87 8 R. persica 7099750 464 27071 2845977 PI 8.47 100 2 R. moschata 7908027 271 3908 PI 9.49 94 17 R. moschata 08 313213 526 9551 PI 8.83 16 R. moschata 08 1449387 806 12816 PI 8.88 100 4 R. minutifolia 9873354 643 27116 6517978 PI 9.06 100 32 R. odorata 13386905 361 3582 PI 8.54 36 R. odorata 3508099 356 3171 PI 8.66 12 R. persica 7092042 3216 148049 2227341 PI 9.38 100 9 R. xanthina 7369532 1671 65690 1938073 PI 8.60 17 R. minutifolia 7616448 903 12602 PI 9.60 R. arvensis 19 9766182 2924 PI 8.86 22 R. rugosa19 9362492 1712 42677 PI 9.35 R. damascena LYNE01000876 PI 7.79 97 40 R. rugosa 14 1649392 1798 39923 PI 7.10 99 17 R. persica 4796121 1837 86358 PI 9.46 88 2 R. xanthina 7412128 1056 38892 5484524 PI 9.06 100 12 R. odorata 16795619 1674 27547 5540122 8e26 100 8 R. chinensis INRA 15 27 49851 50372 PI 9.34 90 24 R. multiflora sc0001309 7 66 50435 49926 PI 9.22 M. domestica MDP0000345854 S2-RNase 100 M. domestica MDP0000266136 S3-RNase 100 P. pyrifolia S9-RNase (AB104909) M. domestica SH-RNase (AB032247) Maleae S-RNAse P. bretschneideri S34-RNase (DQ414813) P. pyrifolia S4-RNase (AB009385) 100 P. ussuriensis S35-RNase (DQ839240) 100 R. damascena LYNE01004478 3 PI 7.12 8 R. rugosa 14 8275561 3070 65640 2331476 PI 7.78 93 1 R. chinensis NC 037094 1 XP 024173652 1 PI 9.54 100 5 R. persica 7056797 1656 51339 92275 PI 9.52 92 33 R. laevigata 11053458 2603 73124 5448190 PI 9.49 81 27 R. minutifolia 1994699 3508 118131 585 PI 9.64 99 22 R. rugosa 14 8255884 1994 38446 507549 PI 9.35 M domestica MDP0000267606 T2-RNase lineage (Outgroup) 0.050

Figura Suplementar 10. Relação filogenética das sequências de Rosa com as sequências de referência (Aguiar et al. 2015), em que é analisada a região do motivo proteico 1 e 2 (sequência completa). A história evolutiva foi inferida utilizando o método Neighbor-Joining. A percentagem de árvores replicadas, em que os taxa estão agrupados pelo o teste de “bootstrap” (10000 réplicas) é apresentada junto aos ramos para aqueles com valores a cima de 70. A distância evolutiva foi computorizada utilzando o método p-distance e está nas unidades de número de diferenças de bases por sítio específico. As análises envolvem 138 sequências nucleotídicas. Todas as posições ambíguas foram removidas por

73 cada par de sequências. Um total de 1379 posições obtidas. Em azul está as sequências de referência. Em azul mais claro está as sequências que foram identificadas como S-RNases em R. chinensis (Hibrand et al. 2018). A preto estão as sequências completas.

74