Étude de la plasticité génomique des algues vertes de l’ordre Chlamydomonadales

Mémoire

Aurélie Labarre

Maîtrise en microbiologie Maître ès sciences (M.Sc.)

Québec, Canada

© Aurélie Labarre, 2015

Résumé

Les récents progrès en génomique ont conforté la complexité de l’origine des algues; d’un point de vue de la phylogénie des hôtes de l’endosymbiose, les algues forment un groupe évolutif polyphylétique. Les algues vertes forment deux embranchements majeurs : les Streptophyta et les . Les chlorophytes comprennent la majorité des algues vertes connues et se regroupent en quatre classes. La première, les Prasinophyceae, occupe la position la plus basale, tandis que l’ordre d’embranchement des trois autres classes (Ulvophyceae, Trebouxiophyceae et ) demeure encore incertain. Pour clarifier les relations évolutives chez les Clorophyceae, huit génomes chloroplastiques appartenant à la lignée des Chlamydomonadales, lignée majeure des Chlorophyceae, ont été séquencés et analysés. Des études phylogénétiques ont confirmé les classifications pré- établies et de nouveaux clades se sont vus formés. Les génomes de ces algues chlorophycéennes ont révélé une architecture conservée avec un certain nombre de caractères spécifiques à la classe des Chlamydomonadales. L’analyse de leurs caractères moléculaires a révélé des génomes marqués par la réduction ou le réarrangement de leur répertoire génomique comparativement aux génomes chloroplastiques des algues vertes plus ancestrales.

iii

Abstract

Recent advances in genome sequencing and analysis have reinforced the complexity of the origin of the green algae. From the point of view of a host endosymbiotic phylogeny, green algae form a polyphyletic evolutionary group. Green algae form two major branches : the Streptophyta and Chlorophyta. Chlorophytes include the majority of green algae known and they are grouped into four classes. The first, that of Prasinophyceae, occupies the most basal position, while the branching order of the other three classes (Ulvophyceae, Trebouxiophycea and Chlorophyceae) remain uncertain. To clarify the evolutionary relationships amongst Chlorophyceae, eight chloroplast genomes belonging to the lineage of Chlamydomonadales, a major clade of Chlorophyceae were sequenced and analyzed. Phylogenetic studies have confirmed the pre-established classifications and new clades were seen to be formed. The genomes of these chlorophyll algae were revealed to be conserved with a number of specific architectural characters of the Chlamydomonadales class. Analysis of their molecular characteristics revealed a genome marked by the reduction or rearrangement of their genomic repertory compared to chloroplast genomes of the ancestral green algae.

v

Table des matières

RÉSUMÉ ------III ABSTRACT ------V TABLE DES MATIÈRES ------VII LISTE DES TABLEAUX ------XI LISTE DES FIGURES ------XIII LISTE DES ANNEXES ------XV LISTE DES ABRÉVIATIONS ------XVII REMERCIEMENTS ------XIX 1 - INTRODUCTION ------1 1.1 - LES ALGUES ------1 1.1.1 - Définition et caractéristiques ------1 1.1.2 - Systématique des algues ------2 1.2 - LA LIGNÉE VERTE ------3 1.2.1 - Nature et origine ------3 1.2.2 - Classification des algues vertes ------6 1.2.2.1 - Les prémisses de la classification ------6 1.2.2.2 - La classification actuelle ------7 1.2.2.3 - Deux lignées majeures : Chlorophyta et Streptophyta ------8 1.2.3 - Les Chlorophyceae ------11 1.2.3.1 - Généralités ------11 1.2.3.2 - La classification des Chlorophyceae ------11 1.2.3.3 - Le noyau Chlorophyceae : OCC & CS ------12 1.3 - LE CHLOROPLASTE ------15 1.3.1 - Origine de la cellule eucaryote végétale ------15 1.3.2 - Le génome chloroplastique ------19 1.3.2.1 - Architecture du génome chloroplastique ------19 1.3.2.2 - Contenu en gènes ------22 1.3.2.3 - Les introns ------24 1.3.2.4 - Les séquences répétées ------28 1.3.3 - Évolution du génome chloroplastique ------29 1.3.3.1 - Vers la perte du chloroplaste? ------29 1.3.3.2 - L’IR , responsable de variation ------31 1.4 - PROBLÉMATIQUE ET OBJECTIFS ------32 1.4.1 - Mise en contexte ------32 1.4.2 - Objectifs ------35 1.4.3 - Objectifs spécifiques ------36

vii

2 - MATÉRIEL ET MÉTHODES ------37 2.1- SOUCHES UTILISÉES ------37 2.2 - CULTURE ET EXTRACTION DE L’ADN ------37 2.3 - STRATÉGIE DE SÉQUENÇAGE ------39 2.4 - ANALYSES INFORMATIQUES DES DONNÉES DE SÉQUENÇAGE ------40 2.4.1 - Nettoyage des données ------40 2.4.2 - Assemblage et annotation des génomes ------41 2.5 - ANALYSES STRUCTURALES DES SÉQUENCES ------43 2.5.1 - Les limites des introns ------43 2.5.2 - Partitionnement et ordre des gènes ------44 2.5.3 - Détection des séquences répétées ------46 2.6 - RECONSTRUCTION PHYLOGÉNÉTIQUE ------46 2.6.1 - Méthode de maximum de vraisemblance ------46 2.6.2 - Méthode bayésienne ------47 2.6.3 - Méthode « Neighbor-Joining » ------48 3 - RÉSULTATS ------51 3.1 - GÉNÉRALITÉ DES GÉNOMES CHLOROPLASTIQUES ------51 3.1.1 - Des génomes chloroplastiques conservés ------51 3.1.2 - Facteurs responsable de variation ------54 3.1.2.1 - Les séquences intergéniques ------54 3.1.2.2 - Les introns ------56 3.1.2.2.1 - Les sites introniques ------57 3.1.2.2.2 - Les ORF introniques ------58 3.1.3 - Composition des génomes chloroplastiques ------61 3.1.3.1 - Les gènes ------61 3.1.3.3 - Réarrangement géniques à travers les génomes ------71 3.1.4 - Les répétitions du chloroplaste ------77 3.1.4.1 - L’IR et ses jonctions ------77 3.1.4.2 - Les séquences répétées ------78 3.2 - LES ANALYSES PHYLOGÉNÉTIQUES ------84 4 - DISCUSSION ------89 4.1 - ANALYSES PHYLOGÉNÉTIQUES ------89 4.1.1 - Interprétation des phylogénies inférées ------89 4.1.2 - Les méthodes utilisées ------91 4.2 - DYNAMIQUE DES GÉNOMES ------92 4.2.1 - Évolution de la taille du génome chloroplastique ------92 4.2.2 - La taille des génomes liée aux introns ------93 4.2.2.1 - Relation avec leur ORF ------94 4.2.2.2 - Relation avec leurs sites introniques ------95 4.2.3 - Rôle des séquences répétées ------96 4.3 - PLASTICITÉ DES GÉNOMES ------99

viii

4.3.1 - Contenu en gène ------99 4.3.2 - Les réarrangements et l’ordre génique ------100 4.4 - ÉVOLUTION ET PERTES ------102 5 - CONCLUSION ET PERSPECTIVES ------105 6 - BIBLIOGRAPHIE ------107 7 - ANNEXES ------123

ix

Liste des tableaux

TABLEAU 1 - ENSEMBLE DES GÈNES ENCODÉS PAR LE GÉNOME CHLOROPLASTIQUE ------23 TABLEAU 2 - REPRÉSENTANT DES CHLAMYDOMONADALES SÉLECTIONNÉS ------38 TABLEAU 3 - ASSEMBLAGE DES DONNÉES DE SÉQUENCES ILLUMINA UTILISÉES DANS CETTE ÉTUDE ------42 TABLEAU 4 - GÈNES UTILISÉS POUR LES ANALYSES D'ORDRE DE GÈNE ------45 TABLEAU 5 - ENSEMBLE DES GÈNES UTILISÉS POUR LES ANALYSES PHYLOGÉNÉTIQUES ------50 TABLEAU 6 - CARACTÉRISTIQUES DES GÉNOMES CHLOROPLASTIQUES SÉQUENCÉS ------53 TABLEAU 7 - CONTENU EN ORF DES GÉNOMES ASSEMBLÉS ------63 TABLEAU 8 - EXEMPLE DE MOTIFS DE RÉPÉTITIONS CHEZ LES GÉNOMES CHLOROPLASTIQUES DE L'ÉTUDE ------82

xi

Liste des figures

FIGURE 1 - ÉVOLUTION ET FORMATION DES ALGUES VERTES ------5 FIGURE 2 - RELATION ÉVOLUTIVE CHEZ LES ------10 FIGURE 3 - LIEN PHYLOGÉNÉTIQUE DES CHLOROPHYCEAE ET CONFIGURATION DE LEURS APPAREILS FLAGELLAIRES ------14 FIGURE 4 - VERS LA DIFFÉRENCIATION DES PLASTES ------18 FIGURE 5 - CARTE PHYSIQUE DU GÉNOME CHLOROPLASTIQUE DE CHLAMYDOMONAS REINHARDTII ------21 FIGURE 6 - STRUCTURE SECONDAIRE TYPIQUE D’UN INTRON DE GROUPE II ------26 FIGURE 7 - PHYLOGÉNIE MODÈLE DES ALGUES CHLAMYDOMONADALES ------34 FIGURE 8 - AMPLEUR DES GÉNOMES CHLOROPLASTIQUES DE QUELQUES REPRÉSENTANTS DE LA CLASSE CHLOROPHYCEAE ------55 FIGURE 9 - DISTRIBUTION DES INTRONS DE GROUPE I ET II AU SEIN DES GÉNOMES SÉQUENCÉS ------59 FIGURE 10 - REPRÉSENTATION GRAPHIQUE DU NOMBRE D’INTRON CHEZ LES CHLOROPHYCEAE. ------60 FIGURE 11 - REPRÉSENTATION DU GÉNOME CHLOROPLASTIQUE DE L'ALGUE PHACOTUS LENTICULARIS ------64 FIGURE 12 - REPRÉSENTATION DU GÉNOME CHLOROPLASTIQUE DE L'ALGUE CHARACIOCHLORIS ACUMINATA --- 65 FIGURE 13 - REPRÉSENTATION DU GÉNOME CHLOROPLASTIQUE DE L'ALGUE OOGAMOCHLAMYS GIGANTEA ------66 FIGURE 14 - REPRÉSENTATION DU GÉNOME CHLOROPLASTIQUE DE L'ALGUE CHLOROMONAS PERFORATA ------67 FIGURE 15 - COMPOSITION EN GÈNES DES ALGUES VERTES CHLOROPHYCEAE ------68 FIGURE 16 - COMPOSITION EN ARNT DES ALGUES VERTES CHLOROPHYCEAE ------69 FIGURE 17 - PERTES DES GÈNES RÉPERTORIÉES CHEZ LES CHLOROPHYCEAE ------70 FIGURE 18 - RÉARRANGEMENT DES GÉNOMES CHLOROPLASTIQUES DES ALGUES VERTES ASSEMBLÉES ------72 FIGURE 19 - LONGUEURS DE BRANCHES REPRÉSENTATIVES DES INVERSIONS GÉNOMIQUES ------74 FIGURE 20 - PHYLOGÉNIE ÉTABLIE À PARTIR DE L'ORDRE DES GÈNES ------76 FIGURE 21 - COMPARAISON DES ZONES LSC, IR, SSC ET LEURS RÉGIONS FRONTALIÈRES ENTRE PLUSIEURS CPDNA CHLAMYDOMONADALES ------79 FIGURE 22 - SÉQUENCES ET STRUCTURE SECONDAIRE DES DEUX COPIES DU GÈNE RIBOSOMIQUE 5S RETROUVÉ CHEZ PHACOTUS LENTICULARIS ------81 FIGURE 23 - PROPORTION DES SÉQUENCES RÉPÉTEÉES AUX TRAVERS DES GÉNOMES CHLOROPLASTIQUES DE LA CLASSE CHLOROPHYCEAE ------83 FIGURE 24 - RELATION PHYLOGÉNÉTIQUES CHEZ LES CHLOROPHYCEAE : MÉTHODE DE MAXIMUN DE VRAISSEMBLANCE ------85 FIGURE 25 - RELATION PHYLOGÉNÉTIQUES CHEZ LES CHLOROPHYCEAE : MÉTHODE BAYÉSIENNE ------87 FIGURE 26 - CORRÉLATION ENTRE LA TAILLE DES GÉNOMES CHLOROPLASTIQUES ET LES SÉQUENCES RÉPÉTÉES ------98

xiii

Liste des annexes

ANNEXE 1 - ENSEMBLE DES TAXA UTILISÉS DANS LES ANALYSES ------123 ANNEXE 2 - COMPOSITION DU MILIEU DE CULTURE C ------124 ANNEXE 3 - DISTANCE EN TERME D'INVERSION ENTRE LES GÉNOMES CHLOROPLASTIQUES DE LA CLASSE CHLOROPHYCEAE ------125 ANNEXE 4 - SITES D'INSERTIONS DES INTRONS DE GROUPE I CHEZ LES CHLOROPHYCEAE ------126 ANNEXE 5 - SITES D'INSERTIONS DES INTRONS DE GROUPE II CHEZ LES CHLOROPHYCEAE ------127 ANNEXE 6 - RÉARRANGEMENT DES GÉNOMES À TRAVERS LEURS GROUPES DE GÈNES CONSERVÉS ------128 ANNEXE 7 - PAIRES DE GÈNES CONSERVÉES COMME MARQUEURS DE DIFFÉRENTES CLASSES ------129 ANNEXE 8 - PHYLOGÉNIE PROTÉIQUE SELON LA MÉTHODE BAYÉSIENNE ------130

xv

Liste des abréviations

Plusieurs termes ont été empruntés à la langue anglaise. Dans la mesure du possible, le français a été employé. Néanmoins, certains termes anglais sont d’usage courant et l’équivalent en français est peu ou pas utilisé.

ADN acide désoxyribonucléique ADNc acide désoxyribonucléique complémentaire ADNcp acide désoxyribonucléique chloroplastique ARNm acide ribonucléique messager ARNr acide ribonucléique ribosomique ARNt acide ribonucléique de transfert ATP adénosine-5’-triphosphate BLAST basic local alignement search tool BRACgigan B.giganteus : Bracteacoccus giganteus BS Bootstraps CARTceras C. cerasiformis : Carteria cerasiformis CARTcruci C. crucifera : Carteria crucifera CARTlunz C. lunzensis : Carteria lunzensis CCW « counterclockwise » ou orientation de sens antihoraire CHARacumi C. acuminata : Characiochloris acuminata CHLAappla C. applanata : Chlamydomonas applanata CHLAfrank C. frankii : Chlamydomonas frankii CHLAmoewu C. moewusii : Chlamydomonas moewusii CHLAmonad C. monadina : Chlamydomonas monadina CHLAnival C. nivalis : Chlamydomonas nivalis CHLApalli C. pallidostigmatica : Chlamydomonas pallidostigmatica CHLApeter C. peterfii : Chlamydomonas peterfii CHLAradia C. radiata : Chlamydomonas radiata CHLAreinh C. reinhardtii : Chlamydomonas reinhardtii CHLOcapil C. capillatum : Chlorogonium capillatum CHLOperfo C. perforata : Chloromonas perforata CO2 Dioxyde de carbone CS Chlamydomonasales + Sphaeropleales CW « Clockwise » ou orientation de sens horaire DO « directly opposed » ou orientation directement opposée DUNAsalin D. salina : Dunaliella salina FLOYterre F. terrestris: Floydiella terrestris GOLElongi G. longispicula : Golenkinia longispicula GTR General time reversible HAEMlacus H. lacustris : Haelatococcus lacustris HAFNlaevi H. laevi : Hafniomonas laevis IR « Inverted Repeat » ou région inversée répétée JENUminut J. minuta : Jenufa minuta Kb Kilo paire de bases LSC « large single copy » ou grande région simple copis (IRB) mM millimolaire MUSCLE « multiple séquence comparison by log-expectation »

xvii

Mya millions d’années NAD(P)H nicotinamide adénine dinucléotide phosphate OCC Oedogoniales + Chaetophorales + Chaetopeltidales OEDOcardi O. cardiacum : Oedogonium cardiacum OEDOcarol O. carolinianum : Oedogonium carolinianum OLTMvirid O. viridis : Oltmannsiellopsis viridis OOGAgigan O. gigantea : Oogamochlamis gigantea ORF « Open reading frame » ou cadre de lecture ouvert PHAClenti P. lenticularis : Phacotus lenticularis PLANmicro P. microcystis : Planophila microcystis PP Probabilité postérieure PS I Photosystème I PS II Photosystème II PSEUakine P. akinetum : Pseudendoclonium akinetum PSEUjuris P. jurisii : Pseudodictyosphaerum jurisii PSEUmarin P. marina :Pseudoneochloris marina SCENobliq S. obliquus : Scenedesmus obliquus SCHIleibl S. leibleinii : Schizomeris leibleinii SNPs single-nucleotide polymorphism SSC « Small single copy » ou petite région simple copie (IRA) STEPpluvi S. pluvialis : Stephanosphaera pluvialis STIGhelve S. helveticum : Stigeoclonium helveticum TREUtriap T. triappendiculata : Treubaria triappendiculata UTC Ulvophyceae, Trebouxiophyceae, Chlorophyceae VOLVcarte V. carteri : Volvox carteri

Remerciements

J’adresse mes remerciements à mon directeur de recherche, le Dr. Claude Lemieux et à ma codirectrice Dr. Monique Turmel pour m’avoir accueillie dans leur laboratoire afin de mener à bien ce projet de recherche. Merci pour le temps qu’ils ont dû me consacrer. Toute ma gratitude aux membres de mon comité, les Dr. Connie Lovejoy et Dr. Alexander Culley, dont la présence indispensable et leur sens critique ont permis une meilleure interprétation des résultats. Je tiens à remercier tout particulièrement Anthony Vincent pour ces précieux conseils, sa patience et sa disponibilité. Ce mémoire n’aurait pas été possible sans l’intervention de Christian Otis, dont l’aide a été inestimable tout au long de ce projet. Je tiens enfin à exprimer ma profonde reconnaissance à ma famille qui, bien que très loin, a toujours su me soutenir.

xix

1 - INTRODUCTION

1.1 - Les Algues

1.1.1 - Définition et caractéristiques

Les « algues » n’entrent certainement pas dans un taxon défini, elles réunissent plutôt des groupes hétérogènes d’organismes unis par une caractéristique physiologique : leur habileté à mener à bien la photosynthèse oxygénique (Cavalier-Smith, 2007 ; Lee, 2008) à quelques exceptions près. En effet, les algues ne constituant toujours pas une branche bien définie dans « l’arbre de la vie », on les retrouve actuellement parmi les eucaryotes dans de nombreux clades différents. Citons à titre d’exemples : le clade des Alvéolates, celui des Hétérocontes ou encore le clade des Archaeplastida (Glaucophyta, Rhodophyta, Chloroplastida) (Adl et al. 2012).

Malgré leur longue histoire taxonomique, de nouvelles lignées chez les algues sont fréquemment identifiées et décrites comme des taxons supérieurs (Leliaert et al. 2009). Beaucoup de ces nouveaux taxons supérieurs sont en fait basés sur l’analyse moléculaire des espèces décrites. Dans d’autres cas, les données moléculaires ont permis des transferts taxonomiques inattendus. De récentes études tiennent à regrouper plusieurs clades de microorganismes qui étaient considérés éloignés comme les algues rouges ou les Viridiplantae (Keeling, 2013). Ainsi, par exemple, l’agent pathogène invertébré Helicosporidium keilin, considéré comme un champignon ou un protozoaire d’affinité incertaine, a été phylogénétiquement placé dans la classe Trebouxiophyceae (Tartar et al. 2003).

La diversité des microorganismes eucaryotes est généralement mal connue et probablement sous-estimée étant donné la grande échelle des analyses et données phylogénomiques. Dans les deux dernières décennies, l’utilisation d’outils moléculaires a révolutionné la recherche de la diversité microbienne, y compris, pour résoudre des relations moins profondes au sein des eucaryotes (Kumar et al. 2011 ; López-Garcia et Moreira, 2008). De nombreuses estimations ont fait varier le nombre d’espèces d’algues de 30 000 à plus de un million

1

(Brodie et al. 2007). Il en résulte un inventaire récent de 72 500 espèces d’algues différentes ; malgré les incertitudes quant aux organismes qui devraient être considérés comme des algues (Guiry, 2012 ; De Clerck et al. 2013). Les habitats des algues sont divers et nombreux. Pour la plupart, elles évoluent de façon ubiquiste dans les milieux humides tels que les océans, les lacs ou les étangs (Van den Hoek Mann et Jahns, 1995). Capables de convertir, grâce à la photosynthèse, l’énergie lumineuse et les éléments nutritifs en composés organiques, elles sont, pour un grand nombre d’organismes aquatiques, une source importante de nourriture (Wehr et al. 2002). De plus, les algues sont préférentiellement utilisées comme modèle de protistes dans de nombreuses études (Chlamydomonas reinhardtii chez les Chlorophyta) mais aussi comme source bioénergétique avec l’algue Chlorella, une Trebouxiophyceae (Ahn et al. 2012).

1.1.2 - Systématique des algues

Bien que la diversité moléculaire des algues vertes ait été relativement bien étudiée (revue dans Lewis et Mc Court, 2004 ; Leliaert et al. 2012), les données de séquences d’ADN font encore défaut pour de nombreux genres et familles. Une enquête moléculaire des genres morphologiquement distincts pourrait améliorer notre compréhension de l’évolution des algues vertes. Ces organismes photosynthétiques constituent un vaste ensemble hétéroclite dont les embranchements semblent très distincts les uns des autres. Il existe donc de nombreuses classifications pour ce groupe des algues, finalement très hétérogène.

Cependant, deux grands types de répartition des algues sont principalement cités ou utilisés : un classement permettant la reconnaissance des genres et espèces à partir d’observations morphologiques au niveau du thalle ou de la cellule, obtenu en microscopie optique (Friedl, 1997) ; et une classification plus complexe, du type phylétique, mettant en avant les affinités, les filiations probables entre groupes. Au cours des dernières décennies, l’utilisation d’outils moléculaires a participé à la découverte de nouveaux lignages et notamment avec un fort intérêt pour le plancton marin (Edgcomb et al. 2002 ; López-Garcia et Moreira, 2008). On discerne comme principales lignées : les algues vertes (Chlorophytes) et rouges (Rhodophytes), les Glaucophytes, Euglénophytes, Haptophytes,

2

Hétérokontes, Cryptophytes et les Dinoflagellés (Cavalier-Smith, 1981 ; Bhattacharya et Medlin, 1998). Le règne des Archaeplastida qui regroupe les Glaucophytes, les algues rouges et vertes (Lewis et Mc Court, 2004 ; Cavalier-Smith et Chao, 2003) a fait l’objet de plusieurs études, principalement dans la détermination de sa monophylie (Rodríguez- Ezpeleta et al. 2005). Globalement, les Chlorophytes (Lewis et Mc Court, 2004), les algues rouges (Saunders et Hommersand, 2004), les phylums des Dinoflagellés (Hackett et al. 2004) ainsi que les Haptophytes (Anderson, 2004) semblent les mieux étudiés.

Néanmoins, plusieurs tentatives de classifications sont encore non abouties à ce jour et la communauté scientifique reste toujours en débat sur l’indétermination de certains phylums des algues (Pröschold et Leliaert, 2007). De plus, l’origine de la lignée Archaeplastida largement étudiée, semble difficile à déterminer en raison de l’ancienneté de l’évènement symbiotique (Keeling, 2004).

1.2 - La lignée verte

1.2.1 - Nature et origine

La lignée verte aussi appelée Viridiplantae rassemble des eucaryotes capables de photosynthèse. On y inclut les algues vertes mais aussi les plantes terrestres (embryophytes) avec qui elles partagent de nombreuses caractéristiques (Graham et al. 2009). Avec les plantes terrestres, les algues vertes forment un groupe monophylétique. (Cavalier-Smith, 2004). Parmi eux, on recense au moins 22 000 espèces différentes (Guiry, 2012). Le groupe des Viridiplantae a été établi à partir de critères ultrastructuraux, biochimiques ou moléculaires (Lewis et McCourt, 2004 ; Leliaert et al. 2012) et serait apparu il y a 1.5 milliards d’années (Zimmer et al. 2007).

3

Une horloge moléculaire récente (Parfray et al. 2011) estime l’âge du dernier ancêtre commun des eucaryotes actuels (LECA1) à environ 1.9 milliards d’années, au Précambrien, au cours du Paléoprotérozoic (2500 - 1600 Mya) (Fig. 1). En accord avec Javaux, (Javaux, 2011) des microfossiles montrent ensuite une diversification des clades majeurs afin de suggérer l’origine des Viridiplantae (ainsi que celle des algues rouges et des Glaucophytes) entre 1500 et 700 Mya (Zimmer et al. 2007 ; Butterfield, 2009) en concordance avec la propagation de l’oxygène dans les océans (De Clerck et al. 2012 ; Yoon et al. 2004 ; Knoll, 2014) (Fig. 1). Encore sujet de contestation, des études de fossiles du précambrien permettraient de dater ces étapes cruciales de l’évolution. La lignée des algues vertes serait alors apparue suite au premier évènement d’endosymbiose dans lequel une cellule hôte eucaryote hétérotrophe capture une cyanobactérie qui, intégrée de manière stable, évolue en un plaste (Archibald, 2009 ; Keeling, 2010) ; (voir section 1.3.1).

1 LECA: Last Eucaryote Common Ancestor

4

Figure 1 - Évolution et formation des algues vertes

L’évolution des plantes est marquée par plusieurs évènements majeurs. Le schéma illustre cette évolution aux travers des périodes de glaciations. Bien que la période de divergence des Chlorophytes par rapport aux Streptophytes soit estimée à 936 milliards d’années, les lignes en pointillées indiquent des relations incertaines ou encore controversées. Les branches possiblement éteintes des Streptophytes et Chlorophytes sont marquées par un point d’interrogation et se terminent par une croix. Cette figure soutient la théorie de la présence des premiers eucaryotes au Paléoprotérozoïc (Figure extraite de Becker, 2013).

5

1.2.2 - Classification des algues vertes

1.2.2.1 - Les prémisses de la classification

Les premières théories concernant la phylogénie des algues ont été basées sur le concept que l’évolution aurait suivi des voies parallèles à la complexité morphologique des algues vertes. Dans ce sens, les flagellés unicellulaires étaient présumés avoir évolués d’une forme coccoïde simple vers des conformations plus élaborées telles que les formes multicellulaires ou filamenteuses. Les premières subdivisions en classes et en ordres apparaissent tout au long des années 1900 avec les classifications de Blackman en 1900 (Blackman et Tansley, 1902), Fott en 1971 (Fott, 1971) ou encore celle de Bold et Wynne en 1885 (Bold et Wynne , 1985). Les algues vertes étaient alors classées dans différents ordres selon leur morphologie (Pröschold et Leliaert, 2007). On rassemblait, par exemple les espèces flagellées dans l’ordre des Volvocales ou bien, les algues de forme coccoïde dans celui des (Lewis et Mc Court, 2004). Cette classification dépendante du niveau d’organisation du thalle s’est poursuivie jusque dans les années 1975.

La microscopie électronique a permis, par la suite, une approche basée sur des études ultra structurales et notamment sur l’appareil flagellaire. Plusieurs de ces observations proposées par Mattox et Stewart (Mattox et Stewart, 1984) ont fait l’objet d’une nouvelle classification (Bhattacharya et Medlin, 1998 ; Lewis et Mc Court, 2004), encore utilisée aujourd’hui. De par sa constance au cours de l’évolution, l’orientation des corps basaux des cellules mobiles est devenue un caractère incontournable en taxonomie (Bhattacharya et Medlin, 1998 ; Friedl, 1997). En effet, la séparation des algues vertes en différentes classes s’est appuyée principalement sur la structure de l’appareil flagellaire et notamment sur l’orientation des corps basaux (voir section 1.2.3.2).

6

1.2.2.2 - La classification actuelle

Enfin les méthodes moléculaires apparues à la fin des années 1980, ont permis l’utilisation de nouveaux caractères homologues. La plupart des grandes analyses de relations des algues vertes se sont basées sur des données de séquences de gènes nucléaires. Des premières phylogénies sont alors inférées à partir des séquences d’ADN de la petite sous- unité de l’ARN ribosomique nucléaire (ADNr 18S) (Frield et O’Kelly, 2002 ; Delsuc et al. 2005). En parallèle, des études similaires ont aussi utilisé de nombreux gènes nucléaires (Finet et al. 2010). Toutefois, les investigations établies à partir des algues vertes ont principalement été bâties depuis les séquences du gène codant pour la grande sous-unité ribosomique nucléaire: ADNr 26S (Buchheim et al. 2001) ou encore à partir des gènes chloroplastiques atpB et rbcL (Verghese, 2007). Les analyses de données moléculaires ont alors largement contribué à la systématique moderne et conforté les études primaires établies à partir d’éléments morphologiques tels que l’appareil flagellaire (Pröschold et Leliaert, 2007). Les analyses phylogénétiques sont donc devenues un outil à la base de la systématique afin de retracer au mieux l’évolution.

La répartition des algues vertes dans divers groupes est encore à l’étude et représente l’objet de nombreuses controverses (Pröschold et Leliaert, 2007). Les hypothèses actuelles suggèrent que les Viridiplantae ont divergé au début de l’évolution pour donner lieu à deux principales lignées : Les Chlorophytes et les Streptophytes (Lemieux et al. 2007 ; Leliaert et al. 2012). Cette division en deux sous-embranchements se base essentiellement sur des différences métaboliques et notamment dans l’utilisation de voies différentes pour la photorespiration (Becker, 2013). Plus précisément l’habitat d’origine des algues Streptophytes était les masses d’eau douce. Quant aux Chlorophytes, ils ont évolué dans un milieu marin. Aucun fossile connu de cette époque n’a pu permettre de dater la division Chlorophyta/Streptophyta. Seule une horloge moléculaire (Yoon et al. 2004) estime cette divergence ; Elle demeure donc incertaine.

7

1.2.2.3 - Deux lignées majeures : Chlorophyta et Streptophyta

Les Chlorophyta rassemblent la majorité des espèces décrites appelées communément algues vertes en raison de leur couleur verte typique, due, à l’abondance de pigments photosynthétiques chlorophylliens a et b (Graham et al. 2009). On regroupe ces algues vertes au sein des quatre grandes classes : Ulvophyceae, Trebouxiophyceae, Chlorophyceae (UTC) et Prasinophyceae. Le clade UTC, aussi récemment nommé « le noyau chlorophyta » (Fućíková et al. 2014b) représente la plupart des progrès taxonomiques au niveau des espèces et des genres (Lewis et McCourt, 2004). En outre, deux lignées divergentes de la base Chlorophyta ont récemment été identifiées : les Chlorodendrophyceae et les Pedinophyceae (Leliaert et al. 2012 ; Marin, 2012).

Les Prasinophytes représentent un groupe d’algues microscopiques, unicellulaires, primitives, au groupe UTC (Marin et Melkonian, 2010) ; Ce sont des algues planctoniques qui se rassemblent principalement dans les environnements océaniques et particulièrement abondantes dans les zones eutrophiques (O’Kelly et al. 2003). Les analyses moléculaires montrent que les Prasinophytes forment un groupe paraphylétique d’une dizaine de lignées (Leliaert et al. 2011). La classe Trebouxiophyceae réunit en majorité des algues en association ; notamment avec le lichen (Bartàk, 2014). Trebouxia est l’algue verte la plus courante en tant que phycobionte dans une symbiose avec le lichen (Bartàk, 2014 ; Skaloud et Peksa, 2010). Ce groupe est connu pour ses problèmes taxonomiques dont les nombreuses phylogénies à partir des séquences d’ARNr 18S n’encouragent pas la monophylie du clade (Neustupa et al. 2009) avec néanmoins l’exception d’une étude (Marin, 2012). Hétérogènes, unis ou multicellulaires, les Ulvophyceae sont pour la plupart des organismes macrophytes ; abondants dans les habitats côtiers, ils possèdent des structures morphologiques très variables (parenchymateuse, filamenteuse, siphon) (Floyd et O’Kelly, 1990). La plupart des phylogénies fournissent un faible support pour la monophylie des Ulvophyceae et confortent plutôt l’apparition de deux clades (Watanabe et Nakayama, 2007).

8

Malgré les incertitudes concernant l’évolution du clade UTC, Pombert et al. suggèrent que les algues Trebouxiophyceae seraient plus primitives que les Ulvophyceae et les Chlorophyceae (Pombert et al. 2004). De même, des analyses nucléotidiques ont démontré que les clades Ulvophyceae et Chlorophyceae sont sœurs (Turmel et al. 2008 ; Turmel et al. 2009). Ces derniers forment un groupe monophylétique presque omniprésent (Lewis et Mc Court, 2004). D’un point de vue ultra structural, la présence commune d’un fuseau mitotique non persistant peut être interprétée comme un soutien pour une relation entre les Chlorophyceae et les Trebouxiophyceae (Mattox et Stewart, 1984) alors que l’orientation dans le sens antihoraire de l’appareil flagellaire est commune aux Trebouxiophyceae et Ulvophyceae (Sluiman, 1989).

Les Streptophyta comprennent la classe des Charophytes, un groupe paraphylétique, ainsi que les plantes terrestres. On dénombre cinq lignées évolutives : les Charophyceae, Coleochaetophycea, les Zygnematophyceae, Klebsormitophyceae et les Astigmatophyceae (incluant les Clhorokybophyceae) (McCourt et al. 2004). Quant à l’algue Mesostigma viride, longtemps classée parmi les Prasinophytes, il est aujourd’hui entendu qu’elle est assurément liée au genre Chlorokybus, à la base des Streptophytes (Palmer et al. 2004 ; Lemieux et al. 2007 ; Timme et al. 2012). Au cours de ces dernières années, les Streptophytes ont connu d’importants changements concernant leur phylogénie. Il a été montré que les Charophyceae ne représentent pas le groupe sœur des embryophytes ; un clade comprenant les Zygnematophyceae et les algues parenchymateuses Coleochaetophyceae le serait (Timme et al. 2012 ; Turmel et al. 2006) (Fig. 2).

Bien que les Embryophytes auraient hérité de plusieurs caractères de base provenant des Streptophytes (Becker et Martin, 2009 ; Becker, 2013), il est encore difficile de déterminer leurs relation phylogénétique avec les algues vertes.

9

Chlorophyta Streptophyta

Ulvophyceae Chlorophyceae Plantes terrestres Trebouxiophyceae Coleochaetophyceae Zygnematophyceae Mamiellophyceae Pyramimonadales Charophyceae

Pycnococcaceae Klebsormidiophyceae Nephroselmidophyceae

Chlorokybophyceae Prasynophytes Prasinococcales Palmophyllales Mesostigmatophyceae

Figure 2 - Relation évolutive chez les Viridiplantae

Les hypothèses actuelles sur l’évolution des algues vertes exposent la divergence précoce de deux lignées distinctes : les Chlorophyta et les Streptophyta. Le sous embranchement Chlorophyta comprend la majorité des espèces décrites d’algues vertes, notamment dans la classe des Chlorophyceae. Les Streptophyta sont constitués des plantes terrestres et des Charophytes : un assemblage paraphylétique d’algues d’eau douce. La classe Prasinophyceae représente une lignée ancestrale, non monophylétique, au sein du sous-embranchement Chlorophyta. L’ordre de divergence des classes Trebouxiophyceae, Ulvophyceae et Chlorophyceae n’est pas encore établi. Figure adaptée de (Leliaert et al. 2012).

10

1.2.3 - Les Chlorophyceae

1.2.3.1 - Généralités

La classe Chlorophyceae comprend diverses formes morphologiques qui habitent principalement dans les eaux douces et des habitats terrestres. Jusqu’à présent, la classe Chlorophyceae compterait près de 13 000 espèces dont 8 000 seulement sont décrites (Guiry, 2012). Ce groupe contient le plus grand nombre d’espèces de la division des Chlorophyta. Au sein des Chlorophyceae, se regroupent des classes très larges et diversifiées qui se dissocient par la structure de leur appareil végétatif ou leurs différentes méthodes de reproduction. Les algues chlorophycéennes sont unicellulaires, coloniales ou filamenteuses. Généralement, les espèces ne sont pas motiles, cependant, certaines comme les Volvocales, possèdent des flagelles. La plupart des cellules sont nues ou bien recouvertes d’une paroi cellulosique ou glycoprotéique (Silva et al. 2014).

1.2.3.2 - La classification des Chlorophyceae

De nouvelles lignées d’algues vertes sont découvertes chaque année et mènent à une explosion de la taxonomie. Dans le domaine des Chlorophyceae, cinq ordres dont les relations sont bien comprises sont reconnus au sein de la classe : les Oedogoniales, Chaetophorales, Chaetopeltidales, Volvocales et Sphaeropleales (Fig. 3) (Turmel et al. 2008 ; Typpery et al. 2012). Basée sur l’orientation des corps basaux, les racines et les flagelles, la classification des Chlorophytes proposée par Mattox et Stewart en 1984 repose sur des caractères ultra structuraux. Trois types d’orientation flagellaire sont identifiés chez les algues biflagellées et quadriflagellées (Nakayama et al. 1996). La première organisation est dite antihoraire ou « counterclockwise » (CCW). Cette configuration des corps basaux est retrouvée chez les algues des classes Ulvophyceae et Trebouxiophyceae. On considère aujourd’hui que cette disposition est la plus ancestrale. En effet, l’orientation CW des corps basaux aurait évolué à partir de l’orientation CCW des algues Volvocales quadriflagellées donnant lieu à des biflagellées, les principaux membres du groupe CW (Nozaki et al. 2003).

11

Les Chlorophyceae regroupent les algues aux corps basaux de sens opposé (DO, de l’anglais « directly opposed ») (Nakayama et al. 1996) ou bien en disposition décalée dans le sens horaire : CW « clockwise » (Fig. 3) (O’Kelly et Floyd, 1984). Ces dispositions spécifiques à chaque classe d’algue, expliquent la classification actuelle des Chlorophyceae : Les Chlamydomonadales (CW, biflagellées ou quadriflagellées), les Sphaeropleales (DO, biflagellées), les Oedogoniales (appareil flagellaire atypique), les Chaetopeltidales (DO, quadriflagellées) et les Chaetophorales (DO + CW, quadriflagellées) (Fig. 3) (Lewis et Mc Court, 2004). En plus des données structurales, des analyses phylogénétiques basées sur des ADNr nucléaires 18S et 28S ont permis de consolider les positions de cinq ordres au sein des Chlorophyceae (Buchheim et al. 2001).

La taxonomie des algues vertes est en évolution constante. Dernièrement, une équipe de recherche a proposé une mise à jour de la taxonomie au niveau des familles dans l’ordre Sphaeropleales. Dix nouvelles familles d’algues cocciformes sont suggérées pour accueillir les genres nouvellement présentés (Fùcíková et al. 2014a).

1.2.3.3 - Le noyau Chlorophyceae : OCC & CS

Les Chlorophyceae représentent une lignée monophylétique. Dernièrement, des études phylogénétiques ont fait apparaitre des relations sœurs et donc une dichotomie, au sein de la classe des Chlorophyceae. Nous parlons maintenant de deux grands groupes : Les Oedogoniales + les Chaetophorales + les Chaetopeltidales réunis dans le clade OCC et les Chlamydomonadales + Sphaeropleales dans le clade CS (Turmel et al. 2008). Par ailleurs, ces dernières analyses ont pu ainsi être confortées avec des caractéristiques structurales du génome chloroplastique (Turmel et al. 2008). Le groupe CS fera l’objet de cette étude au travers des Chlamydomonadales également connus, en taxonomie, sous le nom de Volvocales.

12

Parmi les Volvocales, le clade des Reinhardtinia est l’un des plus étudié avec les génomes séquencés de Chlamydomonas reinhardtii (Maul et al. 2002), Volvox carteri (Smith et al. 2013) et récemment les génomes des plastides de Gonium pectorale (Hamaji et al. 2013). Notons que le genre Chlamydomonas représente l’un des plus grands groupes d’algues vertes avec plus de 600 espèces. Afin de reconsidérer leur répartition jusque-là artificielle, Pröschold et al. (2001) proposèrent une nouvelle classification de genre Chlamydomonas.

Quant au groupe OCC, il représente beaucoup moins de diversité que le groupe précédant. En effet, au sein du groupe Oedogoniales par exemple, seulement trois genres sont connus : Oedocladium, Oedogonium et Bulbochaete. Les relations phylogénétiques du groupe OCC (Oedogoniales + Chaetophorales et Chaetopeltidales) ont été déterminantes dans une étude de Turmel et al. (2008) montrant à partir de multiples gènes chloroplastiques le clade OCC sœur du clade CS. (Turmel et al. 2008). La systématique du groupe OCC est toujours en évaluation avec notamment une récente étude de la lignée Chaetophorales à partir des gènes de la sous unité ribosomale (Caisovà et al. 2011).

13

ccw ccw Stephanokonte

CW DO DO + CW (quadriflagellés)

DO DO (biflagellés ou quadriflagellés) ccw CW CW + CCW (biflagellés ou quadriflagellés)

Figure 3 - Lien phylogénétique des Chlorophyceae et configuration de leurs appareils flagellaires

Les cellules biflagellées et quadrilflagellées des principaux clades des algues vertes, sont respectivement représentées ici avec leur disposition flagellaire. Les corps basaux sont symbolisés par des rectangles vides tandis que les racines microtubulaires sont illustrées par les lignes noires. L’orientation antihoraire des corps basaux (CCW) est retrouvée chez les algues plus ancestrales tel que les Trebouxiophyceae et les Ulvophyceae. DO désigne des algues avec des corps basaux directement opposés. La forme stephanokonte représente un anneau concentrique de 35 flagelles.

14

1.3 - Le chloroplaste

Le plaste est un organite cellulaire propre aux cellules végétales et aux algues ; ils possèdent une double membrane externe et un ADN qui lui est spécifique (Wise, 2007). Il existe trois types de plastes : le chloroplaste, siège de la photosynthèse, le chromoplaste qui contient une grande quantité de caroténoïdes et enfin le leucoplaste, sans pigment, qui servent au stockage de protéines, de lipides ou d’amidon. Tous dérivent par maturation d’un type indifférencié (Wise, 2007).

Les chloroplastes sont des organites spécifiques, caractérisés par la présence de pigments photosynthétiques et une structure lamellaire constituée par les thylacoides. Le complexe enzymatique permettant la fixation du CO2, le métabolisme de la photosynthèse primaire ainsi que la synthèse de nombreux composés tel que l’amidon, y sont alors localisés.

1.3.1 - Origine de la cellule eucaryote végétale

L’origine de la cellule eucaryote que nous connaissons actuellement est le résultat de l’acquisition, l’intégration et l’héritage ultérieur de génomes microbiens acquis (Margulis, 1993). Plus tard, il a été suggéré que les chloroplastes pourraient provenir de microorganismes symbiotiques (Palenik, 2002). L’endosymbiose fait référence au cas particulier où l’un des partenaires est présent dans le cytoplasme de l’autre partenaire, devenant l’endosymbiote (Dyal et al. 2004). L’hypothèse endosymbiotique suggère à ce jour qu’une bactérie photosynthétique se serait installée dans le cytoplasme d’une cellule eucaryote primitive non photosynthétique (hétérotrophe) (Gould et al. 2008 ; Green, 2011). Cette association serait surtout bénéfique pour la cellule eucaryote qui, profitant des produits de la photosynthèse apportés par cette bactérie, aurait une vie en apparente autotrophie. Cette bactérie endosymbiote, présumée aujourd’hui comme l’ancêtre d’une cyanobactérie, peut en échange, exploiter l’environnement stable, protégé des prédateurs et parfois nautile, qu’offre la cellule eucaryote qui l’accueille (Delwiche, 1999).

15

Au cours de l’évolution, la Cyanobactérie se serait développée et transformée en un organite communément appelé chloroplaste qui confère à la cellule la capacité de réaliser la photosynthèse (Stoebe et Maier, 2002). Aujourd’hui, nombreuses sont les similitudes entre la Cyanobactérie et le chloroplaste qui tendent à renforcer cette idée d’endosymbiose. On retrouve notamment la même composition en lipides des membranes de la cyanobactérie originelle chez la double enveloppe du plaste : La membrane de phagocytose et sa propre membrane (De Clerck et al. 2012). La théorie de l’endosymbiose est devenue encore plus vraisemblable lorsque l’on a découvert, courant XXème siècle, que les plastes renfermaient aussi de l’ADN et des ribosomes (Ris et Plaut, 1962).

Le plaste dérivé de la Cyanobactérie est retrouvé dans divers organismes photosynthétiques dont : les Glaucophyta, les Rhodophyta et les algues vertes (Fig. 4). Pour cette raison, il est suggéré qu’une évolution monophylétique aurait formé le groupe des Plantae (Keeling, 2013). Toutefois, des différences morphologiques et pigmentaires entre les plastes semblaient évoquer, pour certains, une évolution polyphylétique (Raven, 1970). Des études phylogénétiques à partir de protéines ou de regroupements de gènes présents dans les génomes de plastides démontrent une origine unique des algues rouges et vertes (Gould et al. 2008 ; Keeling, 2010 ; Rodriguez et al. 2005 ; Price et al. 2012). Pourtant, la nature de l’ancêtre probable des plastides est encore aujourd’hui critiquée. Les avancées de Deusch et al. ont proposé le phénotype filamenteux et hétérocyste comme caractéristique de l’ancêtre du plaste (Deusch et al. 2008). Cette théorie suscite une apparition précoce de la cyanobactérie filamenteuse entre 1,2 et 1,5 milliards d’années, période attribuée à l’évènement endosymbiotique primaire où le caractère filamenteux était, à cette époque, considéré comme représentatif de la population dominante (Schirrmeister et al. 2013).

Des arbres phylogénétiques placent l’ancêtre des plastides avant la diversification de la plupart des lignées de Cyanobactéries actuelles (Criscuolo et Gribaldo, 2011 ; Keeling, 2013). Des études plus récentes encore, s’appuyant sur le phénomène de transfert latéral de gènes, remettent en question l’ascendance de la Cyanobactérie (Dagan et al. 2013) car beaucoup de gènes sont transférés de l’endosymbiote à l’hôte.

16

Ainsi, même si l’origine des plastides est bien établie à ce jour, différentes histoires évolutives du chloroplaste sont suggérées. Les questions fondamentales dans l’évolution du plaste, dont le nombre des origines indépendantes des plastes ainsi que les relations entre les différentes lignées de plastes, restent toujours des zones actives d’étude (Martin et Herrmann, 1998 ; Palmer et Delwiche, 1998 ; Keeling, 2013).

Malgré leur très grande variété, les algues rouges, vertes, les Glaucophytes et les plantes, ne représentent qu’une fraction de la diversité des eucaryotes photosynthétiques. Les autres eucaryotes photosynthétiques ont acquis leurs plastes par endosymbiose secondaire (Fig. 4). Comme son nom l’indique, l’endosymbiose secondaire est l’absorption et la conservation par un second eucaryote, d’une algue contenant déjà un plaste primaire (Delwiche, 1999). Les plastes secondaires sont caractérisés par quatre membranes supplémentaires entourant généralement le plaste ; Les deux membranes intérieures correspondent aux deux membranes du plaste primaire et, par extension, aux deux membranes de la cyanobactérie. Leur troisième membrane correspond à l’enveloppe cytoplasmique de l’endosymbionte de l’algue primaire alors que la quatrième dérive de la phagocytose lors de l’endosymbiose secondaire (Archibald et Keeling, 2002 ; Yoon et al. 2009).

17

Figure 4 - Vers la différenciation des plastes

La cellule eucaryote autotrophe est née de la phagocytose d’une bactérie photosynthétique proche des 1 500 Mya. Cette relation symbiotique avec une cellule eucaryote hétérotrophe convertit la cyanobactérie en un plaste capable de photosynthèse dans la cellule hôte. Cet ancêtre des Plantae a divergé en trois lignées primaires : Les Chlorophytes, les Rhodophytes et les Glaucophytes. Des évènements d’endosymbioses secondaires à partir des algues vertes ont menés à l’apparition des Euglénophytes et Chlorarachniophyta. Les Chromalveolates sont nés des algues rouges. La cyanobactérie ancestrale possédait probablement les chlorophyles a et b (vertes) ainsi que les pigments bleus et rouges des cyanobactéries actuelles. Le pigment rouge et la chlorophyle b ont été perdus chez les Glaucophytes, d’où leur couleur bleu-vert. Le pigment rouge domine chez les algues rouges alors que les Chlorophytes possèdent les chlorophylles a et b leur conférant une couleur verte. Figure tirée de (Facchinelli et Weber, 2011).

18

Les endosymbioses secondaires impliquant les algues vertes auraient conduit principalement, aux Euglénophytes et aux Chlorarachiniophytes (Keeling, 2013). Ces derniers représentent avec les Cryptophytes les deux seuls groupes à posséder un nucléomorphe, vestige du noyau de l’endosymbionte associé (Archibald et Keeling, 2004 ; Keeling, 2013). Une union unique entre un autre eucaryote et une algue rouge expliquerait l’apparition de toutes les autres lignées d’algues eucaryotiques. Ces endosymbioses successives se sont accompagnées de pertes et de modifications des pigments expliquant la diversité observée aujourd’hui. Dans certain cas, le plaste peut effectivement régresser à l’instar des Apicomplexa et ne plus assurer da fonction de photosynthèse. Le nombre de ces endosymbioses reste encore en débat (Delwiche, 1999, 2007 ; Keeling, 2013).

1.3.2 - Le génome chloroplastique

Les premiers génomes de plantes à avoir été séquencés sont les génomes chloroplastiques de Marchantia polymorpha et Nicotiana tabacum, (Ohyama et al. 1986 ; Shinozaki et al. 1986). Chaque chloroplaste possède sa propre information génétique, reflétant leurs origines évolutives de bactéries photosynthétiques (Block, 2007). En raison de cette ascendance, le génome de plaste a conservé de nombreuses caractéristiques du génome procaryote, y compris : la structure générale, les propriétés physiques, l’organisation des gènes et les fonctions nécessaires pour l’expression des gènes (Bock, 2007).

1.3.2.1 - Architecture du génome chloroplastique

Chez les Viridiplantae, la taille du génome chloroplastique varie de 28 kb chez Helicosporidium sp., un parasite non photosynthétique détecté dans divers groupes d’arthropodes et d’algues (Tartar et Boucias, 2004 ; De Koning et Keeling, 2006), à 521 kb chez Floydiella terrestris, une algue verte (Brouard et al. 2010). Néanmoins, la majorité des ADNcp ont une taille variant entre 100 et 200 kb et contiennent 100 à 120 gènes codant pour des protéines ainsi que 40 gènes codant pour des ARN stables (ARNr et ARNt) (Palmer, 1991) (Tab. 1).

19

Le génome d’un chloroplaste est composé de plusieurs dizaines de copies (jusqu’à 150) d’un chromosome circulaire constitué d’un ADN double brin. A noter néanmoins, une exception chez les dinoflagellés où le génome est fragmenté en plusieurs molécules qui contiennent un ou quelques gènes chacun (Barbrook et Howe, 2000 ; Zhang et al. 1999). Le génome chloroplastique (plastome) est caractérisé par un chromosome entrecoupé par deux régions de séquences inversées et répétées : IRA et IRB, dont la taille peut varier considérablement allant de 0.5 kbp chez l’espèce Pinus (Wagasugi et al. 1994) à 76 kbp chez Pelargonium hortorum pour une taille globale de 217 kb (Chumley et al. 2006). Les régions inversées répétées séparent deux autres zones où les gènes sont répétés en un seul exemplaire : LSC (Large Single Copy) et SSC (Small Single Copy). Les régions appelées IR (Inverted Repeat) entourent les régions simples copies (Green, 2011). Typiquement, les deux grandes régions répétées et inversées hébergent quelques gènes en plus de l’opéron de l’ARN ribosomique, lequel est presque toujours transcrit vers la région à simple copie de petite taille (Turmel et al. 1999). La figure 5, présentant la carte des gènes de l’ADNcp de Chlamydomonas reinhardtii, démontre cette organisation (Fig. 5).

Le rôle de cette structure quadripartite est encore mal connu ; Par ailleurs, certaines espèces ne possèdent pas cette organisation : Cicer arietinum (Leguminosae) (Jansen et al. 2008) contient seulement une copie de l’IR ou encore, l’algue Chlorella vulgaris qui ne possède aucune région répétée (Wakasugi et al. 1997) suggère qu’elle pourrait ne pas être indispensable.

20

psbF p petG sb

rps3

L

trnY(gua) trnQ(uug) rpoC2

rpoB

psbN

a

rpoBb psa rps2a rps2b B rpoA E 4 (guc)

rps9 ycf ycf3 psb psbB rps18 trnD psbT atpA psbH psbI trnMe(cau) cemA trnG(ucc) rb LSC trnE(uuc) atpH cL psaA atpF trnL(uaa)ccsA trnK(uuu)rps11

psaA psbZ psbM chlN rps14 rps7 atpE ycf12 trnS(gcu) psbA psbA

Chlamydomonas reinhardtii I

R

B

rrf A chloroplast genome rrf

R

I rrl rrl trnA(ugc) 203,826 bp trnI(gau) trnA(ugc) rrs trnI(gau) rrs

atpB

rps4 trnG(gcc) ycf1 trnI(c psaA au rps12J trnL(uag) rpl5 rps8 ) pet psa trnW rpl1 atpI trnS(uga) B psbJ clpP rpl164 trnR(ucu) (cca trnT(ugu) trn rpl2 ) rps1 C 9 (g 0 rpl2 D SSC psaA c sb a rpl2 p ) rpl36 3 chlL

Traduction trnV

rpoC1a

(uac)

trnE(uuc) tufA Photosynthèse rpoC1b psbK H trnP(ugg) fts chlB Ycf petA

trnR(acg) Divers pet D

psbC

petL psaC

trnH(gug) Transcription trnF(gaa) trnMf(cau) trnN(guu)

Figure 5 - Carte physique du génome chloroplastique de Chlamydomonas reinhardtii

Le cercle intérieur montre les quatre grandes régions de génome : les deux copies de la répétition inversée (IRA et IRB) ainsi que les grandes et les petites régions à copie unique (LSC et SSC). Le cercle extérieur représente le génome de l’algue Chlamydomonas reinhardtii avec les régions codantes présentées par des boites proportionnelles à la taille des gènes. Les gènes à l’intérieur du cercle sont transcrits dans le sens des aiguilles d’une montre, et les gènes en dehors du cercle sont transcrits dans le sens antihoraire. Un code couleur associe chaque gène à sa fonction. On distingue essentiellement les gènes appartenant au photosystème I et II ou encore les ARN ribosomaux présents notamment dans la région répétée IR. Les boites vides représentent les introns et les ARNt sont indiqués par le code à une lettre des acides aminés suivi par leur anticodon entres parenthèses. (Maul et al. 2002).

21

1.3.2.2 - Contenu en gènes

L’information contenue dans les génomes de chloroplaste peut être divisée en trois grandes catégories (Krause, 2012) (Tab. 1) : 1/ Les gènes codant pour des produits protéiques impliqués dans l’expression génétique, des ARNt, ARNr, protéines de l’ARN polymérase, protéines ribosomiques et d’autres protéines comme la maturase K, qui intervient dans l’épissage des introns chloroplastiques. 2/ Des gènes qui codent des protéines de l’appareil photosynthétique : Le PSI, le PSII, le cytochrome b6f, l’ATP synthase ou encore la grande sous-unité de la Rubisco 3/ Des gènes conservés, des cadres de lecture ouverts sans fonction connue, appelés ycf (hypothetical chloroplast open reading frames) (Hallick et Bairoch, 1994 ; Maier et al. 1995 ; Green, 2011). C’est le cas de CemA, une protéine de fonction inconnue présente dans la membrane interne du chloroplaste (Saski et al. 1993).

Bien que le contenu en gène du génome chloroplastique soit établi et très conservé au cours de l’évolution, certains changements persistent tels que la perte de gènes. Certains d’entre eux ont été perdus indépendamment dans différentes lignées (Martin et al. 2002 ; Maul et al. 2002). On note que tous les gènes des facteurs sigma ont été transférés chez le génome nucléaire alors que certaines sous-unités de base telles que rpoA, rpoB, rpoC1 et rpoC2 sont généralement conservées dans le génome chloroplastique (Yagi et Shiina, 2014). Les chloroplastes sont des organites caractéristiques des cellules végétales et d’algues vertes, mais présentant toujours de nombreuses caractéristiques procaryotes. En effet, les gènes chloroplastiques et leurs séquences régulatrices peuvent être organisés en opérons.

22

Tableau 1 - Ensemble des gènes encodés par le génome chloroplastique

Complexe protéique # gènes désignation

GROUP I : Gène du système génétique ARN polymérase 4 gènes rpo Petite sous-unité ribosomique 13 gènes rps Grande sous-unité ribosomique 14 gènes rpl Traduction 2 infA, tufA ARNr 3 gènes rrn ARNt 26 gènes trn

GROUP II : Photosynthèse et production d'énergie Photosystème I 6 gènes psa Photosystème II 15 gènes psb Complexe du cytochrome b6f 6 gènes pet ATPase 6 gènes atp Rubisco 1 rbcl

GROUP III : Cadres de lectures hypothétiques conservées et autres gènes Chaperone et protéase 1 clpP ORF hypothétiques conservés 4 gènes ycf Divers 6 ccsA, cemA, ftsH chlB, chlL, chlN

L’ensemble des informations a été rassemblé parmi plusieurs données sur les génomes chloroplastiques de la classe Chlorophyceae publiées (Brouard et al. 2010). Tableau adapté de Kirsten Krause (Krause, 2012).

23

Pour devenir des ARN fonctionnels dits ARN matures, les transcrits chloroplastiques polycistroniques doivent subir différentes modifications post-transcriptionnelles (processus de maturation) (Stern et al, 2010 ; Chum et al. 2001). C’est ainsi que l’opéron rrn chloroplastique des algues vertes code les trois molécules d’ARNr (rrn16, rrn23, et rrn5) et deux ARNt (trnI et trnA). L’expression des gènes chloroplastiques peut parfois nécessiter la fixation de facteurs de transcription, codés par le génome nucléaire et adressés à des séquences promotrices spécifiques dans le génome chloroplastique. La séquence en amont du site d’initiation de la transcription du gène rbcL par exemple (gène qui code la grande sous-unité de la Rubisco) est un site de fixation pour un facteur de transcription chloroplastique codé par le génome nucléaire (Shiina et al. 1998). Notons que parmi les différents processus post-transcriptionnels qui interviennent pour maturer les transcrits se trouve l’épissage des introns.

1.3.2.3 - Les introns

La taille des génomes de chloroplaste est largement influencée par la teneur en gènes, les régions intergéniques mais aussi en partie par la présence ou l’absence d’introns. Les introns sont des éléments le plus souvent non codant de l’ARN primaire alors éliminés avant que la molécule d’ARN soit traduite en protéine. Les sections d’introns alternent avec les sections de l’ARN appelées exons qui elles, codent pour des protéines. Après la transcription, de nouveaux brins immatures de l’ARN messager, appelés pré-ARNm, sont formés. Les introns, non codant, vont donc par un processus de modification appelé « épissage », être excisés de la molécule de pré-ARNm pour ne laisser que les exons codant (Saldanha et al. 1993).

Les introns présents dans les gènes chloroplastiques sont classés en familles : Les introns de groupe I et ceux du groupe II (Fig. 6). Cette classification se fait en fonction de la structure primaire et secondaire de l’intron, mais aussi en fonction du mécanisme d’épissage (Saldanha et al. 1993). Tous deux sont connus pour leur activité ribosomique leur permettant de catalyser leur propre réaction d’épissage (Haugen et al. 2004). On retrouve des exemples d’épissage en cis et en trans. Notamment, l’algue Chlamydomonas

24

reinhardtii, possède des introns de groupe I dans le gène psbA ou bien celui de l’ARNr 23S, ce qui nécessite un épissage en cis (Holloway et al. 1999). Dans un autre cas, le gène psaA , de Chlamydomonas reinhardtii est épissé en trans (Choquet et al. 1988 ; Kuck et al. 1987).

Les introns auto-catalytiques sont présents chez les Procaryotes et dans les organites des Eucaryotes (mitochondries et chloroplastes) tandis que les introns dépendants du splicéosome ne sont présents que dans le noyau des Eucaryotes. Les introns du groupe II s’auto-épissent d’une manière qui rappelle celle avec laquelle le splicéosome épisse les introns des gènes nucléaires. Il a alors été avancé que les introns de groupe II seraient les ancêtres des introns nucléaires (Martin et Koonin, 2006). Les introns de groupe II sont fréquemment retrouvés dans les gènes codant pour des protéines contrairement aux introns de groupe I retrouvés le plus souvent dans les gènes des ARNr (Bonen et Vogel, 2001).

Malgré leurs séquences très diverses, les introns de groupe II peuvent être définis par une structure secondaire commune, hautement conservée. Celle-ci est formée de six domaines tige-boucle, émergeants d’une roue centrale où chaque domaine a un rôle spécifique dans le repliement de l’intron (Fig. 6). Le domaine I est structuralement le plus grand ; il est impliqué dans l’assemblage moléculaire nécessaire à l’intron afin d’assumer sa structure active. Par ailleurs, le domaine V est la partie la plus conservée phylogénétiquement, il comprend le site actif de l’intron (Toor et al. 2009 ; Pyle, 2010).

Souvent, un ORF2 est incorporé au sein des introns et se retrouve dans les boucles reconnues dans la structure secondaire. Ces ORF peuvent coder, entre autre, pour des endonucléases qui facilitent l’auto-excision de l’intron et catalysent notamment leur mobilité (Haugen et al. 2004). La plupart des protéines contiennent un ou deux motifs hautement conservés. Il existe en effet quatre grandes familles d’endonucléases de noms liés aux motifs d’acides aminés conservés : H-N-H, HIS-CYS, LAGLIDADG et GIY-YIG (Kowalski et Derbyshire, 2002 ; Stoddard, 2006 ; Marcaida et al. 2010).

2 Open Reading Frame

25

Figure 6 - Structure secondaire typique d’un intron de groupe II

Les séquences de l’intron et des exons sont représentées par des traits fins et épais respectivement. Les six domaines conservés sont signalés de D1 à D6. L’adénine du domaine 6 impliquée dans la première attaque nucléophile est entourée. EBS pour « Exon Binding Site » et IBS « Intron Binding Site » sont les sites de contact complémentaires de l’exon et de l’intron permettant un appariement de bases nécessaire lors du mécanisme de l’épissage. Figure extraite de (Glanz et Kuck, 2009).

26

Les endonucléases de la famille LAGLIDADG sont les plus fréquemment rencontrées chez les introns de groupe I. Cependant celles de motifs GIY - YIG ont également été identifiées de nombreuses fois. Les domaines LAGLIDADG et HNH sont aussi présents dans les ORF d’intron de groupe II (Kelchner, 2002 ; Chevalier et al. 2005). Les « Homing endonucléases » sont considérées comme des unités mobiles qui ont aussi bien envahi les introns de groupe I comme ceux de groupe II. Ces dernières, possèdent des sites cibles spécifiques (site de clivage). Bien que plus rares, des introns trans-épissés de groupe II ont pu être retrouvés chez les algues vertes avec l’exemple du gène petD impliqué dans le complexe Cytochrome b6f de l’algue Stigeochlonium helveticum (Belanger et al. 2006).

Dans le cas des introns de groupe I de conformation trans, aucun n’a encore pu être répertorié chez les génomes chloroplastiques. Ils ont été néanmoins dénombrés dans le génome mitochondrial de l’algue verte Helicosporidium (Pombert et Keeling, 2010). Il a été observé chez les algues vertes, que la majorité des introns retrouvés appartiennent au groupe I. Ils sont insérés dans de multiples gènes mais le plus souvent dénombrés dans le gène rrl et notamment chez les Ulvophyceae dans l’algue Pseudendoclonium akinetum, (Pombert et al. 2005) où de larges études phylogénétiques ont pu être basées sur ces introns (Mc Manus et al. 2012). Chez les algues chlorophycéennes, principalement chez les Chlamydomonas, plusieurs introns de groupe I ont été décelés dans le gène de la grande sous-unité ribosomique (23S) sur 12 sites d’insertion différents (Turmel et al. 1993). Parmi eux, quatre introns ont bien été caractérisés (Lucas et al. 2001) et certains contiennent des ORF avec des endonucléases. Un autre intron de plaste relativement bien étudié se retrouve dans le gène psbA de Chlamydomonas reinhardtii et possède quatre introns de groupe I (Turmel et al. 1989 ; Bao et Herrin, 1993). Certains d’entre eux sont également trouvés dans le génome chloroplastique de l’algue verte Chlamydomonas moewusii.

27

1.3.2.4 - Les séquences répétées

Certaines séquences d’ADN peuvent présenter des particularités. C’est le cas des séquences répétées. Deux type de séquences répétées sont distinguées : les séquences répétées en tandem et celles dispersées, selon que les copies de l’élément répété soient respectivement adjacentes ou dispersées. Les séquences répétées et dispersées peuvent se retrouver partout, dans les régions géniques, dans les régions intergéniques, ainsi que dans les introns. Les séquences répétées en tandem sont constituées de motifs adjacents similaires en taille et en composition.

L’abondance des répétitions en tandem soulève des questions théoriques non encore résolues sur leur rôle et l’évolution du génome (Page et Holmes, 2009). Il est admis que les algues vertes Chlorophytes possèdent de nombreuses séquences répétées. Ainsi, on répertorie 15,8% de séquences répétées dans le génome de Chlamydomonas reinhardtii (Maul et al. 2002) dont la plupart de petites tailles se retrouvent dispersées dans le génome chloroplastique (Gelvin et al. 1979). En revanche, les Sphaeropleales comme l’algue verte Scenedesmus obliquus ne possèdent presque pas de répétitions, seulement 3% (Cambiaire et al. 2006). Mais aucune corrélation n’a pu être établie avec l’utilisation des séquences répétées comme marqueur de classification. Nous constatons effectivement dans le groupe OCC et particulièrement chez l’algue Oedogonium (Oedogoniales) seulement 1,3% de séquences répétées majoritairement en tandem (Brouard et al. 2008) contre 50% de répétitions chez l’algue Floydiella (Brouard et al. 2010).

28

1.3.3 - Évolution du génome chloroplastique

1.3.3.1 - Vers la perte du chloroplaste?

De manière générale, comparé au génome de la cyanobactérie ancestrale, le génome des plantes et algues s’est drastiquement réduit (Delwiche, 1999). Le chloroplaste a gardé effectivement 100 à 200 gènes des 3000 qui constituaient le génome de la cyanobactérie (Douglas, 1998 ; Falcón et al. 2010). L’essentiel de ces changements aurait eu lieu peu de temps après l’évènement endosymbiotique (Martin et Herrman, 1998 ; Bock et Timmis, 2008). Alors que certains gènes sont donc définitivement perdus au fil du temps, d’autres sont transférés dans le noyau de l’hôte. Les organites ont non seulement exporté leurs gènes dans le noyau, mais aussi réimportés les produits à l’aide de peptides de transit et d’une machinerie d’importation fonctionnelle, de sorte que les protéines restent conservées dans les organites alors que la plupart des gènes ne le sont pas (Martin et Herrman, 1998).

La copie génétique transférée alors dans le génome nucléaire doit, pour devenir fonctionnelle, acquérir différents éléments génétiques comme des signaux d’expression et une région codant un peptide d’adressage vers les organites (Adams et Palmer, 2003). Doolittle (1999) définit ce mouvement génétique comme un transfert horizontal de gènes (HGT) entre individus d’une même espèce et entre espèces plus ou moins éloignées, sans avoir recours à la reproduction sexuée (Doolittle, 1999). Des évènements de transfert de gènes fonctionnels vers le noyau sont dès lors fréquemment répertoriés chez les eucaryotes unicellulaires comme chez les multicellulaires. Plusieurs des acquisitions de gènes dérivent du symbionte alors que d’autres proviennent d’organismes libres.

29

Suite aux évènements d’endosymbiose, les transferts horizontaux sont souvent issus des génomes d’organites (chloroplaste et mitochondrie). Huang (2013) note que cependant, les mitochondries et les plastes ne peuvent à eux seuls expliquer la présence de tous, ou du moins d’une majorité de gènes bactériens chez les eucaryotes (Huang, 2013). Bien que les transferts horizontaux de gènes aient un impact évolutif considérable sur l’évolution des procaryotes, ce phénomène est moins significatif chez les eucaryotes (Keeling et Palmer, 2008 ; Huang, 2013). Les génomes de mitochondries chez les plantes angiospermes sont notamment connus pour le transfert massif de leurs gènes vers le noyau de l’hôte (Mower et al. 2010 ; Rice et al. 2013). De même, le génome nucléaire d’Arabidopsis thaliana présente une copie de 75% du génome mitochondrial. Les génomes d’eucaryotes possèdent de nombreux gènes bactériens (Kooning et al. 2004). Chez les Chlorophytes, le génome chloroplastique de l’algue Prasinophytes Ostreococcus tauri est aussi un cas remarquable de par ses nombreux transferts horizontaux encore mal compris (Robbens et al. 2007).

Il est néanmoins possible de citer plusieurs pertes de gènes spécifiques, pour la plupart indépendantes, ne reflétant aucun trait particulier au cours de l’évolution (Jansen et al. 2007). On retrace particulièrement la perte des gènes chlB, chlL et chlN chez les plantes supérieures mais aussi chez certaines algues vertes : H. laevis et G. longispicula (récemment assemblés, les génomes chloroplastiques de ces algues vertes ne sont pas encore publiés). L’évolution réductive du chloroplaste est souvent mise en avant avec la perte du gène infA, qui code pour un facteur d’initiation de la traduction vers le noyau (Milen et al. 2001) ;

Une fois un gène perdu à partir du génome des organites, il est probablement disparu à jamais. Au cours de l’évolution, nous assistons à un flux de gènes vers le noyau s’accompagnant d’une réduction de la taille des génomes des organites. Le patrimoine génétique disponible pour les transferts de gènes des organites vers le noyau devient donc de plus en plus faible. En ce sens, l’importance des transferts horizontaux pourrait conduire à une impasse et épuiser le « pool génétique » allant vers la disparition du plaste ou des mitochondries.

30

1.3.3.2 - L’IR , responsable de variation

Les causes principales de la variation et de l’évolution de la taille des génomes chloroplastiques chez les algues vertes, entre différentes espèces sont cette perte et ce transfert de gènes vers le noyau. Aussi, la variation de taille des séquences répétées semble responsable. Avec l’augmentation du nombre de génomes de plastes disponibles, on recense de nombreux réarrangements structuraux, tels que l’expansion des régions IR qui peut comprendre plusieurs gènes (Turmet et al. 1999). La fraction du génome occupée par les grandes régions répétées et inversées peut présenter des variations importantes d’un génome chloroplastique à l’autre (Goulding et al. 1996). En effet, chez les plantes terrestres, plusieurs phénomènes d’expansion ou de contraction de l’IR ont déjà été signalés : Un exemple récent chez les fougères (Wolf et al. 2010), mais aussi chez les gymnospermes avec l’espèce Ginkgo biloba dont l’IR ne mesurant que 17 pb aurait subi une contraction (Lin et al. 2012). Les régions IR permettent notamment de doubler le nombre de copies des gènes d’ARN ribosomiques qui sont nécessaires en grand nombre pour la production des ribosomes. Par ailleurs, puisqu’il a tendance à s’agrandir ou rétrécir, l’IR peut s’étendre (ou inversement) sur les régions uniques et occasionner nottament un déplacement des gènes dans une des régions simple-copie (Goulding et al. 1996).

Bien que la présence de deux grandes répétitions inversées (IR) soit un des traits les plus notables dans les génomes des chloroplastes (cpDNAs), on retrace aussi la perte totale de cette région chez les algues vertes : Floydiella terrestris (Chaetopeltidales) (Brouard et al. 2010), Stigeochlonium helveticum (Belanger et al. 2006) et Schizomeris leibleinii (Brouard et al. 2011) de l’ordre Chlaetophorales qui font partie des génomes ne possédant aucune région répétée et inversée. Plus ancestralement chez les Chlorophytes, l’algue Chlorella vulgaris (Trebouxiophyceae) a aussi perdu ses régions inversées répétées (Wakasugi et al. 1997). Néanmoins, les répétitions inversées se voient souvent attribuer le rôle de facteur de stabilisation du génome chloroplastique en limitant les réarrangements génomiques.

31

1.4 - Problématique et objectifs

1.4.1 - Mise en contexte

Les Viridiplantae ont changé la vie sur cette planète. Ils formaient le seul groupe d’eucaryotes photosynthétiques capable de s’établir sur la terre et d’avoir une forme de vie terrestre. Beaucoup de questions fondamentales entourant l’origine et la diversification précoce des Viridiplantae restent non résolues. Comprendre les interactions et les origines des lignées supérieures est un problème intéressant et persistant ; non seulement parce que les algues contiennent les producteurs primaires dominants sur cette planète, mais aussi parce que la découverte de l’ascendance de leurs plastes offre la possibilité d’acquérir des connaissances sur les nombreuses facettes de l’endosymbiose.

Les algues vertes sont les algues parentes des plantes terrestres. On y retrouve une collection variée de taxa unicellulaires et multicellulaires dont on a longtemps tenté de regrouper les organismes en se basant sur des caractères commun. Néanmoins, les classifications les plus significatives sont basées sur des études à partir de données moléculaires. Ici nous explorons les défis de déduire une phylogénie des Chlamydomonadales à partir de données de séquences de génomes plastidials complets ou presque complets disponibles. En effet, les données génomiques des chloroplastes se sont révélées très efficaces pour la détermination des phylogénies des plantes mais aussi pour des études comparatives (Jansen et al. 2007 ; Wu et al. 2013). Ainsi de nombreux efforts ont été dernièrement déployés pour comprendre la phylogénie des plantes vertes à partir de données de génomes chloroplastiques (Ruhfel et al. 2014).

Les Chlamydomonadales forment un groupe diversifié notamment représenté par la lignée Reinhardtinia avec nottament les génoms chloroplastiques séquencés de Chlamydomonas reinhardtii (Maul et al. 2002), Volvox carteri (Smith et Lee, 2009), Gonium pectorale (Hamaji, 2013). Le genre Chlamydomonadales n’est pas monophylétique; les clades contenant l’espèce Chlamydomonas reinhardtii et Volvox carteri par exemple diffèrent de celui qui rassemble les algues bien connue Chlamydomonas moewusii et Dunaliella salina.

32

Les Chlamydomonadales ont fait l’objet d’une large étude en 2008 (Nakada et al. 2008b). Cette étude représente une phylogénie des Volvocales fondée sur l’analyse du maximum de vraisemblance (ML) de séquences de gènes nucléaires (ARNr 18S). Cette analyse qui fournit le contexte taxonomique de l’échantillonnage des algues vertes avec une orientation horaire [CW] de l’appareil flagellaire, servira d’arbre référentiel tout au long de ce projet de recherche (Fig. 7).

Les relations phylogénétiques au sein de la classe des Chlorophyceae ne sont pas encore parfaitement établies ; Et même si les Sphaeropleales ont bien été déterminées comme étant le groupe « soeur » des Chlamydomonadales (Lewis et Mc Court 2004), l’ordre d’embranchement des lignées au sein des Chlorophyceae reste encore mal défini. La taxonomie des Volvocales (Chlamydomonadales) connait de nombreuses confusions si bien que de multiples clades ont été formés mais restent encore provisoires (Pröschold et al. 2001 ; Buchheim et al. 2001 ; Nozaki et al. 2003).

Les Volvocales ont jusqu’à présent été regroupés et identifiés par des caractéristiques morphologiques mais dernièrement, une phylogénie établie à partir des séquences d’ARNr 18S, (Nakada et al. 2008b) propose une classification des Chlamydomonadales en une vingtaine de clades. Cette dernière analyse comporte plusieurs lignées dont la position n’est que faiblement supportée par les analyses phylogénétiques (Nakada et al. 2008b). Un problème évident, comme pour la majorité des études estimant les relations évolutives entre espèces, est le manque de gènes comme marqueurs phylogénétiques. Nous constatons effectivement que la plupart des marqueurs moléculaires utilisés sont les ITS23, les séquences d’ADN ribosomiques 18S (ADNr 18S) ou bien très souvent les gènes tufA4 et rbcL5 dans le cas des algues vertes (Saunders et Kucera, 2010 ; Hall et al. 2010).

3 The second internal transcrites spacer 4 Elongation facteur Tu gène 5 Plastid ribulose-1-5-bisphosphate carboxylase/oxygenase

33

0.2

Moewusinia

Phacotinia Monadinia Characiosiphonia

Stephanopherinia

Chlorogonia

Polytominia

Dunaliellinia

Reinhardtinia

Oogamochlamydinia

Treubarinia Clades sujets de cette étude

Clades participants à l’étude Hafniomonas Golenkinia Autres clades

Figure 7 - Phylogénie modèle des algues Chlamydomonadales

Ici sont représentés en vert foncé les clades où se situent les algues vertes sélectionnées et séquencées pour cette étude. En bleu, est mis en avant l’ensemble des clades Chlamydomonadales dont les séquences de plusieurs espèces, disponibles, ont pu être ajoutées aux analyses. En gris, les autres clades proposés par Nakada et al. (2008) pour lesquels nous n’avons aucune donnée dans le cadre de ce travail. Figure modifiée de (Nakada et al. 2008).

34

1.4.2 - Objectifs

C’est au travers de la classe des Chlorophyceae avec l’ensemble des données sur les séquences moléculaires des génomes chloroplastiques et une approche phylogénétique, que nous parviendrons à de nouvelles hypothèses évolutives pour expliquer la diversité des algues vertes. Cette étude vise à établir des hypothèses phylogénétiques établies à partir de génomes chloroplastiques de huit souches d’algues différentes appartenant aux Chlamydomonadales sélectionnées sur la base d’ouvrages de référence. Les représentants sélectionnés sont répartis dans des lignées supérieures afin de compléter l’analyse des Chlamydomonadales déjà bien entamée avec des organismes plus basaux dans notre laboratoire (Fig. 7). Par ailleurs, plusieurs de ces espèces appartenant aux ordres voisins seront ajoutées à l’étude pour une meilleure résolution phylogénétique mais aussi afin d’élargir les analyses comparatives (Annexe 1).

Les positions qu’occupent chacune des espèces dans la lignée Chlamydomonadales rendent ces algues intéressantes pour l’étude de la structure et l’évolution des génomes (Fig. 7). Ainsi, la comparaison avec les autres membres de la lignée verte met en lumière l’évolution des génomes des organites. Cette démarche favorisée par l’utilisation des génomes entiers est donc une nouvelle approche multigénique. L’utilisation du génome chloroplastique est encouragée en raison de sa taille raisonnable, de son abondance à l’intérieur des cellules mais aussi pour sa relative facilité à être isolé et séquencé (Jansen et al. 2005). De plus, son évolution plus lente que le génome nucléaire, et son organisation demeurée relativement constante au cours des centaines de millions d’années d’évolution en font un très bon marqueur moléculaire (Hollingswoth et al. 2011) ; les génomes de plastes ont aussi la grande particularité de conserver leurs gènes ainsi que leur ordre. Dans ce projet, l’objectif est d’avoir une image plus précise de l’évolution des Viridiplantae en analysant les séquences des génomes chloroplastiques de huit membres des Chlamydomonadales. La clarification des relations évolutives des Chlamydomonadales est attendue grâce à l’utilisation de plus de données dans la reconstruction de leur arbre phylogénétique. Cette étude tient à soutenir les arbres phylogénétiques avec les données de la structure génomique telles que l’ordre des gènes, le contenu de gène et autres caractéristiques.

35

1.4.3 - Objectifs spécifiques

o Utiliser les nouvelles méthodes de séquençage haut débit paired-end pour une sélection de huit algues vertes Chlamydomonadales.

o Assembler les génomes chloroplastiques de l’étude à partir de l’assembleur Ray.

o Clarifier les positions phylogénétiques des Chlamydomonadales au travers des algues vertes séquencées.

o Inférer une phylogénie en se basant sur des méthodes probabilistes soit : le maximum de vraisemblance et l’inférence bayésienne, afin de construire une topologie.

o Analyser les caractéristiques structurales des génomes chloroplastiques à des fins de comparaisons avec des génomes d’espèces déjà connus dans la classe Chlamydomonales.

o Décrire les phénomènes de synténie entre espèces apparentées à travers l’ordre des gènes, leur partitionnement ou encore leur perte.

o Discerner la présence d’une corrélation entre les caractéristiques génomiques et la position phylogénétique des différentes espèces d’algues vertes à l’étude.

36

2 - Matériel et méthodes

2.1- Souches utilisées

Certaines des souches d’algues utilisées pour ce projet étaient déjà en culture au laboratoire, d’autres ont été commandées au centre « The Culture Collection of Algae at Goettingen University » (SAG), en Allemagne (http://www.uni-goettingen.de/en/184982.html) (Tab.2).

2.2 - Culture et extraction de l’ADN

Au laboratoire, les cultures sont transférées dans 300 ml de milieu de culture C minimal (Annexe 2) qui permet une croissance à 18°C sous un cycle de 12h de clarté et 12h d’obscurité. Après l’acquisition d’un total d’environ 2.5 litres de milieu démontrant suffisamment de densité cellulaire pour chacune des cultures, l’ensemble est centrifugé afin d’obtenir un culot. Les cellules contenues dans les culots sont gelées dans l’azote liquide puis broyées. L’extraction de l’ADN total se fait avec un protocole qui utilise une trousse commerciale : E.Z.N.A.HP Plant DNA Mini Kit de la compagnie OMEGA. Ce protocole permet aussi d’éliminer les polysaccharides qui diminuent l’efficacité des enzymes en les inhibant. Le dosage de l’ADN est quantifié par spectrophotométrie (technique qui utilise l’absorbance de l’ADN à une certaine longueur d’onde ciblée) à l’aide d’un instrument permettant la mesure de micro-volumes : « The Thermo Scientific NanoDrop™ 1000 » de la compagnie « Thermo Scientific » et des concentrations entre 50 et 100 ng/µl pour chaque culture sont distribuées au séquençage.

37

Tableau 2 - Représentant des Chlamydomonadales sélectionnés

Nakada et Clade Souche Collection al 2008(No.)

Characiosiphonia Characiochloris acuminata 17 SAG 31.95 Chlorogonia Chlorogonium capillatum 203 UTEX 11 Chlorogonia Haematococcus lacustris 343 SAG 34-1b Monadinia Chlamydomonas monadina 113 SAG 31.72 Oogamochlamydinia Oogamochlamys gigantea 382 SAG 44.91 Phacotinia Phacotus lenticularis 392 SAG 61-1 Stephanosphaerinia Stephanosphaera pluvialis 419 SAG 78-1a Stephanosphaerinia Chloromonas perforata 231 SAG 11-43

38

2.3 - Stratégie de séquençage

Le séquençage de l’ADN a été réalisé à l’aide de la technologie Illumina de type Hiseq disponible à l’Université Mc Gill (Montréal). Cette méthode utilise une approche dans laquelle l’ADN à séquencer est tout d’abord fragmenté aléatoirement par nébulisation en séquences d’environ 700 pb. Des adaptateurs sont fixés sur chaque extrémité des fragments par ligation. Les fragments sous forme simple brin sont alors figés sur une plaque de verre sur laquelle se trouvent des amorces s’hybridant avec un des adaptateurs. Une fois la préparation de la librairie terminée, les fragments sont dénaturés et soumis à un processus connu sous le nom d’« amplification en pont », de l’anglais « bridge amplification » afin de créer des grappes clonales de molécules d’ADN simple brin. Les fragments sont donc amplifiés par une réaction de PCR6 à l’aide de l’ADN polymérase qui permet la multiplication d’un fragment en plusieurs centaines de millions de fragments identiques. Pour déterminer la séquence, quatre types de bases de terminaison réversible (RT-bases) couplés à des fluorochromes sont ajoutés simultanément au mélange réactionnel. Parce que les groupes contiennent des séquences d’ADN identiques, l’ensemble du cluster est lu comme une base. Une caméra prend des images des nucléotides marqués par fluorescence ; en même temps, la terminaison 3’ bloquante est éliminée chimiquement de l’ADN et le prochain cycle peut commencer (Metzker, 2010).

En plus des informations de séquences obtenues, la technologie Illumina a permis de préparer des librairies de type « paired-end » qui apportent des informations sur la distance physique entre deux lectures (« reads ») dans le génome. Cette méthode de séquençage génère en effet deux lectures de séquençage à partir de chaque extrémité d’un fragment d’ADN unique. Ce genre de lecture fournit des données sur les deux côtés du fragment d’intérêt, de sorte qu’en observant la distance théorique entre les paires de « reads », il est possible d’estimer la distance attendue entre les « reads » pour l’assemblage final. Cependant : 10 à 20 % des paires de « reads » servant à faire la jointure sont fausses ; Il faut donc plusieurs paires de lectures pour valider une jonction (Paszkiewicz et Studholme,

6 Polymerase Chain Reaction

39

2010). Ainsi, lorsque plusieurs paires de « reads » sont présentes sur deux contigs, on peut considérer qu’elles font la jointure entre les deux contigs. Ce principe se retrouve dans les algorithmes dits de « scaffolding ».

La technologie « paired-end » est également utile pour la prise en compte des zones répétées. Lorsqu’un « read » est positionné dans une région répétée, il est difficile de le replacer sur le génome de référence ou de l’utiliser lors d’un assemblage de novo. Il est d’autant plus délicat de repérer des zones répétées quand la taille des « reads » est plus petite que la région répétée (Paszkiewicz et Studholme, 2010).

2.4 - Analyses informatiques des données de séquençage

2.4.1 - Nettoyage des données

Les fichiers récupérés (de format fastQ) sont donc des séquences issues du séquençage par la technologie Illumina. Il est essentiel avant de commencer à utiliser ces informations, d’en contrôler la qualité. Ici, sur l’ensemble des librairies Illumina, tous les fragments d’une librairie possèdent 120 bases (2 x 60) qui correspondent aux adaptateurs. Ces adaptateurs de séquençage Illumina, utilisés pour créer et séquencer les polonies, sont supprimés des données finales en utilisant le logiciel CutAdapt (Martin, 2011). L’outil Prinseq (Schmieder et Edwards, 2011) appliqué avec un seuil de qualité minimum de 28 (score de qualité « Phred » minimal autorisé par base), permet d’éliminer par la suite les bases de mauvaise qualité situées sur la fin des séquences et qui risqueraient de générer des faux SNPs. L’élimination des séquences de mauvaise qualité et des adaptateurs, invalide la structure « paired-end » des deux fichiers. Pour la suite des analyses, nous filtrons les singletons pour ne garder que les séquences pairées avec le programme Prinseq. Enfin, le logiciel Flash (Magoč et Salzberg, 2011) permet de fusionner les lectures pairées ; ce qui est une aide considérable lors de l’assemblage des génomes.

40

2.4.2 - Assemblage et annotation des génomes

C’est une approche d’assemblage de novo qui a été choisie ici. Les nombreuses lectures (Tab. 3) de 100 pb obtenues après séquençage sont tout d’abord fragmentées en séquences de longueur K (appelées K-mer) d’une valeur allant de 31 pb à 37 pb, à l’aide de l’assembleur Ray (Boisvert et al. 2012). Le logiciel Ray assure par la suite l’assemblage de novo des séquences chevauchantes en séquences sans interruption appelées îlots (« contigs »). Plusieurs contigs sont alors définis et ont été sélectionnés en fonction de leur taille. Seuls les contigs d’au moins 500 pb sont gardés pour les analyses futures. Une base de données locale disponible au laboratoire permet de comparer les différents îlots et de les traiter par comparaison de similarités avec l’outil BLAST (BLASTx et BLASTn) (Altschul et al. 1997). Cette dernière permet d’identifier les îlots qui correspondent potentiellement aux séquences chloroplastiques de l’espèce à l’étude et ainsi d’éliminer ceux identifiés comme étant mitochondriaux ou d’origine bactérienne (contaminants). De plus, en utilisant les données appariées, l’étape de « scaffolding » des contigs a pu être mise en œuvre à l’aide du logiciel SSPACE (Boetzer et al. 2010). Les îlots sélectionnés sont assemblés avec SEQUENCHER 4.7 (GeneCodes Ann Arbor, MI) qui permet l’assemblage des séquences ayant des nucléotides communs selon les critères suivant : au moins 50 pb et 90 % de similarité. Ce dernier est utilisé de concert avec CONSED (Gordon et Green, 2013) afin de visualiser les alignements des différentes lectures de séquençage et ainsi confirmer les différentes jonctions préalablement établies. Les régions codantes ainsi que les ORF d’une taille minimum de 60 nucléotides sont annotées grâce au script « FINDORF » développé dans le laboratoire (Patrick Charlebois, 2007) qui exécute trois opérations différentes : (i) Identifie les phrases ouvertes de lecture (ORF) dans une séquence nucléique en utilisant l’outil GETORF de la suite EMBOSS (Rice er al. 2000), (ii) Identifie leur produit traduit, par comparaison avec blastp et (iii) Termine par une analyse complète du génome en utilisant BLASTx et BLASTn afin de déterminer chacun des gènes présents. Le code génétique standard a été utilisé. Par la suite, les ARN de transfert sont identifiés par le programme tRNAscan-SE 1.23 (Lowe et Eddy, 1997) qui permet aussi de les positionner sur le génome. L’ensemble de ces informations est attentivement interprété dans le but d’assembler les génomes chloroplastiques des algues vertes à l’étude.

41

Tableau 3 - Assemblage des données de séquences Illumina utilisées dans cette étude

Spécimens Nombre de lectures Nombre d' îlots

Characiochloris acuminata 13228366 5 Chlorogonium capillatum 20301701 24 Haematococcus lacustris 21433447 87 Chlamydomonas monadina 24229351 77 Oogamochlamys gigantea 24407251 9 Phacotus lenticularis 19227498 3 Stephanosphaera pluvialis 21481068 81 Chloromonas perforata 18865454 30

42

Il est néanmoins nécessaire de vérifier chacune des jonctions établies lors de l’assemblage par des amplifications PCR. Toutes les amorces (oligonucléotides) dessinées à la main ont été choisies à partir de zones conservées, à l’intérieur des gènes. Selon plusieurs critères, elles doivent : avoir une taille comprise entre 20 et 27 pb, commencer et finir par les bases guanine ou cytosine de préférence, ne pas être riches en adénine, et les couples ne doivent pas former d’hétérodimères.

Le mélange réactionnel d’amplification réalisé contient du tampon 5X, des dNTP (10 mM), des amorces, une Taq polymérase et enfin de l’eau. Dans le thermocycleur, la première étape de dénaturation par chauffage est effectuée à 96°C pendant 10 secondes. Puis, l’hybridation des amorces aux extrémités des séquences recherchées se fait à 50°C durant 5 secondes. Enfin, l’élongation finale des chaines est effectuée pendant 4 minutes à 60°C. Ce cycle est répété 30 fois pour obtenir une multiplication exponentielle de la séquence d’ADN. La qualité des amplicons d’ADN a été contrôlée par migration sur gel d’agarose 0,80% coloré au bromure d’éthidium (0,25µl/ml). Les ADN des phages λ (HindIII) et ϕX174 (HaeIII) ont servi d’échelle pour estimer la taille des amplicons.

2.5 - Analyses structurales des séquences

2.5.1 - Les limites des introns

Chacune des jonctions intron/exon a été déterminée par comparaison avec des séquences alignées de gènes homologues ne possédant pas les introns recherchés. L’analyse a pu être établie à partir de divers programmes du package FASTA (Mc William et al. 2013) ou encore avec BestFit de la suite GCG (Womble, 2000). La structure secondaire très conservée des introns de groupe I comme ceux de groupe II a permis de reconstruire les introns afin d’en déterminer les extrémités de manière plus précise. De plus, il est reconnu que chez les algues vertes, plus particulièrement chez les Chlorophyceae, les sites d’insertions des introns restent conservés au cours de l’évolution ; cette approche permet de repérer plus facilement les introns des gènes conservés.

43

2.5.2 - Partitionnement et ordre des gènes

Avec l’utilisation d’un script développé dans le laboratoire (Charlebois, 2007), il a été possible de rassembler toutes les paires de gènes adjacentes présentes sur chaque brin des génomes chloroplastique de l’étude. Des groupements de gènes ont alors pu être observés dans les génomes chloroplastiques; chacun d’entre eux ont été encodé dans une matrice binaire selon leur présence ou leur absence. Dès lors une reconstruction de type « Dollo parsimony » utilisant une matrice de paire de gènes a été établie à partir du programme « Dollop » du paquet PHYLIP (Phylogeny inference package) qui est basé sur le fait que les caractères qui ont été perdus au cours de l’évolution à l’intérieur d’une lignée, ne peuvent être regagnés (Rogozin et al. 2006). Cette méthode estime une phylogénie par des critères de parcimonie pour des données transcrites en deux états : 0 et 1 (absence/présence). Le logiciel MacClade (Maddison et Maddison, 2000) permet par la suite une visualisation de l’évolution de ces caractères.

A l’aide du serveur web « GRIMM », le nombre minimal de réarrangement par inversion a pu être estimé entre les différents taxa. Par comparaisons des paires des génomes chloroplastiques, les différents réarrangements génomiques sont alors présumés (Tesler, 2002). C’est à partir d’une matrice de 14 taxa et 83 gènes (Tab. 4) que les calculs de distances entre les taxa ont été évalués sur la base du phénomène des inversions. La matrice complète du nombre d’inversion est présentée à l’annexe 3. Cette dernière est utilisée pour calculer les longueurs de branches à partir du programme Fitch compris dans le paquet Phylip (Felsenstein, 1989).

Une analyse phylogénétique à partir du même jeu de donnée qu’utilisé précédemment (Tab. 4), a pu être calculée avec BADGER 1.02b (Simon, 2011). Ce programme utilise une approche bayésienne. Un total de 30 chaines de 10 000 cycles ont été exécutées.

44

Tableau 4 - Gènes utilisés pour les analyses d'ordre de gène

Catégories Nom des gènes

Photosynthèse atpA, E, F, H, I petB, D(a,b), G, L psaA(a,b), B, C(a,b), J psbA, B, C, D, E, F, H, I, J, K, L, M, N, T, Z

Traduction rpl2, 5, 14, 16, 20, 23, 26 rps2, 3, 4, 7, 8, 9, 11, 12, 14, 18, 19 tufA

Divers ccsA cemA clpP ftsH rbcL(a,b,c)

ycf ycf1, 3, 4, 12

ARNr rrf, rrl, rrs

ARNt A(ugc), C(gca), D(guc), E(uuc), F(gaa), G(ucc), H(gug), I(gau), K(uuu), L(uaa), L(uag), Me(cau), Mf(cau),N(guu), P(ugg) Q(uug), R(ucu), R(acg), S(gcu), S(uga), T(ugu), V(uac), W(cca), Y(gua)

!

45

2.5.3 - Détection des séquences répétées

Afin d’estimer la proportion des séquences répétées présentes dans les génomes chloroplastiques séquencés, ces séquences ont été identifiées à l’aide de l’outil REPFIND de la suite REPuter 2.74 (Kurtz et al. 2001) avec les options -f (directe) -p (palindromique) -l 30 (longueur ≥ 30 pb) -allmax. Puis ces répétitions ont été masquées par le logiciel REPEATMASKER (Smit et al. 2008-2013). Ce dernier permet de caractériser les répétitions simples en tandem, mais aussi les répétitions dispersées dans le génome.

2.6 - Reconstruction phylogénétique

Les analyses phylogénétiques ont été produites à partir d’un ensemble de données nucléotidiques et protéiques provenant des génomes chloroplastiques de 37 taxa (4 espèces appartenant aux Ulvophyceae, 5 au groupe OCC, 6 aux Sphaeropleales et enfin 23 chez les Chlamydomonadales) (Annexe 1). L’ensemble des gènes chloroplastiques codant pour des protéines a été utilisé pour ces analyses, soit 65 gènes (Tab. 5). Les séquences homologues, aussi bien protéiques que nucléotidiques, ont été alignées à l’aide du logiciel d’alignement multiples MUSCLE (Edgar, 2004). Afin de minimiser les impacts apportés par les saturations des mutations, nous avons utilisé une matrice encodée selon le code génétique dégénéré (Regier et al. 2010). L’alignement des acides aminés a donc été converti en un alignement de codon. Une étape de filtration est ensuite réalisée afin d’éliminer les régions divergentes et faiblement alignées. Le programme GBLOCKS est utilisé à cette fin afin de tenir compte de la dégénerescence du code génétique (Castresana, 2000). Une matrice complète de 38441 sites est alors générée.

2.6.1 - Méthode de maximum de vraisemblance

La méthode de maximum de vraisemblance évalue différentes hypothèses évolutives, en terme de probabilité pour un modèle de distance évolutive donné. L’arbre obtenu est donc celui qui possède la meilleure probabilité d’expliquer les données. Afin de choisir le modèle d’évolution le plus représentatif du jeu de données nucléotidiques, le logiciel

46

Jmodeltest (Posad, 2008) a été employé. Ainsi, le modèle GTR7 sélectionné représente le modèle le plus général (Yang, 1994) et autorise des taux différents pour les six types de substitutions. Aussi ce dernier modèle s’accompagne de fréquences en A, C, G et T propres à chaque nucléotide pour ainsi évaluer les vitesses de substitutions pour tous les changements possibles entres les bases dans les différents gènes. Les séquences alignées ont alors été utilisées pour estimer une phylogénie de type maximum de vraisemblance (ML) à partir du logiciel RAxML (Stamatakis, 2014) selon le modèle GTR + Γ4 + I .

Les arbres obtenus sont analysés pour mesurer la robustesse de l’hypothèse évolutive sélectionnée. La pertinence des nœuds internes est déterminée par une méthode de ré- échantillonnage : le bootstrap. Le jeu de données initial est alors à nouveau échantillonné pour en constituer un différent pour chaque réplica de bootstrap. Cette valeur correspond au pourcentage d’arbres inférés où le nœud existe. Pour une meilleure résolution, 1000 répliques bootstraps ont été inférées et cartographiées sur l’arbre avec le meilleur score parmi les 1000 générés aléatoirement.

2.6.2 - Méthode bayésienne

La méthode bayésienne est basée sur la distribution des probabilités postérieures des arbres suivant un modèle choisi. À l’inverse de la méthode précédente (Maximum de vraisemblance), les probabilités du modèle sont évaluées en fonction des données. Cette approche permet donc le calcul des probabilités postérieures des arbres phylogénétiques à travers les méthodes statistiques connues sous le nom de « chaîne de Markov » avec les techniques de Monte Carlo (MCMC « Markov Chain Monte Carlo »).

Dans le but de représenter au mieux les alignements protéiques, les analyses phylogénétiques de protéines on été effectuées selon le même modèle d’évolution que les analyses ML (RAxML). Les calculs ont été effectués à partir du programme PHYLOBAYES 3.3 (Lartillot et al. 2009). Ce dernier utilise le modèle CAT pour les

7 General Time Reversible

47

analyses de protéines; ce modèle probabiliste permet de prendre en compte l’hétérogénéité substitutionnelle; autrement dit, il équivaut à un modèle où chaque site aurait son propre profil de distribution. Une validation croisée à partir du logiciel ProtTest (Darriba et al. 2011) a confirmé l’utilisation du modèle de substitution.

À partir de l’alignement basé sur celui des séquences traduites, nous avons construit 100 répliques bootstraps à l’aide du module SEQBOOT du package PHYLIP v3.69 (Felsenstein, 1989). Un total de 2000 cycles est réalisé pour chaque réplique. Afin d’éviter les « burn-in », seules les 1500 dernières chaines ont été gardées pour la production de l’arbre consensus. Ce dernier a été reconstruit à partir du module « consence » de la suite PHYLIP (Felsenstein, 1989).

Quatre gènes dont une partie de leurs séquences est manquante n’ont pu être extraits entièrement chez Haematococcus lacustris, Stephanosphaera pluvialis et Chlamydomonas monadina ont été retirés de l’analyse entière pour éviter les ambigüités : rpoC1, rpoC2, rpoA et rpoB. Ces gènes responsables de la transcription sont donc absents des études phylogénétiques (Tab. 5).

2.6.3 - Méthode « Neighbor-Joining »

Cette méthode phylogénétique permet l’obtention d’arbres très rapidement. Cette dernière (aussi appelée méthode des distances) est fondée sur l’alignement multiple et le calcul des distances entre les espèces. La topologie de l’arbre consiste à calculer les longueurs de branche, en recherchant l’arbre minimisant la somme des longueurs des branches; c’est une approximation du minimum d’évolution (Saitou et Nei, 1987). Cette méthode offre de bons résultats pour des séquences de fortes similitudes. Cette analyse utilisée pour plusieurs des figures dans ce travail a été construite à partir du « package ape » utilisable dans le langage de programmation R (Paradis et al. 2004). À partir de l’alignement multiple des séquences d’ADN, la fonction « dist.dna() » permet le calcul d’une matrice de distance par paires. Le modèle de substitution par défaut (K80) a été utilisé ici. Celui-ci permet deux sortes de substitutions : les transitions (A <-> G, C <->

48

T), et les transversions (A <-> C, A <-> T, C <-> G, G <-> T). Enfin, la construction de l’arbre phylogénétique qui utilise donc l’algorithme « Neighbor-Joining » a été établie à partir de la fonction « nj() » du « package ape ». L’ensemble est visualisé avec la fonction « plot.phylo() » .

49

Tableau 5 - Ensemble des gènes utilisés pour les analyses phylogénétiques

Catégories Nom des gènes

Photosynthèse atpA,E,F,H,I petB,D,G,L psaA,B,C,J psbA,B,C,D,E,F,H,I,J,K,L,M,N,T,Z

Traduction rpl2,5,14,16,20,23,26 rps2,3,4,7,8,9,11,12,14,18,19 tufA

Divers ccsA cemA clpP ftsH rbcL

ycf ycf1,3,4,12

50

3 - Résultats

3.1 - Généralité des génomes chloroplastiques

Seuls les génomes chloroplastiques de Phacotus lenticularis, Characiochloris acuminata, Oogamochlamis gigantea ont pu être entièrement assemblés. Le génome Chloromonas perforata n’a pas pu être fermé avec assurance et un total de 100 nucléotides « N » a été estimé pour compléter le génome chloroplastique. Concernant l’algue verte Chlorogonium capillatum, son génome chloroplastique n’est que partiellement assemblé (un total de 4 contigs) et ne pourra donc pas participer à toutes les analyses ; il en est de même pour Haematococcus lacustris, Stephanosphaera pluvialis et Chlamydomonas monadina, dont l’assemblage de leur génome a été trop fastidieux en raison d’un trop grand nombre de contigs. Néanmoins, il a été possible d’en extraire les gènes et de les inclure dans les analyses phylogénétiques.

3.1.1 - Des génomes chloroplastiques conservés

Les quatre génomes intégralement assemblés, présentent les caractéristiques très communes des génomes chloroplastiques connus. Composés d’une simple molécule circulaire à double brin, ils démontrent la structure quadripartite typique de la plupart des Chlorophyceae : la grande copie unique (LSC), la petite copie unique (SSC) ainsi que les deux régions inversées répétées (IRA et IRB) (Fig. 11-15). Bien que le génome chloroplastique de l’algue verte Chlorogonium capillatum n’ait pu être complètement fermé, les contigs montrent la présence de deux IR. En raison du grand nombre de contigs obtenu lors de l’assemblage de novo, il est impossible de confirmer la configuration circulaire des génomes chloroplastiques des algues Haematococcus lacustris, Stephanosphaera pluvialis et Chlamydomonas monadina.

51

Les génomes cytoplasmiques étant haploïdes et existent en plusieurs copies, on en mesure la taille en raisonnant en nombre total de paires de bases. Il est par ailleurs reconnu que la taille des génomes et la complexité structurelle des organismes ne sont pas strictement corrélés, ni même avec le nombre de gènes. Les algues à l’étude présentent une variabilité de taille de génome très importante. Leur taille varie entre 197,180 pb (Characiochloris acuminata) et 271,974 pb (Chloromonas perforata) (Tab.6). Ce qui représente déjà le double pour ce dernier. Ces variations se retrouvent aussi à l’échelle des ordres. En effet, dans le groupe des OCC, le génome de Floydiella terrestris avoisine les 520 kb (Chaetopeltidales) (Brouard et al. 2010), ou bien celui de Stigeoclonium helveticum proche de 223 kb (Bélanger et al. 2006) sont parmi les plus gros génomes répertoriés chez les Chlorophyceae. L’ensemble des génomes assemblés possède une taille attendue pour la classe Chlamydomonadales. Le génome de Volvox carteri déjà connu reste étonnamment gros avec sa taille de 462,363 pb (Smith et Lee, 2009). Les tailles des régions LSC et SSC apparaissent ici comme difficilement comparables (Tab.6). Mais chez la classe Chlorophyceae, ces régions sont si peu distinguables qu’elles sont simplement nommées SC1 et SC2. Comparativement, chez les algues plus ancestrales où les deux régions se discernent très bien à l’instar de Oltmannsiellopsis viridis (Pombert et al. 2006).

La taille de l’IR reste généralement constante chez les Chlorophyceae. Parmi les algues séquencées, on retrouve une faible variation de la taille de cette région, entre 14 et 19 kb (Tab.6). Le génome chloroplastique se différencie aussi du génome nucléaire par sa composition en bases. Dans le cas du plastome, le contenu en base Adénine/Thymine (% AT) est très élevé, excédant plus de 60 % de la totalité du génome. C’est une particularité observée depuis bien longtemps chez diverses espèces des Chlorophyceae avec notamment le génome chloroplastique de Chlamydomonas reinhardtii (65,4% A+T) (Maul et al. 2002).

52

Tableau 6 - Caractéristiques des génomes chloroplastiques séquencés

Génomes Taille génome (kbp) SC1 (kbp) SC2 (kbp) IR (kbp) Contenu AT (%)

Génomes complets C. acuminata 197.180 90.730 77.982 14.234 63 P. lenticularis 203.369 91.113 73.274 19.491 67 O. gigantea 254.077 108.338 114.955 15.391 65

Génomes incomplets C. perforata 271.974 129.774 107.562 17.319 63 C. capilatum * 270.225 _ _ _ 65 * L’assemblage n’ayant pu être finalisé, les résultats présentés ici sont seulement approximatifs et probablement sous-estimés.

53

3.1.2 - Facteurs responsable de variation

3.1.2.1 - Les séquences intergéniques

Les variations de la taille des génomes sont en partie dues aux variations de taille des régions intergéniques. Ces dernières fluctuent d’un génome à l’autre sans laisser de conformité propre à une famille d’algue. La figure 8 tient à présenter cependant l’importance de ces régions dans les génomes chloroplastiques (Fig. 8). À des fins de comparaison, plusieurs algues vertes de l’ordre Chlamydomonadales ainsi que certaines du groupe Sphaeropleales ont été ajoutées à la figure. On remarque que les zones codantes ne représentent qu’une faible proportion des génomes et leur taille reste constante à travers les différents génomes d’algues vertes. La région intergénique est celle qui démarque les génomes entre eux par leur taille. Parmi les espèces de cette étude, cette région n’est pas très volumineuse comparée au génome chloroplastique de Volvox carteri chez les Chlamydomonadales. Néanmoins, Chloromonas perforata possède une région intergénique bien distinguable en terme de taille de sa partie codante. De même, pour le génome de Chlorogonium capillatum bien qu’il ne soit qu’approximatif (Fig. 8).

54

Figure 8 - Ampleur des génomes chloroplastiques de quelques représentants de la classe Chlorophyceae

Le génome du chloroplaste peut être divisé en trois catégories fonctionnelles : (1) les séquences codantes (gènes codant pour des protéines, ARNt et ARNr), (2) les introns, et (3) les entretoises intergéniques. Ces deux derniers ne codent pour aucune protéine et représentent les régions non codantes. Une couleur différente est associée à ces sous ensembles. En gras sont mises en avant les algues de l’étude. Pour la figure, une simple analyse heuristique Neighbor-Joining (NJ) a été réalisée pour une meilleure visualisation comparative. Les données concernant le génome de Chloromonas capillatum sont seulement approximées.

55

3.1.2.2 - Les introns

Chez certains gènes, la séquence est interrompue par des séquences non codantes : les introns. La figure 8 montre qu’ils représentent une faible proportion du génome chloroplastique. Au travers des génomes chloroplastiques de cette étude, on observe une grande diversité quant à la distribution des introns (Fig. 9). De nombreux gènes sont porteurs d’introns chez les Chlamydomonadales mais il est possible de remarquer une certaine prédisposition pour le gène psbA à posséder des introns de groupe I. En effet, on retrouve systématiquement au moins un intron chez ce gène dans les souches à l’étude. D’autre part, le gène psaA conserve les mêmes introns de groupe II trans-épissés pour l’ensemble des Chlamydononadales présenté ici dans la figure 9. Il est intéressant de noter l’importance de la présence de nombreux ORF introniques de fonction parfois inconnue qui sera étudiée dans une prochaine section (voir section 3.1.2.2.2).

Manifestement, le nombre d’introns de groupe I présents domine largement celui de ceux du groupe II. Nettement mis en évidence dans la figure 10, ce phénomène est vraisemblablement observable chez la majeure partie des Chlorophyceae représentés dans ce graphique (Fig. 10). Il est bien connu que les génomes de chloroplaste de Chlamydomonadales sont une excellente source d’introns de groupe I (Odom et al. 2004). La variation intronique retrouvée dans l’ensemble des Chlorophyceae est telle qu’il n’y a aucune possibilité d’établir une corrélation entre le nombre d’introns et un ordre en particulier chez les Chlorophyceae. En effet, on retrouve autant de génomes à peu d’introns chez les Chlamydomonadales à l’instar du génome chloroplastique de Chlamydomonas reihnhardtii (7 introns) que des génomes beaucoup plus garnis en introns dans le même ordre avec celui de Dunaliella salina (24 introns) (Fig. 10). De même chez les Sphaeropleales où l’on dénombre 22 introns dans le génome de Golenkinia longispicula comparativement aux dix retrouvés chez l’algue Bracteacoccus giganteus. Les algues de notre étude ne font pas exception avec le génome de Oogamochlamys gigantea qui se distingue des autres algues vertes séquencées avec ses 19 introns. Parmi les autres, elles semblent se tenir dans la moyenne possédant entre 6 et 9 introns.

56

3.1.2.2.1 - Les sites introniques

Malgré la quantité de données sur les structures génomiques, la signification physiologique des structures individuelles telles que la conservation des sites d’insertions d’introns est encore insaisissable. Pourtant son importance a été largement considérée avec les premières théories supposant que les introns avaient été perdus chez les procaryotes mais restaient persistants chez les eucaryotes en participant au brassage des exons (Gilbert, 1987).

Remis dans un contexte plus large en incluant un ensemble de Chlorophyceae, les figures présentées en annexes (Annexes 4 et 5) retracent les sites introniques des groupes I et II. On remarque la grande variabilité de sites d’insertions d’introns de groupe I qu’offrent la majorité des algues vertes. L’ensemble est répertorié selon les positions des introns retrouvées chez l’algue Mesostigma viride. Certains sites d’insertions sont récurrents ; notamment le site chez l’ARN de transfert trnL(uaa) que l’on retrouve particulièrement chez les algues des groupe OCC et Sphaeropleales mais qui est absent pour l’ensemble des algues de l’étude (Chlamydomonadales).

En outre, de nombreux introns sont couramment retrouvés chez le gène psbC et rrl, avec une grande diversité de sites d’insertion. De nouveaux sites sont néanmoins répertoriés notamment dans l’algue Oogamochlamys gigantea qui possède 19 introns : à l’intérieur du gène petB, à la position 423, se trouve un nouveau site intronique. De même, plusieurs sites sont reconnus chez le gène psaA et rbcL (Annexe 4). En revanche, chez les introns de groupe II qui sont beaucoup moins nombreux, on remarque au moins un marqueur évolutif du groupe OCC avec la présence systématique du site d’insertion 25 chez le gène psaC (Turmel et al. 2008; Brouard et al. 2010). De plus, le site dans le gène petD à la position 4, semble aussi être spécifique au groupe OCC. Largement marqué par les introns de groupe II, le gène psaA apparaît dans chaque ordre et ne peut cependant être un indicateur de groupe en particulier (Annexe 4).

57

3.1.2.2.2 - Les ORF introniques

Il est aussi retrouvé chez ces génomes chloroplastiques, un certain nombre d’ORF. Ces derniers peuvent être présents à l’intérieur des introns de plusieurs gènes ou bien être des ORF libres (Tab. 7). Ces protéines ancrées dans les introns sont pour la plupart nommées « homing endonuclease » et possèdent des motifs conservés permettant de les reconnaitre. La nature des motifs conservés dans ces cadres de lecture sont variables et appartiennent à différentes familles ; les endonucléases aux motifs LAGLIDADG et GIY YIG sont en majorité retrouvées dans les génomes assemblés. Le génome de Characiochloris acuminata a la particularité de posséder seulement deux ORF introniques, dans la région inversée répétée à l’intérieur du premier et du troisième intron du gène rrl (23S). À l’inverse, le génome chloroplastique de l’algue verte Oogamochlamys gigantea répertorie 13 ORF de différentes natures (Fig. 7). Ces insertions ne sont pas très étendues, allant de 137 acides aminés chez le génome de Phocotus lenticularis à 557 acides aminés retrouvés dans le gène psbC du génome chloroplastique de Chloromonas perforata. Par ailleurs, ce dernier possède un ORF de nature moins courante, notamment une transcriptase inverse. Bien que plusieurs ORF partagent les mêmes motifs, aucun ORF semblable n’est retrouvé dans des génomes chloroplastiques différents. On remarquera que pour la majorité, les intégrations des ORF se font à l’intérieur des introns de groupe I (Fig. 9) avec une homologie préférentielle pour les motifs conservés d’endonucléases « homing ».

Certains ORF, sont dits libres et ne se retrouvent pas insérés à l’intérieur d’un intron. Ils ne font donc pas partis du contenu génique. C’est le cas chez l’algue verte Phacotus lenticularis qui en possède trois ou bien deux autres chez Oogamochlamys gigantea. Parmi les ORF introniques, on en trouve chez le génome chloroplastique de Chloromonas perforata de plus de 500 paires de bases. Celui - ci code en partie pour une maturase que l’on retrouve typiquement dans les intron de groupe II comme ici dans le gène psbC.

58

Intron groupe I sans ORF Intron groupe I avec ORF Intron groupe II sans ORF Intron groupe II avec ORF Intron groupe II trans- épissés

Figure 9 - Distribution des introns de groupe I et II au sein des génomes séquencés

Les cercles démontrent la présence d’introns de groupe I alors que les carrés signifient la présence d’introns de groupe II. Les introns trans-épissés sont démarqués avec une croix à l’intérieur d’un carré. Un symbole plein cherche à représenter les introns possédants des ORF contrairement aux symboles vides. Ici, les sites d’insertions des introns à l’intérieur des gènes sont déduits par rapport aux gènes correspondants dans le génome chloroplastique de l’algue Mesostigma viride. Les introns des régions rrs et rrl sont évalués selon Escherichia coli (ARNr 16S et 23S respectivement). P.l : Phacotus lenticularis; C.a : Characiochloris acuminata; C.p : Chloromonas perforata; O.g : Oogamochlamys gigantea; C.c : Chlorogonium capillatum.

59

19 13 21 17 13 17 13 12 3 5 5 6 5 9 5 4 7 6 5 5 4 4 3 3 2 3 3332

OCC S CHLAMYDOMONADALES

Figure 10 - Représentation graphique du nombre d’intron chez les Chlorophyceae.

Sont mis en évidence ici, les introns de groupe I en rouge et ceux de groupe II en gris. Le nombre de chacun d’entre eux est indiqué en gras à l’intérieur des colonnes correspondantes. Une majeure partie des Chlorophyceae est représentée ici avec le groupe OCC, les Sphaeropleales et les Chlamydomonadales. O.c : Oedogonium cardiacum; F.t : Floydiella terrestris; G.l : Golenkinia longispicula; B.g : Bracteacoccus giganteus; C.m : Chlamydomonas moewusii; D.s: Dunaliella salina; V.c: Volvox carteri; C.r : Chlamydomonas reinhardtii; C.a : Chlamydomonas applanata (anciènement Chalamydomonas humicola); H.l : Hafniomonas laevis; P.l : Phacotus lenticularis; C.a : Characiochloris acuminata; C.p : Chloromonas perforata; O.g : Oogamochlamys gigantea; C.c : Chlorogonium capillatum.

60

3.1.3 - Composition des génomes chloroplastiques

3.1.3.1 - Les gènes

Chaque génome héberge près de 100 gènes incluant plus ou moins 69 gènes codant pour des protéines, une trentaine d’ARN de transfert (ARNt) et 3 gènes ribosomaux (ARNr). L’ensemble est représenté sous forme de cartes géniques pour chacun des génomes assemblés (Fig.11, 12, 13 et 14). La composition des génomes chloroplastiques ne varie que très peu entre les différentes espèces. En effet, parmi les algues à l’étude, on remarque qu’elles possèdent toutes le même répertoire de gènes très conservé. Nous notons seulement une différence de un ou plusieurs gènes manquants chez certaines espèces (Fig. 15). On sitera de même, le gène trans-épissé rpl32 qui ne se retrouve pas chez toutes les espèces. Concernant les algues Chloromonas monadina et Stephanosphaerinia pluvialis, n’ayant pu voir assembler leurs génomes chloroplastiques, les gènes non répertoriés dans ce travail n’annoncent aucunement leur abscence et donc aucun résultat représentatif de leur contenu en gène ne peut être présenté ici. Ces résultats ne sont qu’approximatifs et probablement sous évalués.

Les ARNt codés par chacun des génomes peuvent lire tous les codons du code génétique. Au sein des génomes de chloroplaste, l’initiation de la traduction débute par la formation d’un complexe de pré initiation composé de la sous unité 30S ribosomale et de l’ARN de transfert initiateur (ARNt) qui sélectionne le site d’initiation de la traduction dans l’ARNm. L’usage du codon AUG est standard et plus rare, les alignements de protéines suggèrent que le codon GUG (valine) peut servir de codon d’initiation de traduction (Sugiura et al. 1998). Ce codon est notamment retrouvé, dans plusieurs des algues de cette étude, dans les gènes : rps2 (Chlamydomonas monadina), psbC ou bien petA pour l’ensemble des autres algues.

61

Comme répertoriés dans la figure 16, certains des ARN de transfert communément analysés dans les génomes de chloroplaste ont été perdus au cours de l’évolution (Fig. 16). Un grand manque est identifié chez les algues Chlamydomonadales que l’on retrouve compensé par un apport cytoplasmique (Schneider, 2011). Aussi il est reconnu qu’un même ARNt pourrait décodé plusieurs codons pour un même acide aminé (Schneider, 2011).

Néanmoins, à partir des gènes codant pour de protéines, plusieurs pertes de ces gènes sont des marques de reconnaissance pour différents clades. Notamment l’absence du gène petA chez les membres du groupe OCC, psaM chez les clades CS ou bien encore le manque du gène infA systématique dans la lignée des Chlamydomonadales. Ces gènes uniques et signatures des groupes OCC et CS ont été rapportés dans la littérature (Brouard et al. 2010). La figure 17 permet de visualiser l’ensemble des pertes connues à ce jour (Fig. 17). Ces résultats sont davantage exploitables pour établir à partir de caractères structuraux une véritable relation évolutive entre différentes espèces.

62

Tableau 7 - Contenu en ORF des génomes assemblés

Génomes Longueur Motifs conservés Gènes hôtes (a.a) d'endonucléase C.#acuminata 138 $LAGLIDADG rrl 152 $LAGLIDADG rrl$ P.#lenticularis 382 $GIY$YIG ORF$libre 232 $GIY$YIG ORF$libre 448 $protéine$hypothétique rrs 137 $LAGLIDADG rrl$ 440 $HNH$ ORF$libre 181 $HNH$ psbA

O.#gigantea 197 $GIY$YIG psbC$ 221 $GIY$YIG psbC$ 554 $HNH$ ORF$libre 207 $GIY$YIG psbA 257 $GIY$YIG rbcL 344 $LAGLIDADG psaA 404 $LAGLIDADG psaA 357 $LAGLIDADG psbB 405 $GIY$YIG ORF$libre 301 $LAGLIDADG psaB 275 $LAGLIDADG atpA 170 $ADN$endonucléase$ psbD 263 $ADN$endonucléase$ psbD

C.#perforata 280 $GIY$YIG psbC 176 $GIY$YIG psbC 201 $HNH$ psbD 271 $HNH$ rbcL 302 $HNH$ psbA 120 $GIY$YIG psbA 577 $transcriptase$inverse psbB $maturase$et$HNH

63

trnP(ugg) trnE(uuc) trnF(gaa)

trnN(guu)

psaA tufA psaC

petL

trnV(uac)

psaA atpB rps19 rp rpoC1

psbJ rpl23 l2 rpl32 atpI psaJ petA rps12 petD rpl16 (ugu) chlB

rps4 rpl20 trn trnR(ucu) rpl32 rps8 trnR(acg) trnM trnT (gca) G psbK 4 psbD trnS(uga) (cca) (gcc) 5 f(cau LSC trnC rpl1 rpl ycf1 trnW 6 trnG(ucc) petB ) rpl3

atpA ftsH

orf382

orf232 psbC psbI trnH(gug)chlL cem ) A trnL(uag trnI(cau) clpP trnI(cau) rrs Phacotus lenticularis orf448 rrs orf448 chloroplast genome

I

R

B

A

R 203,369 bp I trnI(gau) trnA(ugc)

orf137rrl trnI(gau) trnA(ugc)

rrl rrf orf137 rrf rrf psbF psbL rrf pet atpF atpE G rps7 atpH rps14 psbM photosystem I rps3 photosystem II cytochrome b/f complex psbZ ccsA rpoC2 orf181psbA ATP synthase B ) trnL(uaa) u NADH dehydrogenase psa u SSC (u RubisCO large subunit K trnQ(uug) trnMe(cau) trn RNA polymerase A o ribosomal proteins (SSU) rp ribosomal proteins (LSU) psbN ) chlN b clpP, matK other genes rpoB ycf3 trnY(gua rpoBa ycf hypothetical chloroplast reading frames orf440 rps9 4 ) ORFs rps11 ycf12 (gcu transfer RNAs S psbB trnD(guc) trn ribosomal RNAs rps2 rps18 psbE trnE(uuc) psaA psbH origin of replication psbT

introns rbcL polycistronic transcripts

Figure 11 - Représentation du génome chloroplastique de l'algue Phacotus lenticularis

Cette carte physique met en avant les quatre grandes régions du génome : les deux copies de la répétition inversée (IRA et IRB) ainsi que les grandes et les petites régions à copie unique (LSC et SSC). Les flèches représentent la direction de la transcription. Les gènes sont donc transcrits à l’intérieur du cercle dans le sens des aiguilles d’une montre et à l’extérieur dans le sens antihoraire. Un code couleur associe chaque gène à sa fonction. La zone intérieure indique la teneur en bases G+C du génome chloroplastique. La zone intérieure indique la teneur en bases G+C du génome chloroplastique.

64

)

(cca

trnW trnG(ucc) psbK trnC(gca)

trnR(acg) rpl32 (gcc) trnT(ugu)

cem

atpA

psbI rps4 rpl23 trnG

rps19 rpl2 A

rpl20 au) a tp

B trnI(c

clpP lL trnL(uag) ch ftsH

trnS(uga) trnH(gug) trnE(uuc)rpl36 psbC

pet B psbD

psaCpetL psaA LSC trnMf(cau) trnF(gaa) trnV(uac)tufA psbJ psaA atpI trnP(ugg) trnN(guu) rps8 psaJ rpl5 rps12 rpl14 rpoC1 rpl16

petA

petD trnR(ucu) ycf1 chlB

rrs Characiochloris acuminata trnI(gau) rrs trnA(ugc) trnI(gau) trnA(ugc) chloroplast genome rrl I rrl R B orf138

A

orf138 R I orf152 orf152 197,180 bp rrf rrf

psbA psbA trnS(gcu) ycf12 rpoA trnK(uuu) atpF trnMe(cau)

chlN

atpH trnL(uaa) trnD(guc) ycf3 rps2 photosystem I 4 photosystem II ycf psbE rps18 rps9 trnE(uuc) psbH cytochrome b/f complex psbT SSC

ATP synthase psaA NADH dehydrogenase psbL atpE psbF RubisCO large subunit psbB rpoB rps7

RNA polymerase trnY(gua) rps14 rbcL trnQ(uug) rpoB a psbM ribosomal proteins (SSU) petG rps3 psaB b psbZ ribosomal proteins (LSU) psbN

rps11 ccsA

clpP, matK rpoC2 other genes hypothetical chloroplast reading frames ORFs transfer RNAs ribosomal RNAs origin of replication introns polycistronic transcripts

Figure 12 - Représentation du génome chloroplastique de l'algue Characiochloris acuminata

Cette carte physique met en avant les quatre régions du génome : les deux copies de la répétition inversée (IRA et IRB) ainsi que les grandes et les petites régions à copie unique (LSC et SSC). Les flèches représentent la direction de la transcription. Les gènes sont donc transcrits à l’intérieur du cercle dans le sens des aiguilles d’une montre et à l’extérieur dans le sens antihoraire. Un code couleur associe chaque gène à sa fonction. La zone intérieure indique la teneur en bases G+C du génome chloroplastique.

65

psbL psbF

rps3

rpoC2

petG

psbN orf404psaA

a orf34 B

4 rpo rpoBb rpoA

e(cau) psbErps9 ycf4 psbH trnE(uuc) psbT trnM ycf3 psbB orf357 orf405 rps18 LSC rps2 trnD(guc) psbZ orf257 psbM ccsA rbcL trnL(uaa) rps14

rps7 psbI atpE cemA trnK(uuu) trnQ(uug) orf301 ycf12 atpH trnY(gua) psaB atpF chlN rps11 trnS(gga) trnS(gcu)

orf207 psbA orf207

psbA Oogamochlamys gigantea

I R

B trnL(caa)

trnL(caa) A

R rrf rrf I rrl chloroplast genome rrl trnA(ugc) trnI(gau) trnA(ugc) trnI(gau) rrs 254,077 bp rrs rps19 trnH(gug) rpl2 chlB trnC(gca) rpl23 trnR(ucg) rpl20 trnR(acg) trnW(cca) psaA psbK trnG(ucc) trnS(uga) atpA trnT(ugu) orf554 trnR(ucu) orf275

B orf221 7 atp psbC9 rf1 trnI(cau) ORF170 o trnG(gcc) psbD orf263 photosystem I trnMf(cau) trnN photosystem II pet (guu) A cytochrome b/f complex SSC rpoC1 ATP synthase L ftsH trnF(gaa) 8 pet NADH dehydrogenase psaC rps rpl5 RubisCO large subunit rpl14 rpl16 rps4 RNA polymerase tufA rps12 psaJ pet ribosomal proteins (SSU) pet B

psa ribosomal proteins (LSU) D ycf1 A trnV(uac)

atpI clpP, matK psbJ trn clpP P other genes (ug chlL g hypothetical chloroplast reading frames ) ORFs trnL(uag) transfer RNAs rpl36 ribosomal RNAs origin of replication introns polycistronic transcripts

Figure 13 - Représentation du génome chloroplastique de l'algue Oogamochlamys gigantea

Cette carte physique met en avant les quatre grandes régions du génome : les deux copies de la répétition inversée (IRA et IRB) ainsi que les grandes et les petites régions à copie unique (LSC et SSC). Les flèches représentent la direction de la transcription. Les gènes sont donc transcrits à l’intérieur du cercle dans le sens des aiguilles d’une montre et à l’extérieur dans le sens antihoraire. Un code couleur associe chaque gène à sa fonction. La zone intérieure indique la teneur en bases G+C du génome chloroplastique.

66

orf176

orf280

fts

H

atpB

rps19 rpl2 rpl23

psbC trnV(uac) tufA rpl36 petB trnH(gug) trnN(guu) rps12 trnM orf201 psaJ trnF(gaa) f(cau chl atpI

L psbJ trnR(acg) trnL(uag)psaC ) psbD trnT(ugu) psaAb petL ) c u trnL(caa) rps4 trnC(gca) trnS(uga) E(u

trn trnG(ucc)psbK trnW(cca) clp P (gcc) trnG psaAa LSC rps8 l5 rpl20 rp atp A psbI trnI(cau) rpl14

rpl16 cem A trnP(ugg)

rpoC1

petA ycf1 petD trnR(ucu)

chlB Chloromonas perforata

rrs rrs trnI(gau) chloroplast genome trnI(gau) trnA(ugc) trnA(ugc)

I

R

B

A R rrl I rrl 271,974 bp rrf rrf trnL(caa) trnL(caa)

rbcL orf271 trnL(uaa) trnQ(uug) ycf3 C2 rpo ycf4 rps9

trnY(gua) psb rps3 psbL N atpF ps psbF rps11 trnE(uucbE ) petG photosystem I SSC atpH psbH photosystem II psbT

cytochrome b/f complex psbB ATP synthase NADH dehydrogenase orf577 RubisCO large subunit RNA polymerase trnD(guc) rpoBa ribosomal proteins (SSU) rps2

ribosomal proteins (LSU) rps18 rpoBb trnS(gcu) clpP, matK chl

other genes psbA N ycf12 hypothetical chloroplast reading frames (ycf) psaB rpoA ccsA

psbZ

ORFs psbM

orf302 transfer RNAs psaAc orf120

trnMe(cau) trnK(uuu) ribosomal RNAs

rps7

atpE origin of replication rps14 introns polycistronic transcripts

Figure 14 - Représentation du génome chloroplastique de l'algue Chloromonas perforata

Cette carte physique met en avant les quatre grandes régions du génome : les deux copies de la répétition inversée (IRA et IRB) ainsi que les grandes et les petites régions à copie unique (LSC et SSC). Les gènes sont transcrits à l’intérieur du cercle dans le sens des aiguilles d’une montre et à l’extérieur dans le sens antihoraire. Un code couleur associe chaque gène à sa fonction. La zone intérieure indique la teneur en bases G+C du génome chloroplastique.

67

Figure 15 - Composition en gènes des algues vertes Chlorophyceae

Seuls les gènes qui apportent de la variation entre les différents génomes sont nommés ici. Les classes OCC (bleu marin), Sphaeropleales (Bleu clair) et Chlamydomonadales (orange) sont représentés par un code couleur représentatif. Les ronds pleins indiquent aussi la présence du gène alors que les zones vides annoncent l’absence du gène en question. Les relations phylogénétiques entre les divers taxons sont présentées à gauche de l’illustration.

68

R(ccg) L(caa) I(cau) R(ucg) T(ggu) R(ccu)

G(gcc) S(gga)

Figure 16 - Composition en ARNt des algues vertes Chlorophyceae

Seuls les ARN de transfert qui apportent de la variation entre les différents génomes sont nommés ici. Les classes OCC (bleu marin), Sphaeropleales (bleu clair) et Chlamydomonadales (orange) sont représentés par un code couleur représentatif. Les ronds pleins indiquent la présence du gène alors que les zones vides annoncent l’absence du gène en question. Les relations phylogénétiques entre les divers taxons sont présentées à gauche de l’illustration.

69

Figure 17 - Pertes des gènes répertoriées chez les Chlorophyceae

La Classification est issue d’une analyse phylogénétique bayésienne utilisant le modèle CATGTR + Γ4 à partir des séquences traduites des différents gènes chloroplastiques. Basé sur le modèle Dollo, une matrice binaire a permi de retracer les caractères perdus. Les longueurs de branches ont été calculéee avec le logiciel MacClade (Maddison et Maddison, 2005). On retrouve en vert les gènes protéiques perdus au cours de l’évolution et en noir les ARNt.

70

3.1.3.3 - Réarrangement géniques à travers les génomes

Chez les algues vertes et particulièrement chez les Chlamydomonadales, on remarque que certains groupes de gènes sont très conservés les uns à la suite des autres. On parle alors de synténie. Cette colinéarité est d’autant plus importante lorsque les espèces de l’étude sont très proches d’un point de vue taxonomique et phylogénétique; ce qui est le cas dans cette étude. Très peu de réarrangements sont retrouvés dans les génomes séquencés.

Tout d’abord, on reconnaît la région inversée et répétée conservée au travers de chaque génome séquencé et assemblé (Fig. 18). Très peu de réarrangements sont notables entre les différentes régions du génome chloroplastique. L’agencement des groupes de gènes ne diffère qu’à travers des régions précises du génome. Aucun groupe de gènes appartenant à la région SC1 ne se retrouve dans la région SC2 sur un autre génome chloroplastique (Fig. 18). C’est le cas des gènomes de Phacotus lenticularis, Characiochloris acuminata, de Chloromonas perforata et celui de Chloromonas perforata. L’ensemble de ces génomes chloroplastiques adopte une conformation très proche en terme d’arrangement de leurs gènes. Quelques inversions des synténies à l’intérieur des régions simples copies sont en revanche souvent détectées. On note notamment l’inversion des groupes de gènes psaA- psbJ-atpI-psaJ-rps12 avec le groupe rpoC1-petA-petD-R(ucc)-chlB dans les génomes chloroplastique de Phacotus lenticularis et Characiochloris acuminata.

L’annexe 6 répertorie l’ensemble des paires de gènes ou groupes que l’on retrouve systématiquement ensemble et permet une meilleure visualisation de l’inversion de certains groupes. De manière générale, les génomes chloroplastiques de cette étude posèdent la même conformation et les mêmes synténies sont habituellement retrouvées dans la région SC1 ou dans la région SC2 pour chacune des algues vertes. Auncun brassage génétique entre les différentes régions n’est observé si ce n’est que seuls des inversions de gènes à l’intérieur des différents ensembles semblent participer à la plasticité des génomes.

71

SC1

IR

SC2

P.l C.a C.p O.g

Figure 18 - Réarrangement des génomes chloroplastiques des algues vertes assemblées

Est mis en évidence dans cette figure la majorité des groupes de gènes conservés dans les génomes chloroplastiques des algues vertes de cette étude. Les différentes couleurs représentent des groupes de gènes distincts en fonction de leurs positions sur le génome dans les zones : LSC, IR et SSC. P.1 : Phacotus lenticularis, C.a : Characiochloris acuminata, C.p : Chloromonas perforata et O.g : Oogamochlamys gigantea.

72

En annexe 7, on s’aperçoit que plusieurs de ces synténies peuvent être très caractéristiques d’un ordre d’algue en particulier. Ceci est d’autant plus observable avec des paires de gènes. Par exemples : le groupe de gène atpA-atpI-atpG est caractéristique des algues OCC et le binôme rps18-petB ne se retrouvera que chez les membres Sphaeropleales. De même, chez les Chlamydomonadales, plusieurs ensembles de gènes peuvent servir de marqueurs (Annexe 7). On note nottament la suite de gène psbB-psbT-psbN-psbH présente chez la majorité des Chamydomonadales avec l’exception du génome chloroplastique de Chlamydomonas moewusii (Annexe 7).

Afin d’approfondir la résolution que peuvent apporter les arrangements géniques en tant que marqueurs taxonomiques, une analyse a permis de calculer les inversions minimals pour passer d’un groupe de gènes à un autre. À partir du logiciel GRIMM (Tesler, 2002), une matrice des distances entre les différents taxa a pu être construite (Annexe 3). Cette dernière tient entre autre, à mettre en avant le faible nombre d’inversions nécessaires entre le génome chloroplastique de Characiochloris acuminata et celui de Chlamydomonas applanata. Ces deux génomes seraient éloignés de 18 inversions de gènes ; ce qui représente peu comparé au répertoire génique qu’offre le chloroplaste. De même, le génome de Dunaliella salina très connu chez les Chlamydomonadales semble proche de Chlamydomonas applanata dont l’ordre de gène semble très similaire. De manière générale, les valeurs présentées dans l’annexe 3, montrent que les algues vertes de notre étude sont plus proches, en terme d’arrangement de leurs gènes, des Chlamydomonadales que des espèces appartennant aux groupes Sphaeropleales et OCC. Tranformée en matrice des distances, le logiciel Fitch du « package Phylips » (Felsenstein, 1989) a permis de calculer les longueures de branches séparant les nombreux taxa. La figure 19 représente cette dernière analyse proposant une topologie des Chlorophyceae à travers les inversions représentées par la longueur des branches de l’arbre.

73

Figure 19 - Longueurs de branches représentatives des inversions génomiques

Phylogénie établie à partir de la matrice des inversions selon GRIMM (Annexe 3) et calculée avec Fitch du paquet Phylip. Un code couleur sépare les différents groupes. C : Chlamydomonadales; S : Sphaeropleales; OCC : Oedogoniales + Chaetophorales + Chaetopeltidales

74

Une autre évaluation qui utilise les arrangements génomiques a pu être réalisée avec BADGER. La figure 20 présente certains des génomes chloroplastiques des Chlorophyceae. On s’aperçoit que la classification est généralement bonne puisque les organismes de l’étude se retrouvent bien dans l’ordre des Chlamydomonadales. De même pour les autres espèces chez le groupe OCC et Sphaeropleales. En revanche, les valeurs des nœuds internes sont très faibles et ne supportent donc pas sensiblement les positions phylogénétiques. Ceci suggère que l’organisation des gènes chloroplastiques ne sont pas de très bons outils pour une étude de l’évolution.

Tel que l’analyse précédente (calcul des inversions, fig 19), la figure 20 apporte des résultats très proches. On note que les algues Chloromonas perforata et Chlamydomonadales applanata forment un clade dans les deux analyses avec de plus l’algue Characiochloris acuminata positionnée de manière plus ancestrale. Aussi, Phacotus lenticularis et Chlamydomonas moewussi démontrent des caractères communs que l’on soupçonnait déjà par le faible nombre d’inversion les différenciant (Annexe 3). On observe cependant le génome chloroplastique de Phacotus lenticularis plus proche en terme d’inversion des gènes de l’algue Hafniomonas laevis avec 35 inversions; D’autant plus que la position plus basale de l’algue Hafniomonas laevis dans le clade des Chlamydomonadales va de paire avec la position de l’espèce Oogamochlamis gigantea; néanmoins, seuls 44 inversions les séparent. De manière générale, la topologie des algues à l’étude est respectée chez les Volvocales. L’analyse est supportée par deux algues extérieures des Chlamydomonadales : Floydiella terrestris et Stigeoclonium helveticum du groupe OCC qui sont toutes deux à la même positon phylogénétique dans les figures 19 et 20. En revanche certains nœuds de l’analyse BADGER sont très faiblement supportés; exemple du support apporté par l’algue Floydiella terrestris dans le groupe OCC dont la probabilité postérieure du nœud est de seulement 0,1428 ou bien des algues vertes de notre étude dont les valeurs PP ne dépasse pas les 0.5.

75

Figure 20 - Phylogénie établie à partir de l'ordre des gènes

Phylogénie établie à partir de BADGER qui utilise les arrangements de gènes pour former une topologie. On retrouve les valeurs de probabilités postérieures pour chacun des nœuds formés. Les différentes classes sont représentées par un code couleur : en gris foncé les OCC, en plus clair, les Sphaeropleales et enfin les Chlamydomonadales en beige.

76

3.1.4 - Les répétitions du chloroplaste

3.1.4.1 - L’IR et ses jonctions

Bien que l’on retrouve chez plusieurs espèces, tel que le groupe des OCC, des génomes chloroplastiques démunis de leurs régions répétées (F. terrestris, S. helveticum et S. leibleinii) (Brouard et al. 2010 ; Bélanger et al. 2006 ; Brouard et al. 2011), la région inversée et répétée est présente en deux copies dans les génomes séquencés dans cette étude. On y retrouve par ailleurs systématiquement l’opéron des gènes ribosomaux. Les gènes ribosomaux : rrf, rrs et rrl codent pour des molécules d’ARNr requise pour l’assemblage et la fonction des ribosomes (5S, 16S et 23S respectivement). La taille des IR n’est pas uniforme et peut varier selon les espèces et même à l’intérieur d’un même ordre. Chez les Chlamydomonadales par exemple, l’IR est souvent proche des 20 kb (Tab. 6) mais le génome de Chlamydomonas moewusii fait exception avec une IR particulièrement grande de 45,678 kb (Fig. 21).

Cette région de répétition peut parfois s’étendre pour y inclure d’autres gènes qui flanquent l’opéron ribosomique. La figure 21 répertorie plusieurs fois ce cas chez les algues de cette étude. Les régions inversées répétées des algues ont une composition très variable dépendamment des espèces. Un répertoire important de gènes différents peut être, en effet, présent à l’intérieur de cette région. En partie à cause de la possibilité d’expansion ou de contraction des IR, on observe chez les génomes chloroplastiques des algues Chlamydomonadales, une grande plasticité.

La paire de gènes rrf (5S) se retrouve dans chacune des deux copies de l’IR de Phacutus lenticularis. Cette particularité n’a encore été observée chez aucun autre génome chloroplastique. Les deux gènes sont représentés à la figure 22 (Fig. 22). De façon plus commune, on retrouve le gène psbA présent sur l’une des extrémités, à l’intérieur des régions inversées répétées des génomes chloroplastiques de Characiochloris acuminata et Oogamochlamys gigantea. Ce gène y est très souvent identifié chez les Chlamydomonadales et participe donc à l’expansion de l’IR. Les génomes de

77

Chlamydomonas moewusii et celui de Chlamydomonas reinhardtii (non représenté sur la figure 21) en font partie. De même, le génome de Chloromonas perforata possède le gène rbcL comme l’algue Chlamydomonas moewusii, ancré dans sa région IR. Bien que certains gènes semblent avoir une prédisposition à être présent dans les régions inversées répétées, chaque jonction est différente. Par ailleurs, que ce soit chez les génomes de Characiochloris acuminata, Chloromonas perforata ou bien celui de Dunaliella salina, l’IR est bordée par le gène chlB et le gène ycf1 dont la fonction est encore méconnue dans la région LSC.

3.1.4.2 - Les séquences répétées

En plus de la présence d’un IR, une étude des récurrences de séquence dans chacun des génomes assemblés a pu être établie. L’identification de ces phénomènes représente cependant un défi de par, entre autre, la complexité des motifs et de leur conservation souvent imparfaite. Le pourcentage de régions répétées varie considérablement entre les espèces ainsi qu’entre les différents clades (Fig 23). Concernant les génomes de notre étude appartenant aux Chlamydomonadales, la proportion de ces répétitions s’établit entre 3,46 % pour le génome de Phacotus lenticularis, à environ 10,23 % chez l’algue Chlorogonium capillatum bien que ce dernier résultat ne soit qu’approximatif. Néanmoins, les proportions des séquences répétées restent faibles et dans l’ordre de grandeur de la majorité des algues vertes. Dans chaque classe évolutive, se retrouve une espèce dont le rapport en séquences répétées domine, ne permettant aucune généralisation.

78

Figure 21 - Comparaison des zones LSC, IR, SSC et leurs régions frontalières entre plusieurs cpDNA Chlamydomonadales

Les quatre espèces en gras représentent les génomes de l’étude assemblés. Chaque région est mise en avant par des couleurs différentes. Les jonctions des IR sont marquées par un trait pointillé et entourées de leurs gènes respectifs. À des fins de comparaison, l’algue S. obliquus appartient à l’ordre des Sphaeropleales, C. moewusii et D. salina font partie des Chlamydomonadales. La composition complète des IR n’est pas mentionnée, seuls les gènes en plus de l’opéron ribosomal toujours présent sont représentés.

79

Concernant le groupe OCC, le génome de Floydiella terrestris se démarque des autres génomes du groupe OCC avec plus de 30% de son génome composé de séquences répétées. On retrouve ce même phénomène chez les membres des Sphaeropleales avec notamment le génome de Golenkinia longispicula. Les Chlamydomonadales possèdent aussi l’algue verte Volvox carteri dont le génome chloroplastique est composé à 35% de séquences répétées.

Les modèles de séquences de répétitions divergent énormément entre les algues de l’étude ; En passant des répétitions simples aux plus complexes, le tableau 8 tente de répertorier certaines des séquences répétées retrouvées parmi les génomes chloroplastiques de cette étude; mais la liste est loin d’être exhaustive. Néanmoins, certains patrons sont particulièrement décelés chez les séquences répétées et la plupart des éléments répétés rencontrés sont formés des bases Adénine et Thymine. La majorité des séquences sont de courtes répétitions de type simple avec une taille variant entre 30 et 60 pb (Tab. 8).

On discerne donc que ces séquences peuvent se retrouver tout le long du génome; particulièrement dans les séquences intergéniques mais aussi dans certains introns. Ces séquences répétées sont donc présentes sans affinité particulière, dans les différentes fractions du génome chloroplastique, à savoir les régions SSC, LSC et dans l’IR.

80

Figure 22 - Séquences et structure secondaire des deux copies du gène ribosomique 5S retrouvé chez Phacotus lenticularis

L’ARN 5S est relativement petit avec 120 paires de bases qui adoptent une structure de 4 boucles et 4 hélices. Dessiné à partir du modèle de l’ARNr 5S de Escherichia coli, on retrouve plusieurs régions conservées et notamment la boucle 3. De couleur sont représentées les bases qui diffèrent entre les deux copies du gène rrf (ARNr 5S). En A, une première copie (106989 pb - 1071108 pb) et en B la deuxième copie (108347pb - 108467pb). Ces deux copies se trouvant dans la région inversée répétée (IR), on dénombre 4 copies de l’ARN 5S chez le génome chloroplastique de Phacotus lenticularis.

81

Tableau 8 - Exemple de motifs de répétitions chez les génomes chloroplastiques de l'étude

Génome Motif de répétition Position sur le génome Hôte

P. lenticularis (TATTTTA)n 2412)*)2468 Intergénique (TTTTTTC)n 43507)*)43576 Gène)rpoC1 (ATTCAA)n 146820)*)146875 Intergénique

C. acuminata (TA)n 7707)*)7730 Intergénique (TAA)n 22026)*)22080 Intron)psbA (TTTA)n 43872)*)43912 Intergénique

O. gigantea (TTTTTGA)n 74280)*)74342 Intron)psbB (TTTT)n 169365)*)169406 Gène)ycf1 (ATTTTT)n 187622)*)187657 Intron)psaA

C. perforata (AACAAGA)n 1053)*)1058 Gène)ycf1 (TAT)n 116569)*)116600 Intergénique (TCTTAT)n 244958)*)245040 Intergénique

82

%

35.69

30.22 27.73

13.13 12.63 12.3 10.36 10.23 7.32 6.85 7.91 5.93 4.97 3.46 4.24

OCC S CHLAMYDOMONADALES

Figure 23 - Proportion des séquences répéteées aux travers des génomes chloroplastiques de la classe Chlorophyceae

Chacun des clades sont représentés par des codes de couleur. Le réel pourcentage de séquences répétées est positionné sur la figure pour chaque organisme correspondant. * La valeur du pourcentage de séquences répétées pour le génome de Chlorogonium capillatum n’est qu’approximative en raison de son assemblage non complété.

83

3.2 - Les Analyses phylogénétiques

La phylogénie de type maximun de vraissemblance (à l’aide du programme RAxML), établie à partir des alignement des séquences nucléotiques de 37 taxa différents et de leurs 65 gènes (Tab. 5) montre que l’ensemble des algues de l’étude sont replacées dans l’ordre des Chlamydomonadales (Fig. 24). Les algues Phacotus lenticularis et Chlamydomonas monadina appartenant respectivement aux clades Phacotinia et Monadinia, semblent partager un ancêtre commun. Ce résultat est fortement supporté par l’analyse bootstrap dont la valeur est de 100. On constate également que Chlamydomonas monadina est très proche évolutionnairement de l’algue Chlamydomonas moewusii dont on connaît déjà la position phylogénétique.

L’analyse met aussi en avant les positions proches de Stephanosphaera pluvialis et Chloromonas perforata. Ces dernières appartiennent au même clade connu sous le nom de Stephanosphaerinia. L’algue verte Characiochloris acuminata se retrouve seule à ne former aucun clade avec d’autres espèces mais reste liée de façon certaine aux lignées Chlorogonium et Stephanosphaerinia. La lignée Chlorogonia, représentée dans cette étude par les algues Chlorogonium capillatum et Haematococcus lacustris, présente un ancêtre commun avec le clade précédemment évoqué : Stephanosphaerinia. Ce clade est néanmoins supporté à la hauteur de 87 d’analyse boostraps et présume donc une instabilité phylogénétique.

Oogamochlamys gigantea est l’algue possédant la position la plus basale dans l’ordre Chlamydomonadales parmi les ADNs séquencés ; très fortement liée aux algues Chlamydomonas frankii et Chlamydomonas pallidostigmatica, l’ensemble présente des liens phylogénétiques significatifs avec 100 comme valeur de bootstrap.

84

Figure 24 - Relation phylogénétiques chez les Chlorophyceae : méthode de maximun de vraissemblance

Les relations phylogénétiques indiquées ont été construites en utilisant des données nucléotidiques de 65 gènes chloroplastiques. A partir du programme RAxML, la méthode de maximum de vraisemblance a été choisie avec comme modèle de substitution GTRGAMMA +I (General time reversible + Gamma + Proportion invariant). Les valeurs de bootstraps sont indiquées au niveau de chaque nœud. Les nœuds supportés à 100 % sont représentés par des points noirs. Les huit espèces spécifiques de l’étude sont représentées en gras. Plusieurs algues de la classe des Ulvophyceae ont été choisies pour enraciner l’arbre phylogénétique.

85

Une deuxième analyse phylogénétique avec cette fois-ci une inférence bayésienne permet d’approfondir et de confirmer les résultats apportés par la méthode précédente. Le résultat montré à la figure 25 présente en plus des valeurs bootstraps, une deuxième analyse statistique appelée « les probabilités postérieures » (PP) qui représente le calcul d’arbres phylogénétiques à partir de probabilités définies. Ces valeurs sont le résultat d’un calcul de probabilité postérieure de toutes les topologies de l’arbre étant donné un alignement de séquences. Ce calcul étant très complexe et généralement impossible, nous utilisons une technique nommée « Metropolis-coupled Markov chain Monte Carlo » pour générer un échantillon de la distribution postérieure des topologies d’arbres.

Dans l’ensemble, les positions relatives des espèces séquencées sont sensiblement les mêmes qu’avec la méthode de maximum de vraisemblance. On remarque que chacune des espèces de cette étude occupe les mêmes positions dans leurs clades respectifs qu’analysées précédement avec la méthode de maximum de vraissemblance. Néamoins, à travers deux méthodes différentes, on remarque une modificaton de la position de l’algue Hafniomonas leavis qui dans un premier cas (analyse ML) est fortement liée (BS = 97) au clade Reinhardtinia formés ici par les algues vertes Volvox carteri, Chlamydomonas reinhardtii et Chamydomonas perterfii. En revanche, Hafniomonas leavis occupe la position la plus basale dans l’arbre phylogénétique établi à partir d’une analyse bayésienne. Sa position plus proche du clade Crucicarteria avec les algues Carteria crucifera et Carteria cerasiformis est encouragée avec une valeur de probabilité postérieure de 0.99. Néamoins, l’analyse bootstraps ne supporte que faiblement ce nœud (BS = 67) et permet de douter de la position de Hafniomonas leavis (Fig. 25). Malgré l’exemple précédent, les valeurs PP apportent un soutien supplémentaire quant à la résolution des nœuds. Par exemple, l’existence d’un ancêtre commun entre les clades Chlorogonium et Stephanosphaerinia est davantage confortée avec BS =100 et PP = 1 dans cette analyse bayésienne; tel que précédement démontré avec la méthode de maximum de vraissemblance. Seule la position de l’algue Chamydomonas monadina par rapport à Chlamydomonas moewusii possède une valeur PP = 0,99. Cette dernière reste tout de même élevée et appuie la topologie donnée.

86

Figure 25 - Relation phylogénétiques chez les Chlorophyceae : méthode bayésienne

Inférée avec PHYLOBAYES 3.3 à partir du modèle hétérogène CATGTR+Γ4. La matrice utilisée ici représente les données protéiques de 65 gènes chloroplastiques. Chacun des nœuds est supporté par des valeurs bootstraps en noir mais aussi par les probabilités postérieures en rose. Chaque clade est représenté par sa couleur : en bleu marin le groupe OCC, les Sphaeropleales en bleu clair et en beige les Chlamydomonadales. L’arbre a été enraciné avec comme groupe sortant les Ulvophyceae. En annexe 8, une représentation de la figure avec plus de détails.

87

4 - DISCUSSION

4.1 - Analyses phylogénétiques

4.1.1 - Interprétation des phylogénies inférées

L’ensemble des algues choisies dans cette étude est classé dans l’ordre Chlamydomonadales. Les résultats apportés ici corroborent les interprétations antérieurement établies (Nakada et al. 2008b). Nos analyses révèlent notamment que les algues Haematococcus lacustris (Chlorogonia) et Stephanophaerinia pluvialis (Stephanosphaerinia) appartiennent à deux lignées distinctes. Ces deux clades sont par ailleurs supportés par les phylogénies établies dans cette étude (Fig. 24 et Fig. 25). Le statut des genres Haematococcus et Stephanosphaera de la famille Haematococcacean a largement été fondé lors d’analyses antérieures (Nakada et al. 2008b ; Nakada et Nozaki, 2009). Certains débats remettent cependant en cause la monophylie du genre Heamatococcus que l’on retrouve dans les lignées Chlorogonia et Stephanophaera établies par Nakada et al. (2008b). Récemment, Buchheim et al. 2012, ont tenté d’apporter un éclaircissement à la systématique des Clamydomonadales pour mettre en avant l’alliance entre ces deux clades à partir de séquences d’ARNr 18S. Les lignées Chlorogonia et Stephanophaerinia sont désignées comme groupe sœurs (BS = 73, PP = 0,99) (Buchheim et al. 2013). Nos résultats semble conforter cette analyse puisque l’on observe une valeur bootstraps de 87 (BS = 87) pour les analyses RAxML à partir des acides nucléiques.

L’algue Chlamydomonas monadina aussi appelée Chlamydomonas Ehrenberg, n’a été que tardivement transférée dans le groupe Chlamydomonadales. Son statut taxonomique peu clair a fait l’objet d’une étude prouvant sa monophylie au sein des Chlorophyceae (Demchenko et al. 2012). Les analyses phylogénétiques établies à partir des séquences SSU des ARNr ont apporté une meilleure résolution et confirment la robustesse du clade Monadinia. Nos résultats produits par les phylogénies bayésiennes ou de maximum de vraisemblance confortent la position de l’algue Chamydomonas monadina au sein de la

89

lignée Monadinia qui serait alors très proche de l’algue verte connue Chlamydomonas moewussii (avec un total de 89 bootstraps). Aussi, l’algue Chamydomonas monadina classée très proche évolutionnairement du clade Phacotinia dans la dernière classification des Chamydomonadales (Nakada et al. 2008b), est aussi retrouvée proche de l’algue Phacotus lenticularis avec un support de 100 bootstraps (Fig. 24 et 25). Certain des nœuds sont pourtant faiblement résolus avec l’exemple des 74 bootstraps retrouvé liant les algues Dunaliella salina et Chlamydomonas applanata dans l’analyse RAxML. Néanmoins, l’analyse bayésienne apporte de très bonnes statistiques avec PP = 1. Il est tout à fait possible que la présence des introns complique l’amplification, le séquençage et les alignements (Sanderson et Shaffer, 2002) ; ce qui alors a un impact sur les analyses phylogénétiques.

Finalement, très peu de différences en terme de classification sont observées entre les deux types d’analyse phylogénétique utilisés dans cette étude. On remarque que la position la plus basale (parmi les algues séquencées dans ce travail) est occupée par Oogamochlamys gigantea qui se retrouve très proche des algues Chlamydomonas frankii et Chlamydomonas pallidostigmatica, à la fois dans l’analyse de maximum de vraissemblance que dans l’analyse bayesienne. Néanmoins, la position phylogénique de Hafniomonas laevis diverge entre les deux analyses phylogénétiques et renforce le doute quand à sa classification. En effet dans la première étude RAxML (Fig. 24) on retrouve cette algue verte proche du clade contenant Volvox carteri et Chlamydomonas reinhardtii alors que dans la deuxième analyse, Hafniomonas laevis serait rattachée à la lignée plus basale : Crucicarteria.

Des études récentes sur les méthodes d’analyses phylogénétiques tendent à prouver un certain conflit entre l’utilisation des gènes ou bien des protéines comme modèles de données. En effet, en utilisant une matrice de nucléotide pour faire face aux substitutions synonymes, dues au code dégénéré, on créerait alors un biais de composition (Cox et al. 2014 ; Li et al. 2014).

90

Bien que très difficile à analyser, les milliers de gènes codant pour des protéines dans les génomes nucléaires eucaryotes représentent la plus riche source inexploitée de données génétiques pour la recherche phylogénétique (Sanderson et Shaffer, 2002). Il serait donc plus adéquat de travailler avec ces gènes là; de plus il y aurait moins de problèmes à utiliser ces gènes lors des alignements comparativement aux gènes ribosomaux.

Cependant, cette étude est l’une des premières études avec un nombre de marqueurs élevé représentant tout ou presque le génome chloroplastique entier. Ce critère n’est pas négligeable car un échantillonnage génétique limité conduit à une inexactitude phylogénétique soit par des erreurs systématiques associées à de petites quantités de données, soit par des erreurs découlant de l’incongruité entre les histoires de gènes.

4.1.2 - Les méthodes utilisées

Jusqu’aux années 1960, le seul moyen de classifier les espèces était les comparaisons entre des morphologies. La découverte de séquences de protéines homologues (ou acides nucléiques) qui varient d’un espèce à l’autre a procuré ensuite de nouvelles possibilités d’étude : la phylogénie. L’inférence bayésienne appliquée à la phylogénie est une alternative intéressante à la méthode du maximum de vraisemblance grâce notamment à des algorithmes efficaces (Larget et Simon, 1999 ; Huelsenbeck et al. 2001) et aux probabilités a posteriori permettant de juger du soutien statistique d’un clade sans recourir à des techniques de straps. En effet, l’interprétation du test du bootstraps fait encore l’objet de discussions (Cummings, 2003). Les probabilités a posteriori calculées à l’issue d’une reconstruction bayésienne possèdent une définition très claire. La probabilité a posteriori d’un clade est la probabilité que ce clade soit vrai pour un jeu de données, un modèle d’évolution et une probabilité a priori donnée.

91

Néanmoins, les bootstraps et les probabilités a posteriori se comportent différemment. En effet, sous l’influence de certains paramètres (notamment la taille du jeu de données), les probabilités a posteriori tendent à surévaluer le support des clades par rapport au bootstrap (Suzuki et al. 2002).

4.2 - Dynamique des génomes

4.2.1 - Évolution de la taille du génome chloroplastique

Les génomes séquencés et assemblés dans cette étude se retrouvent dans des tailles moyennes avoisinant celles d’autres algues de l’ordre Chlamydomonadales. Il est néanmoins possible de voir des tailles de génomes variables au sein d’un même groupe ; C’est notamment le cas chez les Chlamydomonadales. Ceci révèle que les pressions de sélection induites sur la taille des génomes chloroplastiques, ne sont pas uniquement affectées par les relations phylogénétiques.

L’algue Volvox carteri est encore aujourd’hui le plus grand génome répertorié chez les Chlamydomonadales avec une taille de 460 kbp (Smith et Lee, 2009). De même, le génome de Golenkinia longispicula chez les Sphaeropleales domine les autres de par sa grande taille (550 kbp). Pourtant, il est clairement possible de visualiser une diminution de la taille du génome chloroplastique comparativement aux ancêtres cyanobactériens dont les génomes contenaient plus de 5000 gènes (Timmis et al. 2004). Comme le chloroplaste présente un génome plus petit que celui de ses ancêtres procaryotiques, il est possible d’imaginer que selon les groupes d’algues, le génome ait plus ou moins diminué en taille au cours de l’évolution. Notons que le nombre élevé de copies et la petite taille du génome sont deux caractères corrélés ; La présence de nombreuses copies de génome par cellule peut générer, en effet, une course à la réplication en faveur des plus petits génomes comme cela l’a déjà été suggéré avec le génome mitochondrial (Rand, 2011).

92

4.2.2 - La taille des génomes liée aux introns

Parmi les études déjà publiées sur les tailles de génomes nucléaires, Patthy (1999), notait déjà chez les végétaux comme chez les protistes que le nombre et la taille des introns sont en corrélation avec la taille du génome et son nombre de gènes (Patthy, 1999). De pareilles observations ont pu être établies chez le génome chloroplastique (Palmer, 1991). Les relations entre les introns et la taille du génome restent mal connues sur une grande échelle d’évolution ; elles sont cependant intéressantes à étudier. Les introns contribuent largement à la variation de taille des génomes chloroplastiques et se retrouvent dispersés autant dans les gènes codant pour des protéines, que dans ceux codant pour des ARN (Bhattacharya et al. 2002 ; Rudi et al. 2002).

Un nombre élevé d’intron dans le génome chloroplastique ne caractérise aucun groupe d’algues en particulier dans la phylogénie des Chlorophytes. Bien que le génome de Oogamochlamys gigantea possède le plus d’introns dans ce travail (19 introns), il semblerait que ce ne soit pas un facteur des liens évolutifs que cette algue partage avec notamment les algues Chlamydomonas frankii et Chlamydomonas pallidostigma qui ne possèdent que très peu d’introns (Turmel et al. 1995). De plus, les génomes chloroplastiques les plus basaux comme ceux de Mesostigma viride (Lemieux et al. 2000) et Nephroselmis olivacea (Turmel et al. 1999) ne contiennent aucun intron. Bien que la majorité des introns identifiés dans cette étude se retrouvent dans des gènes codant pour des protéines, des introns ont été en effet trouvés dans les gènes ARNr des algues Phacotus lenticularis et Characiochloris acuminata (Fig. 9). Par ailleurs, ces espèces sont proches évolutionnairement ; Elles sont mises en avant dans les phylogénies (Fig. 24 et Fig. 25). On serait tenté de croire alors à un marqueur phylogénétique pour leur ancêtre commun. Plusieurs introns de groupe I semblent communs à la classe Chlorophyceae avec ceux que l’on retrouve dans les gènes psbD par exemple ou encore dans le gène psbC (Fig. 9). De même, il est reconnu chez les Chlorophyceae que les introns de groupe II du gènes psaA font partie des plus conservés et largement étudiés, notamment chez l’algue verte Chlamydomonas reinhardtii (Choquet et al. 1998). D’autant plus que l’on retrouve cet

93

intron trans-épissé dans chacun des génomes chloroplastiques qui ont pu être assemblés dans ce travail (Fig. 9). Les introns sont des éléments qui se propagent, non seulement de façon verticale (aux générations suivantes), mais aussi horizontalement et latéralement entre mêmes espèces ou entre espèces différentes (Lambowitz et Zimmerly, 2004 ; Saldanha et al. 1993). Dans la mesure où les introns sont facilement transmis mais aussi perdus, les pertes ou gains d’introns sont trop nombreux et trop rapides pour permettre aujourd’hui une étude de l’évolution des espèces à l’instar des gènes. Toutefois, ils semblent correspondre à une certaine empreinte évolutive du fait de l’absence d’intron observée dans les génomes chloroplastiques les plus ancestraux ; l’algue Mesostigma viride en est un exemple (Lemieux et al. 2000). De plus, des études ont bien établi que le gain d’introns est un caractère lié à l’évolution (Saldanha et al. 2000) ; de même, une récente étude à partir de la mobilité des introns de groupe II tente d’éclaircir les phénomènes ancestraux chez les eucaryotes afin de les utiliser comme traceurs de l’évolution (Perrineau et al. 2014).

4.2.2.1 - Relation avec leur ORF

Les introns de groupe I et de groupe II des génomes chloroplastiques des Chlamydomonadales possèdent très souvent des ORF, appelés ORF intronique. En effet, les protéines encodées par les introns sont très répandues et peuvent être retrouvées dans l’ensemble des règnes existants (Archaea, Bacteria, et EuKarya) (Belfort et Richard, 1997). C’est une des principales raisons qui les distingue des enzymes de restriction avec qui les endonucléases partagent les mêmes fonctions, à savoir, la coupure de l’ADN double brin. Il n’est donc pas surprenant de retrouver ces ORF en grande quantité dans les génomes séquencés ici. Chez les introns de groupe I, les ORF présents encodent essentiellement des endonucléases, ou maturases dans lesquelles est conservé le plus souvent le motif LAGLIDADG tel que relevé dans le tableau 7 (Hausner, 2003). La dépendance des introns de groupe I de l’hôte pour l’épissage montre en outre qu’il existe une pression de sélection à la fois des introns de groupe I mais aussi sur le génome hôte. Les introns qui ne possèdent pas d’ORF (comme

94

plusieurs mentionnés à la figure 9) peuvent avoir évolué à partir des ORF retrouvés dans les introns qui sont maintenant complètement dépendants de l’hôte. Leur maturase est alors devenue superflue.

De nombreux introns de groupe II possèdent des cadres de lectures ouverts qui codent pour des protéines portant des activités transcriptase réverse et ADN endonucléasique responsables de la mobilité des introns, et une activité maturase impliquée dans l'épissage des introns, probablement pour faciliter leur repliement en une structure catalytique active (Lambowitz et Belford, 1993; Meng et al. 2005). On retrouve nottament un ORF de cette nature dans le gène psbC du génome chloroplastique de Chlamydomonas perforata; ce n’est pas si rare chez les algues vertes puisque l’on retrouve de nombreux ORF de nature « transcriptase inverse », notamment chez le génome connu de Volvox carteri (Lindauer et al. 1993).

4.2.2.2 - Relation avec leurs sites introniques

Les génomes de chloroplaste des Chlamydomonadales possèdent une grande diversité de sites introniques ; autant pour ceux de groupe I que de groupe II. Bien que certains sites d’insertions soient spécifiquement retrouvés chez différentes algues Chlamydomonadales, rares sont les sites que l’on retrouve dans plusieurs des algues de cette étude. Par ailleurs, il est tentant de faire un lien entre le génome de Oogamochlamys gigantea et celui de Chloromonas perforata puisque tout deux partagent les sites introniques dans les gènes psbC et psbD. De plus, seules ces deux espèces ne possèdent aucun intron dans la région IR, notamment dans les ARN ribosomaux comparativement aux autres algues Chlamydomonadales assemblées. Toutefois, les analyses phylogénétiques ne présentent pas de lien évolutif susceptible d’expliquer la distribution de ces caractères structuraux. Seul un ancêtre commun plutôt éloigné rapprocherait ces deux espèces, comme pour les autres algues de l’étude. C’est pourquoi il serait délicat de se baser sur la répartition des sites introniques pour effectuer une topologie des Chlamydomonadales. Ce caractère n’est pas suffisamment systématique pour être fiable et utilisable pour la classification des algues vertes.

95

4.2.3 - Rôle des séquences répétées

Les régions inversées répétées (IR) semblent être la cause principales de la variation de la taille du génome choroplastique ; cette constation déjà soulignée dans l’introduction est pourtant contrée par l’observation de l’absence de IR chez l’un des grands génomes parmi les algues du groupe OCC : Floydiellia terrestris (Frield et O’Kelly, 2002). La taille actuelle des génomes reflète ce degré de compaction plus ou moins entrepris. Une autre hypothèse peut cependant être envisagée : les génomes chloroplastiques auraient diminué en taille assez tôt. Puis, il y aurait eu une évolution de leur taille, impliquant la possibilité soit de gain de poids au niveau des régions intergéniques, car les pertes de gènes semblent irréversibles) soit de perte. Ainsi, la taille actuelle reflèterait à la fois des épisodes de diminution et d’augmentation de la taille de ce génome.

Une fraction importante des génomes eucaryotes est constituée de gènes répétés en tandem. C’est pourquoi, les premières analyses de variation de taille des différents plastomes étaient plutôt prévisibles. On observe sans surprise, une proportionnalité entre le nombre de séquences non codantes dont celles des séquences intergéniques et les variations de taille des génomes chloroplastiques étudiés. En effet, l’ADNcp est constitué pour environ un tiers de séquences non codantes (Fig. 8). Par ailleurs, il est possible d’établir une corrélation entre la variation de la taille des génomes et son pourcentage de séquences répétées. La figure 26 représente très bien ce phénomène.

Les motifs des séquences répétées sont très nombreux et variables. Le tableau 8 en retrace un certain nombre. On s’aperçoit que les motifs les plus représentés sont le plus souvent des courtes séquences entre 30 et 45 paires de bases. Aucunement un même motif n’est présent dans au moins deux génomes chloroplastiques différents. De plus, il est particulièrement difficile d’émettre des hypothèses phylogénétiques sur la base des séquences répétées : on note en effet que des organismes à l’étude tels que Phacotus lenticularis et Oogamochlamys gigantea qui ne possèdent que très peu de séquences répétés (Fig. 23) sont suffisament éloignés d’un point de vue phylogénétique (Fig. 24 et Fig. 25). De même, deux algues vertes de l’ordre Chlamydomonadales (Volvox

96

carteri et Chlamydomonadales reinhardtii) avec un pourcentage de séquences tout à fait différent, (Fig. 23) se retrouvent positionnées phylogénétiquement dans le même clade Reinhardtitinia. Ces séquences répétées qui représentent un ensemble diversifié de séquences extrêmement difficiles à identifier de façon exhaustive, ne peuvent apporter un soutien supplémentaire aux analyses phylogénétiques. Dernièrement, une étude tentait de mettre en avant le phénomène de réparation de l’ADN suite aux coupures de l’ADN dues aux endonucléases (comme mentionné dans le chapitre des introns). La correction des brins de l’ADN chez le génome chloroplastique donnerait lieu à la formation de séquences répétées. En effet, les suppressions induites par les endonucléases impliqueraient des répétitions directes dans les régions flanquantes 5’ et 3’ du gène psbA chez les Chlamydomonadales. Cette dernière découverte pourrait expliquer les nombreuses répétitions retrouvées au travers du génome chloroplastique (Odom et al. 2008).

97

pb

* OCC S CHLAMYDOMONADALES

Figure 26 - Corrélation entre la taille des génomes chloroplastiques et les séquences répétées

La figure met en avant une corrélation positive entre le pourcentage de séquences répétées présentes dans les génomes chloroplastiques et la taille définitive de ces génomes. En bleu, la ligne représentative de cette variation indique le pourcentage de séquences répétées parmi les différents génomes chloroplastiques des algues vertes Chlorophyceae. O.c : Oedogonium cardiacum; F.t : Floydiella terrestris; G.l : Golenkinia longispicula; B.g : Bracteacoccus giganteus; C.m : Chlamydomonas moewusii; D.s: Dunaliella salina; V.c: Volvox carteri; C.r : Chlamydomonas reinhardtii; C.a : Chlamydomonas applanata (anciènement Chalamydomonas humicola); H.l : Hafniomonas laevis; P.l : Phacotus lenticularis; C.a : Characiochloris acuminata; C.p : Chloromonas perforata; O.g : Oogamochlamys gigantea; C.c : Chlorogonium capillatum.

*Les informations concernant le génome de Chlorogonium capillatum ne sont qu’approximatives.

98

4.3 - Plasticité des génomes

4.3.1 - Contenu en gène

Les chloroplastes possèdent leur propre information génétique. Bien que les génomes des algues à l’étude montrent une grande dynamique structurelle, le répertoire des gènes de plaste est relativement stable d’une espèce à l’autre de la classe des Chlorophyceae. Avec une moyenne de 100 gènes par plastome, les algues de l’étude représentent le groupe des UTC dont la caractéristique majeure est de posséder un faible nombre de gènes comparativement à l’algue Nephroselmis (Prasinophyceae) connue pour son grand répertoire de gènes (proche de 200) (Turmel et al. 1999). Une des raisons de ce faible nombre de gène serait que l’ensemble des gènes de base du chloroplaste est probablement soumis à une forte pression de sélection. Les pertes ou les gains génétiques deviennent alors exceptionnels (Wicke, 2011).

Bien que de nombreux gènes encore nécessaires au chloroplaste aient été transférés dans le génome nucléaire, les gènes atp, pet, psa et psb sont très bien conservés par le génome chloroplastique. Les produits protéiques de ces gènes seraient probablement difficiles à importer (Wicke, 2011).

La figure 15 présente néanmoins quelques différences en terme de composition des génomes chez plusieurs clades. Les principaux mécanismes influençant l’évolution des génomes agissent au niveau de la sequences et particulièrement au niveau de ses gènes. En effet, on s’est aperçu au cours des années que certains gènes ont su évoluer avec les générations et d’autres ont disparu. Ce mécanisme de perte de gènes a souvent été observé chez les algues vertes. Chez les membres du groupe OCC, la perte du gène petA est systématique et la perte commune au clade CS (Chlamydomonadales, Sphaeropleales) du gène psaM participe à révéler leur relation phylogénétique comme deux ordres sœurs (Brouard et al. 2010). Ces deux déficits marquent les étapes de la diversification au travers des lignées et servent aujourd’hui de marqueur pour ces deux groupes. C’est une des

99

caractéristiques génomiques qui atteste la position phylogénétique des différentes espèces. Nos résultats apportés au travers de cette étude renforcent ces dernières conclusions. Aussi, on remarque la perte du gène infA chez les Chlamydomonadales.

Cependant, certaines pertes au cours de l’évolution ne peuvent être interprétées et représentent des pertes indépendantes chez les Chlamydomonadales. On recense dans ce cas le gène rpl32 qui ne se retrouve pas chez l’algue Oogamochlamys gigantea. Ce gène n’apparait pas dans le génome chloroplastique de Chloromonas monadina mais il serait audacieux de s’avancer puisque son génome chloroplastique n’a été que partiellement assemblés. Il en est de même lorsque l’on recense le manque du gène ycf3 pour la première fois, chez Stephanosphaera pluvialis. Ce gène dont la fonction est encore inconnue (Fig. 15). Néamoins il est innaproprié d’interpréter ce résultat puisque ce génome chloroplastique n’a pu être entièrement assemblé. On note aussi plusieurs pertes d’ARN de transfert (Fig. 16) mais déjà de façon plus aléatoire, il est délicat de généraliser les pertes de ces ARNt à un ordre en particulier chez les algues vertes. Ces disparités en contenu de gènes plutôt rares contribuent alors à l’identification de marqueurs pouvant renforcer les hypothèses phylogénétiques. En effet, l’idée de la classification phylogénétique est que deux taxons partageant une même distinction au niveau d’un ADN donné, seraient hérités d’un ancêtre commun au lieu d’indépendamment (Bahi et al. 2012). Ainsi des pertes de gènes entre les espèces indiquent que ces espèces sont proches et appartiennent à une lignée similaire, tandis qu’une perte plus importante représente des lignées éloignées (Alkindy et al. 2014).

4.3.2 - Les réarrangements et l’ordre génique

Un contenu de gène stable du génome du chloroplaste est accompagné par une organisation structurelle conservée. En effet, la structure quadripartite très conservée du génome chloroplastique peut bien expliquer l’état immuable du plastome et ainsi éviter les pertes par des évènements de recombinaisons (Civàn et al. 2014). En effet, la présence des régions inversées et répétées (IR) dans les génomes chloroplastiques des algues vertes participe à sa stabilisation en limitant les réarrangements entre les régions simples copies pour un ordre donné (Turmel et al. 1999). Puisque l’IR du chloroplaste possède un opéron de l’ARNr à l’intérieur, il est soutenu que celui-ci serait

100

difficile à briser, notamment par des événements d’inversions (Turmel et al. 1999). Si des inversions de la région IR venaient à se produir, il se formerait une répétition de type direct dans le génome chloroplastique. Cet événement pourrait permettre alors au génome chloroplastique d’être soumis à des recombinaisons homologues entre les deux régions inversées répétées au point de perdre une section du plastome et ainsi perdre sa fonction ou même son intégralité. C’est pourquoi, le transfert d’un gène d’une région à une autre est un évènement rare (Turmel et al. 1999).

Dans le cas de cette étude, on parle notamment de plasticité du génome chloroplastique avec les possibilités de gain en gènes par duplication comme vu dans le génome de Phacotus lenticularis avec la duplication du gène rrf. Bien que des évènements de rupture de la synténie soient davantage observés avec la possibilité de délétion, fusion/fission, translocation, d’insertion et même d’inversion. Aussi, les mouvements d’extension et de contraction de l’IR influençant le déplacement de certains gènes, participent au modelage de l’ordre des gènes (Goulding et al. 1996).

On retrouve alors une rigidité du génome chloroplastique avec des groupes de gènes qui ne peuvent pas être séparés. C’est le cas pour de nombreux gènes dans nos génomes à l’étude. Comme le montre l’annexe 7, ces « clusters » de gènes sont souvent repérés par paires et apporteraient un équilibre aux génomes chloroplastiques.

Il est de plus reconnu que le génome chloroplastique fait face à plusieurs contraintes qui permettent de garder la structure conservée de son génome. On note par exemple que la plupart des groupements de gènes sont traduits de façon polycistronique et imposent donc un ordre précis des gènes, évitant ainsi les grandes modifications telles que les délétions ou bien les mutations (Wang et al. 2008).

101

4.4 - Évolution et pertes

Bien que la composition en gènes des différents génomes chloroplastiques analysés dans cette étude soit stable et extrêmement conservée au fil de l’évolution, il n’en demeure pas moins qu’un grand nombre de protéines du chloroplaste sont encodés par le génome nucléaire. En effet, ce phénomène est la conséquence de migrations massives des gènes des organites vers les chromosomes du noyau cellulaire (Kleine et al. 2009). La perte d’un gène survient lorsque celui-ci devient un speudogène ou bien s’il est éliminé lors de réarrangements génomiques. Souvent le transfert des gènes est responsable de ce phénomène. Lorsqu’un transfert de gène chloroplastique vers le noyau se produit, on retrace alors une duplication du gène (deux copies) possédant la même séquence moléculaire. L’une des deux copies risque d’être davantage sujet aux mutations, le gène perdra alors sa fonction et ne sera plus traduit en protéines. Cet évènement n’est pas étranger à la classe des Chloroyphyceae. En effet, il a été possible de retrouver plusieurs traces de gènes chloroplastiques au sein de l’algue modèle Chlamydomonas reinhardtii dont le génome nucléaire a pu être totalement séquencé (Merchant et al. 2007). La figure 17 montre les différentes pertes de gènes répertoriées chez plusieurs espèces des Chlorophyceae. De plus, si le gène transféré d’un chloroplaste vers le noyau devient fonctionnel, il peut y avoir une redondance génétique (une copie du gène est présente dans l’organite, et une autre dans le noyau), on assiste alors à la perte d’une pression de sélection en faveur du maintien par l’organite de la copie. Le transfert le plus convainquant jusqu’à présent provient du génome mitochondrial avec le déplacement d’un segment de 367 kb dans le noyau de Arabidopsis Thaliana (Stupar et al. 2001). Ce phénomène de transfert endosymbiotique a aussi été largement étudié chez l’algue modèle Chlamydomonadales reinhardtii (Lister et al. 2003). Cependant, certains gènes résistent et continuent d’exister à l’intérieur du génome chloroplastique. Bien que la majorité des gènes chloroplastiques codent pour des protéines ayant une fonction impliquée dans la photosynthèse, plusieurs auteurs suggèrent plusieurs gènes font partie des composantes régulatrices du génome chloroplastique et participent donc à la régulation de la stoechiométrie du génome chloroplastique (Maier et al. 2013).

102

Pour voir large, il est reconnu que plusieurs lignées d’eucaryotes ont perdu la capacité de photosynthèse (Keeling, 2010) et que le génome de ces espèces s’est alors drastiquement réduit. Ces dernières ont pourtant conservé leurs chloroplastes et continuent d’exercer certaines fonctions cruciales (Lim et Mc Fadden, 2010). Par conséquent, une proportion importante de la diversité eucaryote contient un plaste avec une teneur en gènes beaucoup plus faible que leurs homologues photosynthétiques (Wick et al. 2011). Certaines lignées eucaryotes sont cependant soupçonnées d’avoir complètement perdu leurs plastes (Keeling, 2010). En effet, une étude dénonce récemment, notamment chez l’algue verte Polytomella - algue verte monophylétique, proche de Chlamydomonas reinhardtii et de Volvox carteri- la perte totale de son génome chloroplastique (Smith et Lee, 2014). Par ailleurs, on remarque aussi l’absence des gènes chlN, chlB et chlL dans les génomes de Golenkinia longispiculata et Hafniomonas laevis. Ces gènes codent pour des enzymes impliquées dans la production de chlorophylle.

Il est maintenant bien démontré qu’il y a eu des incorporations récentes de séquences d’ADNcp dans le génome nucléaire (Merchant et al. 2007). L’implication du noyau est reconnue dans l’expression des gènes chloroplastique. Le transfert de séquences d’ADNcp dans le génome nucléaire s’est probablement déroulé sur plusieurs centaines de millions d’années.

103

5 - Conclusion et perspectives

Le but de cette étude était de déterminer la position phylogénétique de plusieurs membres des Volvocales, basée sur les données d'ADN ou protéiques et donc de confirmer ou d'infirmer leurs relations étroites suggérées par des similitudes morphologiques.

Les analyses phylogénétiques ont largement supporté les position des algues à l’étude dans le clade des Chlamydomonadales. En effet nos analyses apportent plus de rigueur et de précisions que les analuses précédentes basées sur les séquences 18S chez les eucaryotes. En plus des études du courant évolutif, les analyses structurales des génomes assemblés ont su renforcer l’appartenamce au clade des Chlamydomonadales avec par exemple la conservation de plusieurs paires de gènes. L’organisation des gènes dans les génomes chloroplastique est alors un indicateur de topologie et non un évènement aléatoire. En revanche, les introns ainsi que les sequences répétées montrent plus de diversité et apportent d’importantes variations dans les génomes chloroplastiques ne permettant aucun support phylogénétique.

Comme nous l’avons vu dans la partie introductive, les génomes chloroplastiques permettent de révéler une structuration génétique forte, et constituent donc une source idéale de marqueurs dans les études de diversité génétique. Le génome chloroplastique apparaît comme une entité dynamique évoluant lentement autant dans sa taille, dans sa structure, que dans son répertoire de gènes que dans leur ordonnancement. Les efforts de mise au point de marqueurs se sont essentiellement concentrés sur la région LSC qui évolue plus rapidement que l’IR (Wolfe et al. 1987; Clegg et al. 1991) et contient plus de séquences non codantes que la SSC, augmentant ainsi la probabilité d’obtenir du polymorphisme. De plus, la recherche de polymorphismes s’est focalisée sur les introns et les espaces intergéniques qui constituent de bons candidats.

Néanmoins, il a été montré dans ce travail, du fait de la nature conservée du génome chloroplastique (séquence et ordre des gènes), que ce dernier serait un bon outil à utiliser pour les analyses moléculaires. Ces données seraient de surcroit utilisables et transférables chez de nombreuses espèces.

105

La combinaison de ces différentes caractéristiques fait des génomes chloroplastiques des outils pertinents pour la biologie évolutive puisque qu’obtenir un nombre important de marqueurs constitue un des objectifs essentiels pour de nombreuses études.

Les lectures « paired end » obtenues par la technologie Illumina ne suffisent pas à elles seules pour réaliser un projet de novo. Leur longueur ne permettant pas de couvrir les longues régions répétées, il serait intéressant d’ajouter à cette approche un séquençage de type « mate-pair » afin de couvrir les zones non couvertes et optimiser l’assemblage des génomes chloroplastiques des espèces qui n’a pu être terminé dans le cadre de cette étude.

106

6 - Bibliographie

1. ADAMS KL. & PALMER JD. Molecular phylogenetics and evolution, Elsevier vol. 29, no. 3, p. 380-395 (2003). 2. ADL SM. et al. The revised classification of . Journal of Eukaryotic Microbiology, vol. 59, no. 5, p. 429-514 (2012). 3. AHN JW. et al. A new arctic Chlorella species for biodiesel production, Bioresource Technology, vol. 125, p. 340-343 (2012). 4. ALKINDY B. et al. Finding the core-genes of chloroplasts. Journal of Biosciences, vol. 4, no. 5, p. 357-364 (2014). 5. ALTSCHUL SF. et al. Gapped BLAST and PSI-BLAST: A new generation of protein database search programs. Nucleic Acids Research, vol. 25, no. 17, p. 3389-3402 (1997). 6. ANDERSON RA. Biology and systematics of heterokont and haptophyte algae. American Journal of Botany, vol. 91, no. 10, p. 1508-1522. (2004). 7. ARCHIBALD JM. & KEELING PJ. Recycled plastids: A green movement in eukaryotic evolution. Trends in Genetics, vol. 18, no. 11, p. 577-584 (2002). 8. ARCHIBALD JM. & KEELING PJ. The evolutionary history of plastids: A molecular phylogenetic perspective. In: Organelles, Genomes and Phylogeny: An Evolutionary Synthesis in the Age of Genomics, Hirt Robert and Horner David, p. 55-74 (2004). 9. ARCHIBALD JM. The puzzle of plastid evolution. Current Biology, vol. 19, no. 2, R81-R88 (2009). 10. BAHI J. et al. Predicting the evolution of two genes in the yeast Saccharomyces cerevisiae. Journal of Procedia Computer Science, vol. 11, p. 4 -16 (2012). 11. BAO Y. & HERRIN DL. Nucleotide sequence and secondary structure of the chloroplast group I intron Cr.psbA- 2: novel features of this self-splicing ribozyme. Nucleic Acids Research, vol. 21, no. 7, p. 1667 (1993). 12. BARBROOK AC. & HOWE CJ. Minicircular plastid DNA in the dinoflagellate Amphidinium operculatum. Molecular and General Genetics, vol. 263, no. 1, p. 152 -158 (2000). 13. BARTÁK M. Lichen photosynthesis. Scaling from the cellular to the organism level. In: The Structural Basis of Biological Energy Generation, Hohmann- Marriott M. vol. 39, p. 379 - 400 (2014). 14. BECKER B. & MARIN B. Streptophyte algae and the origin of embryophytes. Annals of Botany, vol. 103, no. 7, p. 999 -1004 (2009). 15. BECKER B. Snow ball earth and the split of Streptophyta and Chlorophyta. Trends in Plant Science, vol. 18, no. 4, p. 180 -183 (2013). 16. BELANGER AS. et al. Distinctive architecture of the chloroplast genome in the Chlorophycean green alga Stigeoclonium helveticum. Molecular Genetics and Genomics, vol. 276, no. 5, p. 464 - 477 (2006). 17. BELFORT M. & ROBERTS RJ. Homing endonucleases: keeping the house in order. Nucleic Acids Research, vol. 25, no. 17, p. 3379 - 3388 (1997). 18. BHATTACHARYA D. et al. Vertical evolution and intragenic spread of lichen- fungal group I introns. Journal of Molecular Evolution, vol. 55, no. 1, p. 74 - 84 (2002).

107

19. BHATTACHARIA D. & MEDLIN L. Update on evolution algal phylogeny and the origin of land plants. Plant Physiology, vol. 116, no. 1, p. 9 - 15 (1998). 20. BLACKMAN FE. & TANSLEY AG. A revision of the classification of the green algae. New Phytology, vol. 1, no. 6, p. 133 - 144 (1902). 21. BOCK R. Structure, function, and inheritance of plastid genomes. In: Cell and Molecular Biology of Plastids, Bock R. vol. 19, p. 29 - 63 (2007). 22. BOCK R. & TIMMIS JN. Reconstructing evolution: gene transfer from plastids to the nucleus. Bioessays, vol. 30, no. 6, p. 556 - 566 (2008). 23. BOETZER M. et al. Scaffolding pre-assembled contigs using SSPACE. Bioinformatics, vol. 27, no. 4, p. 578 - 579 (2010). 24. BOIVERT S. et al. Ray Meta: Scalable de novo metagenome assembly and profiling. Genome Biology, vol. 13, no. 12, R122 (2012). 25. BOLD HC. & WYNNE MJ. Introduction to the algae structure and reproduction, Prentice-Hall (1985). 26. BONEN L. & VOGEL J. The ins and outs of group II introns. Trends Genetics, vol. 17, no. 6, p. 322 - 331 (2001). 27. BRANCIAMORE S. & DI GIULIO M. The Origin of the 5S Ribosomal RNA molecule could have been caused by a single inverse duplication: strong evidence from its sequences. Journal of Molecular Evolution. vol. 7, no. 3 - 4, p.170 - 186 (2012). 28. BRODIE J. et al. Systematics of the species rich algae: red algal classification, phylogeny and speciation. In: The and systematics of large and species- rich taxa: building and using the Tree of Life and Systematics Association Series, Hodkinson TR. p. 323-336. (2007). 29. BROUARD JS. et al. Chloroplast DNA sequence of the green alga Oedogonium cardiacum (Chlorophyceae): Unique genome architecture, derived characters shared with the Chaetophorales and novel genes acquired through horizontal transfer. BMC Genomics, vol. 9, no. 1, p. 290 (2008). 30. BROUARD JS. et al. The exceptionally large chloroplast genome of the green alga Floydiella terrestris illuminates the evolutionary history of the Chlorophyceae. Genome Biology and Evolution, vol. 2, p. 240 - 256 (2010). 31. BROUARD JS. et al. The chloroplast genome of the green alga Schizomeris leibleinii (Chlorophyceae) Provides evidence for bidirectional DNA replication from a single origin in the Chaetophorales. Genome Biology and Evolution, vol. 3, p. 505 - 515 (2011). 32. Brouard JS. Analyse comparative de génomes chloroplastiques et d'algues vertes de la classe chlorophyceae. Thèse, University Laval (2011). 33. BUARD J. & JEFFREYS AJ. Big, bad minisatellites. Nature Genetics, vol. 15, no. 4, p. 327 - 328 (1997). 34. BUCHHEIM MA. et al. Phylogeny of the Chlorophyceae with special reference to the Sphaeropleales: a study of 18S and 26S rDNA data. Journal of Phycology, vol. 37, no. 5, p. 819 - 835 (2001). 35. BUCHHEIM MA. et al. Phylogeny of Oedogoniales, Chaetophorales and Chaetopeltidales (Chlorophyceae): inferences from sequence-structure analysis of ITS2. Annals of Botany, vol. 109, no. 1, p. 109 - 116 (2012).

108

36. BUCHHEIM MA. et al. The blood alga: Phylogeny of Haematococcus (Chlorophyceae) inferred from ribosomal RNA gene sequence data. European Journal of Phycology, vol. 48, no. 3, p. 318 - 329 (2013). 37. BUTTERFIELD NJ. Modes of pre-Ediacaran multicellularity. Precambrian Research, vol. 173, no. 1, p. 201 - 211 (2009). 38. CAISOVÁ L. et al. Polyphyly of Chaetophora and Stigeoclonium with in the Chaetophorales (Chlorophyceae), revealed by sequence comparisons of nuclear- encoded SSU rRNA genes. Journal of Phycology, vol. 47, n. 1, p. 164 - 177 (2011). 39. CAMBIAIRE JC. et al. The complete chloroplast genome sequence of the chlorophycean green alga Scenedesmus obliquus reveals a compact gene organization and a biased distribution of genes on the two DNA strands. BMC Evolutionary Biology, vol. 6, no. 1, p. 37 (2006). 40. CAPELLA-GUTIERREZ S. et al. Trimal: A tool for automated alignment trimming in large-scale phylogenetic analyses. Bioinformatics, vol. 25, no. 15, p. 1972 - 1973 (2009). 41. CAVALIER-SMITH T. & CHAO EE. Phylogeny of choanozoa, apusozoa, and other protozoa and early eukaryote megaevolution. Journal of Molecular Evolution, vol. 56, no. 5, p. 540 - 563 (2003). 42. CAVALIER-SMITH T. Eukaryote kingdoms: seven or nine ? Biosystems, vol. 14, no. 3, p. 461- 481 (1981). 43. CAVALIER-SMITH T. Evolution and relationships of algae: major branches of the tree of life. In : Unravelling The Algae : the past, present, and future of algal systematics, Brodie J. and Lewis J. p. 21-55 (2007). 44. CAVALIER-SMITH T. Only six kingdoms of life. Proceedings of The Royal Society of London, Biological Sciences, vol. 271, no. 1545, p. 1251 - 1262 (2004). 45. CHARLEBOIS P. Automatisation des étapes informatiques du séquençage d'un génome d'organite et utilisation de l'ordre des gènes pour analyses phylogénétiques. Mémoire, Université Laval (2007). 46. CHEVALIER B. et al. The LAGLIDADG homing endonuclease family. In: Homing Endonucleases and Intein, Belfort M. vol. 16, p. 33 - 47 (2005). 47. CHOQUET Y. et al. Mutant phenotypes support a trans-splicing mechanism for the expression of the tripartite psaA gene in C. reinhardtii chloroplast. Cell, vol. 52, no. 6, p. 903 - 913 (1988). 48. CHUMLEY TW. et al. The complete chloroplast genome sequence of Pelargonium x hortorum: organization and evolution of the largest and most highly rearranged chloroplast genome of land plants. Molecular Biology and Evolution, vol.23, no.11, p. 2175 - 2190 (2006). 49. CHUN L. et al. Phytochrome a mediates blue light and UV-A-dependent chloroplast gene transcription in green leaves. Plant Physiology, vol. 125, no. 4, p. 1957 - 1966 (2001). 50. CIVÁŇ P. et al. Analyses of charophyte chloroplast genomes help characterize the ancestral chloroplast genome of land plants. Genome Biological and Evolution, vol. 6, no. 4, p. 897 - 911 (2014). 51. CLEGG MT et al. Molecular evolution of chloroplast DNA. In: Evolution at The

109

Molecular Level, Selander RK., Clark AG., Whittman TS. Chapter 7, p. 135 - 149 (1991) 52. COX CJ. et al. Conflicting phylogenies for early land plants are caused by composition biases among synonymous substitutions. Systematic Biology, vol. 63, no. 2, p. 272 - 279 (2014). 53. CRISCUOLO A. & GRIBALDO S. Large-scale phylogenomic analyses indicate a deep origin of primary plastids with in Cyanobacteria. Molecular Biology and Evolution, vol. 28, no. 11, p. 3019 - 3032 (2011). 54. CUMMINGS MP. et al. Comparing bootstrap and posterior probability values in the four-taxon case. Systematic Biology, vol. 52, no. 4, p. 477 - 487 (2003). 55. DARRIBA D.et al. ProtTest 3: fast selection of best-fit models of protein evolution. Bioinformatics, vol. 27, no. 8. p. 1164 - 1165 (2011). 56. DAGAN T. et al. Genomes of stigonematalean cyanobacteria (subsection V) and the evolution of oxygenic photosynthesis from prokaryotes to plastids. Genome Biology and Evolution, vol. 5, no. 1, p. 31 - 44 (2013). 57. De CAMBIAIRE JC. et al. The complete chloroplast genome sequence of the chlorophycean green alga Scenedesmus obliquus Reveals a compact gene organization and a biased distribution of genes on the two DNA strands. BMC Evolutionary Biology, vol. 6, no.1, p. 37 (2006). 58. DE CLERCK O. et al. Algal taxonomy: A road to nowhere? Journal of Phycology, vol. 49, no. 2, p. 215 - 225 (2013). 59. DE CLERCK O. et al. Diversity and evolution of algae: primary endosymbiosis. Advances in Botanical Research, vol. 64, p. 55 - 86 (2012). 60. DE KONING AP. & KEELING PJ. The complete plastid genome sequence of the parasitic green alga Helicosporidium is highly reduced and structured. BMC Biology, vol. 4, no. 1, p. 12 (2006). 61. DELSUC F. et al. Phylogenomics and the reconstruction of the tree of life. Nature Review Genetics, vol. 6, no. 5, p. 361 - 375 (2005). 62. DELWICHE CF. Algae in the warp and weave of life: bound by plastids. In: Unravelling The Algae: The past, present, and future of algal systematics, Brodie J. and Lewis J. vol. 75, p.7 (2007). 63. DELWICHE CF. Tracing the thread of plastid diversity through the tapestry of life. The American Naturalist, vol. 154, no. S4, S164-S177 (1999). 64. DEMCHENKO E. et al. Generic and species concepts in Microglena (previously the Chlamydomonas monadina group) revised using an integrative approach. European Journal of Phycology, vol. 47, no. 3, p. 264 - 290 (2012). 65. DEUSCH O. et al. Genes of cyanobacterial origin in plant nuclear genomes point to a heterocyst-forming plastid ancestor. Molecular Biology and Evolution, vol. 25, no. 4, p. 748 - 761 (2008). 66. DI GIULIO M. A Model of the Origin of the 5S Ribosomal RNA Molecule. Journal of molecular evolution, vol. 71, no. 1, p. 1 - 2 (2010). 67. DOOLITTLE WF. Phylogenetic classification and the universal tree. Science, vol. 284, no. 5423, p. 2124 - 2128 (1999). 68. DOUGLAS SE. Plastid evolution: origins, diversity, trends. Current Opinion in Genetics & Development, vol. 8, no. 6, p. 655 - 661 (1998). 69. DUFRESNE A. et al. Genome sequence of the cyanobacterium Prochlorococcus marinus SS120, a nearly minimal oxyphototrophic genome. Proceedings of the

110

National Academy of Sciences, vol. 19, no. 17, p. 10020 - 10025 (2003). 70. DYAL Sabrina D. et al. Ancient Invasions: From Endosymbionts to Organelles. Science, vol. 304, no. 5668, p. 253 - 257 (2004). 71. EDGAR RC. MUSCLE: a multiple sequence alignment method with reduced time and space complexity. BMC Bioinformatics, vol. 5, no. 1, p. 113 (2004). 72. EDGCOMB VP. Benthic eukaryotic diversity in the Guaymas Basin hydrothermal vent environment. Proceedings of the National Academy of Science, vol. 99, no. 11, p. 7658 - 7662 (2002). 73. FACCHINELLI F. & WEBER APM. The metabolite transporters of the plastid envelope : an update. Frontiers in Plant Sciences, vol. 2. (2011). 74. FALCÓN LI. et al. Dating the cyanobacterial ancestor of the chloroplast. The ISME Journal, vol. 4, no. 6, p. 777 - 783. (2010). 75. FELSENSTEIN P. Phylogeny Inference Package (Version 3.2). Cladistics, vol. 5, p. 164. (1989). 76. FINET C. et al. Multigene phylogeny of the green lineage reveals the origin and diversification of land plants. Current Biology, vol. 20, no. 24, p. 2217 - 2222 (2010). 77. FLOYD GL & O'KELLY CJ. Phylum Chlorophyta, Class Ulvophyceae. In: Handbook of Protoctista, Margulis L. vol. 1, p. 617 - 640 (1990). 78. FOTT B. Algenkunde, Fischer, Jena. (1971). 79. FRIEDL T. The evolution of the green algae. Plant Systematics and Evolution. Vol. 11 p. 87 - 101 (1997). 80. FRIEDL T. & O'KELLY CJ. Phylogenetic relationships of green algae assigned to the genus Planophila (Chlorophyta): evidence from 18S rDNA sequence data and ultrastructure. European Journal of Phycology, vol. 37, no. 3, p. 373 - 384 (2002). 81. FUČÍKOVÁ K. et al. Putting incertea sedis taxa in their place : a proposal for ten new families and three new genera in Spaeropleales (Chlorophyta). Journal of Phycology, vol. 50, p. 14 - 25 (2014a). 82. FUČÍKOVÁ K. et al. Widespread desert affiliation of trebouxiophycean algae (Trebouxiophyceae, Chlorophyta) including discovery of three new desert genera. Phycological Research, vol. 62, no. 4, p. 294 - 305 (2014b). 83. GELVIN SB. et al. Small repeated sequences in the chloroplast genome of Chlamydomonas reinhardi. Molecular and General Genetics, vol. 173, no. 3, p. 315 - 22 (1979). 84. GILBERT W. The exon theory of genes. Cold Spring Harbor Symposia on Quantitative Biology, vol. 52, p. 901 - 905 (1987). 85. GLANZ S. & KUCK U. Trans splicing of organelle intron a detour to continuous RNAs. Bioessays, vol. 31, no. 9, p. 921 - 934 (2009). 86. GORDON D. & GREEN P. Consed: A graphical editor for next-generation sequencing. Bioinformatics, vol. 29, no. 22, p. 2936 - 2937 (2013). 87. GOULD SB. et al. Plastid Evolution. Annual Review of Plant Biology, vol. 59, p. 491 - 517 (2008). 88. GOULDING SE. et al. Ebb and flow of the chloroplast inverted repeat. Molecular and General Genetics, vol. 252, no. 1 - 2, p 195 - 206 (1996). 89. GRAHAM LE & WILCOX LW. ALGAE, (2009). 90. GREEN BR., Chloroplast genomes of photosynthetic eukaryotes. The Plant Journal, vol. 66, no. 1, p. 34 - 44 (2011).

111

91. GUIRY MD. How many species of algae are there? Journal of Phycology, vol. 48, no. 5, p. 1057 - 1063 (2012). 92. HACKETT JD. et al. Dinoflagellate: A remarkable evolutionary experiment, American Journal of Botany, vol. 91, no. 10, p. 1523 - 1534 (2004). 93. HALL JD. et al. An assessment of proposed DNA barcodes in freshwater green algae. Cryptogamie Algologie, vol. 31, no. 4, p. 529 - 555 (2010). 94. HALLICK RB. & BAIROCH A. Proposals for the naming of chloroplast genes II. Nomenclature for open reading frames encoded in chloroplast genomes. Plant Molecular Biology Reporter, vol. 12, no. 2, S29 - 30 (1994). 95. HAMAJI T. et al. Mitochondrial and plastid genomes of the colonial green alga Gonium pectoral give insights into the origins of organelle DNA architecture within the Volvocales. PLOS one, vol. 8, no. 2, p. 57177 (2013). 96. HAUGEN P. et al. The evolution of homing endonuclease genes and group I introns in nuclear rDNA. Molecular Biology and Evolution, vol. 21, no 1, p. 129 - 140 (2004). 97. HAUSNER G. Fungal mitochondrial genomes, introns and plasmids: Applied Mycology and Biotechnology, vol. 3, p. 101 - 131 (2003). 98. HOLLINGSWORTH PM. et al. Choosing and using a plant DNA barcode. PLOS one, vol. 6, no. 5, p. 19254 (2011). 99. HOLLOWAY SP. et al. The catalytic group-I introns of the psbA gene of chlamydomonas reinhardtii: core structures, ORFs and evolutionary implications. Current Genetics, vol. 36, no 1 - 2, p. 69 - 78 (1999). 100. HUANG J. Horizontal gene transfer in eukaryotes: The weak-link model. Bioessays, vol. 35, no. 10, p. 868 - 875 (2013). 101. HUELSENBECK JP. et al. Bayesian inference of phylogeny and its impact on evolutionary biology. Science, vol. 294, no. 5550, p. 2310 - 2314 (2001). 102. JANSEN RK et al. Methods for obtaining and analyzing chloroplast genome sequences. Methods In Enzymology, vol. 395, p. 348 - 384 (2005). 103. JANSEN RK et al. Analysis of 81 genes from 64 plastid genomes resolves relationships in angiosperms and identifies genome-scale evolutionary patterns. Proceedings of The National Academy of Sciences, vol. 104, no. 49, p. 19369 - 19374 (2007). 104. JANSEN RK, et al. Complete plastid genome sequence of the chickpea (Cicer arietinum) and the phylogenetic distribution of rps12 and clpP intron losses among legumes (Leguminosae). Molecular Phylogenetics and evolution, vol. 48, no. 3, p. 1204 - 1217 (2008) 105. JAVAUX E. Early eukaryotes in Precambrian oceans. In: Origins and evolution of life: An astrobiological perspective. Gargaud M. p. 414 - 449 (2011). 106. KEELING PJ. & PALMER JD. Horizontal gene transfer in eukaryotic evolution. Nature Review Genetics, vol.9, no. 8, p. 605 - 618 (2008). 107. KEELING PJ. Diversity and evolutionary history of plastids and their hosts. American Journal of Botany, vol. 91, no. 10, p. 1481 - 1493 (2004). 108. KEELING PJ. The endosymbiotic origin, diversification and fate of plastids. Biological Sciences, vol. 365, no. 1541, p. 729 - 748 (2010). 109. KEELING PJ. The number, speed, and impact of plastid endosymbiosis in eukaryotic evolution. Plant Biology, vol. 64, p. 583 - 607 (2013). 110. KELCHNER SA. Group II introns as phylogenetic tools: Structure, function, and

112

evolutionary constraints. American Journal of Botany, vol. 89, no. 10, p. 1651 - 1669 (2002). 111. KIM E. & ARCHIBALD JM. Diversity and evolution of plastids and their genomes. In: The chloroplast-interactions with the environment, Sandelius A. p. 1 - 39 (2009). 112. KLEINE T. et al. DNA transfer from organeles to the nucleus: the idiosyncratic genetics of endosymbiosis. Plant Biology, vol. 60, p. 115 - 138 (2009). 113. KNOLL AH. Paleobiological perspectives on early eukaryotic evolution. cold spring harbor perspectives in Biology, vol. 6, no. 1, p. 16121 (2014). 114. KOONIN EV. et al. A comprehensive evolutionary classification of proteins encoded in complete eukaryotic genomes. Genome Biology, vol. 5, no. 2, R7. (2004). 115. KOWALSKI JC. & DERBYSHIRE V. Characterization of homing endonucleases. Methods, vol. 28, no. 3, p. 365 - 373 (2002). 116. KRAUSE K. Plastid genomes of parasitic plants: a trail of reductions and losses. In: Organelle Genetics, Bullerwell CE. p. 79 - 103 (2012). 117. KUCK U. et al. Structural and transcription analysis of two Homologous genes for the P700 chlorophyll a-apoproteins in Chlamydomonas reinhardii: evidence for in vivo trans-splicing. The Journal of the European Molecular Biology Organization, vol. 6, no. 8, p. 2185 (1987). 118. KUMAR S. et al. Statistics and truth in phylogenomics. Molecular Biology and Evolution, vol. 29, no. 2, p. 457 - 472 (2011). 119. KURTZ S. et al. REPuter: The manifold applications of repeat analysis on a genomic scale. Nucleic Acids Research, vol. 29, no. 22, p. 4633 - 4642 (2001). 120. LAMBOWITZ AM. & BELFORT M. Introns as mobile genetic elements. Review of Biochemistry, vol. 62, no. 1, p. 587 - 622 (1993). 121. LAMBOWITZ AM. & ZIMMERLY S. Group II Introns: Mobile ribozymes that invade DNA. Cold Spring Harbor Perspectives in Biology, vol. 3, no. 8, p. 3616 (2011). 122. LAMBOWITZ AM. & ZIMMERLY S. Mobile group II introns. Review of Genetics, vol. 38, p. 1 - 35 (2004). 123. LARGET B. & SIMON DL. Markov chain Monte Carlo algorithms for the Bayesian analysis of phylogenetic trees. Molecular Biology and Evolution, vol. 16, p. 750 - 759 (1999). 124. LARTILLOT N. et al. A Bayesian software package for phylogenetic reconstruction and molecular dating. Bioinformatics, vol. 25, no. 17, p 2286 - 2288 (2009). 125. LEE RE. PHYCOLOGY, Lee R. Cambridge University Press. (2008). 126. LELIAERT F. et al. DNA taxonomy in morphologically plastic taxa: algorithmic species delimitation in the Boodlea complex (Chlorophyta: Cladophorales). Molecular Phylogenetics and Evolution, vol. 53, no. 1, p. 122 - 133 (2009). 127. LELIAERT F. et al. Into the deep: new discoveries at the base of the green plant phylogeny. Bioessays, vol. 33, no. 9, p. 683-692 (2011). 128. LELIAERT F. et al. Phylogeny and molecular evolution of the green algae. Critical Reviews in Plant Sciences, vol. 31, no. 1, p. 1 - 46 (2012). 129. LEMIEUX C. et al. Ancestral chloroplast genome in Mesostigma viride reveals an early branch of green plant evolution. Nature, vol. 403, no. 6770, p. 649 - 652

113

(2000). 130. LEMIEUX C. et al. A clade uniting the green algae Mesostigma Viride and Chlorokybus Atmophyticus represents the deepest branch of the Streptophyta in Chloroplast Genome-Based Phylogenies. BMC Biology, vol. 5, no. 1, p. 2 (2007). 131. LEWIS & Mc COURT Green algae and the origin of land plants. American Journal of Botany, vol. 91, no. 10, p. 1535 - 1556 (2004). 132. LI B. et al. Compositional biases among synonymous substitutions cause conflict between gene and protein trees for plastid origins. Molecular Biology and Evolution, msu105 (2014). 133. LIM L. & McFADDEN GI. The evolution, metabolism and functions of the apicoplast. Philosophical Transactions of the Royal Society B: Biological Sciences, vol. 365, no. 1541, p. 749 - 763 (2010). 134. LIN CP. et al. The complete chloroplast genome of Ginkgo biloba reveals the mechanism of inverted repeat contraction. Genome Biology and Evolution, vol. 4, no. 3, p. 374 - 381 (2012). 135. LINDAUER A. et al. Two histone H1- encoding genes of the green alga Volvox carteri with features intermediate between plant and animal genes: Gene, vol. 129, no. 1, p. 59 - 68 (1993). 136. LISTER DL. et al. DNA transfer from chloroplast to nucleus is much rarer in Chlamydomonas than in tobacco. Gene, vol. 316, p. 33 - 38 (2003). 137. LOPEZ-GARCIA P. & MOREIRA D. Tracking microbial biodiversity through molecular and genomic ecology. Research Microbiology, vol.159, no. 1, p. 67 -73 (2008). 138. LOWE TM. & EDDY SR. tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Research, vol. 25, no. 5, p. 955 - 964 (1997). 139. LUCAS P. et al. Rapid evolution of the DNA-binding site in LAGLIDADG homing endonucleases. Nucleic Acids Research, vol. 29, no. 4, p. 960 - 969 (2001). 140. MADDISON DR. & MADDISON WP. Interactive of analysis of phylogeny and character evolution using the computer program MacClade. Folia Primatologica. vol.52, no. 1 - 4, p 190 - 202 (1989). 141. MAGOČ T. & SALZBERG SL. Fast length adjustment of short reads to improve genome assemblies. Bioinformatics, vol. 27, no. 21, p. 2957 - 2963 (2011). 142. MAIER UG. et al. Massively convergent evolution for ribosomal protein gene content in plastid and mitochondrial genomes. Genome Biology and Evolution, vol. 5, no. 12, p. 2318 - 2329 (2013). 143. MAIER UG. et al. Twintrons are not unique to the Euglena chloroplast genome - structure and evolution of a plastome cpn60 Gene from a cryptomonad. Molecular and General Genetics, vol. 246, no. 1, p. 128 - 131 (1995). 144. MARCAIDA MJ. et al. Homing endonucleases: from basics to therapeutic applications. Cellular and Molecular Life Sciences, vol. 67, no. 5, p. 727 - 748 (2010). 145. MARGULIS L. Origins of species: acquired genomes and individuality. BioSystems, vol. 31, no. 2, p. 121 -1 25 (1993). 146. MARIN B. & MELKONIAN M. Molecular phylogeny and classification of the Mamiellophyceae class. nov. (Chlorophyta) based on sequence comparisons of the nuclear and plastid-encoded rRNA operons. Protist, vol. 161, no. 2, p. 304 -

114

336 (2010). 147. MARIN B. Nested in the Chlorellales or independent class? Phylogénie and classification of the Pedinophyceae (Viridiplantae) revealed by molecular phylogenetic analyses of complete nuclear and plastid-encoded rRNA operons. Protist, vol. 163, no. 5, p. 778 - 805 (2012). 148. MARTIN M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet Journal, vol. 17, p. 10 - 12 (2011). 149. MARTIN W. & HERRMANN RG. Gene transfer from organelles to the nucleus: how much, what happens, and why? Plant Physiology, vol. 118, no. 1, p. 9 - 17. (1998). 150. MARTIN W. & KOONIN EV. Introns and the origin of nucleus-cytosol compartmentalization. Nature, vol. 440, no. 7080, p. 41 - 45 (2006). 151. MARTIN W. et al. Evolutionary analysis of Arabidopsis, cyanobacterial, and chloroplast genomes reveals plastid phylogeny and thousands of cyanobacterial genes in the nucleus. Proceedings of the National Academy of Sciences, 2002, vol. 99, no. 19, p. 12246 - 12251 (2002). 152. MATTOX KR. Classification of the green algae: a concept based on comparative cytology. Systematics of the green algae, p. 29 - 72 (1984). 153. MAUL JE. et al. The Chlamydomonas reinhardtii plastid chromosome: Islands of genes in a sea of repeats. Plant Cell, vol. 14, no. 1, p. 2659 - 2679 (2002). 154. McCOURT RM. et al. Charophyte algae and land plant origins. Trends in Ecology & Evolution, vol. 19, no 12, p. 661- 666 (2004). 155. McMANUS H. et al. Invasion of protein coding genes by green algal ribosomal group I introns. Molecular Phylogenetics and Evolution, vol. 62, no. 1, p. 109 - 116 (2012). 156. McNEIL BA. et al. Alternative splicing of a group II intron in a surface layer protein gene in Clostridium tetani. Nucleic Acids Research, vol. 42, no. 3, p. 1959 - 1969 (2014). 157. McWILLIAM H. et al. Analysis tool web services from the EMBL-EBI. Nucleic Acids Research, vol. 41, no. W1, W597-W600 (2013). 158. MENG Q. et al. An intron-encoded protein assists RNA splicing of multiple similar introns of different bacterial genes. Journal of Biological Chemistry, vol. 280, no. 42, p. 35085 - 35088 (2005). 159. MERCHANT SS. et al. The chlamydomonas genome reveals the evolution of key animal and plant functions. Science. vol. 318, no. 5848, p. 245 - 250 (2007). 160. METZKER ML. Sequencing technologies the next generation; Nature Reviews Genetics, vol. 11, no.1, p. 31 - 46 (2010). 161. MILLEN RS. et al. Many parallel losses of infA from chloroplast DNA during angiosperm evolution with multiple independent transfers to the nucleus. The Plant Cell, vol. 13, no. 3, p. 645 - 658 (2001). 162. MOWER JP. et al. Horizontal acquisition of multiple mitochondrial genes from a parasitic plant followed by gene conversion with host mitochondrial genes. BMC Biology, vol. 8, no. 1, p. 150 (2010). 163. NAKADA T. & NOZAKI H. Taxonomic study of two new genera of fusiform green flagellates, Tabris gen. nov. and Hamakko gen. nov. (Volvocales, Chlorophyceae). Journal of Phycology, vol. 45, no. 2, p. 482 - 492 (2009). 164. NAKADA T. et al. Molecular phylogeny, ultrastructure, and taxonomic revision of

115

Chlorogonium (Chlorophyta): emendation of Chlorogonium and description of Gungnir gen. nov and Rusalka gen. nov. Journal of Phycology, vol. 44, no. 3, p. 751 - 760 (2008a). 165. NAKADA T. et al. Molecular systematics of Volvocales (Chlorophyceae, Chlorophyta) based on exhaustive 18S rRNA phylogenetic analyses. Molecular Phylogenetics and Evolution, vol. 48, no. 1, p. 281 - 291 (2008b). 166. NAKAYAMA T. et al. Phylogeny of wall-less green flagellates inferred from 18S rDNA sequence data. Phycological Reseach, vol. 44, no. 3, p. 151 - 161 (1996). 167. NEUSTUPA J. et al. Kalinella bambusicola gen. and sp. nov. (Trebouxiophyceae, Chlorophyta), a novel coccoid Chlorella like subaerial alga from Southeast Asia. Phycological Research, vol. 57, no. 3, p. 159 - 169 (2009). 168. NOZAKI H. et al. Phylogeny of the quadriflagellate Volvocales (Chlorophyceae) based on chloroplast multigene sequences. Molecular Phylogenetics and Evolution, vol. 29, no. 1, p. 58 - 66 (2003). 169. O'KELLY CJ. & FLOYD GL. Flagellar apparatus absolute orientations and the phylogeny of the green algae. BioSystems, vol. 16, no. 3, p. 227 - 251 (1984). 170. O’KELLY CJ. et al. A transient bloom of Ostreococcus (Chlorophyta, Prasinophyceae) in West Neck Bay, Long Island. Journal of Phycology, vol. 39, no. 5, p. 850 - 854 (2003). 171. O’KELLY CJ. et al. Ultrastructure and phylogenetic relationships of Chaetopeltidales ord. nov. (Chlorophyta, Chlorophyceae). Journal of Phycology, vol. 30, no. 1, p. 118 - 128 (1994). 172. ODOM OW. et al. A horizontally acquired group II intron in the chloroplast psbA gene of a psychrophilic Chlamydomonas: in vitro self-splicing and genetic evidence for maturase activity. RNA, vol. 10, no. 7, p. 1097 - 1107 (2004). 173. ODOM OW. et al. Chlamydomonas chloroplasts can use short dispersed repeats and multiple pathways to repair a double strand break in the genome. The Plant Journal, vol. 53, no. 5, p. 842 - 853 (2008). 174. OHYAMA K. et al. Chloroplast gene organization deduced from complete sequence of liverwort Marchantia-Polymorpha chloroplast DNA. Nature, vol. 322, p. 572 - 574 (1986). 175. PAGE RD. & HOLMES EC. Molecular evolution: a phylogenetic approach. John Wiley & Sons (2009). 176. PALENIK B. The genomics of symbiosis: hosts keep the baby and the bath water. Proceedings of the National Academic of Sciences, vol. 99, no. 19, p. 11996 - 11997 (2002). 177. PALMER JD. Plastid chromosomes: structure and evolution. In The Molecular Biology of Plastids, Bogorad, L. and Vasil, p. 5 - 53 (1991). 178. PALMER JD. & DELWICHE CF. The origin and evolution of plastids and their genomes. In Molecular Systematics of Plants II, Douglas E. p. 375 - 409 (1998). 179. PALMER JD. et al. The Plant Tree of life: an overview and some points of view. American Journal of Botany, vol. 91, no. 10, p. 1437 - 1445 (2004). 180. PARADIS E. et al. APE: Analyses of phylogenetics and evolution in R Language Bioinformatics, vol. 20, no. 2, p. 289 - 290 (2004). 181. PARFREY LW. et al. Estimating the timing of early eukaryotic diversification with multigene molecular clocks. Processings of the National Academy of Sciences, vol. 108, no. 33, p. 13624 - 13629 (2011).

116

182. PASZKIEWICZ K. & STUDHOLME DJ. De novo assembly of short sequence reads. Briefings in Bioinformatics, vol. 11, no. 5, p. 457 - 472 (2010). 183. PATTHY László Genome evolution and the evolution of exon-shuffling-a review. Gene, vol. 238, no. 1, p. 103 - 114 (1999). 184. PERRINEAU MM. et al. Recent mobility of plastid encoded group II introns and twintrons in five strains of the unicellular red alga Porphyridium. PeerJ. (2014). 185. POMBERT JF. et al. The complete mitochondrial DNA sequence of the green alga seudendoclonium akinetum (Ulvophyceae) highlights distinctive evolutionary trends in the Chlorophyta and suggests a sister-group relationship between the Ulvophyceae and Chlorophyceae. Molecular Biology of Evolution, vol. 21, no. 5, p. 922 - 935 (2004). 186. POMBERT JF. et al. The chloroplast genome sequence of the green alga Pseudendoclonium akinetum (Ulvophyceae) reveals unusual structural features and new insights into the branching order of chlorophyte lineages. Molecular Biology and Evolution, vol. 22, no. 9, p. 1903 - 1918 (2005). 187. POMBERT JF. et al. The complete chloroplast DNA sequence of the green alga Oltmannsiellopsis viridis reveals a distinctive quadripartite architecture in the chloroplast genome of early diverging ulvophytes. BMC Biology, vol. 4, no. 1, p. 3 (2006). 188. POMBERT JF. & KEELING PJ. The mitochondrial genome of the entomoparasitic Green Alga Helicosporidium. PLOS one, vol. 5, no. 1, p. 8954 (2010). 189. POSADA D. jModelTest: Phylogenetic model averaging. Molecular Biology and Evolution, vol. 25, no. 7, p. 1253 - 1256 (2008). 190. PRICE DC. et al. Cyanophora paradoxa genome elucidates origin of photosynthesis in algae and plants. Science, vol. 335, no. 6070, p. 843 - 847 (2012). 191. PRŐSCHOLD T. et al. Molecular phylogeny and taxonomic revision of Chlamydomonas (Chlorophyta). Protist, vol. 152, no. 4, p. 265 - 300 (2001). 192. PRŐSCHOLD T. & LELIAERT F. Systematics of the green algae: conflict of classic and modern approaches. Systematics Association, special vol. 75, p. 123 (2007). 193. PYLE AM. The tertiary structure of group II introns: implications for biological function and evolution. Critical reviews in Biochemistry and Molecular Biology, vol. 45, no. 3, p. 215 - 232 (2010). 194. RAND DM. The units of selection on mitochondrial DNA. Annual Review of Ecology and Systematics, vol. 32, p. 415 - 448 (2001). 195. RAVEN PH. A Multiple Origin for Plastids and Mitochondria. Many independent symbiotic events may have been involved in the origin of these cellular organelles. Science, vol. 169, no. 3946, p. 641 - 646 (1970). 196. REGIER JC. et al. Arthropod relationships revealed by phylogenomic analysis of nuclear protein-coding sequences. Nature, vol. 463, no. 7284, p. 1079 - 1083 (2010). 197. RICE DW. et al. Horizontal transfer of entire genomes via mitochondrial fusion in the angiosperm Amborella. Science, 2013, vol. 342, no. 6165, p. 1468 - 1473 (2013). 198. RICE P. et al. EMBOSS: the european molecular biology open software suite. Trends in Genetics, vol. 16, no. 6, p. 276 - 277 (2000).

117

199. RIS H. & PLAUT W. Ultrastructure of DNA-containing areas in the chloroplast of Chlamydomonas. The Journal of Cell Biology, vol. 13, no. 3, p. 383 - 391 (1962). 200. ROBBENS S. et al. The complete chloroplast and mitochondrial DNA sequence of Ostreococcus tauri: Organelle genomes of the smallest eukaryote are examples of compaction. Molecular Biology and Evolution, vol. 24, no. 4, p. 956 - 968 (2007). 201. RODRIGUEZ-EZPELETA N. et al. Monophyly of primary photosynthetic eukaryotes: green plants, red algae, and glaucophytes. Current Biology, vol. 15, no. 14, p. 1325 - 1330 (2005). 202. ROGOZIN IB. et al. Dollo parcimony and the reconstruction of genome evolution. Parcimonie, phylogénie, et de la génomique, Oxford Université Press p. 190 - 200 (2006). 203. RUDI K. et al. Nested evolution of a tRNA (Leu) (UAA) group I intron by both horizontal intron transfer and recombination of the entire tRNA locus. Journal of Bacteriology, vol. 184, no. 3, p. 666 - 671 (2002). 204. RUHFEL BR. et al. From algae to angiosperms-inferring the phylogeny of green plants (Viridiplantae) from 360 plastid genomes. BMC Evolutionary Biology, vol. 14, no. 1, p. 23 (2014). 205. SAITOU N. & NEI M. The neighbor-joining method: a new method for reconstructing phylogenetic trees. Molecular Biology and Evolution, vol. 4, no. 4, p. 406 - 425 (1987). 206. SALDANHA R. et al. Group 1 and group II introns. The FASEB Journal, vol. 7, no. 1, p. 15 - 24 (1993). 207. SANDERSON MJ. & SHAFFER HB. Troubleshooting molecular phylogenetic analyses. Review of Ecology and Systematics p. 49 - 72 (2002). 208. SASAKI H. et al. Early and late flash-induced field responses correspond to ON and OFF receptive field components in hamster superior colliculus. Progress in Brain Research, vol. 95, p. 103 - 110 (1993). 209. SAUNDERS GW. & HOMMERSAND MH. Assessing red algal supraordinal diversity and taxonomy in the context of contemporary systematic data. American Journal of Botany, vol. 91, p. 1494 - 1507 (2004). 210. SAUNDERS GW. & KUCERA H. An evaluation of rbcL, tufA, UPA, LSU and ITS as DNA barcode markers for the marine green macroalgae. Cryptogamie Algologie, vol. 31, no. 4, p. 487 - 528 (2010). 211. SCHIRRMEISTER BE. et al. Evolution of multicellularity coincided with increased diversification of cyanobacteria and the great oxidation event. Biological Sciences Evolution PNAS, vol. 110, no. 5, p. 1791 - 1796 (2013). 212. SCHMIEDER R. & EDWARDS R. Quality control and preprocessing of metagenomic datasets. Bioinformatics, vol. 7, no. 6, p. 863 - 664 (2011). 213. SCHNEIDER A. Mitochondrial tRNA import and its consequences for mitochondrial translation. Review of Biochemistry. vol. 80, p. 1033 (2011). 214. SHIINA T. et al. rbcL transcript levels in tobacco plastids are independent of light: reduced dark transcription rate is compensated by increased mRNA stability. The Plant Cell, vol. 10, no. 10, p. 1713 - 1722 (1998). 215. SHINOZAKI K. et al. The complete nucleotide sequence of the tobacco chloroplast genome: its gene organization and expression. EMBO, vol. 5, no. 9, p. 2043 - 2049 (1986). 216. SILVA Paul C. & MOE Richard L. Volvocales. AccessScience. Mc Graw-Hill

118

Education (2014). 217. SKALOUD P. & PEKSA O. Evolutionary inferences based on ITS rDNA and actin sequences reveal extensive diversity of the common lichen alga Asterochloris (Trebouxiophyceae, Chlorophyta). Molecula. Phylogenetics and Evolution, ds le 2.5.2vol. 54, no. 1, p. 36 - 46 (2010). 218. SLUIMAN H.J. Phylogeny of cytokinesis in green algae. Experimental Phycology, Academie der Wissenschaften zu Göttingen. p. 24 (1989). 219. SMIT A.F.A, HUBLEY R. & GREEN P., RepeatMasker (2008-2010). 220. SMITH DR & LEE RW. The mitochondrial and plastid genomes of Volvox carteri: bloated molecules rich in repetitive DNA. BMC Genomics, vol. 10. no. 1, p. 32 (2009). 221. SMITH DR. & LEE RW. A plastid without a genome: evidence from the non- photosynthetic green algal genus Polytomella. Plant physiology, vol. 164, no. 4, p. 1812 - 1819 (2014). 222. SMITH DR. & LEE RW. Low nucleotide diversity for the expanded organelle and nuclear genomes of Volvox carteri supports the mutational-hazard hypothesis. BMC Evolutionary Biology. vol. 27, no. 10, p. 2244 - 2256 (2010). 223. SMITH DR. & LEE RW., Nucleotide diversity of the Chlamydomonas reinhardtii plastid genome: addressing the mutational-hazard hypothesis. BMC Evolutionary Biology, vol. 9, no. 1, p.120 (2009). 224. SMITH DR. et al. The Dunaliella salina organelle genomes: large sequences, inflated with intronic and intergenic DNA. BMC Plant Biology, vol. 10, no. 1, p.83 (2010). 225. STAMATAKIS Alaxandros. A tool for phylogenetic analysis and post-analysis of large phylogenies bioinformatics. RAxML Version 8. Bioinformatics, vol. 30, no. 9, p. 1312 - 1313 (2014). 226. STERM DB. et al. Chloroplast RNA metabolism. Review of Plant Biology, vol. 61, p. 125 - 155 (2010). 227. STODDARD BL. Homing endonuclease structure and function. Quaterly Reviews of Biophysics, vol. 38, no. 1, p. 49 - 95 (2006). 228. STOEBE B. & MAIER UG. One, two, three: nature's tool box for building plastids. Protoplasma, vol. 219, no. 3 - 4, p. 123 - 130 (2002). 229. STUPAR RM. et al. Complex mtDNA constitutes an approximate 620-kb insertion on Arabidopsis thaliana chromosome 2: Implication of potential sequencing errors caused by large-unit repeats. Proceecing of the National Academic of Science, vol. 98, no. 9, p. 5099 - 5103 (2001). 230. SUGIURA M. et al. Evolution and mechanism of translation in chloroplasts. Review of Genetics, vol. 32, no. 1, p. 437 - 459 (1998). 231. SUZUKI Y. et al. Overcredibility of molecular phylogenies obtained by Bayesian phylogenetics. Proceedings of the National Academy of Sciences, vol. 99, no. 25, p. 16138 - 16143. (2002). 232. TARTAR A. & BOUCIAS DG. The non-photosynthetic, pathogenic green alga Helicosporidium sp. has retained a modified, functional plastid genome. FEMS Microbiology Letters, vol. 233, no. 1, p. 153 - 157 (2004). 233. TARTAR A. et al. Comparison of plastid 16S rRNA (rrn16) genes from Helicosporidium sp: evidence supporting the reclassification of Helicosporidia as

119

green algae (Chlorophyta). International Journal of Systematic and Evolutionary Microbiology, vol. 53, no. 6, p. 1719 - 1723 (2003). 234. TESLER G. Grimm: Genome rearrangements web server. Bioinformatics, vol. 18, no. 3, p. 492 - 493 (2002). 235. TIMME RE. et al. Broad phylogenomic sampling and the sister lineage of land plants. PLoS One, vol. 7, no. 1 p. 29696 (2012). 236. TIMMIS JN. et al. Endosymbiotic gene transfer: organelle genomes forge eukaryotic chromosomes. Nature Reviews Genetics, vol. 5, no. 2, p. 123 - 135 (2004). 237. TOOR N. et al. Structural insights into RNA splicing. Current Opinion in Structural Biology, vol. 19, no. 3, p. 260 - 266 (2009). 238. TURMEL M. et al. Analysis of the chloroplast large subunit ribosomal RNA gene from 17 Chlamydomonas taxa. Three internal transcribed spacers and 12 group I intron insertion sites. Journal of Molecular Biology. Vol. 232, no. 2, p. 446 - 467 (1993). 239. TURMEL M. et al. Deep division in the Chlorophyceae (Chlorophyta) revealed by chloroplast phylogenomic analyses. Journal of Phycology, vol. 44, no. 3, p. 739- 750. (2008). 240. TURMEL M. et al. Evolutionary transfer of ORF-containing group I introns between different subcellular compartments (chloroplast and mitochondrion). Molecular Biology and Evolution, vol. 12, no. 4, p. 533 - 545 (1995). 241. TURMEL M. et al. The chloroplast genome sequence of Chara vulgaris sheds new light into the closest green algal relatives of land plants. Molecular Biology and Evolution, vol. 23, no. 6, p. 1324 - 1338 (2006). 242. TURMEL M. et al. The chloroplast genomes of the green algae Pyramimonas, Monomastix and Pycnococcus shed newlight on the evolutionary history of Prasinophytes and the origin of the secondary chloroplasts of Euglenids. Molecular Biology of Evolution, vol. 26, no. 3, p. 631 - 648 (2009). 243. TURMEL M. et al. The complete chloroplast DNA sequence of the green alga Nephroselmis olivacea: insights into the architecture of ancestral chloroplast genomes. Proceedings of the National Academy of Sciences of the United States of America, vol. 96, no. 18, p. 10248 - 10253 (1999). 244. TURMEL M. et al. Two group I introns with long internal open reading frames in the chloroplast psbA gene of Chlamydomonas moewusii. Nucleic Acids Research, vol. 17, no. 10, p. 3875 - 3887 (1989). 245. TYPPERY NP. et al. Sonder la monophylie de la Sphaeropleales (Chlorophyceae) en utilisant les données de cinq gènes. Journal of Phycology, vol. 48, p. 1482 - 1493 (2012). 246. VAN DEN HOEK C., MANN D. G. & JAHNS H. M. Algae: an introduction to phycology (1995). 247. VERGHESE B. Phylogeny and evolution of the Chlorophyceae and Trebouxiophyceae. Thesis, University of Tulsa, (2007). 248. WAKASUGI T. et al. Loss of all ndh genes as determined by sequencing the entire chloroplast genome of the black pine Pinus thunbergii. Proceeding of the National Academy of Sciences, vol. 91, no. 21, p. 9794 - 9798 (1994). 249. WAKASUGI T. et al. Complete nucleotide sequence of the chloroplast genome from the green alga Chlorella vulgaris: the existence of genes possibly involved

120

in chloroplast division. Proceeding of the National Academic of Science, vol. 94, no. 11, p. 5967 - 5972 (1997). 250. WANG RJ. et al. Dynamics and evolution of the inverted repeat-large single copy junctions in the chloroplast genomes of monocots. BMC Evolutionary Biology, vol. 8, no. 1, p. 36 (2008). 251. WATANABE S. & NAKAYAMA T. Ultrastructure and phylogenetic relationships of the unicellular green algae Ignatius tetrasporus and Pseudocharacium americanum (Chlorophyta). Phycology Research, vol. 55, no. 1, p. 1 - 16 (2007). 252. WEHR JD. et al. Freshwater Algae of North America: Ecology and Classification (Aquatic Ecology) (2002). 253. WICKE S. et al. The evolution of the plastid chromosome in land plants: gene content, gene order, gene function. Plant Molecular Biology, vol. 76, no. 3 - 5, p. 273 - 297 (2011). 254. WISE RR. The diversity of plastid form and function. In: The structure and function of plastids.Wise, RR, p. 3 - 26 (2006). 255. WOLF PG.et al. The evolution of chloroplast genome structure in ferns. Genome, vol. 53, no. 9, p. 731 - 738 (2010). 256. WOLFE KH. et al. Rates of nucleotide substitution vary greatly among plant mitochondrial, chloroplast, and nuclear DNAs. Proceedings of the National Academy of Sciences, vol. 84, no. 24 p. 9054 - 9058 (1987). 257. WOMBLE DD. GCG: The wisconsin package of sequence analysis programs. Methods in Molecular Biology, vol. 132, p. 3 (2000). 258. WU CS. Et al. Chloroplast phylogenomics indicates that Ginkgo biloba is sister to cycads. Genome Biology of Evolution, vol. 5, no. 1, p. 243 - 254 (2013). 259. YAGI Y. & SHIINA T. Recent advances in the study of chloroplast gene expression and its evolution. Frontiers in Plant Sciences, vol. 5 (2014). 260. YANG Z. Estimating the pattern of nucleotide substitution. Journal of Molecular Evolution, vol. 39, p. 105-111 (1994). 261. YOON HS. et al. A molecular timeline for the origin of photosynthetic eukaryotes. Molecular Biology and Evolution, vol. 21, no. 5, p. 809 - 818 (2004). 262. YOON HS. et al. A single origin of the photosynthetic organelle in different Paulinella lineages. BMC Evolutionary Biology, vol. 9, no. 1, p. 98. (2009). 263. ZHANG Z. et al. Single gene circles in dinoflagellate chloroplast genomes. Nature, vol. 400, no. 6740, p. 155 - 159 (1999). 264. ZIMMER A. et al. Dating the early evolution of plants: detection and molecular clock analyses of orthologs. Molecular Genetics and Genomics, vol. 278, no. 4, p. 393 - 402 (2007).

121

122

7 - ANNEXES

Noms Accessions Publications associées CHLAMYDOMONADALES Carteria'cerasiformis Non$publié * Carteria'crucifera Non$publié * Carteria'lunzensis Non$publié * Chlamydomonas+monadina Non.publié * Characiochloris+acuminata Non.publié * Chlamydomonas'applanata Non$publié * Chlamydomonas'frankii Non$publié * Chlamydomonas'moewusii Non$publié$ * Chlamydomonas'nivalis Non$publié$ * Chlamydomonas'pallidostigmatica Non$publié$ * Chlamydomonas'peterfii Non$publié * Chlamydomonas'radiata Non$publié * Chlamydomonas'reinhardtii FJ423446 Smith$et$Lee,$2009 Chlorogonium+capillatum Non.publié * Chloromonas+perforata Non.publié * Dunaliella'salina GQ250046 Smith$et$al.$2010 Haematococcus+lacustris Non.publié * Hafniomonas'laevis' Non$publié * Oogamochlamys+gigantea Non.publié * Phacotus+lenticularis Non.publié * Stephanosphaera+pluvialis+ Non.publié * Volvox'carteri GU084820 Smith$et$Lee,$2010

SPHAEROPLEALES Treubaria'triappendiculata Non$publié * Scenedesmus'obliquus NC_008101.1 Cambiaire$et$al.$2006 Pseudodictyosphaerium'jurisii Non$publié * Jenufa'minuta Non$publié * Golenkinia'longispicula Non$publié * Bracteacoccus'giganteus Non$publié *

OCC Floydiella'terrestris NC_014346.1 Brouard$et$al.$2010 Oedocladium'carolinianum Non$publié * Oedogonium'cardiacum EU677193.1 Brouard$et$al.$2008 Schizomeris'leibleinii NC_015645.1 Brouard$et$al.$2011 Stigeochlonium'helveticum NC_008372 Belanger$et$al.$2006

ULVOPHYCEAE Pseudoneochloris'marina Non$publié * Pseudendoclonium'akinetum NC_008114.1 Pombert$et$al.$2005 Planophila'microcystis Non$publié * Oltmannsiellopsis'viridis NC_008099.1 Pombert$et$al.$2006$

Annexe 1 - Ensemble des taxa utilisés dans les analyses

Les différents génomes chloroplastiques utilisés dans les analyses sont représentés ici par un code couleur en fonction de leur classe. Les taxa en gras sont les espèces traitées dans cette études. * Les données génomiques encore non publiées ont été fournies par le laboratoire de Claude Lemieux et Monique Turmel.

123

Composés Quantité

Ca(NO3)2.*4H2O 15*mg

β2Na2glycerophosphate*.*5H2O 5*mg

KNO3 10*mg

MgSO4*.*7H2O 4*mg TRIS 50*mg Vitamine*B12 0,01*μg Biotine 0,01*μg Thiamine*HCl 1*μg PIV*métaux 0,3*ml Eau*distillée 99,7*ml

Annexe 2 - Composition du milieu de culture C

124

OCC S Chlamydomonadales

STIGhelveSCENobliq PHAClenti !FLOYterre BRACgigan CHLAmoewuDUNAsalin!!CHLAapplaCHLOperfo0CHLAreinh!CHARacumi00VOLVcarteOOGAgigan0 STIGhelve!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!62 SCENobliq!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!68 73 BRACgigan!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!69 73 31 PHAClenti00000000000000000000000000000000000000000000000000000000000000000000000000000000000000068 72 46 44 CHLAmoewu!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!69 71 52 51 39 DUNAsalin!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!68 73 49 42 35 36 CHLAappla!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!68 73 47 42 38 35 21 CHLOperfo00000000000000000000000000000000000000000000000000000000066 73 44 46 39 41 26 23 CHLAreinh!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!68 72 49 46 41 46 42 43 46 CHARacumi00000000000000000000000000000000068 70 49 45 36 40 19 18 26 43 VOLVcarte!!!!!!!!!!!!!!!!!!67 74 49 46 40 48 46 40 46 23 45 OOGAgigan0000000000000069 72 47 47 44 51 43 42 47 41 47 44 HAFNlaevi!!!!!! 69 71 47 41 35 47 37 38 42 43 40 42 38

--Chlamydomonadales--- --Sphaeropleales OCC-

Annexe 3 - Distance en terme d'inversion entre les génomes chloroplastiques de la classe Chlorophyceae

Représentation de la matrice utilisée pour la phylogénie par les inversions de gènes répertoriées dans les génomes chloroplastiques des algues Chlorophyceae. Générée à partir du logiciel GRIMM (Tesler, 2002). La matrice démontre les nombres d’inversions nécessaires entre les génomes chloroplastiques pour être identiques. Les algues de l’étude sont en gras et les différents ordres utilisés sont mis en avant par un code couleur.

125

Gènes Sites OCC Sphaeropleales Chlamydomonadales

PSEUjuris OEDOcarolFLOYterreSTIGhelve SCENobliqBRACgiganTREUtriapGOLElongiJENUminutCARTcerasCARTlunzeHAFNlaeviCHLAmoewuDUNAsalinVOLVcarteCHLAreinhOOGAgiganCHLAacumiPHAClentiCHLOperfoCHLOcapil atpA 489 O O O O O O 753 O chlL 210 O O petB 423 O psaA 948 O 978 O 1101 O O O 1601 O O 1602 O 2032 O 2037 O psaB 291 O O O O 888 O 936 O O 1769 O O O O O O O psbA 179 O O 271 O 276 O O O O O 333 O 384 O O O O O 414 O O O O O O 499 O 525 O O O O 534 O 548 O O O O O 570 O O O O O O 645 O O 743 O O 756 O O O 790 O O O O 898 O O 983 O 1002 O psbB 600 O O O psbC 579 O O O O O O O O O O 708 O 918 O O O O O O O 1009 O 1089 O psbD 551 O O O O 568 O 573 O O 746 O O O O petB 423 O rbcL 462 O 699 O O 1224 O rrl 7 O 730 O 958 O O 1065 O O O O O 1255 O 1766 O O 1917 O 1923 O O O O O O 1931 O O O O O O 2259 O 2449 O O O O O 2500 O O O O O O 2511 O 2593 O O O O O 2596 O O O O O rrs 426 O O 508 O O O 531 O O 692 O 793 O O 943 O O O trnL 35 O O O O O O O O O (uaa) O Introns=groupe=I=sans=ORF O Introns=groupe=I=avec=ORF Algues=de=l'étude Annexe 4 - Sites d'insertions des introns de groupe I chez les Chlorophyceae

Ici sont représentés tous les sites d’insertions des introns de groupe I répertoriés chez les algues Chlorophyceae. Ils ont été établis selon l’algue ancestrale Mesostigma viride. Mise en avant de la présence d’introns avec des ORF en rouge et sans ORF en bleu.

126

Gènes Sites OCC Sphaeropleales Chlamydomonadales

PSEUjuris OEDOcarolFLOYterreSTIGhelve SCENobliqBRACgiganTREUtriapGOLElongiJENUminutCARTcerasCARTlunzeHAFNlaeviCHLAmoewuDUNAsalinVOLVcarteCHLAreinhOOGAgiganCHLAacumiPHAClentiCHLOperfoCHLOcapil atpA 670 O 753 O O atpB 684 O atpF 76 O O atpl 486 O 625 O cemA 19 O 72 O 469N O 606N O petB 415 O petD 4 O O O 247 O O psaA 86 O O O O O O O O O O T T T T T 266 O O O O O O O O O O O T T T T T 1794 O O O psaB 562 O 1918 O psaC 25 O O O O psaJ 66 O 87 O psbA 82 O psbB 148 O 356 O 357 O 573 O psbC 1088 O psbD 732 O psbI 22 O rbcL 67 O O 120 O O 285 O 612 O 1219 O 1225 O rpl2 22 O rpl32 13 O O O O O O O O O O O rpoA 253 O rpoC1 396 O rps7 70 O O Introns>groupe>II>sans>ORF Algues>de>l'étude O Introns>groupe>II>avec>ORF T Introns>groupe>II>>transDépissés

Annexe 5 - Sites d'insertions des introns de groupe II chez les Chlorophyceae

Ici sont représentés tous les sites d’insertions des introns de groupe II répertoriés chez les algues Chlorophyceae. Les sites ont été établis selon l’algue ancestrale Mesostigma viride. Est mis en avant la présence d’introns avec des ORF en rouge, sans ORF en bleu. De même, la lettre T correspond aux introns trans-épissés.

127

Annexe 6 - Réarrangement des génomes à travers leurs groupes de gènes conservés

Seuls les groupes de gènes conservés sont apparents dans cette figure. Chaque couleur correspondant à un groupe de gènes défini, le jeu de couleurs fait ici apparaître, chez ces quatre algues à l’étude, les similitudes en groupes de gènes conservés et leur réarrangement dans l’espace pour chacune d’elle. * Ce symbole met en avant les quelques variations de l’ordre des gènes à l’intérieur des ensembles sélectionnés.

128

Groupes(de(Gènes OCC Sphaeropleales Chlamydomonadales

FLOYterreSTIGhelveSCHIIeibi TREUtriapSCENobliqPSEUjurisHAFNlaevi PHAClenti OEDOcarolOEDOcardi JENUminutBRACgigan CARTcerasCARTlunzeCHLAmoewuDUNAsalinVOLVcarteCHLAreinhCHLAapplaOOGAgiganCHLAacumiCHLOperfo rpoBb-rpoBa-psbF-psbL O O O O O O atpA-psbI-cemA-rpl12 O O O O O atpB-rps18-petB O O O O O chlB-ycf12-trnK(uuu) O O O O O psaAb-psbJ-atpL-psaJ O O O O O psaCa-psaCb-petL-trnN(guu) O O O O O O O psbB-psbT-psbN-psbH-psbK O O O O O rpl20-rpl32b O O O O O O O rps18-petB O O O O O rps2-infA-psbT-psbN-psbH-psbK O O O O O trnC(gca)-rpl16-rpl14-rpl5-rps8 O O O O O O ccsA-psbZ-psbM O O O O O O O O O O O O O O petA-petDa-petDb-trnR(ucu) O O O O O O O O rbcLa-rbcLb-rbcLc-trnY(gua) O O O O * rpl32a-rpl23-rpl2-rps19 O O O O O O O rps2-infA O O O O atpA-atpI-petG O O O O O atpF-rpl16-rpl14 O O O O O chlN-psaM O O O O O psaAa-psaAb-psaAc O O O O O psbB-psbT-psbH O O O O O O O O O O O psbL-psbJ O O O O O rpl32a-rpl32b O O O O O chlN-psaM-chlB O O O O rrs-trnl(gau)-trnA(ugc)-rrl-rrf O O O O O O O O O O O O O O O O O O O O O O rpl23-rpl2 O O O O O O O O O O O O O O O O O O O O O * rpl23-rpl2-rps19 O O O O O O O O O O O O O O O O atpH-atpF O O O O O O O O O O O O O O O O O rbcLa-rbcLb-rbcLc O O O O O O O O O O O O O O O O O rps3-rpoC2 O O O O O O O O O O O O O O O O atpaA-psbl-cemA O O O O O O O O O O O petDa-petDb O O O O O O O O O O O O psaCa-psaCb-petL O O O O O O O O O O O O psbF-psbL-petG O O O O O O O O O O O rpoBa-rpoBb O O O O O O O O O O O O atpl-psaJ-rps12 O O O O O O O O O O O psaAb-psbJ-atpl O O O O O O O O O O O psbB-psbT-psbN-psbH O O O O O O O O O O O psbF-psbL-petG-rps3 O O O O O O O O O rps18-rps2 O O O O O O O O O O O rps7-atpE O O O O O O O O O O O trnF(gaa)-psaCa-psaCb-petL O O O O O O O O O O O ycf4-ycf3 O O O O O O O O O O O O ou O présence*du*groupe*de*gènes Algues*de*l'étude présence*du*sous2groupe*de*gènes*voir* O *

Annexe 7 - Paires de gènes conservées comme marqueurs de différentes classes

Certains groupes de gènes sont ici regroupés, en visuel, en quatre masses bleu. Celles-ci peuvent apparaître comme une identité (ou une signature) pour chacun des trois clades d’algues représentés dans le tableau. Elles peuvent aussi nous informer en terme d’évolution phylogénétique et illustrent la perte des groupes de gènes.

129

Annexe 8 - Phylogénie protéique selon la méthode bayésienne

L’analyse phylogénétique ci dessus inférée avec PHYLOBAYES est soutenue par le groupe extérieur des Ulvophyceae représenté en vert sur la figure. On reconnaît en gris foncé les membres du groupe OCC, suivi des Sphaeropleales en gris clair et enfin les Chlamydomonadales de couleur beige. En gras sont mis en avant les algues de l’étude toutes positionnées dans l’ordre Chlamydomonadales. Les valeurs bootstraps (BS) sont indiquées en noir pour chaque nœud internet et les statistiques de probabilité postérieures en rose.

130