UNIVERSITE D’AIX- CNRS ED 62 – SCIENCES DE LA VIE ET DE LA SANTE

Information Génomique et Structurale UMR7256 (IMM, FR3479)

Thèse présentée pour obtenir le grade universitaire de docteur

Discipline : Biologie Spécialité : Génomique et Bioinformatique

Adrien VILLAIN

Étude génomique des interactions diatomées-bactéries Genomics study of diatom-bacteria interactions

Soutenue le 29/06/2018 devant le jury :

Pascal SIMONET CNRS Rapporteur Leila TIRICHINE CNRS Rapportrice Véronique MARTIN-JÉZÉQUEL CNRS Examinatrice Valérie MICHOTEY AMU Examinatrice Brigitte GONTERO CNRS Membre invitée Guillaume BLANC CNRS Co-directeur de thèse Jean-Michel CLAVERIE CNRS Directeur de thèse

Numéro national de thèse/suffixe local : 2018AIXM0202/039ED62

2

Résumé

Les diatomées sont des algues microscopiques ubiquitaires dans les environnements aquatiques qui contribuent à hauteur de 25% environ à la production primaire planétaire grâce à leur photosynthèse. Au-delà de ce rôle primordial dans l’environnement, certaines espèces sont utilisées dans un contexte biotechnologique pour leurs capacités métaboliques. Qu’elles soient étudiées en laboratoire ou dans leur environnement naturel, les diatomées sont dans les deux cas très souvent entourées d’une flore bactérienne. Cette cohabitation est plus souvent envisagée comme une contamination indésirable que comme un partenariat potentiellement bénéfique, bien que de nombreuses interactions aient été documentées entre ces organismes. Ces communautés pourraient donc être étudiées sous l’angle de l’holobionte, qui considère un macroorganisme hôte et les micro-organismes qui lui sont associés. Cela serait d’autant plus pertinent que les génomes des diatomées modèles Thalassiosira pseudonana et Phaeodactylum tricornutum contiennent de nombreux gènes dont l’origine prédite est bactérienne. Nous avons étudié Asterionella formosa, une diatomée pennée présente dans de nombreux lacs et cours d’eau. Une communauté A. formosa-bactéries prélevée dans le lac Esthwaite water (Royaume-Uni) a été caractérisée par des approches omiques. L’utilisation de la métagénomique a permis la reconstruction de 30 génomes bactériens très complets, dont le potentiel métabolique a été prédit et comparé aux interactions diatomées-bactéries déjà connues. Cette analyse suggère que de nombreuses interactions potentielles ont lieu au sein de cette population hétérogène qui s’est également révélée très dynamique. En effet, le séquençage de la sous-unité 16S de l’ARN ribosomique a montré que l’abondance respective des différentes espèces bactériennes variait au cours des phases de croissance de la diatomée. Par ailleurs, certaines espèces semblent préférentiellement attachées à la diatomée, alors que d’autres semblent évoluer librement dans le milieu. En complément du séquençage métagénomique, un séquençage d’ADN à l’aide de longues lectures Pacbio a été mené en vue d’établir la séquence de référence du génome d’A. formosa. Ce travail, par le biais d’une collaboration, a conduit à une prédiction plus poussée des interactions métaboliques potentielles entre la diatomée et son environnement bactérien. Enfin, l’impact des bactéries sur les diatomées a été abordé sous l’angle de l’évolution et des transferts horizontaux de gènes, qui ont été prédits à partir des données transcriptomiques d’une centaine de diatomées marines. Ce travail représente une étape préliminaire à l’étude approfondie de la communauté bactérienne associée à A. formosa. L’identification précise des espèces en présence et la reconstruction de leurs génomes a rendu possible l’élaboration d’hypothèses de travail sur les interactions en jeu dans le fonctionnement de la communauté. Une validation expérimentale ainsi que l’utilisation de méthodes complémentaires (transcriptomique, métabolomique) sont maintenant envisageables. Par ailleurs, les nouvelles séquences de référence que nous mettons à disposition et notre contribution à l’analyse de nombreux transcriptomes participent à l’effort global de caractérisation génomique des diatomées.

Mots clés : diatomées, microbiome, génomique, transfert horizontal de gène

3

Abstract

Diatoms are ubiquitous microalgae that contribute to approximately 25% of the net primary production worldwide. Besides their high environmental impact, diatoms are promising in the context of biotechnologies thanks to their unique metabolic capacities. Whether diatoms are studied in the laboratory or in the natural environment, many bacteria are usually found in their immediate vicinity. Numerous interactions, either positive, neutral or negative, have been documented between diatoms and bacteria. In other organisms the holobiont concept is often used to describe meta-organisms comprised of a macro-organism and all associated micro-organisms. This approach might be worth investigating in the case of the diatoms, especially as the genomes of the model species Thalassiosira pseudonana and Phaeodactylum tricornutum harbor numerous genes of putative bacterial origin. We are studying Asterionella formosa, a pennate diatom found in a lot of freshwater streams and lakes. Without isolating the bacteria associated with the diatom, we characterized the community using a combination of omics and laboratory techniques. The main result lies in the reconstruction of the genome of the diatom as well as 30 individual genomes from co-cultured bacterial species. We investigated the metabolisms that could support diatom-bacteria interactions within the culture. Additionally, 16S rRNA sequencing revealed that the abundance of some bacterial species was highly variable over the course of A. formosa growth. Meanwhile, some species seemed preferentially attached to the diatom while others were mainly free-living. Building on these preliminary results, the reference sequence of the A. formosa genome was improved by additional long-read (Pacbio) sequencing. This formed the basis of a new collaboration with system biologists which aims at comparing the metabolic networks of many diatoms and their complementarities with bacterial metabolisms. Last, relationships between diatoms and bacteria were investigated at a broader evolutionary scale, by looking at horizontal gene transfers using transcriptomic data of a hundred marine diatoms. This work is a first step in the study of the dynamic and complex bacterial community associated with the diatom A. formosa. The accurate identification and the reconstruction of the genome of these bacteria enables future in silico predictions based on metabolic networks and experimental work, including the use of other omics techniques such as transcriptomic or metabolomic. In the meantime, the new reference sequences we provide as well as our contribution to the analysis of a vast transcriptomic dataset are meaningful contributions to the global effort to study diatoms by the means of genomics.

Keywords : diatoms, microbiome, genomics, horizontal gene transfer

4

Remerciements

Je tiens à remercier la fondation Amidex qui a financé ma thèse par l’intermédiaire du projet Microbio-E, et la porteuse de ce projet Marie-Thérèse Giudici-Orticoni. Ce financement m’a également permis de travailler sur un ordinateur performant et de participer à un congrès EMBL à Heidelberg (Allemagne). Je remercie Jean-Michel Claverie et Chantal Abergel, directeur et directrice successifs du laboratoire IGS, pour m’avoir accueilli et offert d’excellentes conditions de travail. Je remercie également Jean- Michel pour son mentorat en tant que directeur de ma thèse malgré ses autres responsabilités. Je remercie mon directeur de thèse Guillaume Blanc de m’avoir recruté sur ce projet et encadré au quotidien, je me suis vraiment senti épaulé et guidé dès que cela était nécessaire. Je remercie Brigitte Gontero pour notre collaboration fructueuse et nos échanges scientifiques réguliers, ainsi que tous les membres de son équipe avec qui j’ai eu le plaisir de travailler. Je remercie Mila Kojadinovic pour son travail expérimental, d’analyse et de rédaction, et nos très nombreux échanges lors du travail sur le microbiome d’Asterionella formosa. Je remercie également toutes les personnes ayant collaboré à ce projet pour leur contribution. Je remercie Lucie Gallot-Lavallée pour nos nombreux débats scientifiques. Je remercie Sébastien Santini et Virginie Collomb pour leur support informatique et bio-informatique, ainsi que Matthieu Legendre et Olivier Poirot pour leur aide à l’utilisation de divers outils bio-informatiques. Je remercie également pour leur sympathie tous les membres présents et passés de l’IGS que j’ai eu le plaisir de connaître. Je remercie Émilie Villar et Magali Lescot d’être à l’origine de la collaboration sur l’analyse des données MMETSP. Je remercie Chris Bowler et Andrew Allen de m’avoir permis de participer à ce travail. Je remercie Richard Dorrell pour nos échanges scientifiques, ainsi que toutes les personnes participant à ce projet. Je remercie Clémence Frioux pour nos échanges et son travail sur les réseaux métaboliques d’A. formosa et des bactéries associées. Je remercie Anne Siegel et l’INRIA de m’avoir invité à donner un séminaire, ainsi que les membres de son équipe participant à ce projet.

5

Table des matières

Résumé 3 Abstract 4 Remerciements 5 Table des matières 6 Introduction 9

I.1. Généralités sur les diatomées 9 I.2. Cycle de vie des diatomées 11 I.3. Origines évolutives 13 I.4. Classification des diatomées 19 I.5. Interactions avec d’autres organismes 23 I.6. Méthodes pour l’analyses des holobiontes 26 I.7. Les technologies de séquençage 27 I.8. La génomique des diatomées 30 I.9. La diatomée Asterionella formosa 33

Problématique 35 Chapitre 1 : Bactéries associées à A. formosa 38

II.0. Résumé 38 II.1. Introduction 38 II.2. Papier “Exploring the microbiome of the “star” freshwater diatom A. formosa” 40 II.3. Matériel et méthodes 41

II.3.1. Séquençage métagénomique & RNAseq 41 II.3.2. Assemblage métagénomique 42 II.3.3. Tri des contigs métagénomiques 44 II.3.4. Annotation et analyse des génomes bactériens 49 II.3.5. Séquençage de l’ARN ribosomique 16S 50

6

II.4. Discussion 52

II.4.1. Positionnement de l’étude 52 II.4.2. Écueils et avantages des méthodes employées 53 II.4.3. Comparaison avec la littérature 58

II.5. Conclusion 59

Chapitre 2 : Étude génomique d’A. formosa 61

III.0. Résumé 61 III.1. Génome mitochondrial d’A. formosa 61

III.1.1. Introduction 61 III.1.2. Papier “Complete mitochondrial genome of the freshwater diatom A. formosa” 63 III.1.3. Discussion 64

III.2. Analyse du génome nucléaire d’A. formosa 65

III.2.1. Introduction 65 III.2.2. Matériel et méthodes 66 III.2.3. Résultats 70 III.2.4. Discussion 76

Chapitre 3 : Les transferts horizontaux de gènes bactériens chez les diatomées 79

IV.0. Résumé 79 IV.1. Introduction 80

IV.1.1. Les transferts horizontaux de gènes 80 IV.1.2. Cadre du projet 85

IV.2. Matériel et Méthodes 86

IV.2.1. Données utilisées 86 IV.2.2. Recherche d’homologues et alignements multiples 86 IV.2.3. Construction et analyse d’arbres phylogénétiques 87

IV.3. Résultats 88 7

IV.3.1. Analyse des meilleurs homologues eucaryotes et non-eucaryotes 88 IV.3.2. Quantification des HGT candidats, partagés ou uniques 91 IV.3.3. Détection de contaminations bactériennes 92 IV.3.4. Origine des transferts horizontaux prédits 94 IV.3.5. Analyse fonctionnelle des transferts horizontaux prédits 95 IV.3.6. Le cas du cycle de l’urée 97

IV.4. Discussion 101

IV.4.1. Qualité des données et biais méthodologiques 101 IV.4.2. Comparaison avec les précédentes études 102 IV.4.3. Impact fonctionnel des HGT chez les diatomées 103

Conclusion 104

V.1. Remise en contexte des résultats 104 V.2. Les données massives et la place de la génomique en biologie 106 V.3. Portée et perspectives 108

Bibliographie 112

8

Introduction

I.1. Généralités sur les diatomées

Les diatomées (du grec ancien diatomos, « coupé en deux ») sont des organismes eucaryotes unicellulaires photosynthétiques vivant dans les milieux aquatiques (on les désigne parfois comme des algues brun-doré). Les diatomées sont généralement regroupées en deux grands groupes suivant leur symétrie radiaire (centriques) ou bilatérale (pennées) (Fig. 1A et 1B respectivement). La caractéristique commune et distinctive des diatomées est la frustule, une paroi cellulaire composée de deux coques de silice emboîtées, appelées thèques. Chaque thèque est composée d’une valve (surface supérieure ou inférieure relativement plane) et de bandes intercalaires (girdle bands) qui complètent le manteau (Fig. 2). La forme et l’ornementation fine des frustules (pores, stries, etc) varient énormément d’une espèce à l’autre et sont utilisées pour leur identification (Fig. 1). Certaines diatomées pennées présentent un raphé, un canal en forme de fente servant à la sécrétion de matière mucilagineuse permettant le déplacement le long d’un substrat (Fig. 1F,I et 2B). Les diatomées possèdent un chloroplaste entouré de 4 membranes qui dérive d’une endosymbiose secondaire avec une algue rouge. La diversité des plastes, leur nombre et leur localisation dans la cellule, la forme du pyrénoïde (structure au sein du plaste qui concentre les enzymes responsables de la photosynthèse), distinguent les diatomées des autres groupes d’algues. Les diatomées centriques ont généralement de multiples chloroplastes en forme de disques tandis que les pennées ont un à deux chloroplastes allongés, parfois ornés de multiples lobes (Bedoshvili, Popkova, et Likhoshway 2009).

9

Figure 1 : Structure des valves des espèces de diatomées (A) Thalassiosira pseudonana, (B) Thalassiosira oceanica, (C) Skeletonema costatum, (D) Ditylum brightwellii, (E) Stephanopyxis turris, (F) Navicula pelliculosa (face proximale), (G) N. pelliculosa (face distale), (H) Gyrosigma balticum, (I) Cocconeis sp., (J) Bacilaria paxillifer, (K) Cylindrotheca fusiformis. Les images (A)–(E) montrent des espèces centriques, (F)–(K) des espèces pennées. La présence du raphé est notée en (F) et (I). (Figure issue de Hildebrand & Lerch (2015))

Figure 2 : Représentation schématique de la paroi cellulaire des diatomées (A) Les diatomées centriques ont une épithèque (e) et une hypothèque (h) composées chacune d’une valve et de bandes intercalaires qui permettent le recouvrement des deux thèques. (B) Cette organisation est similaire chez les diatomées pennées, dont certaines présentent un raphé. (Figure issue de Hildebrand & Lerch (2015))

Il existe de très nombreuses espèces de diatomées, au moins plusieurs dizaines de milliers (R. Gordon et Drum 1994). Les estimations les plus récentes varient entre 20000 (Guiry 2012) et 100000 (David G. Mann et Vanormelingen 2013), même si le chiffre de 200000 espèces a été longtemps cité (D. G. Mann et Droop 1996). Ces différences sont en partie liées à la difficulté à définir le concept d’espèce, qui a été

10

souvent revu par les diatomistes au cours des derniers siècles (David G. Mann 1989). Cela a notamment été le cas lorsque les frustules ont pu être observées avec la précision de la microscopie électronique, et que des arbres phylogénétiques ont été établis sur des bases moléculaires. Les diatomées occupent les environnements aquatiques les plus divers, tels que les océans (Malviya et al. 2016), les zones intertidales (Amspoker et McIntire 1978), les cours et réserves d’eau douce (Vilmi et al. 2015), ou encore le sol (van Kerckvoorde et al. 2000; Antonelli et al. 2017). On retrouve dans la colonne d’eau les espèces planctoniques, et plus en profondeur (selon la clarté), les espèces benthiques (Druzhkova, Oleinik, et Makarevich 2018). Les diatomées marines sont les plus étudiées, en raison de leur rôle écologique important. En effet, les diatomées seraient responsables d’environ 25% de la production primaire, ce qui représente une contribution à la production de l’oxygène que nous respirons équivalente à celle des forêts tropicales (J. K. Moore et al. 2001; Aumont et al. 2003; Uitz et al. 2010). Les diatomées ont par ailleurs un impact sur de multiples cycles géochimiques (C, N, Si…), et forment le maillon initial des réseaux trophiques des environnements qu’elles occupent. En ce qui concerne leur exploitation par l’homme, en plus d’utilisations industrielles des sédiments (diatomite), certaines espèces sont aujourd’hui jugées prometteuses pour la production de biocarburant (Graham et al. 2012; Hildebrand et al. 2012; d’Ippolito et al. 2015). D’autres espèces sont régulièrement utilisées comme indicatrices de la qualité de l’eau (Wan Maznah et Mansor 2002), ou la phytoremédiation (Kiran, Bhaskar, et Tiwari 2016).

I.2. Cycle de vie des diatomées

Le cycle de vie des diatomées est divisé en deux phases, la phase végétative et la phase sexuée (Edlund et Stoermer 1997). Lors de la phase végétative, qui peut durer plusieurs années, les cellules se divisent par mitose. La cellule mère donne deux cellules filles, qui héritent chacune d’une thèque parentale. Étant donné l’asymétrie des deux thèques (l’une est plus petite que l’autre), une cellule fille est de taille réduite, tandis que l’autre conserve la taille de la cellule mère (Fig. 3). Au fur et à mesure des divisions, ce

11

phénomène se répète jusqu’à provoquer une diminution importante de la taille moyenne des cellules dans la population. Si une restauration de la taille initiale par un cycle sexuel ne se produit pas, les cellules atteignent alors une taille critique qui ne leur permet pas de survivre. Au contraire, lorsque les conditions environnementales sont réunies, et que la taille des cellules est en dessous d’un certain seuil (Chepurnov et Mann 1997), la reproduction sexuée peut être déclenchée. La formation d’un auxospore permet alors de restaurer la taille originale de la cellule et de commencer une nouvelle génération. La reproduction sexuée n’est pas toujours observée en laboratoire, peut-être car les cultures, souvent clonales, contiennent par définition des individus appartenant au même type sexuel, mais également car les conditions ne sont pas appropriées (nutriments, température, lumière, etc). Il a été récemment montré qu’avec un excès d’azote, la reproduction sexuée peut être induite chez certaines diatomées centriques (E. R. Moore et al. 2017).

Figure 3 : Représentation schématique de la diminution en taille des diatomées à chaque mitose. La cellule A est constituée d’une épithèque (en noir) et d’une hypothèque (en gris). L’épithèque sera utilisée comme nouvelle épithèque pour la cellule B, qui conserve la taille originale de la cellule mère. L’hypothèque sera utilisée comme épithèque pour la cellule C, dont l’hypothèque nouvellement synthétisée (en violet) est de taille réduite. Après une seconde série de divisions, seule un quart des cellules (cellule D) a conservé la taille initiale, tandis que les autres ont plus (cellule G) ou moins (cellules E et F) réduit en taille.

La plupart des diatomées manifestant cette réduction en taille des cellules végétatives, maintenir des cultures clonales de diatomées sur de longues périodes peut donc être un défi. La reproduction sexuée, lorsqu’elle est possible, n’est pas toujours une

12

solution, puisque certaines espèces présentent une dégénérescence (perte de viabilité, disparition d’un type sexuel...) lorsque la diversité génétique diminue à cause d’une reproduction entre clones apparentés (Chepurnov et al. 2004). Cela n’est cependant pas le cas chez la diatomée pennée Seminavis robusta (Chepurnov et al. 2008). La cryopréservation peut également être utilisée pour certaines diatomées la supportant (McLellan 1989). Il faut alors souvent développer un protocole adapté. Chez Haslea ostrearia, l’utilisation du glycérol comme cryoprotecteur ne permet de conserver que 10% de cellules viables, tandis que la déshydratation des cellules avant leur congélation à -40°C puis leur conservation dans l’azote liquide permet d’obtenir une viabilité d’environ 60%, mais s’accompagne de contaminations bactériennes (Tanniou, Turpin, et Lebeau 2012). Ces taux de survie sont relativement faibles, et l’étape délicate semble être la décongélation, particulièrement pour les espèces d’eau douce. Cela peut-être dû à la formation de cristaux de glace, ou à l’accumulation de stress photo-oxydatif lors de la reprise de la photosynthèse (Buhmann, Day, et Kroth 2013). Lorsque la cryogénisation n’est pas une option, la conservation à basse température (p. ex. réfrigération à 4°C) permet de ralentir grandement la croissance (cf. Table 1 de (Kudoh et Takahashi 1989) pour Asterionella formosa).

I.3. Origines évolutives

Les diatomées existent depuis le Mésozoïque les fossiles les plus anciens datant du Jurassique, entre -190 et -175 millions d’années environ. Par ailleurs, des analyses en horloge moléculaire placent l’origine du groupe à 135-240 millions d’années (Kooistra et Medlin 1996). Les Bolidophytes (Guillou et al. 1999) constituent le groupe frère des diatomées, au sein des hétérokontes (aussi appelés straménopiles) (Fig. 4). Les hétérokontes forment un groupe monophylétique qui comprend à la fois diverses espèces photosynthétiques, collectivement désignés sous le terme d’ocrophytes (Brown et Sorhannus 2010), et des hétérotrophes, comme les oomycètes (Pseudofungi, par exemple Phytophtora, pris pendant longtemps pour des champignons). Les hétérokontes ont en général deux flagelles de tailles différentes, parfois perdus secondairement dans l’évolution des certaines lignées, ou présents uniquement dans les

13

gamètes mâles chez les diatomées centriques (Nanjappa et al. 2017). À un niveau taxonomique plus élevé, le clade SAR (Figure 4) rassemble les Straménopiles, Alvéolés et Rhizaires (Fabien Burki et al. 2007; Walker et al. 2011; Adl et al. 2012), réunis à leur tour dans le groupe des Chromistes (Thomas Cavalier-Smith 2010) avec les Hacrobia (Haptophytes et Cryptomonades). L’hypothèse Chromiste (anciennement Chromalvéolée) postule que tous ces organismes ont pour ancêtre commun un eucaryote hétérotrophe ayant incorporé et domestiqué une algue rouge, au cours d’un seul évènement d’endosymbiose secondaire (T. Cavalier-Smith 1999) (Fig. 5). L’hypothèse de l’origine du plaste chez les Chromalvéolés fait aujourd’hui débat, alors qu’il y a au contraire un relatif consensus sur le fait qu’un seul évènement d’endosymbiose primaire d’une cyanobactérie a donné les plastes des Chlorophytes, Rhodophytes et Glaucophytes (Howe et al. 2008; Larkum, Lockhart, et Howe 2007) (Fig. 5). L’absence de plaste dans un nombre importants de clades des Chromistes (Oomycètes chez les Straménopiles, Ciliés chez les Alvéolés), et la présence chez les diatomées de 1700 gènes ayant une plus grande similarités avec leurs homologues chez les algues vertes plutôt que l’algue rouge Cyanidioschyzon merolae (Moustafa et al. 2009), ont fait émerger des scénarios d’évolution plus complexes. Il a par exemple été proposé qu’une première endosymbiose secondaire d’une algue verte ait eu lieu chez l’ancêtre des Chromistes (flèche verte Fig. 6). Des gènes auraient alors été transférés depuis le symbionte vers le noyau de la cellule hôte (ce Transfert de Gene Endosymbiotique est appelé Endosymbiotic Gene Transfer ou EGT en anglais). Ensuite, l’algue verte intracellulaire aurait été perdue (cercle vert Fig. 6) et remplacée lors d’une deuxième endosymbiose secondaire (d’une algue rouge cette fois, flèche rouge Fig. 6) chez l’ancêtre des Haptophytes et Cryptomonades. Ce plaste aurait enfin été transféré dans le clade SAR par des endosymbioses tertiaires (Dorrell et Smith 2011) (multiples flèches rouges Fig. 6).

14

Figure 4 : Arbre phylogénétique des Straménopiles basé sur la concaténation de 339 protéines (Derelle et al. 2016). Dans cette phylogénie, les Rhizaires et Alvéolés forment le groupe frère du clade des Straménopiles. On peut voir que parmi les ochrophytes, les diatomées sont plus proches des Bolidophytes, et du groupe Dichtyochophytes- Pelagophytes que des Chrysista (qui comprend notamment les Phaeophytes et Chrysophytes). Les oomycètes sont le groupe frère des ochrophytes, tandis que les autres straménopiles hétérotrophes sont retrouvés dans les Bygira, qui comprennent les Labyrinthulomycetes et les Opalozoa. À noter que les MAST (MArine STramenopiles) sont des clades non cultivés dont les génomes ont été obtenus par séquençage de cellule unique. Leur position dans l’arbre est donc plus incertaine.

15

Figure 5 : Représentation schématique de l’origine des plastes de différentes lignées eucaryotes (Archibald et Keeling 2002). L’endosymbiose d’une cyanobactérie par un eucaryote hétérotrophe au cours d’un premier événement a par la suite donné les algues rouges, les glaucophytes et les algues vertes. À noter que ce phénomène s’est produit à au moins une autre reprise chez les Rhizaires (Paulinella). Plusieurs endosymbioses secondaires ont concerné les algues vertes, tandis que l’hypothèse Chromalvéolée postule qu’un seul événement a engendré l’ensemble des autres lignées hététrophes dont le chloroplaste est issu d’une algue rouge, dont les Straménopiles (Hétérokontes).

16

Figure 6 : Scénario d’évolution des plastes concurrent à l’hypothèse Chromalvéolée (Dorrell et Smith 2011). L’événement d’endosymbiose primaire est indiqué par une flèche bleue. Le plaste acquis lors d’une endosymbiose d’une algue verte est perdu avant la divergence entre SAR et Hacrobia (notés ici CCTH et comprenant cryptomonades, haptophytes, telonémides, kathablepharides, centrohélides). Dans la branche menant aux Hacrobia, une deuxième endosymbiose secondaire, d’une algue rouge cette fois, donne le plaste connu aujourd’hui. Celui-ci sera transféré aux ocrophytes ainsi qu’aux Alvéolés, et perdu secondairement dans les lignées non photosynthétiques des Hacrobia et Alvéolés.

17

Cette hypothèse ne fait pas l’unanimité, d’autant qu’une ré-analyse plus prudente des potentiels gènes “verts” de diatomées, incluant notamment plus de séquences d’algues rouges (un second génome et plusieurs jeux de données d’expression par EST, Expressed Sequence Tag), a conclu qu’un grand nombre des gènes “verts” prédits l’étaient à cause de problèmes méthodologiques (Deschamps et Moreira 2012). Le débat n’est cependant pas encore clos, puisque l’analyse récente de 770 protéines de chromistes adressées au chloroplaste montre que sur 263 pour lesquelles il est possible de conclure, 67 (soit 25%) sont affiliées aux algues vertes (Dorrell et al. 2017). Ce nombre reste minoritaire par rapport aux 149 (soit 57%) protéines plus proches d’algues rouges. Les 47 protéines restantes sont par ailleurs plus proches de straménopiles sans chloroplastes ou de procaryotes. Les 67 protéines affiliées aux algues vertes pourraient constituer des acquisitions indépendantes par transferts horizontaux (Deschamps et Moreira 2012). Cependant la présence d’un léger biais en faveur de protéines adressées au chloroplaste parmi les protéines d’ocrophytes d’origine “verte” suggère à Dorrell et co-auteurs une acquisition dans le cadre d’un évènement d’endosymbiose. Des controverses similaires ont concerné les Alvéolés, et le Chroméride Chromera velia. Une première étude a prédit que 513 gènes provenaient d’EGT, autant d’origine rouge que verte (Woehle et al. 2011), tandis qu’une réanalyse des mêmes données n’en prédit que 51, dont seulement 8 communs avec la première étude (F. Burki et al. 2012). Il apparaît donc que ces considérations évolutives sont difficiles à juger, d’une part car les résultats sont très sensibles aux données et méthodes utilisées, mais également car les interprétations dépendent grandement des scénarios évolutifs favorisés par chaque auteur. On retrouve également des incertitudes et des controverses en ce qui concerne la classification et l’évolution des diatomées.

18

I.4. Classification des diatomées

Depuis le travail de Hamilton Smith (1819-1903), les diatomées sont classiquement divisées par les taxonomistes en centriques et pennées (cf. I.1.) sur la base de la forme générale des cellules (Brodie et Lewis 2007). La structure de la frustule a beaucoup été utilisée pour différencier les espèces, et la classification a été amendée au fur et à mesure que les observations au microscope devenaient plus précises, notamment grâce à la microscopie électronique (Hendey, Cushing, et Ripley 1954). Les divisions en genres et familles des différents diatomistes à l’époque semblent rétrospectivement avoir parfois laissé place à l’arbitraire, et étaient en tout cas discutées et remises en question régulièrement. À titre d’exemple, le genre Fragilariopsis a été séparé de Fragilaria, dont il faisait alors partie, à la suite du travail d’Hustedt en 1917. Quelques décennies plus tard, il a été rapproché des Nitzschia une fois qu’on a découvert la présence d’un raphé chez Fragilariopsis cylindrus (« Algae World: David Mann publications: David Mann publications: PhD thesis on Nitzschiaceae (Bacillariaceae), including Nitzschia and Hantzschia » 2018). Le statut de Fragilariopsis vis à vis des Nitzschia et Pseudo-nitzschia a alors été débattu jusqu’à l’utilisation de données moléculaires (Lundholm, Daugbjerg, et Moestrup 2002). À partir des années 1990, les premiers arbres phylogénétiques basés sur la séquence du gène de la petite sous-unité de l’ARN ribosomique 18S ont montré que chez les diatomées pennées, seules celles possédant un raphe (raphides) formaient incontestablement un groupe monophylétique, c’est à dire contenant un ancêtre commun et tous ses descendants. Au contraire, les diatomées pennées araphides d’une part et les diatomées centriques d’autre part ne formaient pas (toujours) de groupes monophylétiques. La nouvelle classification des diatomées proposée en 2004 par Medlin et Kaczmarska est illustrée Fig. 7 et comporte trois clades : les diatomées radiales centriques d’une part (Clade 1), et les diatomées multi-polaires et Thalassiosirales (Clade 2a) et diatomées pennées (Clade 2b) d’autre part (Medlin et Kaczmarska 2004).

19

Figure 7 : Représentation schématique de la classification proposée par Medlin et Kaczmarska (Kaczmarska et al. 2006).

Or, malgré la présence de caractères morphologiques (auxospore, organisation de l’appareil de Golgi...) pouvant rapprocher les différentes espèces constituant ces clades, parmi les quatre arbres phylogénétiques présentés dans cette étude, un seul retrouve la monophylie des clades 1 et 2a. Dans les autres reconstructions, ces groupes sont paraphylétiques, c’est à dire qu’ils englobent un ancêtre commun et une partie seulement de ses descendants (cf. Fig. 2, 3 et 4 de Medlin 2004). Le décalage observé entre les liens de parenté entre les espèces de diatomées et leur classification taxonomique a été critiqué (Williams et Kociolek 2007). La défense de Medlin pour justifier l’emploi de taxons paraphylétiques semble peu convaincante, et sa démarche consiste en définitive à conserver des groupes établis en raison de leur utilisation répandue et ancienne (Medlin 2010). D’après Medlin, cette situation serait de toute façon transitoire, car avec l’extinction des groupes frères, la monophylie des différents groupes serait retrouvée. Ce raisonnement est très surprenant. Pour reprendre un des exemples évoqué par Medlin (2010), une fois que la proximité entre les Crocodiliens et les Oiseaux a été établie, l’ancienne définition de Reptilia (“tétrapodes n’étant ni des mammifères ni des oiseaux”) a été abandonnée, et le nom du clade changé en Sauropsida pour éviter la confusion (Modesto et Anderson 2004). Garder l’ancien groupe par habitude n’aurait pas eu d’intérêt, puisque pour étudier (par exemple) le système digestif des crocodiles, il est plus intéressant de le comparer à celui du groupe frère des oiseaux (qui partage le gésier comme caractère dérivé ou synapomorphie) qu’à celui des lézards (qui sont pourtant des reptiles d’après l’ancienne définition). Attendre

20

l’extinction des oiseaux pour retrouver la monophylie des reptiles n’est par ailleurs pas une alternative satisfaisante. Pour revenir à la classification des diatomées, des études plus récentes sont depuis venues appuyer la monophylie de chacun des trois clades proposés en 2004 (Bowler et al. 2008; Medlin 2016, 2014). Cependant ces résultats n’ont pas été confirmés par les études phylogénétiques utilisant plusieurs gènes nucléaires ou chloroplastiques (Theriot 2010; Theriot et al. 2015), et l’utilisation du seul gène de l’ARNr 18s a été critiqué (Theriot et al. 2009). Sans être définitive, une étude très récente qui utilise des données de type transcriptomique issues du programme MMETSP (Marine Microbial Eukaryotic Transcriptome Sequencing Project) confirme la monophylie des diatomées polaires centriques (Mediophyceae) et des pennées (Bacillariophyceae), parmi lesquelles les raphides forment également un groupe monophylétique, à la différence des araphides (M. Parks et al. 2017).

21

Figure 8 : Arbre phylogénétique basé sur la concaténation de 512 transcrits de 94 diatomées marines (M. B. Parks, Wickett, et Alverson 2018). Le support des branches est présenté par des diagrammes circulaires (bleu = fraction des arbres supportant ce clade, rouge = fraction des arbres supportant une autre division, gris = fraction des arbres avec un support inférieur à 33% à ce nœud). Les diatomées polaires centriques et les diatomées pennées, et parmi ces dernières celles possédant un raphe, forment des groupes monophylétiques, alors que ce n’est pas le cas des autres.

22

Les diatomées, en plus d’être très diverses et d’avoir des cycles de vie particuliers, ont donc des origines évolutives complexes, et leur classification n’est pas entièrement résolue. Un facteur de complexité supplémentaire dans leur étude provient du fait que les diatomées sont rarement retrouvées isolées dans l’environnement. Au-delà de la capacité de certaines espèces à former des colonies, les diatomées sont en effet très souvent associées à d’autres organismes.

I.5. Interactions avec d’autres organismes

Certaines espèces de diatomées sont épizoïques, c’est à dire qu’elles vivent à la surface d’animaux, par exemple sur des larves d’insectes (Wujek 2013), sur des crustacés (Bigelow et Alexander 2000), cétacés (DENYS et SMET 2010), tortues (Riaux- Gobin et al. 2017), oiseaux marins (Donald A. Croll et Robert W. Holmes 1982). Des diatomées, dites épiphytiques, sont retrouvées à la surface de plantes aquatiques (Marra et al. 2016) ou d’algues (Totti et al. 2009). Des diatomées peuvent aussi être endosymbiontes de foraminifères (J. J. Lee et al. 1989; Prazeres et al. 2017), et des cas de parasitisme d’éponges par des diatomées ont également été recensés (Bavestrello et al. 2000). Quelques dinoflagellés (parfois appelés dinotomes) ont un symbiote diatomée acquis par endosymbiose tertiaire (Pienaar, Sakai, et Horiguchi 2007; Schnepf et Elbrächter 1999). Les diatomées endosymbiontes ont à priori une origine commune, bien que certaines aient pu être remplacées en série (Horiguchi et Takano 2006). D’autre part, les diatomées peuvent être les proies de zooparasites appartenant aux chytrides (Canter et Jaworski 1979), aphélides, dinoflagellés, oomycètes ou rhizaires (Scholz et al. 2016). Des virus à ADN ou ARN simple brins infectent également certaines espèces de diatomées (Kimura et Tomaru 2015). Les bactéries sont quant à elles souvent retrouvées en interaction avec des diatomées, dans l’environnement comme en laboratoire (Shady A. Amin, Parker, et Armbrust 2012; Cooper et Smith 2015; Ramanan et al. 2016; Singh et Reddy 2014; Jauffrais et al. 2017). Certaines bactéries se nourrissent de diatomées mortes, alors que d’autres interagissent avec les algues vivantes (Shady A. Amin, Parker, et Armbrust 2012; Bidle et Azam 1999). Les interactions antagonistes peuvent être médiées par la sécrétion par certaines bactéries de protéases anti-algales

23

(Paul et Pohnert 2011) ou l’attachement aux cellules de diatomées et leur lyse grâce à des structures semblables à des microtubules (Furusawa et al. 2003). En retour, les diatomées peuvent produire des acides gras (comme l’acide eicosapentanoéique ou l’acide palmitoléique) ou des esters ayant un effet antibiotique (Desbois et al. 2008; Findlay et Patil 1984). Dans les cas où il n’y a pas d’interaction directe, certaines diatomées et bactéries peuvent également être en compétition pour des nutriments comme l’azote, le phosphore, ou le fer, qui peuvent être limitants dans l’environnement (Risgaard-Petersen et al. 2004). Les interactions bénéfiques reposent surtout sur l’échange de nutriments, comme par exemple l’apport de vitamine B12 bactérienne aux diatomées (Durham et al. 2015) ou la production par les bactéries de sidérophores permettant de chélater le fer présent dans le milieu et de rendre ce dernier plus facilement accessible aux diatomées (Sanchez et al. 2018; Soria-Dengg, Reissbrodt, et Horstmann 2001; Soria-Dengg et Horstmann 1995). La fixation d’azote par des cyanobactéries diazotrophes endosymbiotiques est également documentée (Foster et al. 2011). Dans certains cas extrêmes, ces bactéries intracellulaires peuvent être réduites à l’état de quasi-organelles appelées “Corps circulaires” (Spheroid Bodies) (Prechtl et al. 2004). Ces organelles spécialisées dans la fixation d’azote sont apparentées aux cyanobactéries du genre Cyanothece et ont un génome réduit ne leur permettant plus de réaliser la photosynthèse ou d’être autonomes pour la biosynthèse de leurs acides-aminés (T. Nakayama et al. 2014; Takuro Nakayama et al. 2011). Les diatomées produisent en échange de la matière organique dissoute (Dissolved Organic Matter, DOM). Une partie du carbone qu’elles fixent par photosynthèse (environ 5%, variable suivant les espèces) est sécrétée sous forme de DOM, qui peut être utilisée par des bactéries comme substrat (Azam et al. 1994; Wetz et Wheeler 2007). Sa composition, variable suivant les conditions de croissance de la diatomée, peut favoriser la croissance de certains types bactériens (Pete et al. 2010). Dans les associations mutuellement bénéfiques de partenaires libres, la communication est essentielle. Elle peut s’effectuer via l’échange de tryptophane, comme l’a montré l’étude d’une bactérie Sulfitobacter et de la diatomée Pseudo-nitzschia multiseries. La bactérie stimule la division cellulaire de la diatomée par la production d’acide indole-3-acétique (IAA), et la diatomée fournit de la taurine, exploitable par la

24

bactérie (S. A. Amin et al. 2015). L’attachement peut également favoriser les échanges. Dans le cas des diatomées benthiques, les interactions diatomées-bactéries peuvent aussi induire la formation de biofilms (Buhmann et al. 2016; Windler et al. 2015). On peut noter qu’il n’y a pas d’interactions documentées entre archées et diatomées, alors que ce serait envisageable puisque certaines archées sont par exemple productrices de vitamine B12 (Doxey et al. 2015), pour laquelle de nombreuses algues sont auxotrophes (Croft, Warren, et Smith 2006). Même si ce n’est pas forcément un indice d’une interaction directe, les abondances des dépôts de Crenarchées et de phytoplancton dans les sédiments varient en parallèle (Fietz et al. 2011). Certaines Euryarchées marines probablement hétérotrophes sont par ailleurs retrouvées à des profondeurs occupées par les diatomées (Iverson et al. 2012). Il semble donc possible que des archées et diatomées soient en interaction, et probable qu’il y ait un impact indirect de ces deux groupes sur l’autre. Ces différents travaux montrent que les diatomées ne vivent pas isolées dans la nature. En réalité, cette observation est certainement généralisable à beaucoup d’organismes eucaryotes, et l’étude des méta-organismes composés d’un macroorganisme et des micro-organismes qui lui sont associés a amené Margulis à proposer le concept d’holobionte au début des années 1990 (J. Gordon et al. 2013). Certains auteurs avancent que sur le plan de l’évolution il faut de la même façon considérer l’ensemble des génomes de l’holobionte, ou hologénome (Rosenberg et al. 2010; Rosenberg et Zilber-Rosenberg 2016), mais cette vision est pour l’instant très controversée (Douglas et Werren 2016; Moran et Sloan 2015). Alors qu’il pourrait être pertinent de considérer le rôle de l’holobionte dans la régulation des efflorescences algales ou dans l’optimisation des conditions de croissance dans un contexte biotechnologique, les diatomées sont assez peu étudiées sous cet angle. Cela peut être dû au fait que les bactéries sont parfois vues comme des contaminants qu’il faut éliminer, mais également aux difficultés méthodologiques liées à l’étude de ces partenaires potentiels.

25

I.6. Méthodes pour l’analyses des holobiontes

Les interactions ayant lieu au sein d’un holobionte diatomée-bactéries peuvent être difficile à appréhender à l’aide des méthodes classiquement utilisées pour obtenir “l’empreinte de la communauté” (community fingerprinting). En effet, les méthodes de T- RFLP (Terminal Restriction Fragment Length Polymorphism), DGGE (Denaturing Gradient Gel Electrophoresis) et de séquençage de la sous-unité 16S de l’ARN ribosomique permettent d’obtenir des informations sur l’identité des bactéries associées à des diatomées en culture ou dans l’environnement, mais ne permettent pas d’élucider les mécanismes des interactions éventuelles (Ameryk et al. 2014; Grossart et al. 2005; Mishamandani et al. 2016; Sison-Mangus et al. 2016; Riemann, Steward, et Azam 2000). Au contraire, les méthodes omiques sont susceptibles d’apporter des éléments sur les mécanismes mobilisés dans les interactions. Cependant, elles sont plutôt utilisées dans un contexte où les souches bactériennes sont isolées puis remises indépendamment en culture avec la diatomée (S. A. Amin et al. 2015). Cette approche, très performante au demeurant, ne permet pas d’accéder à l’ensemble des interactions prenant place au sein d’une communauté naturelle plus diverse. Le fait d’isoler des bactéries cultivables en laboratoire introduit également un biais potentiel par rapport aux souches environnementales. Il est cependant difficile d’utiliser la métagénomique ou métatranscriptomique sans connaître le système que l’on étudie, et sans réduire sa complexité de manière à ce que les données puissent être gérables. Chez l’éponge marine Cymbastela concentrica, les bactéries associées ont d’abord été caractérisées par métagénomique (Thomas et al. 2010). Dans un second temps, l’utilisation de la métatranscriptomique a permis de mieux prédire les échanges métaboliques au sein de ce système relativement complexe qui comprend l’éponge, une diatomée et des bactéries (Moitinho-Silva et al. 2017). Des travaux sur la communauté d’une autre éponge font également appel à la métagénomique et à la reconstruction de génomes bactériens (Slaby et al. 2017). Ces récentes avancées contribuent à notre compréhension des métabolismes bactériens globalement représentés dans les holobiontes éponges. Sur le plan méthodologique, cette utilisation de la métagénomique “2.0”, qui consiste en l’analyse de génomes individuellement reconstruits par métagénomique, est de plus en

26

plus répandue (McMahon 2015). Cette approche se distingue quelque peu des études fondatrices en métagénomique qui visaient plutôt à échantillonner de vastes écosystèmes en vue d’établir des catalogues de gènes environnementaux (Venter 2004). Très récemment, 2500 génomes ont par exemple été reconstruits à partir des données issues d’écosystèmes marins complexes de l’expédition Tara Océans (Tully, Graham, et Heidelberg 2018). Ces développements sont liés à la chute des coûts de séquençage et à une augmentation des débits des séquenceurs.

I.7. Les technologies de séquençage

À la fin des années 1990, les premiers génomes eucaryotes ont été séquencés à l’aide de la très précise mais coûteuse et fastidieuse technologie Sanger (Sanger 1975). Citons celui de Saccharomyces cerevisiae (Goffeau et al. 1996) pour les Fungi, de Caenorhabditis elegans (The C. elegans Sequencing Consortium 1998) pour les animaux, d’Arabidopsis thaliana (The Arabidopsis Genome Initiative 2000) pour les plantes, ainsi que ceux de différents “protistes” (les eucaryotes n’appartenant à aucune des trois catégories précédentes), comme le pathogène humain Plasmodium falciparum (Gardner et al. 2002) pour les Alvéolés, et la diatomée Thalassiosira pseudonana (Armbrust 2004) pour les Chromistes. En raison des moyens et du travail humain considérable demandés pour mener à bien ces projets, ils ont concerné des organismes dits modèles, déjà bien caractérisés sur le plan expérimental et fédérant d’importantes communautés scientifiques. Pour que des génomes d’espèces plus confidentielles soient séquencés à leur tour, il a fallu attendre l’émergence des technologies de séquençage dites haut-débit (High Throughput Sequencing), également connues sous l’appellation Nouvelle Génération (New Generation Sequencing). Ces techniques ont été développées à la suite du projet Génome Humain, sous l’impulsion du National Institute of Health (Institut National de la Santé américain) dont l’objectif était d’abaisser le coût de séquençage d’un génome humain à 1000$ (contre plusieurs millions en 2001). Ceci a favorisé le développement de nombreuses techniques comme le pyroséquençage (commercialisé jusqu’en 2015 sous l’appellation 454 par Roche), le séquençage SOLiD, ou le séquençage Solexa (aujourd’hui Illumina). Ces technologies permettent le séquençage massivement

27

parallèle de millions de courts fragments d’ADN amplifiés au hasard (on parle alors de lectures de séquence, sequence reads). Il a ainsi été possible à partir du milieu des années 2000 de générer plusieurs millions de nucléotides de séquences en quelques jours pour un coût 100 à 10000 fois moindre que les générations précédentes de séquenceurs (Tableau 1).

Technologie Année Débit Taille Durée Coût par Gb %erreur Sanger 1975 0,002Gb 400-900b 1h 2,4M$ 0,001% 454 2005 0,7Gb 700b 24h 10000$ 0,1% Illumina 2006 55Gb 2*150b 11 jours 70$ 0,1-0,3% Pacific Biosciences 2010 1,2Gb 10-15kb 2h 500-2000$ 10-15% Oxford Nanopore 2014 1Gb 5-10kb 48h 1000$ 5-15%

Tableau 1 : Caractéristiques des principales technologies de séquençage de l’ADN (Quail et al. 2012; H. Lee et al. 2016; Liu et al. 2012) Pour chaque technologie est indiquée la date d’apparition ainsi que les caractéristiques d’une machine plus récente (Sanger : Applied Biosystems 3130xl ; 454 : Junior FLX ; Illumina : HiSeq 2000 ; Pacific Biosciences : RS II ; Oxford Nanopore : Minion). Le débit est exprimé en bases séquencées par jour. La taille des lectures est la taille maximale moyenne ; pour la technologie Illumina la taille effective est plus grande car les deux extrémités d’un fragment d’ADN de taille connue sont séquencées. La durée est celle d’un programme de séquençage d’une machine.

Afin de reconstituer les séquences des génomes, des méthodes d’assemblage ont été développées pour exploiter ces lectures plus courtes, plus nombreuses, et contenant pour certaines plus d’erreurs que les données Sanger (Pevzner, Tang, et Waterman 2001; Zerbino et Birney 2008). Basées sur l’établissement d’un graphe dont les nœuds sont des k-mers (mots de longueur fixée k générés à partir des lectures) plutôt que sur les lectures elles-mêmes (afin de limiter le nombre de chevauchements à calculer), le principal écueil rencontré par ces méthodes sont les régions répétées présentes dans les génomes, particulièrement dans ceux des eucaryotes. Lorsqu’une de ces régions est plus longue que la taille de k-mer choisie (ce qui est très fréquent avec des lectures de 36 ou

28

50 nucléotides), l’arrangement original des séquences entourant la répétition ne peut pas être retrouvé, et la séquence consensus se trouve fragmentée en autant de morceaux, appelés contigs. Ainsi, de nombreux organismes ont pu avoir leur génome séquencé, mais la qualité de la séquence finale n’était pas comparable avec celles obtenues pour les espèces modèles quelques années auparavant avec la méthode Sanger. Les caractéristiques techniques des séquenceurs ont progressé au fur et à mesure des années, en offrant des débits toujours plus importants, et des palliatifs à la longueur des lectures, qui reste limitée par la technologie et représente un obstacle majeur pour la reconstruction d’un bout à l’autre des chromosomes. Par exemple, en séquençant les deux extrémités d’un fragment d’ADN dont la taille est approximativement connue (techniques paired-end et mate-pair d’Illumina), la taille effective des lectures est augmentée. D’autre part, des solutions complémentaires ont été développées, comme les longues lectures synthétiques Moleculo, qui ont permis d’améliorer la séquence de référence de C. elegans (R. Li et al. 2015), ou la solution de carte optique (optical mapping) Bionano, utilisée par exemple sur des génomes de plantes (Udall et Dawe 2018). Le nouveau bouleversement de ces dernières années reste la mise au point de technologies de séquençage de molécules uniques (dites de 3ème génération), par Pacific Biosciences (Eid et al. 2009) et Oxford Nanopore (Branton et al. 2008). Ces méthodes s’affranchissent de l’étape d’amplification, connue pour introduire des biais de couverture, et proposent des lectures dont la longueur peut être de l’ordre de plusieurs milliers de bases. Le taux d’erreur, assez important, n’est pas si problématique dans le cadre de l’assemblage de novo. En effet, les approches par k-mer évoquées précédemment pour les courtes lectures ne sont plus utilisées. Au contraire, seules les lectures les plus longues sont utilisées, après avoir corrigé les erreurs de séquençage grâce à un premier alignement des lectures entre elles. Le graphe établi à partir du chevauchement des lectures est appelé Overlap Layout Consensus (OLC). Si le Minion, le séquenceur de poche d’Oxford Nanopore, est très prometteur, notamment pour le séquençage de pathogènes viraux en temps réel sur le terrain (Quick et al. 2016), les séquenceurs RSII et Sequel de Pacific Biosciences (souvent abrégé en Pacbio) sont plus adaptés, de par leur débit, au séquençage de génomes de taille plus importante. Le

29

séquenceur GridIon d’Oxford Nanopore offre un débit plus important et pourrait donc devenir une option pertinente pour le séquençage de génomes eucaryotes. Revenons maintenant aux diatomées, et à l’influence du développement récent de la génomique dans leur étude.

I.8. La génomique des diatomées

Après celui de T. pseudonana, seuls les génomes de Phaeodactylum tricornutum (Bowler et al. 2008) et Pseudo-nitzschia multiseries (le génome de cette dernière n’a pas été publié mais mis à disposition par le Joint Genome Institute) ont été séquencés à l’aide de la technologie Sanger. La communauté diatomiste s’est donc regroupée autour des deux espèces modèles T. pseudonana et P. tricornutum. Le génome de la diatomée centrique Thalassiosira pseudonana est le premier à avoir révélé la difficulté à retracer l’origine évolutive des gènes Chromistes : certains avaient de plus fortes similarités de séquence avec des homologues venant d’animaux, d’autres étaient plus proches d’algues rouges ou d’algues vertes. Ce programme de séquençage a également permis d’établir les bases génétiques du métabolisme des diatomées, et a montré la présence de nombreuses enzymes impliquées dans le cycle de l’urée, une première en dehors des animaux. Le génome de la diatomée centrique P. tricornutum a mis en évidence la présence de transferts horizontaux de gènes (Horizontal Gene Transfer, HGT). Reconnus comme une force très importante dans l’évolution des génomes procaryotes, ces échanges d’ADN surviennent en parallèle à la transmission verticale classique du matériel génétique. Ils semblent particulièrement nombreux chez P. tricornutum, dont 5% des gènes trouveraient leur origine chez diverses bactéries (Bowler et al. 2008). Ceci complique peut-être encore un peu plus l’interprétation de l’évolution des diatomées (cf. I.3.), et ce thème des HGT sera développé plus avant dans la suite du manuscrit. Les deux espèces modèles ont notamment été choisies pour la facilité de leur maintenance en laboratoire, la taille réduite de leur génome, leur position phylogénétique (une espèce centrique, une espèce pennée), et le fait qu’elles soient marines, revêtant donc un intérêt plus global sur un plan écologique. Pourtant, si T. pseudonana est bien accoutumée à la vie marine, le genre Thalassiosira est peut-être

30

ancestralement dulçaquicole (Alverson et al. 2011). L’adaptation de T. pseudonana à l’environnement marin pourrait donc être récente. De son côté, P. tricornutum présente une silicification très réduite et des variations de forme très inhabituelles chez les diatomées, ce qui a conduit à l’utilisation par différents laboratoires de nombreuses souches différentes (Martino et al. 2007). Ceci pourrait limiter quelque peu les bénéfices du génome de référence. Par ailleurs, aucune de ces deux espèces n’est idéale pour étudier le cycle sexuel particulier des diatomées (Chepurnov et al. 2008). Il n’est donc pas étonnant que le développement des technologies de séquençage (cf. I.7) ait occasionné le séquençage de nombreuses autres génomes de diatomées (Tableau 2) : Thalassiosira oceanica afin de mieux comprendre les mécanismes de résistance de cette espèce à la pénurie de fer (Lommer et al. 2012) ; Fistulifera solaris (Tanaka et al. 2015) et Cyclotella cryptica (Traller et al. 2016) en raison de leur fort potentiel dans la production de bio-carburant ; Synedra acus, car aucune espèce d’eau douce n’avait eu son génome séquencé jusque-là (Galachyants et al. 2015) ; Pseudo-nitzschia multistriata pour identifier les bases de la reproduction sexuée chez cette espèce (Basu et al. 2017) ; Fragilariopsis cylindrus pour élucider les bases génétiques de l’adaptation au froid de cette espèce antarctique (Mock et al. 2017).

31

Espèce Année Technologie(s) Taille (Mb) N50 (kb) Gènes T. pseudonana 2004 Sanger 27 1992 11776 P. tricornutum 2008 Sanger 32 945 10402 P. multiseries 2011* Sanger 219 147 19703 T. oceanica 2012 454 92 4 34500 F. solaris 2015 454 50 331 20621 S. acus 2015 454, Illumina 98 101 11184 C. cryptica 2016 Illumina 162 12 21121 P. multistriata 2017 Illumina 59 131 12008 F. cylindrus 2017 Sanger, Pacbio 61 1296 21066

Tableau 2 : Quelques caractéristiques des génomes de diatomées séquencés à ce jour. Le N50 est une statistique mesurant la fragmentation d’un assemblage de génome : un N50 de x paires de bases signifie que la moitié de l’assemblage est comprise dans des contigs de taille supérieure ou égale à x. *Le génome de P. multiseries est rendu public par le JGI mais n’a pas fait l’objet d’une publication scientifique.

De façon générale, de nombreuses ressources génomiques ont donc été accumulées sur les diatomées (Tirichine, Rastogi, et Bowler 2017). On peut remarquer que les espèces d’eau douce sont cependant moins représentées dans ces données. Par ailleurs, ces différentes souches de laboratoire ont été séquencées en conditions axéniques, c’est à dire après élimination des autres organismes en co-culture (principalement des bactéries). Or, comme nous l’avons vu précédemment (cf. I.5), la plupart des diatomées sont naturellement environnées de nombreuses bactéries. C’est dans ce contexte qu’a commencé l’étude de la diatomée Asterionella formosa et des bactéries qui lui sont associées.

32

I.9. La diatomée Asterionella formosa

Asterionella formosa est une diatomée d’eau douce décrite comme ubiquitaire car présente dans de nombreux lacs et cours d’eau d’Europe et d’Amérique du Nord. Elle est particulièrement abondante au printemps, et ce depuis de nombreuses années (l’espèce a été décrite par Hassall en 1850). La reproduction sexuée n’a jamais été observée chez cette diatomée dont les cycles de réduction puis regain de taille peuvent durer plusieurs années dans la nature (David G. Mann 1988). Les analyses de la diversité environnementale d’A. formosa semblent bien montrer d’importantes différences entre les populations de différents lacs et également au sein de ces populations, ce qui pose la question de la présence d’espèces cryptiques (Van den Wyngaert et al. 2015). A. formosa est une espèce pennée d’environ 45 à 80 microns de long, ne possédant pas de raphe (Fig. 9). Elle forme des colonies en forme d’étoile regroupant en général huit cellules (Fig. 10), bien que ce nombre puisse varier selon la disponibilité des nutriments, les variations température ou la force du courant (Bertrand et al. 2003; Hayakawa et al. 1994; Muller, s. d.; Tilman, Kilham, et Kilham 1976). Le maintien de la morphologie des colonies et d’une taille minimale des cellules (>10 microns) semble essentiel pour la flottaison et le maintien à une profondeur adéquate dans la colonne d’eau (Jaworski, Wiseman, et Reynolds 1988). Depuis quelques années, A. formosa est utilisée comme organisme modèle pour étudier les voies de fixation du carbone (Clement et al. 2017; Mekhalfi, Puppo, et al. 2014). Les lipides qu’elle produit ont également été investigués (Mekhalfi, Amara, et al. 2014). Plus récemment, il a été décidé d’établir la séquence génomique d’A. formosa et d’étudier sa communauté microbienne associée dans le cadre du projet Microbio-E («MICRObes for BIOEnergy Production»).

33

Figure 9 : Vues en microscopie électronique d’A. formosa (Spaulding 2012). 1 : Les pôles de la valve sont asymétriques 2 : La valve est allongée et étroite 3 : Présence d’une rimoportula, ouverture permettant l’excrétion de polysaccharides et composés carbonés 4 : Épines de silice 5 : Régions apicale présentant de nombreux pores (rôle d’extrusion).

Figure 10 : Une colonie d’A. formosa observée au microscope optique (Crédit : Kojadinovic, Puppo, Hubert)

34

Problématique

Le projet Microbio-E fédère plusieurs équipes de la région marseillaise aux compétences diverses autour de la thématique de la production d’énergie à partir de biomasse (bactéries, microalgues notamment). L’étude d’A. formosa s’inscrit dans ce projet, non seulement car elle accumule des lipides qui pourraient être exploités pour la fabrication de biocarburants (Fig. 11A), mais également car de nombreuses bactéries sont présentes dans les cultures (Fig. 11B). Mieux comprendre cette cohabitation est pertinent dans l’optique d’une production à grande échelle, dans laquelle il peut être délicat de conserver une culture d’algue pure en évitant toute contamination. De plus, certaines bactéries peuvent être bénéfiques pour la croissance ou le stockage de lipides, ce qui rend désirable le maintien d’une communauté bactérienne optimale, même en conditions contrôlées. J’ai été recruté en thèse dans le contexte du projet Microbio-E avec pour objectif de prendre en charge l’analyse des données de séquence produites pour l’étude du génome d’A. formosa et la caractérisation du microbiome associé. Mon projet doctoral a été réalisé au sein d’une collaboration entre les laboratoires BIP, qui a assuré les travaux expérimentaux, et IGS chargé des analyses bio-informatiques. Le Chapitre 1 de cette thèse se concentre sur l’étude des bactéries associées à A. formosa, récemment co-isolées d’un lac anglais et gardées en culture depuis. Ce chapitre présente les résultats obtenus par séquençage de l’ARN ribosomique 16S, portant sur la diversité et la dynamique de la communauté bactérienne, et un volet métagénomique présentant la reconstruction et l’étude de 30 génomes bactériens.

35

Figure 11 : Observations d’A. formosa au microscope confocal à fluorescence (Crédit : Kojadinovic, Puppo, Hubert). Barre d’échelle 10 μm. Les chloroplastes (Chl) apparaissent en autofluorescence (rouge) (A) : Accumulation de lipides (Lip) au cours de la croissance (coloration en jaune par Nile Red) (B) : Bactéries à proximité de la diatomée. L’ADN est coloré en vert par le Nuclear Green (Nuc : noyau). Les bactéries sont indiquées par des flèches.

Pour compléter ces données et centrer l’analyse sur la diatomée, un second séquençage de lectures longues a été réalisé avec la technologie Pacbio. Le Chapitre 2 présente la résolution d’une longue région répétée du génome mitochondrial d’A. formosa, ainsi que le génome nucléaire de la diatomée et sa comparaison aux autres

36

espèces de diatomées déjà séquencées. Un travail plus poussé de prédiction et comparaison des réseaux métaboliques des bactéries et de la diatomée a été amorcé en collaboration avec l’INRIA (Rennes) pour compléter les résultats préliminaires du Chapitre 1. Enfin, au vu de l’histoire évolutive complexe et controversée des diatomées, il semblait nécessaire d’envisager les relations diatomées-bactéries sous l’angle des transferts horizontaux de gènes. Si des premiers résultats avaient déjà émergés de l’analyse de génomes individuels (dont celui d’A. formosa, cf. Chapitre 2), une analyse globale menée sur les transcriptomes de 97 diatomées marines est présentée dans le Chapitre 3, et apporte quelques éléments sur la prépondérance de ces HGT bactériens chez les diatomées, notamment pour quelques cas emblématiques telle que l’acquisition du cycle de l’urée.

37

Chapitre 1 : Bactéries associées à A. formosa

II.0. Résumé

Le premier volet de ce travail avait pour avait pour objectifs (I) d’identifier les bactéries présentes en co-culture avec la diatomée, (II) de caractériser d’éventuelles variations d’abondance au cours de la croissance de la diatomée, et (III) de prédire les métabolismes associés aux différentes bactéries pour comprendre leur impact dans la culture. Deux approches ont été utilisées. La première a été le séquençage d’un fragment hypervariable (V4-V5) de l’ARN ribosomique 16S pour identifier les bactéries et quantifier leur abondance dans différentes conditions de culture. La seconde a été le séquençage métagénomique de la culture mixte diatomée-bactéries, à partir duquel une première version du génome de référence d’A. formosa a pu être obtenue (par la suite amélioré et analysé, cf. Chapitre 2), ainsi que le génome de trente bactéries. Associés à des expériences complémentaires de microscopie et cytométrie, nos résultats vont mener à une publication dans le journal Environmental Microbiology (corrections mineures en attente d’une validation par les pairs).

II.1. Introduction

Notre sujet d’étude dans ce chapitre est une culture non-axénique d’un clone d’A. formosa isolé quelques mois auparavant dans les eaux du lac anglais d’Esthwaite Water. Dans cette culture, la diatomée cohabite avec une communauté microbienne contenant plusieurs souches morphologiquement discernables au microscope, capturée en même temps que l’algue (cf. Figure 11B). L’étude de ces bactéries environnantes présente plusieurs intérêts. Tout d’abord, dans une perspective d’utilisation biotechnologique d’A. formosa, il serait prometteur d’identifier une ou des bactéries ayant un effet bénéfique sur la croissance ou la production de lipides. Parmi les nombreuses bactéries ayant été

38

observées en microscopie confocale, certaines semblent attachées à A. formosa (Fig 11B, panel 3). Or, certains ectosymbiontes peuvent promouvoir la croissance de l’algue à laquelle ils sont attachés, comme c’est le cas par exemple pour l’algue verte Botryococcus braunii (Tanabe 2015). Par ailleurs, l’équipe du BIP n’est pas parvenue à rendre la culture d’A. formosa axénique malgré plusieurs tentatives à l’aide de diverses combinaisons d’antibiotiques, provoquant parfois jusqu’à la mort de l’algue (Tableau 3). Ces échecs répétés pourraient suggérer qu’une ou plusieurs espèces bactériennes sont indispensables à la survie de la diatomée. Antibiotique Dose (μg.mL-1) Observations Gentamycine 20 Chloramphénicol 17 Mort d’A. formosa Tétracycline 50 Ciprofloxacine 5 Cellules d’A. formosa affectées Streptomycine 85 Pénicilline G 170 A. formosa saine ; bactéries présentes Carbénicilline 300

Tableau 3 : Antibiotiques utilisés par l’équipe expérimentale en vue d’éliminer les bactéries co-cultivées avec A. formosa. (Crédit : Kojadinovic – Puppo)

D’un point de vue méthodologique, considérer l’ensemble des espèces en présence est devenu possible grâce aux progrès du séquençage haut débit et des méthodes d’analyse (assemblage métagénomique notamment). Par rapport aux autres approches utilisées pour étudier les interactions diatomées-bactéries (cf I.5), la métagénomique offre le double avantage de ne pas limiter l’analyse aux bactéries cultivables pouvant être isolées au préalable, et de ne pas ignorer des interactions impliquant plus de deux partenaires. La contrepartie est une complexité plus grande, limitée en partie par l’utilisation d’une culture (récente) de laboratoire contenant une communauté moins diverse qu’un échantillon environnemental. Cette approche a été utilisée avec succès pour étudier les interactions au sein de communautés de taille intermédiaire, par exemple un assemblage artificiel de plusieurs bactéries (Garcia et al. 2015) ou le microbiome d’une éponge marine (Moitinho-Silva et al. 2017).

39

II.2. Papier “Exploring the microbiome of the “star” freshwater diatom A. formosa”

40

Page 1 of 71

1 Exploring the microbiome of the “star”

2 freshwater diatom Asterionella formosa

3

4 KojadinovicSirinelli Mila*,1,ᵻ, Villain Adrien*,2, Puppo Carine1, Fon Sing Sophie3, Prioretti 5 Laura1, Hubert ForPierre4, Grégori Peer Gérald Review5, Zhang Yizhi1, Sassi Only JeanFrançois3, Claverie Jean 6 Michel2, 6, Blanc Guillaume5, Gontero Brigitte1.

7

8 *: These authors contributed equally to this work.

9 1 Aix Marseille Univ, CNRS, BIP, UMR 7281, Marseille, .

10 2 Aix Marseille Univ, CNRS, IGS, UMR 7256, Marseille, France.

11 3 CEA Cadarache, Groupe Biomasse 3G, SaintPaullezDurance F13108, France.

12 4Aix Marseille Univ, CNRS, LISM, UMR 7255, Marseille, France.

13 5Aix Marseille Univ, Univ Toulon, CNRS, IRD, MIO, UMR 7294, Marseille, France.

14 6Assistance Publique des Hôpitaux de Marseille (APHM), Marseille, France.

15 ᵻ Current address : BIAM, CEA, CNRS and AixMarseille University, UMR 7265 LBC, CEA

16 Cadarache, F13108, SaintPaullezDurance, France.

17

18 Authors for correspondence:

19 Brigitte Gontero, Laboratoire de Bioénergétique et Ingénierie des Protéines, UMR 7281

20 CNRSAMU, BP 71, 31 Chemin Joseph Aiguier, 13 402 Marseille Cedex 20, France. Tel: 33

21 4 91 16 45 49. Fax: 33 4 91 16 46 89. Email: [email protected]

22 Mila KojadinovicSirinelli, Laboratoire de Bioénergétique Cellulaire, DRF/BIAM/UMR 7265,

23 CEA Cadarache Bât 156, 13108 SaintPaullezDurance, France. Tel: 33 4 42 25 46 19.

24 Fax: 33 4 42 25 47 01. Email: mila.sirinelli@univamu.fr

25

1

Wiley-Blackwell and Society for Applied Microbiology Page 2 of 71

26 Running title: The microbiome of Asterionella formosa

27

28 OriginalitySignificance Statement

29 Most of our knowledge on the mechanisms underlying diatombacterial interactions has

30 been acquired through studies involving isolation of culturable partners. 31 In the present For work, we Peer explore the Review whole community formedOnly by the freshwater diatom 32 Asterionella formosa and its associated bacteria in culture using an integrated approach

33 based on a combination of cellular, molecular and metagenomics techniques.

34 The results obtained (i) bring new insights into the diversity, the dynamics and some of the

35 metabolic potentials of the bacterial community associated to A. formosa in culture and (ii)

36 allow us to investigate the potential network of interactions within the community and

37 therefore its functional architecture.

38 The community studied here, of intermediate complexity between highly complex natural

39 communities and pure laboratory cultures, brings a combination of physiological, cellular and

40 molecular knowledge that is highly complementary to field studies and can be extrapolated

41 and used to deepen our understanding of complex natural communities.

42

43 Summary

44 Most of our knowledge on the mechanisms underlying diatombacterial interactions has

45 been acquired through studies involving isolation of culturable partners. Here, we aimed at

46 establishing a laboratory model of intermediate complexity between complex natural

47 communities and laboratory pure culture models. We therefore investigated the whole

48 community formed by the freshwater diatom Asterionella formosa and its associated

49 bacteria, including both culturable and unculturable bacteria. Combining cellular and

50 molecular approaches, we showed that in laboratory cultures, A. formosa microbiome was

51 dynamic and comprised of numerous bacterial species (mainly Proteobacteria and

2

Wiley-Blackwell and Society for Applied Microbiology Page 3 of 71

52 Bacteroidetes). Using metagenomics, we explored several metabolic potentials present

53 within the bacterial community. Our analyses suggested that bacteria were heterotrophic

54 although a third of them (Alpha and Betaproteobacteria) could also be phototrophic. About

55 60% of the bacteria, phylogenetically diverse, could metabolize glycolate. The capacity to

56 synthesize molecules such as B vitamins appeared unevenly distributed among the bacteria.

57 Altogether, our results brought insights into the bacterial diversity found in diatombacterial 58 communities andFor hinted Peer at metabolic Review interdependencies withinOnly the community that could 59 result in diatombacterial and bacterialbacterial interactions. The present work allowed us to

60 explore the functional architecture of the bacterial community associated with A. formosa in

61 culture and is complementary to field studies.

62

63 Introduction

64 Algae and bacteria are two essential groups that have an important role in aquatic

65 ecosystems and biogeochemical cycles. Algalbacterial interactions are complex and

66 diverse, and have been documented for various algal groups, including diatoms (Amin et al.,

67 2012; Singh and Reddy, 2014; Cooper and Smith, 2015; Ramanan et al., 2016). These

68 unicellular algae, with a distinctive silicified cell wall, are central to aquatic environments and

69 are responsible for about 20% of photosynthesis on Earth (Falkowski et al., 2004; Armbrust,

70 2009). Some bacteria take part in the decomposition of dead diatoms while others interact

71 with actively growing diatoms (Bidle and Azam, 1999; Amin et al., 2012). Numerous studies

72 on laboratory cultures or natural communities, have shown that bacteria associated with

73 diatoms mostly belong to the Proteobacteria and Bacteroidetes phyla and are often capable

74 of utilizing diatom exudates (Schäfer et al., 2002; Bruckner et al., 2008; Amin et al., 2012).

75 Diatombacterial interactions mainly occur in the phycosphere (Bell and Mitchell, 1972) and

76 range from antagonistic to synergistic interactions (Amin et al., 2012).

77 Diverse antagonistic interactions can occur. For example, some bacteria secrete proteases

78 with algicidal activities (Paul and Pohnert, 2011) while others lyze diatom cells by direct

3

Wiley-Blackwell and Society for Applied Microbiology Page 4 of 71

79 attachment to the diatom and production of microtubulelike structures (Furusawa et al.,

80 2003). Diatoms can produce fatty acids (including eicosapentanoeic acid or palmitoleic acid)

81 or esters that can have antibacterial effects (Findlay and Patil, 1984; Desbois et al., 2008).

82 Competition between diatoms and bacteria was also reported for nutrients such as nitrogen,

83 phosphorus or iron that may become limiting in the environment (Thingstad et al., 1993;

84 RisgaardPetersen et al., 2004). 85 Synergistic relationshipsFor Peer are mainly Review based on nutrients Only exchanges, including bacterial 86 provision of vitamin B12 to the diatoms (Durham et al., 2015), bacterial production of

87 siderophores as a potential source of iron for the diatoms (SoriaDengg and Horstmann,

88 1995; Hutchins et al., 1999; Maldonado and Price, 2001; SoriaDengg et al., 2001), and

89 provision of nitrogen by diazotrophic cyanobacteria (Foster et al., 2011) in exchange for

90 diatomproduced dissolved organic matter (DOM). Among the latter, diatoms can produce

91 extracellular polymeric substances, glycolate or organosulfur molecules that can be utilized

92 by specific bacteria (Lau and Armbrust, 2006; Haynes et al., 2007; Amin et al., 2015;

93 Durham et al., 2015). For example, glycolate (a 2carbon watersoluble molecule) can be

94 utilized as an energy source by bacteria possessing the glcD gene (Lau and Armbrust,

95 2006), while the organosulfur molecule taurine can be uptaken and metabolized to acetate

96 by bacteria having the tauABC and the tpa, xsc, ackA genes (Amin et al., 2015).

97 In the case of benthic diatoms, diatombacterial interactions can also induce biofilm

98 formation (Windler et al., 2015; Buhmann et al., 2016).

99 Finally, it has been shown that interactions can be enhanced by exchanges of signaling

100 molecules such as the indole3acetic acid (IAA), that can be produced by bacteria and

101 increases algal cell division (Amin et al., 2015).

102

103 Most of our knowledge on the molecular mechanisms underlying diatombacterial

104 interactions has been acquired through studies involving isolation of culturable interacting

105 partners, and in recent years, the combined use of omics approaches (Paul et al., 2013;

106 Amin et al., 2015; Cooper and Smith, 2015; Durham et al., 2015). Great advances in the

4

Wiley-Blackwell and Society for Applied Microbiology Page 5 of 71

107 identification of molecules and metabolic/signaling pathways involved in diatombacterial

108 interactions have been achieved. However, the mechanisms of interactions of unculturable

109 bacteria with diatoms and their metabolic contributions to diatombacterial communities

110 remain poorly investigated. Moreover, a global view of the network of interactions occurring

111 in whole diatombacterial communities is mostly lacking. Finally, diatombacterial

112 associations have been mostly studied in marine systems. 113 For Peer Review Only 114 In the present work, we have established a new freshwater model, of intermediate

115 complexity between highly complex natural communities and laboratory pure culture models,

116 and have used a combination of cellular, molecular and metagenomics approaches to

117 expand on previous studies. We chose the widespread freshwater pennate diatom

118 Asterionella formosa (Lund, 1949; HappeyWood and Hughes, 1980; Hayakawa et al., 1994;

119 Mekhalfi, Amara, et al., 2014; Mekhalfi, Puppo, et al., 2014; Villain et al., 2017) and its

120 associated bacteria as a model system and conducted laboratory investigations on the entire

121 A. formosa-bacterial community, i.e. without including intermediate steps of isolation and

122 axenic cultivation of the different partners. This allowed us to study both culturable and

123 unculturable bacteria.

124

125 Our aims were to (i) investigate the diversity and (ii) describe the dynamics of the bacterial

126 population living alongside A. formosa in laboratory cultures, and (iii) explore some of the

127 metabolic potentials of the bacterial community in order to gain insight into its functional

128 architecture.

129

130 Results

131 Asterionella formosa mixed laboratory cultures

132 A single A. formosa colony was isolated by micromanipulation from Esthwaite Water (UK)

133 and was grown and maintained together with the associated bacteria in laboratory batch

5

Wiley-Blackwell and Society for Applied Microbiology Page 6 of 71

134 conditions in Diatom Medium (DM). Typical A. formosa cells had a doubling time of 22.6 h ±

135 2.3 h (Fig. 1A). Their length was around 40 to 50 m and width around 3 m (Fig. 1B). Cell

136 morphology changed during growth, reflecting metabolic and physiological modifications

137 (Fig. 1B). In the lag phase, A. formosa cells contained longshaped chloroplasts and few

138 small lipid droplets (Fig. 1B). During growth, chloroplasts size decreased while the size and

139 number of lipid droplets increased (Fig. 1B). A. formosa cells formed starshaped colonies 140 (Fig. 1B), composedFor of 1 Peerto 10 cells. Eightcell Review colonies were Only predominant in midexponential 141 phase. However, their abundance decreased during growth and the percentages of colonies

142 displaying 1 to 7 cells increased (Supporting Information Fig. S1).

143 A. formosa cultures contained bacteria with highly variable phenotypes (Fig. 1C). Bacteria

144 varied in cell shape (rodshaped, spherical or curved), length (from 0.5 m to 3 m) and

145 motility, with both immobile and highly motile cells. Some bacteria were attached to the

146 diatom cells, whereas others were free in the culture. Bacterial aggregates were also

147 observed, particularly in aging cultures.

148

149 Proteobacteria and Bacteroidetes are the most abundant phyla associated with A.

150 formosa

151 We identified the bacteria living with A. formosa using 16S rRNA gene sequencing at

152 multiple points during the bacterialdiatom community growth. We found a total of 50

153 bacterial operational taxonomic units (OTUs), consistent with a species richness (Chao1

154 index) of 44.3 ± 4.6 on average. The recovered OTUs are listed in Supplementary

155 Information Table S1.

156 Proteobacteria was the most abundant phylum, with 28 OTUs recruiting 90 % of the reads.

157 Within the latter, Betaproteobacteria (10 OTUs mainly belonging to the Burkholderiales

158 order) were the most abundant (54.3 % of the reads) while Gammaproteobacteria (4 OTUs

159 mainly belonging to the Pseudomonadales order) represented 33.6 % of the reads.

160 Alphaproteobacteria (13 OTUs) represented 2.2 % of the reads, mostly distributed in the

161 orders Rhodobacterales (1.2 %), Sphingomonadales (0.6 %) and Rhizobiales (0.4 %).

6

Wiley-Blackwell and Society for Applied Microbiology Page 7 of 71

162 Bacteroidetes (13 OTUs with a share of 10 % of the reads) was the second most abundant

163 phylum, with the orders Sphingobacteriales (6.8 %), Cytophagales (1.2 %) and

164 Flavobacteriales (1.1 %). Firmicutes and Actinobacteria were detected at very low

165 abundances (Supporting Information Table S1). The phylogenetic affiliation of the fifteen

166 most abundant OTUs (defined as OTUs having a relative abundance greater than 1% in at

167 least one replicate) is depicted in Fig. 2. All together, these OTUs represented 99 % of the 168 reads. The taxonomicFor assignation Peer was Review limited to the order Only for OTU 3 and 51 and to the 169 phylum for OTU 14.

170

171 Bacterial community dynamics

172 We measured freeliving bacterial concentrations using flow cytometry and analyzed the

173 relative proportions of bacterial OTUs during the community growth. Over 15 days, the A.

174 formosa concentration increased about 150 times, i.e. from 6.8.102 cell.ml1 to 1.1.105 cell.ml

175 1 (Fig. 3A). Meanwhile, the freeliving bacterial concentration increased about 10 times (from

176 2.4.104 cell.ml1 to 2.8.105 cell.ml1), despite a transient drop during A. formosa mid

177 exponential phase (Fig. 3A). The ratio between freeliving bacteria and diatom

178 concentrations decreased from 70 in the lag phase, to a relatively stable value of

179 approximately 1 to 3 in stationary phase (Supporting Information Fig. S2).

180 This was correlated with a reduction in the diversity of the bacterial community, as the

181 Simpson diversity index decreased from 0.33 in midexponential phase, to 0.23 in early

182 stationary phase, and 0.20 in stationary phase (Fig. 3A, points a, b and c respectively). Early

183 stationary and stationary phases were also more similar than midexponential and early

184 stationary phases (Bray Curtis indices of 0.20 ± 0.06 and 0.47 ± 0.08 respectively). This is

185 confirmed by a Non Metric Dimensional Analysis (NMDS) that separates the midexponential

186 replicates 1 and 2 from every other replicate (Supporting Information Fig. S3).

187 In midexponential phase, OTU 3 (Burkholderiales), OTU 4 (Comamonadaceae) and OTU 2

188 (Pseudomonas) were the most abundant (Fig. 3B). Betaproteobacteria (mainly OTU 3 and 4)

189 were therefore largely predominant (77.5 % of abundance). In early stationary and stationary

7

Wiley-Blackwell and Society for Applied Microbiology Page 8 of 71

190 phases, OTU 3, OTU 4, OTU 2, OTU 5 (Chitinophagaceae) and OTU 6 (Rhizobacter) were

191 the most numerous (Fig. 3B). Consequently, Betaproteobacteria (mainly OTU 3, 4 and 6)

192 and Gammaproteobacteria (mainly OTU 2) were predominant in the community with 41.9 %

193 of abundance each while Bacteroidetes represented about 13% of the reads (mainly OTU 5).

194 Altogether, our results indicated that the bacterial community changed during A. formosa

195 growth, i.e. between midexponential and stationary phases. 196 For Peer Review Only 197 Free-living versus A. formosa-attached bacterial populations

198 We investigated whether some bacteria were predominantly attached to A. formosa or free

199 living, by combining a 8 mfiltration protocol with 16S rRNA gene sequencing. OTU 4

200 (Comamonadaceae) and OTU 8 (Gemmobacter) were similarly distributed between the free

201 and attached fractions (Table 1). OTU 2 (Pseudomonas) and OTU 12

202 (Sphingomonadaceae) were mostly free in the culture, while the remaining OTUs were

203 mainly attached to the diatom (Table 1). Notably, OTUs 11, 14 and 15 were not detected in

204 any fractions presumably because of their low relative abundances (Supporting Information

205 Table S1). Therefore, Bacteroidetes and Betaproteobacteria seemed predominantly

206 attached to the diatom (with the exception of OTU 4) while members of the

207 Alphaproteobacteria and Gammaproteobacteria phyla were attached and/or freeliving.

208

209 Genomic analyses of 30 distinct A. formosa-associated bacteria

210 In order to have a first glance at the metabolic capacities of the bacterial community

211 associated with A. formosa, we sequenced the metagenome of the A. formosabacterial

212 community.

213 Following metagenome assembly, we excluded the diatom sequences that will be analyzed

214 in a separate study. We obtained 30 metagenomeassembled genomes (MAGs) of co

215 cultured bacteria (Supporting Information Table S2) and focused on the analysis of these

216 MAGs within the present work. MAGs had a high completion 95.6 ± 6.4% of unique core

217 genes found on average, and low levels of duplication (4.3 ± 6.7% genes found more than

8

Wiley-Blackwell and Society for Applied Microbiology Page 9 of 71

218 once). Twentyfour genomes were assigned to the Proteobacteria phylum and five to the

219 Bacteroidetes phylum. A Verrucomicrobia genome was also recovered while only a few

220 contigs could be linked to the Firmicutes and Actinobacteria phyla. Therefore, despite minor

221 differences, we globally found a good correspondence between the MAGs and the 16S

222 sequencing results.

223 224 MAGs were usedFor to predict Peer metabolic Review networks using theOnly EcoCyc database within the 225 pathwaytools framework (Karp et al., 2015). We complemented these genomewide

226 predictions by searches within the annotations on a genebygene basis (Supporting

227 Information Table S3). We focused on central metabolic pathways and pathways previously

228 shown to be involved in synergistic algalbacterial interactions, when data about the genetic

229 bases of the interactions were available (Supporting Information Table S3).

230

231 Glycolysis, the tricarboxylic acid cycle and oxidative phosphorylation were found in almost all

232 bacteria while the pentose phosphate and Entner–Doudoroff pathways were predicted in a

233 subset of bacteria (Fig. 4 and Supporting Information Table S3), suggesting that

234 chemoheterotrophy was common within the community (Fig. 5).

235 Eleven bacteria (Alphaproteobacteria and Betaproteobacteria) had genes coding for the

236 photosynthetic reaction center proteins (pufL, pufM and puhA genes), the last steps of

237 bacteriochlorophyll a and b biosynthesis (bchX, bchY, bchZ, bchF, bchC, bchG genes) and

238 carotenoid biosynthesis (crtB, crtI, crtC, crtF and crtD genes). Therefore they could be

239 phototrophic, i.e. could use light as an energy source (Fig. 4 and 5).

240 Moreover, among the phototrophic bacteria, b10 (Bradyrhizobium) and b18

241 (Comamonadacae) had genes encoding for the ribulose1,5bisphosphate carboxylase

242 (RuBisCO). They would therefore be photoautotrophic, i.e. capable of CO2 fixation (Fig. 4

243 and 5, Supporting Information Table S3) and could grow without any organic carbon

244 substrate.

245

9

Wiley-Blackwell and Society for Applied Microbiology Page 10 of 71

246 Eighteen bacteria had a glcD gene and may therefore use glycolate as an energy source

247 while taurine could be used by one bacterium, b13 (Rhodobacterales) that had genes

248 necessary for taurine uptake and catabolism to acetate (Fig. 4 and 5, Supporting Information

249 Table S3).

250

251 We predicted that no bacteria were able to fix nitrogen, while eleven might be able to import 252 and reduce nitrateFor to ammonia, Peer and 27Review might be able to Only assimilate ammonia into amino 253 acids (Fig. 4 and 5, Supporting Information Table S3).

254

255 Regarding B vitamins, only six bacteria (Gammaproteobacteria and Alphaproteobacteria)

256 could synthesize vitamin B12 (Fig. 4 and 5, Supporting Information Table S3). The ability to

257 synthesize vitamins B1 and B7 was predicted in respectively nine and eleven bacteria (Fig. 4

258 and 5, Supporting Information Table S3). Altogether, Pseudomonas spp. could be described

259 as vitamin producers while most Betaproteobacteria, Bacteroidetes and Verrucomicrobia

260 require one or more of the B vitamins, especially vitamin B12 (Fig. 4 and 5).

261

262 We also explored interactions that could revolve around siderophores (Crosa and Walsh,

263 2002; Wilson et al., 2016). Only bacterium b30, a Pseudomonas, may be able to synthesize

264 a siderophore that would be an enterochelin (Fig. 4 and 5, Supporting Information Table S3).

265 Surprisingly, b30 corresponding to one of the best assembled MAGs, in only 28 contigs

266 with estimated completness of 100% and contamination of 0% lacked the enterochelin

267 receptor gene fepA (despite having genes involved in enterochelin transport). However,

268 eight other Proteobacteria had the fepA gene and could uptake the enterochelin present in

269 their environment (Fig. 4 and 5).

270 Lastly, the growth promoting molecule IAA was predicted to be produced by a single

271 bacterium: the Bradyrhizobium bacterium b10 (Fig. 4 and 5, Supporting Information Table

272 S3).

273

10

Wiley-Blackwell and Society for Applied Microbiology Page 11 of 71

274 Discussion

275 In the present work, we explored the bacterial community associated with the freshwater

276 diatom A. formosa in laboratory cultures using a combination of cellular, molecular and

277 metagenomics approaches. This community was found to be complex and composed of

278 numerous bacterial species, as revealed by 16S rRNA gene sequencing and metagenomics, 279 two techniquesFor allowing forPeer in depth exploration Review of bacterial Only diversity. Proteobacteria (Beta-, 280 Gamma- and Alpha proteobacteria) were the most prevalent, followed by Bacteroidetes.

281 The diversity of the bacterial community living with A. formosa was assessed within a period

282 of three to nine months after the isolation of the community from the environment. Besides,

283 the experiments were carried starting from a stock culture of the A. formosabacterial

284 community maintained at 4°C, low light. The experiments were therefore conducted in order

285 to limit the evolution and adaptation of the community to the laboratory conditions and

286 investigate a community as close as possible to the isolated natural community (see

287 experimental procedures). Yet, the bacterial community studied in this manuscript is adapted

288 to (i) growth in laboratory conditions (such as light, temperature or medium composition) (ii)

289 life with A. formosa and (iii) life with other bacteria present in this “laboratory” community.

290 Bacteria interacting with A. formosa in natural environments, and present upon isolation but

291 unable to live in our laboratory conditions may have not survived over time, and may have

292 therefore not been detected in our study. Besides, bacteria isolated in the same time as A.

293 formosa but not interacting with A. formosa in the natural environment may have become

294 adapted to life in the laboratory in the presence of A. formosa and other bacteria. They may

295 therefore interact with A. formosa and/or the other bacteria and consequently become part of

296 A. formosa laboratory microbiome. Therefore, the community studied in our manuscript may

297 not reflect the exact environment communities.

298 Despite this limitation, our laboratory model seems reasonably close to the environmental

299 conditions. The identified bacteria are in agreement with previous data on diatomassociated

300 bacteria (Schäfer et al., 2002; Grossart et al., 2005; Bruckner et al., 2008; Amin et al., 2012,

11

Wiley-Blackwell and Society for Applied Microbiology Page 12 of 71

301 2015). Besides, the detected bacteria were typical of freshwaters since orders such as the

302 Sphingobacteriales, the Rhizobiales, the Sphingomonadales, the Burkolderiales and the

303 Pseudomonadales were found (Newton et al., 2011). However, in contrast to several genera

304 of diatoms in marine environments (Grossart et al., 2005; Foster et al., 2011), no

305 cyanobacterium was detected in association with A. formosa. This could be due to a (i)

306 laboratoryinduced community shift or (ii) to the concentration of nitratenitrogen in 307 Easthwaite waterFor which isPeer not limiting Reviewfor phytoplankton (above Only 0.08 to 0.1 mg.l1) except 308 possibly in summer (Maberly et al., 2011) and may therefore not select for interactions

309 such as those relying on nitrogen provision by cyanobacteria.

310 In the natural Easthwaite water conditions, it is probable that A. formosa microbiome is quite

311 complex and varies throughout the year. Various characteristics of Esthwaite Water have

312 been shown to vary during the year and affect each other, such as the physical

313 characteristics, the water chemistry or the composition in diverse organisms of the lake

314 (Maberly et al., 2011). Thus, A. formosa is the most abundant in spring. This abundance is

315 known to be dependent on factors such as water temperature, light availability or silica

316 concentration (Maberly et al., 2011). To our knowledge, there is no data available on the

317 bacteria present in Esthwaite water, except for several cyanobacteria. Given the seasonal

318 variability in the lake, it is probable that the abundance of diverse bacterial species vary

319 throughout the year. Besides, the “need” for various types of interactions between the

320 partners is expected to vary according to factors such as water chemistry and physical

321 characteristics. It is therefore probable that the bacteria associated to A. formosa vary

322 throughout the year. Some interactions may be permanent while others could be transient

323 (and nevertheless essential) to respond to transient needs related to the environment. The

324 nature of the interactions between the partners may also vary over time depending on the

325 physiology of the partners as described previously (Seyedsayamdost et al., 2011).

326 Therefore, in order to have a good knowledge of the A. formosa microbiome in natural

327 conditions, and its potential variability, multiple sampling and analyses would be needed at

12

Wiley-Blackwell and Society for Applied Microbiology Page 13 of 71

328 various times during the year. This could be done in the future in a separate and

329 complementary study.

330

331 Our results have indicated that Bacteroidetes and Betaproteobacteria were found

332 predominantly attached to the diatom while Alphaproteobacteria and Gammaproteobacteria

333 were either attached and/or freeliving. A similar trend was previously described in marine 334 environments, For where Bacteroidetes Peer appeared Review mainly attached Only to diatoms (Grossart et al., 335 2005). This suggests a common lifestyle of diatomassociated Bacteroidetes, requiring an

336 attachment to the alga.

337

338 Metagenomics gave a picture of the bacterial community composition comparable to the 16S

339 rRNA sequencing one, with similar taxonomic assignations for the 30 recovered

340 Metagenome Assembled Genomes (MAGs). Although it is not possible to establish a direct

341 link between the genome of a bacterium and an OTU that is potentially encompassing

342 multiple species, the consistency was apparent at the genus level. For example, every OTU

343 and MAG assigned to the Gammaproteobacteria phylum was similarly assigned to the

344 Pseudomonas genus. The combination of the two techniques reinforced our findings,

345 especially because metagenomics is mostly devoid from some biases associated to 16S

346 rRNA barcoding. For instance, barcoding is not resolutive for some genera (e.g.

347 Pseudomonas (Bodilis et al., 2012)), may not accurately reflect the abundance of some

348 phyla (e.g. Verrucomicrobia (Bergmann et al., 2011)), and provides too broad taxonomic

349 assignations when dealing with uncultured taxa, which are common in freshwaters (Eiler et

350 al., 2012; Paver et al., 2013).

351 We also observed that, even though barcoding experiments were reaching saturation (data

352 not shown), metagenomics could still reach higher coverage without an increase in the

353 number of chimeras and spurious OTUs in contrast with 16S rRNA sequencing. For

354 instance, a single lowabundance MAG was assigned to the Verrucomicrobia phylum, while

13

Wiley-Blackwell and Society for Applied Microbiology Page 14 of 71

355 no OTU with the corresponding assignation was detected in any experiment. Similarly, we

356 recovered 11 Alphaproteobacteria MAGs but only three such OTUs.

357 Last but not least, analyzing quasicomplete genomes allowed us to associate putative

358 functions to bacteria, based on the presence of genes and the automatic reconstruction of

359 metabolic pathways. Although less powerful than a transcriptomic assay, this is a step

360 beyond the association of a function solely based on taxonomic assignation (eg, obtained 361 through a barcodingFor technique). Peer This isReview particularly interesting Only as the accessory genomes of 362 some bacteria may be very large and can include genes potentially implicated in

363 competition, virulence or mutualism. Using metagenomics to reconstruct individual genomes

364 is only tractable in smaller communities, but this approach has been successfully used to

365 investigate interactions within bacterial communities (Garcia et al., 2015).

366

367 We focused our analysis on basic bacterial metabolic pathways and highlighted potential

368 interactions with the diatom and between bacteria.

369 In mixed bacterialdiatom cultures (based on growth medium containing no carbon sources),

370 bacteria can grow on Dissolved Organic Matter (DOM) produced by the algae (Bruckner et

371 al., 2008; Amin et al., 2015). Our metagenomics data strongly suggested that bacteria living

372 alongside A. formosa are, as expected, chemoheterotrophic. As a photoautotroph, A.

373 formosa synthesizes glycolate (Werner, 1977). We found the genetic bases for using this 2

374 carbon watersoluble molecule in about 60% of the bacteria of the community, distributed in

375 various phylogenetic classes. We also found that bacterium b10, belonging to the

376 Rhodobacterales order (Alphaproteobacteria) could metabolize taurine to acetate (Fig. 5).

377 Similarly to the diatom P. multiseries (Amin et al., 2015), A. formosa may also be able to

378 produce taurine. Therefore this potential diatombacterial interaction would be similar to that

379 of P. multiseries with a Sulfitobacter species, which belongs to the Rhodobacterales order

380 (Amin et al., 2015). Thus, our results strongly suggest that many bacteria associated with A.

381 formosa are able to feed off the diatom.

14

Wiley-Blackwell and Society for Applied Microbiology Page 15 of 71

382 However, we also found that about one third of the bacteria exclusively Alpha and

383 Betaproteobacteria may be phototrophic, including b10 and b18 that were possibly

384 photoautotrophic i.e. capable of CO2 fixation (Fig. 5). These bacteria could therefore acquire

385 energy using photosynthesis, representing an advantage in conditions when DOM produced

386 by the diatom becomes scarce (as exemplified below). Phototrophic Proteobacteria are

387 present in freshwaters (Newton et al., 2011; Salka et al., 2011; Ferrera et al., 2017), and 388 aerobic anoxygenicFor phototrophic Peer bacteria Review have been isolated Only from diatomrich mats (Yurkov 389 and Beatty, 1998). To our knowledge however, phototrophy has not been previously

390 proposed as a feature of diatomassociated bacteria. Interestingly, A. formosa and the

391 identified phototrophic Alpha and Betaproteobacteria would not be in competition while

392 using a photosynthetic metabolism. First, they would not compete for light as they do not

393 contain the same pigments. Particularly, the Alpha and betabacteria identified here were

394 predicted to produce bacteriochlorophyll a and b and could therefore use infrared light

395 (around 800 nm to about 1000 nm in vivo) while the diatom cannot use light wavelength

396 superior to about 700 nm (red). Besides, the two types of organisms would not use the same

397 photosynthetic electron donors (H2O for the diatoms and H2 or organic matter for the

398 Proteobacteria) and not necessarily the same carbon source (CO2 or organic) (Willey et al.,

399 2008).

400

401 The analysis of the bacterial genomes proved also useful to rule out an eventual diatom

402 bacterial interaction based on nitrogen fixation by diazotrophic bacteria. In contrast with

403 several marine cyanobacterialdiatom symbioses (Foster et al., 2011), we did not detect the

404 genes required for nitrogen fixation in any bacterial genome. As mentioned above, the

405 concentration of nitrogennitrate in Easthwaite water is not limiting for A. formosa growth

406 most of the year (above 0.08 to 0.1 mg.l1). This concentration has been maintained high in

407 DM (around 10 mg.l1). Therefore, it is probable that our result reflects the natural conditions

408 in which an interaction of A. formosa with a diazotroph may not be required. Most of the

409 year, ammonium is present at low concentrations in Easthwaite water (between 0.02 and

15

Wiley-Blackwell and Society for Applied Microbiology Page 16 of 71

410 0.08 mg.l1). Such a concentration has been maintained in DM (around 0.09 mg.l1).

411 Ammonium is a preferred nitrogen source than nitrate for many phytoplankton (Maberly et

412 al., 2011). Therefore, a facultative relationship in which one or several bacteria would

413 increase nitrate reduction to ammonium and would thus fulfill both bacterial and diatom

414 requirements in nitrogen remains possible. This would be similar to what has been described

415 in the interaction between a Sulfitobacter species and Pseudo-nitzschia multiseries (Amin et 416 al., 2015). For Peer Review Only 417 B vitamins production was predicted to be unevenly distributed between the different

418 class/phyla present in the bacterial community. While almost all Gammaproteobacteria were

419 predicted to produce vitamins B1, B7 and B12, a majority of the other bacteria appeared as

420 requiring one or more of the B vitamins with Betaproteobacteria, Bacteroidetes and

421 Verrucomicrobia having a strict requirement for vitamin B12 (Fig 5.).

422 Our results therefore suggest an interdependency regarding vitamin production within the

423 bacterial community with B vitaminproducing bacteria such as Pseudomonas providing

424 vitamins to deficient bacteria. Regarding the diatom, A. formosa has been described as not

425 auxotrophic for vitamins B12, B7 and B1 (Provasoli and Carlucci, 1974; Croft et al., 2006).

426 Although the RNA sequencing performed within our study on the A. formosabacteria

427 community was not analyzed in detail in the present work, a brief analysis of our A. formosa

428 transcriptome assembly have confirmed this result. Transcripts involved in vitamins B7 and

429 B1 biosynthesis pathways, as well as metE transcripts (encoding the vitamin B12independent

430 methionine synthase) were found in our A. formosa transcriptome assembly (data not

431 shown). Therefore an obligate relationship between A. formosa and vitamin B12producing

432 bacteria is not likely, contrary to the case of vitamin B12auxotrophic algae (Croft et al., 2005;

433 Grant et al., 2014; Durham et al., 2015). Conversely, A. formosa may supply vitamins B1 and

434 B7 to Bvitaminsdeficient bacteria.

435 One bacterium of the community, Pseudomonas b30, appeared able to synthesize a

436 siderophore (likely an enterochelin), while eight other Proteobacteria would have an

437 enterochelin receptor, and could therefore uptake enterochelin from their environment (Fig.

16

Wiley-Blackwell and Society for Applied Microbiology Page 17 of 71

438 5). This could lead to cooperative and/or competitive bacterial interactions for iron acquisition

439 (Griffin et al., 2004; Niehus et al., 2017). Diatoms are not known to produce siderophores,

440 but some species can utilize ironsiderophores complexes via the reduction of ironbound

441 siderophores (SoriaDengg and Horstmann, 1995; Hutchins et al., 1999; Maldonado and

442 Price, 2001; SoriaDengg et al., 2001). In iron limiting conditions, A. formosa may therefore

443 acquire iron from bacterial ironsiderophore complexes (Fig. 5). 444 Our results alsoFor indicated Peer that a Bradyrhizobium Review could produceOnly IAA. This molecule may 445 stimulate A. formosa cell division and biosynthesis and thereby may benefit the whole

446 bacterial community (Fig. 5).

447

448 Taken together, our results therefore suggest that A. formosa could provide nutrients such

449 as glycolate or Bvitamins to some members of the bacterial community while nitrogen

450 or/and iron, could potentially be provided by bacteria to A. formosa as part of opportunistic

451 interactions (Fig. 5). Importantly, our data also indicate that bacteria may interact with each

452 other within community. The uneven distribution of metabolic pathways leading to B

453 vitamins, siderophores or IAA production in the bacterial genomes hints at

454 interdependencies between some bacteria (Fig. 5).

455

456 In order to investigate the dynamics of the community, we coupled 16S sequencing and

457 cytometry at multiple stages of diatom growth, and showed that the bacterial community was

458 changing over time, as described in other diatombacterial associations (Grossart et al.,

459 2005). During A. formosa lag phase, bacterial concentration increased and OTU 3 and 4

460 were the most abundant in the midexponential phase (Fig. 3). Phylogenetic comparisons

461 indicated that these two OTUs probably corresponded to b18 and b19, two

462 Betaproteobacteria, belonging to the Comamonadaceae family (Fig. 4). Remarkably, these

463 two bacterial species were predicted to be able to grow using both chemoheterotrophy and

464 phototrophy, with b18 predicted to be photoautotrophic (Fig. 4). In lag phase, i.e. when A.

465 formosaproduced photosynthates are in low concentration, bacteria are in DOM limiting

17

Wiley-Blackwell and Society for Applied Microbiology Page 18 of 71

466 conditions as no carbon source is present in the medium. Our results indicated that b18 and

467 b19 would thrive in these limiting conditions. This could be due to the capacity of these

468 bacteria to grow together using photosynthesis, with b18 producing organic compounds.

469 The other predicted photoautotroph of the community, b10 (Bradyrhizobium), was not

470 abundant in the culture (Fig. 4 and Supporting Information Table S2) suggesting that growth

471 conditions were less suited for b10 than b18. This could be due to multiple factors including 472 nutrient, light orFor oxygen conditions.Peer We Review expect that bacterial Only relative abundances would vary 473 in different conditions. In particular, our data suggest that in a B vitamindepleted medium,

474 b10 might have an advantage in comparison to b18 as it is predicted to produce B vitamins

475 in contrast to b18.

476

477 We have observed a transient drop in freebacterial concentration in midexponential phase,

478 followed by an increased relative abundance of OTU 2, 5 and 6 (Fig. 3). These changes may

479 be due to culture composition modifications related to A. formosa reaching midexponential

480 phase. During this phase, one expects concentrations of various A. formosa DOM, including

481 glycolate, to raise, and possibly trigger: (i) increased bacterial attraction to the phycosphere

482 and potential attachment to the diatom, provoking a transient drop in freebacterial

483 concentration and (ii) boosted growth of subsets of bacteria, such as OTU 2, 5 and 6,

484 potentially capable of metabolizing A. formosaproduced compounds.

485 OTU 2, a Pseudomonas, who became predominant in the culture from midexponential

486 phase (Fig. 3B), is freeliving (Table 1) and may correspond to b27, b28, b29 and/or b30

487 (Fig. 4). The latter were predicted to be chemoheterotrophic, capable of B vitamins

488 production, ammonium and nitrate assimilation, and for b30, of synthesizing enterochelin

489 (Fig. 4). The predominance of OTU 2 presumably reflects its strong efficiency at using A.

490 formosaproduced DOM.

491

492

18

Wiley-Blackwell and Society for Applied Microbiology Page 19 of 71

493 Concluding remarks

494 In agreement with previous work on microbial communities (Garcia et al., 2015),

495 reconstructing individual genomes from a metagenomics experiment proved to be a powerful

496 tool to glance at the architecture of the bacterial community associated with A. formosa

497 cultures. Metagenomics provided a very informative snapshot of the community, and while 498 not able to decipherFor as subtle Peer and dynamic Review relationships as Onlytranscriptomics or metabolomics 499 would (Paul et al., 2013; Amin et al., 2015; Durham et al., 2015), this approach significantly

500 raised our understanding of this system of intermediate complexity between highly complex

501 natural communities and pure laboratory cultures.

502

503 Combining metagenomics with cellular and molecular approaches, we were able to

504 investigate not only the bacterial diversity (including both culturable and unculturable

505 bacteria) and some of the metabolic potentials present within the bacterial community, but

506 also the community dynamics. This combination allowed us to explore how metabolic

507 complementarities/dependences could give rise to diatombacterial and bacterialbacterial

508 interactions. These interactions probably shape the community depending on the varying

509 physiological states of the partners and growth conditions, resulting in the observed

510 community dynamics.

511 Although our laboratory model may not be an exact reflection of the environment, it brings a

512 combination of physiological, cellular and molecular knowledge that could not be obtained in

513 the field. This knowledge is highly complementary to field studies and can be extrapolated

514 and used to deepen our understanding of complex and fluctuating natural communities.

515

516 The present work paves the way for future investigations, including global transcriptomic and

517 metabolomic experiments carried out in varying growth conditions or targeted studies

518 including the axenisation of A. formosa, to further decipher the functional architecture of the

519 A. formosabacterial community and use it as a freshwater model system.

19

Wiley-Blackwell and Society for Applied Microbiology Page 20 of 71

520

521 Experimental Procedures

522 Asterionella formosa isolation and xenic cultures

523 A single A. formosa colony was isolated by micromanipulation in December 2014 from

524 Esthwaite Water, UK (54.4°N, 2.9°W). The A. formosa strain isolated was named BG1 and 525 was depositedFor in the Culture Peer Collection Review of Algae and Protozoa Only (UK) with the accession 526 number CCAP 1005/24. A stock of A. formosa BG1 was maintained in Diatom Medium with

527 the associated bacteria (Mekhalfi et al., 2014a), at 4°C, with low light in order to slow down

528 the A. formosa community metabolism, growth and therefore evolution and adaptation to the

529 laboratory conditions. This stock was subcultured every month. For each experiment, a pre

530 culture was started from the culture stock (1:100 dilution) and was grown in a conical flask

531 shaken at 110 rpm, at 16.5 °C, with a 12h light: 12h dark cycle (illumination at 50 mol of

532 photons.m2.s1). When reaching stationary phase, the preculture was used to inoculate

533 cultures (initial cell density of 0.2 1.2.103 cells.ml1). The latter were grown using the same

534 conditions as mentioned above.

535

536 Culture filtration

537 A. formosabacterial cultures were filtrated on 8 m WhatmanTM filters (GE Healthcare,

538 Chicago, IL, USA) and separated into the attached fraction (≥ 8 m, retained on the filter)

539 and the freebacterial fraction (< 8 m). The freebacterial fraction was further collected

540 using 0.22 m filtration (Millipore, Billerica, MA, USA).

541

542 Determination of A. formosa growth and number of cells per colony

543 A. formosa colonies and number of cells per colony were counted using a Neubauer

544 chamber (BRAND GmbH, Wertheim, Germany).

545

546 Determination of free-bacterial growth

20

Wiley-Blackwell and Society for Applied Microbiology Page 21 of 71

547 Freebacterial growth was determined by flow cytometry using a BD Accuri C6 flow

548 cytometer (BD Biosciences, San Jose, CA, USA). Freeliving bacteria were separated from

549 A. formosa cells by filtration (10 mfilters; CellTrics®, Sysmex) and incubated with

550 PicoGreen® (Molecular Probes, Eugene, OR, USA) for 30 min (1/5 000 vol:vol dilution of the

551 commercial solution) to stain bacterial nucleic acids. Bacterial fluorescence induced by

552 PicoGreen® was recorded and used to determine freebacterial abundances. See 553 Supporting InformationFor for Peer details. Review Only 554

555 Microscopy

556 Cells were harvested and fixed using 0.2 % glutaraldehyde. Cellular lipid content was

557 visualized after Nile Red staining (1 g/mL final concentration, 5 min) while DNA was

558 visualized after 15 to 60 min of 5 M Nuclear Green™ LCS1 staining (Interchim, Montluçon,

559 France). Autofluorescence was used to visualize chloroplasts. Images were acquired either

560 with an epifluorescent microscope or performing confocal imaging. See Supporting

561 Information for details.

562

563 Genomic DNA and RNA extractions

564 gDNA and RNA extractions were performed starting from A. formosabacterial mixed

565 cultures containing about 2.5.107 and 108 A. formosa cells, respectively. Cultures were

566 filtered on 0.22 m for gDNA and/or 8 m filters for gDNA and RNA extractions. The filters

567 were frozen in liquid nitrogen and stored at 80°C until extraction.

568 DNA was extracted following a hexadecyltrimethylammonium bromide (CTAB)based

569 protocol adapted from Bruckner et al. (Bruckner et al., 2008). See Supporting Information for

570 details. The DNA and RNA extractions used for the metagenomics analyses were performed

571 between March and June 2015 whereas the DNA extractions used for the 16S rRNA gene

572 sequencing growth dynamics experiments and for the attached/free bacteria analyses were

573 performed between July and September 2015 and between September and November

574 2016, respectively.

21

Wiley-Blackwell and Society for Applied Microbiology Page 22 of 71

575 For RNA extractions, protocols based on the TRIreagent use (SigmaAldrich, St Louis, MO,

576 USA) and the SVtotalRNAisolationsystem (Promega, Madison, WI, USA) were combined.

577 Cells were resuspended in TRIreagent (4 ml) for 5 min. Extraction using 0.2 volume of

578 chloroform was performed. The aqueous phase was mixed with 1.75 volumes of RNA

579 dilution buffer (Promega) and centrifuged (14 000 g; 10 min; room temperature). The

580 supernatant was recovered and mixed with 0.5 volume of 90 % cold ethanol. This mixture, 581 divided in smallerFor volumes, Peer was applied Review on Spin basket Assemblies Only from the SVtotalRNA 582 isolationsystem. Manufacturer's instructions were followed to eliminate DNA, wash and

583 collect RNA samples.

584

585 Genomic DNA and RNA sequencing and analyses

586 Prior to sequencing, isolation of poly(A) eukaryotic messenger RNA from total RNA samples

587 was performed using the NextFlex Rapid Directional mRNASeq kit (BiooScientific, Austin,

588 TX, USA). Sequencing runs were performed on an Illumina NextSeq 500 instrument. The

589 462 Millions of 2*150 pairedend reads for DNA and 116 Millions of 2*75 paired end reads

590 for RNAseq are available at the Short Reads Archive (SRA) under accessions SRX2949862

591 and SRX2949863 respectively.

592 DNA reads were assembled with SPAdes (Bankevich et al., 2012). Eukaryotic and bacterial

593 contigs were separated based on taxonomic assignation at the phylum level and mapping of

594 RNAseq reads on the assembly with TopHat (Trapnell et al., 2009). Bacterial contigs were

595 further sorted into homogenous sequence bins based on nucleotide bias and DNAseq read

596 coverage using MyCC (Lin and Liao, 2016), followed by manual curation taking into account

597 the taxonomic assignation at the genus level. The MetagenomeAssembled Genomes

598 (MAGs) completeness and contamination levels were evaluated with CheckM (Parks et al.,

599 2015). Sequences have been deposited in the GenBank/EMBL/DDBJ database under

600 accession PRJNA340070. MAGs can be accessed under accession numbers

601 NKID00000000 through NKJG00000000. MAGs were annotated with Prokka 1.12beta

22

Wiley-Blackwell and Society for Applied Microbiology Page 23 of 71

602 (Seemann, 2014) and the pathwaytools framework (Karp et al., 2015) was used to predict

603 metabolic pathways. The analyses are detailed in the Supporting Information section.

604

605 16S rRNA sequencing

606 The V4V5 region of the ribosomal rRNA 16S was amplified by PCR from purified gDNA and

607 the resulting amplicons were sequenced on an Illumina MiSeq instrument (See Supporting 608 Information forFor details). ThePeer USEARCH Review 9.2.64 pipeline (Edgar, Only 2010) was used to predict 609 Operational Taxonomic Units (OTUs) and compute diversity indices. Taxonomic assignation

610 of OTUs was predicted with the Ribosomal Data Project classifier tool 2.11 (Wang et al.,

611 2007).

612

613 Acknowledgments

614 This work was supported by the

615 (ANR) A*MIDEX project (n° ANR11IDEX000102), the CNRS PEPS project Exomod, the

616 AixMarseille University, and “la Region PACA”. We acknowledge the PACABioinfo

617 platform, labelled IBISA and FranceGénomique (ANR10INBS0009) and the PRECYM

618 flow cytometry platform (MIO). This work was performed with the ProfileExpert facility, Lyon,

619 France and the GeT core facility, Toulouse, France (http://get.genotoul.fr). We thank Artemis

620 Costa and Hugo Le Guenno (IMM Microscopy facility), Yann Denis (IMM Transcriptomic

621 facility), Philippe Cuny, and David Sweeney.

622

623 Conflict of Interest

624 The authors declare no conflict of interest.

625

626 Supporting Information is available at EMI’s website.

627

23

Wiley-Blackwell and Society for Applied Microbiology Page 24 of 71

628 References

629 Amin, S.A., Hmelo, L.R., van Tol, H.M., Durham, B.P., Carlson, L.T., Heal, K.R., et al. (2015)

630 Interaction and signalling between a cosmopolitan phytoplankton and associated

631 bacteria. Nature 522: 98–101.

632 Amin, S.A., Parker, M.S., and Armbrust, E.V. (2012) Interactions between diatoms and 633 bacteria.For Microbiol. Peer Mol. Biol. Rev. Review 76: 667–684. Only 634 Armbrust, E.V. (2009) The life of diatoms in the world’s oceans. Nature 459: 185–192.

635 Bankevich, A., Nurk, S., Antipov, D., Gurevich, A.A., Dvorkin, M., Kulikov, A.S., et al. (2012)

636 SPAdes: A new genome assembly algorithm and its applications to singlecell

637 sequencing. J. Comput. Biol. 19: 455–477.

638 Bell, W. and Mitchell, R. (1972) Chemotactic and growth responses of marine bacteria to

639 algal extracellular products. Biol. Bull. 143: 265–277.

640 Bergmann, G.T., Bates, S.T., Eilers, K.G., Lauber, C.L., Caporaso, J.G., Walters, W.A., et al.

641 (2011) The underrecognized dominance of Verrucomicrobia in soil bacterial

642 communities. Soil Biol. Biochem. 43: 1450–1455.

643 Bidle, K.D. and Azam, F. (1999) Accelerated dissolution of diatom silica by marine bacterial

644 assemblages. Nature 397: 508–512.

645 Bodilis, J., NsigueMeilo, S., Besaury, L., and Quillet, L. (2012) Variable copy number, intra

646 genomic heterogeneities and lateral transfers of the 16S rRNA gene in

647 Pseudomonas. PLoS ONE 7: e35647.

648 Bruckner, C.G., Bahulikar, R., Rahalkar, M., Schink, B., and Kroth, P.G. (2008) Bacteria

649 associated with benthic diatoms from Lake Constance: Phylogeny and influences on

650 diatom growth and secretion of extracellular polymeric substances. Appl. Environ.

651 Microbiol. 74: 7740–7749.

652 Buhmann, M.T., Schulze, B., Förderer, A., Schleheck, D., and Kroth, P.G. (2016) Bacteria

653 may induce the secretion of mucinlike proteins by the diatom Phaeodactylum

654 tricornutum. J. Phycol. 52: 463–474.

24

Wiley-Blackwell and Society for Applied Microbiology Page 25 of 71

655 Cooper, M.B. and Smith, A.G. (2015) Exploring mutualistic interactions between microalgae

656 and bacteria in the omics age. Curr. Opin. Plant Biol. 26: 147–153.

657 Croft, M.T., Lawrence, A.D., RauxDeery, E., Warren, M.J., and Smith, A.G. (2005) Algae

658 acquire vitamin B12 through a symbiotic relationship with bacteria. Nature 438: 90–

659 93.

660 Croft, M.T., Warren, M.J., and Smith, A.G. (2006) Algae need their vitamins. Eukaryot. Cell 661 5: 1175–1183.For Peer Review Only 662 Crosa, J.H. and Walsh, C.T. (2002) Genetics and assembly line enzymology of siderophore

663 biosynthesis in bacteria. Microbiol. Mol. Biol. Rev. 66: 223–249.

664 Desbois, A.P., Lebl, T., Yan, L., and Smith, V.J. (2008) Isolation and structural

665 characterisation of two antibacterial free fatty acids from the marine diatom,

666 Phaeodactylum tricornutum. Appl. Microbiol. Biotechnol. 81: 755–764.

667 Durham, B.P., Sharma, S., Luo, H., Smith, C.B., Amin, S.A., Bender, S.J., et al. (2015)

668 Cryptic carbon and sulfur cycling between surface ocean plankton. Proc. Natl. Acad.

669 Sci. 112: 453–457.

670 Edgar, R.C. (2010) Search and clustering orders of magnitude faster than BLAST.

671 Bioinformatics 26: 2460–2461.

672 Eiler, A., Heinrich, F., and Bertilsson, S. (2012) Coherent dynamics and association

673 networks among lake bacterioplankton taxa. ISME J. 6: 330–342.

674 Falkowski, P.G., Katz, M.E., Knoll, A.H., Quigg, A., Raven, J.A., Schofield, O., and Taylor,

675 F.J.R. (2004) The evolution of modern eukaryotic phytoplankton. Science 305: 354–

676 360.

677 Ferrera, I., Sarmento, H., Priscu, J.C., Chiuchiolo, A., González, J.M., and Grossart, H.P.

678 (2017) Diversity and distribution of freshwater aerobic anoxygenic phototrophic

679 bacteria across a wide latitudinal gradient. Front. Microbiol. 8: epub ahead of print,

680 doi: 10.3389/fmicb.2017.00175.

681 Findlay, J.A. and Patil, A.D. (1984) Antibacterial constituents of the diatom Navicula

682 delognei. J. Nat. Prod. 47: 815–818.

25

Wiley-Blackwell and Society for Applied Microbiology Page 26 of 71

683 Foster, R.A., Kuypers, M.M.M., Vagner, T., Paerl, R.W., Musat, N., and Zehr, J.P. (2011)

684 Nitrogen fixation and transfer in open ocean diatomcyanobacterial symbioses. ISME

685 J. 5: 1484–1493.

686 Furusawa, G., Yoshikawa, T., Yasuda, A., and Sakata, T. (2003) Algicidal activity and gliding

687 motility of Saprospira sp. SS985. Can. J. Microbiol. 49: 92–100.

688 Garcia, S.L., Buck, M., McMahon, K.D., Grossart, H.P., Eiler, A., and Warnecke, F. (2015) 689 AuxotrophyFor and intrapopulationPeer Review complementary in theOnly “interactome” of a cultivated 690 freshwater model community. Mol. Ecol. 24: 4449–4459.

691 Goto, M. and Kuwata, H. (1988) Rhizobacter daucus gen. nov., sp. nov., the causal agent of

692 carrot bacterial gall. Int. J. Syst. Bacteriol. 38: 233–239.

693 Grant, M.A.A., Kazamia, E., Cicuta, P., and Smith, A.G. (2014) Direct exchange of vitamin

694 B12 is demonstrated by modelling the growth dynamics of algalbacterial cocultures.

695 ISME J. 8: 1418–1427.

696 Griffin, A.S., West, S.A., and Buckling, A. (2004) Cooperation and competition in pathogenic

697 bacteria. Nature 430: 1024–1027.

698 Grossart, H.P., Levold, F., Allgaier, M., Simon, M., and Brinkhoff, T. (2005) Marine diatom

699 species harbour distinct bacterial communities. Environ. Microbiol. 7: 860–873.

700 HappeyWood, C.M. and Hughes, D.I. (1980) Morphological and physiological variations in

701 clones of Asterionella formosa Hassall. New Phytol. 86: 441–453.

702 Hayakawa, T., Kudoh, S., Suzuki, Y., and Takahashi, M. (1994) Temperaturedependent

703 changes in colony size of the freshwater pennate diatom Asterionella formosa

704 (Bacillariophyceae) and their possible ecological implications. J. Phycol. 30: 955–

705 964.

706 Haynes, K., Hofmann, T.A., Smith, C.J., Ball, A.S., Underwood, G.J.C., and Osborn, A.M.

707 (2007) Diatomderived carbohydrates as factors affecting bacterial community

708 composition in estuarine sediments. Appl. Environ. Microbiol. 73: 6112–6124.

709 Hutchins, D.A., Witter, A.E., Butler, A., and Luther, G.W. (1999) Competition among marine

710 phytoplankton for different chelated iron species. Nature 400: 858–861.

26

Wiley-Blackwell and Society for Applied Microbiology Page 27 of 71

711 Karp, P.D., Latendresse, M., Paley, S.M., Ong, M.K.Q., Billington, R., Kothari, A., et al.

712 (2015) Pathway Tools version 19.0: Integrated software for pathway/genome

713 informatics and Systems Biology. ArXiv151003964 Q-Bio.

714 Lau, W.W.Y. and Armbrust, E.V. (2006) Detection of glycolate oxidase gene glcD diversity

715 among cultured and environmental marine bacteria. Environ. Microbiol. 8: 1688–

716 1702. 717 Lin, H.H. and ForLiao, Y.C. Peer (2016) Accurate Review binning of metagenomic Only contigs via automated 718 clustering sequences using information of genomic signatures and marker genes.

719 Sci. Rep. 6: 24175.

720 Lund, J.W.G. (1949) Studies on Asterionella: I. The origin and nature of the cells producing

721 seasonal maxima. J. Ecol. 37: 389.

722 Maberly, S.C., De Ville, M.M., Feuchtmayr, H., Jones, I.D., Mackay, E.B., May, L.,

723 Thackeray, S.J., Winfield, I.J. (2011) The limnology of Esthwaite Water: historical

724 change and its causes, current state and prospects for the future. A report of the

725 Centre for Ecology & Hydrology to Natural England.

726 Maldonado, M.T. and Price, N.M. (2001) Reduction and transport of organically bound iron

727 by Thalassiosira oceanica (Bacillariophyceae). J. Phycol. 37: 298–310.

728 Mekhalfi, M., Amara, S., Robert, S., Carrière, F., and Gontero, B. (2014) Effect of

729 environmental conditions on various enzyme activities and triacylglycerol contents in

730 cultures of the freshwater diatom, Asterionella formosa (Bacillariophyceae).

731 Biochimie 101: 21–30.

732 Mekhalfi, M., Puppo, C., Avilan, L., Lebrun, R., Mansuelle, P., Maberly, S.C., and Gontero,

733 B. (2014) Glyceraldehyde3phosphate dehydrogenase is regulated by ferredoxin

734 NADP reductase in the diatom Asterionella formosa. New Phytol. 203: 414–423.

735 Newton, R.J., Jones, S.E., Eiler, A., McMahon, K.D., and Bertilsson, S. (2011) A guide to the

736 Natural History of freshwater lake bacteria. Microbiol. Mol. Biol. Rev. 75: 14–49.

737 Niehus, R., Picot, A., Oliveira, N.M., Mitri, S., and Foster, K.R. (2017) The evolution of

738 siderophore production as a competitive trait. Evolution 71: 1443–1455.

27

Wiley-Blackwell and Society for Applied Microbiology Page 28 of 71

739 Parks, D.H., Imelfort, M., Skennerton, C.T., Hugenholtz, P., and Tyson, G.W. (2015)

740 CheckM: assessing the quality of microbial genomes recovered from isolates, single

741 cells, and metagenomes. Genome Res. 25: 1043–1055.

742 Paul, C., Mausz, M.A., and Pohnert, G. (2013) A coculturing/metabolomics approach to

743 investigate chemically mediated interactions of planktonic organisms reveals

744 influence of bacteria on diatom metabolism. Metabolomics 9: 349–359. 745 Paul, C. and Pohnert,For G. Peer (2011) Interactions Review of the algicidal Only bacterium Kordia algicida with 746 diatoms: regulated protease excretion for specific algal lysis. PloS One 6: e21032.

747 Paver, S.F., Hayek, K.R., Gano, K.A., Fagen, J.R., Brown, C.T., DavisRichardson, A.G., et

748 al. (2013) Interactions between specific phytoplankton and bacteria affect lake

749 bacterial community succession: Phytoplankton affect bacterial community dynamics.

750 Environ. Microbiol. 15: 2489–2504.

751 Provasoli, L. and Carlucci, A.F. (1974) Vitamins and growth regulators. In, Algal physiology

752 and biochemistry, Blackwell Scientific Publications. Oxford, United Kingdom, pp.

753 741–787.

754 Ramanan, R., Kim, B.H., Cho, D.H., Oh, H.M., and Kim, H.S. (2016) Algaebacteria

755 interactions: Evolution, ecology and emerging applications. Biotechnol. Adv. 34: 14–

756 29.

757 RisgaardPetersen, N., Nicolaisen, M.H., Revsbech, N.P., and Lomstein, B.A. (2004)

758 Competition between ammoniaoxidizing bacteria and benthic microalgae. Appl.

759 Environ. Microbiol. 70: 5528–5537.

760 Salka, I., Cuperova, Z., Masin, M., Koblizek, M., and Grossart, H.P. (2011) Rhodoferax

761 related pufM gene cluster dominates the aerobic anoxygenic phototrophic

762 communities in German freshwater lakes: Diversity of AAPs in freshwater lakes.

763 Environ. Microbiol. 13: 2865–2875.

764 Schäfer, H., Abbas, B., Witte, H., and Muyzer, G. (2002) Genetic diversity of “satellite”

765 bacteria present in cultures of marine diatoms. FEMS Microbiol. Ecol. 42: 25–35.

28

Wiley-Blackwell and Society for Applied Microbiology Page 29 of 71

766 Seemann, T. (2014) Prokka: rapid prokaryotic genome annotation. Bioinformatics 30: 2068–

767 2069.

768 Seyedsayamdost, M.R., Case, R.J., Kolter, R., and Clardy, J. (2011) The JekyllandHyde

769 chemistry of Phaeobacter gallaeciensis. Nat. Chem. 3: 331–335.

770 Singh, R.P. and Reddy, C.R.K. (2014) Seaweedmicrobial interactions: key functions of

771 seaweedassociated bacteria. FEMS Microbiol. Ecol. 88: 213–230. 772 SoriaDengg, S.For and Horstmann, Peer U. (1995)Review Ferrioxamines OnlyB and E as iron sources for the 773 marine diatom Phaeodactylum tricornutum. Mar. Ecol. Prog. Ser. 127: 269–277.

774 SoriaDengg, S., Reissbrodt, R., and Horstmann, U. (2001) Siderophores in marine coastal

775 waters and their relevance for iron uptake by phytoplankton: experiments with the

776 diatom Phaeodactylum tricornutum. Mar. Ecol. Prog. Ser. 220: 73–82.

777 Stackebrandt, E., Verbarg, S., Fruhling, A., Busse, H.J., and Tindall, B.J. (2009) Dissection

778 of the genus Methylibium: reclassification of Methylibium fulvum as Rhizobacter

779 fulvus comb. nov., Methylibium aquaticum as Piscinibacter aquaticus gen. nov.,

780 comb. nov. and Methylibium subsaxonicum as Rivibacter subsaxonicus gen. nov.,

781 comb. nov. and emended descriptions of the genera Rhizobacter and Methylibium.

782 Int. J. Syst. Evol. Microbiol. 59: 2552–2560.

783 Thingstad, T., Skjoldal, E., and Bohne, R. (1993) Phosphorus cycling and algalbacterial

784 competition in Sandsfjord, western Norway. Mar. Ecol. Prog. Ser. 99: 239–259.

785 Trapnell, C., Pachter, L., and Salzberg, S.L. (2009) TopHat: discovering splice junctions with

786 RNASeq. Bioinformatics 25: 1105–1111.

787 Villain, A., Kojadinovic, M., Puppo, C., Prioretti, L., Hubert, P., Zhang, Y., et al. (2017)

788 Complete mitochondrial genome sequence of the freshwater diatom Asterionella

789 formosa. Mitochondrial DNA Part B 2: 97–98.

790 Wang, Q., Garrity, G.M., Tiedje, J.M., and Cole, J.R. (2007) Naive Bayesian classifier for

791 rapid assignment of rRNA sequences into the new bacterial taxonomy. Appl. Environ.

792 Microbiol. 73: 5261–5267.

793 Werner, D. ed. (1977) The Biology of diatoms. University of California Press, Berkeley.

29

Wiley-Blackwell and Society for Applied Microbiology Page 30 of 71

794 Willey, J.M., Sherwood, L., Woolverton, C.J., and Prescott, L.M. (2008) Prescott, Harley, and

795 Klein’s microbiology 7th ed. McGrawHill Higher Education, New York.

796 Wilson, B.R., Bogdan, A.R., Miyazawa, M., Hashimoto, K., and Tsuji, Y. (2016) Siderophores

797 in iron metabolism: from mechanism to therapy potential. Trends Mol. Med. 22:

798 1077–1090.

799 Windler, M., Leinweber, K., Bartulos, C.R., Philipp, B., and Kroth, P.G. (2015) Biofilm and 800 capsuleFor formation Peer of the diatom Review Achnanthidium minutissimumOnly are affected by a 801 bacterium. J. Phycol. 51: 343–355.

802 Yurkov, V.V. and Beatty, J.T. (1998) Aerobic anoxygenic phototrophic bacteria. Microbiol.

803 Mol. Biol. Rev. MMBR 62: 695–724.

804

805

806

807 Table and Figure legends

808 Table 1: OTUs distribution in attached (≥ 8 m) and free fractions (< 8 m) in exponential

809 growth phase. The values are the mean of two to three biological replicates.

810

811 Figure 1: Asterionella formosa growth, morphology and association with bacteria. A: Growth

812 curve of A. formosa. Means and ranges are presented, n = 3. Background colors indicate lag

813 phase (white); exponential phase (light grey) and stationary phase (dark grey). B: Light and

814 fluorescence micrographs (upper and lower panels respectively) of A. formosa at different

815 growth stages (Chl: chloroplast; Lip: lipid droplet). In fluorescence micrographs, chloroplasts

816 were visualized using autofluorescence and lipid droplets were visualized using Nile Red

817 staining. Letters show correspondence between micrographs and growth stages. Scale bars

818 represent 10 m. C: Confocal micrographs of A. formosa and bacteria in A. formosa

819 exponential phase. Overlay of transmission and fluorescence images are shown.

30

Wiley-Blackwell and Society for Applied Microbiology Page 31 of 71

820 Chloroplasts (Chl) were visualized using autofluorescence, bacteria (white arrows) and A.

821 formosa nuclei (Nuc) were visualized using Nuclear Green staining. Bars represent 10 m.

822

823 Figure 2: Phylogenetic tree of the 15 most abundant Operational Taxonomic Units across all

824 16S amplicon sequencing conditions, based on the alignment of the V4V5 region of the 16S

825 rRNA gene. Branches with low support (aLRT statistic below 0.7) were collapsed. The tree is 826 rooted with ThermotogaFor asPeer an outgroup. Review The scale bar represents Only the number of nucleotide 827 substitution per site. The discrepancy between the taxonomic assignation (Table S1) and the

828 phylogenetic affiliation of OTU6 (Rhizobacter) is due to a misclassification (Goto and

829 Kuwata, 1988) that has since been corrected (Stackebrandt et al., 2009).

830

831 Figure 3: Bacterial community growth and composition over time. A: Growth curve of free

832 living bacteria and A. formosa grown in laboratory conditions. Means and ranges are

833 presented (n = 3). Background colors indicate lag phase (white); exponential phase (light

834 grey) and stationary phase (dark grey). B: Bacterial community composition at different

835 growth stages. The values represent the mean of three biological replicates. Letters show

836 the correspondence between bacterial community composition and growth stages.

837

838 Figure 4: Metabolic pathways predictions. Identification (black), partial identification (dark

839 grey) or no identification (light grey) of the pathways. Pathways denoted with a star were

840 predicted using the pathwaytools framework (Karp et al., 2015). All the other pathways were

841 predicted using manual gene searches (see Supporting Information Table S3 for details). A

842 phylogenetic tree of the RecA protein sequences was computed to order bacteria.

843

844 Figure 5: Simplified model of the A. formosabacterial community. A. formosa is represented

845 by a star. The main bacterial classes/phyla are represented by rectangles (shaded areas

846 correspond to general features of the phylum/class and transparent areas to characteristics

847 specific to particular bacteria). Ovals represent bacteria of interest. Thick ovals correspond

31

Wiley-Blackwell and Society for Applied Microbiology Page 32 of 71

848 to abundant bacteria. All bacteria were predicted to be chemoheterotrophic. metE transcripts

849 (encoding the vitamin B12independent methionine synthase) were found in our A. formosa

850 transcriptome assembly (data not shown) confirming that A. formosa is not auxotrophic for

851 vitamins B12.

852

853 For Peer Review Only

32

Wiley-Blackwell and Society for Applied Microbiology Page 66 of 71

For Peer Review Only

Figure 1: Asterionella formosa growth, morphology and association with bacteria. A: Growth curve of A. formosa. Means and ranges are presented, n = 3. Background colors indicate lag phase (white); exponential phase (light grey) and stationary phase (dark grey). B: Light and fluorescence micrographs (upper and lower panels respectively) of A. formosa at different growth stages (Chl: chloroplast; Lip: lipid droplet). In fluorescence micrographs, chloroplasts were visualized using autofluorescence and lipid droplets were visualized using Nile Red staining. Letters show correspondence between micrographs and growth stages. Scale bars represent 10 µm. C: Confocal micrographs of A. formosa and bacteria in A. formosa exponential phase. Overlay of transmission and fluorescence images are shown. Chloroplasts (Chl) were visualized using autofluorescence, bacteria (white arrows) and A. formosa nuclei (Nuc) were visualized using Nuclear Green staining. Bars represent 10 µm.

Wiley-Blackwell and Society for Applied Microbiology Page 67 of 71

For Peer Review Only

Figure 2: Phylogenetic tree of the 15 most abundant Operational Taxonomic Units across all 16S amplicon sequencing conditions, based on the alignment of the V4-V5 region of the 16S rRNA gene. Branches with low support (aLRT statistic below 0.7) were collapsed. The tree is rooted with Thermotoga as an outgroup. The scale bar represents the number of nucleotide substitution per site. The discrepancy between the taxonomic assignation (Table S1) and the phylogenetic affiliation of OTU6 (Rhizobacter) is due to a misclassification (Goto and Kuwata, 1988) that has since been corrected (Stackebrandt et al., 2009).

235x311mm (300 x 300 DPI)

Wiley-Blackwell and Society for Applied Microbiology Page 68 of 71

For Peer Review Only

B

Wiley-Blackwell and Society for Applied Microbiology Page 69 of 71 For Peer Review Only

Glycolysis TCA cycle Oxidative phosphorylation Pentose phosphate pathway (non-oxidative branch) Pentose phosphate pathway (oxidative branch) Entner-Doudoroff pathway I Photosyntesis (light dependent reactions)

CO2 fixation Glycolate Taurine uptake and catabolism to acetate Nitrogen fixation Nitrate uptake and assimilation Assimilation of ammonium into amino acids Siderophore biosynthesis (enterochelin) Siderophore receptor (enterochelin)

Vitamin B7 biosynthesis

Vitamin B12 biosynthesis, aerobic pathway

Vitamin B12 biosynthesis, anaerobic pathway

Vitamin B1 biosynthesis Wiley-Blackwell and Society for AppliedIAA synthesis Microbiology via the IAN pathway IAA synthesis via the IAM pathway IAA synthesis via the TAM pathway Page 70 of 71

+ - + - NH4 NO3 NH4 NO3

- B1 B12 B7 B1 B12 B7

glcD Glycolate glcD α-Proteobacteria β-Proteobacteria

11 7 9 4

b21 b25 b26 b7 b10 Forb13 Peer Review Onlyb19 b18 Glycolate

Taurine

B1 IAA ?

? B7

metE

b5 b30 b29 b28 b27

5 4

Bacteroidetes γ-Proteobacteria glcD Glycolate glcD

- - B1 B12 B7 B1 B12 B7

+ - + - NH4 NO3 NH4 NO3

Number of genomes obtained Molecules produced by A. formosa Feature of ≥ 50 % of the bacteria Number of phototrophs Remarkable genes Feature of < 50 % of the bacteria Photoautotrophs Vitamin synthesis Feature not found Average abundance Molecule production or uptake Enterochelin Iron Growth dynamics Molecule production and uptake Enterochelin receptor Bacterial repartition Feature of 100 % of the bacteria ? Hypothetical uptake or interaction

Wiley-Blackwell and Society for Applied Microbiology Page 71 of 71

Attached Free Phylum Class Genus OTU (%) (%) Cytophagia Lacihabitans OTU9 4.7 2.3 Bacteroidetes Sphingobacteria NA OTU5 12.8 3.3 Gemmobacter OTU8 6.4 7.0 Alphaproteobacteria NA OTU12 0.1 1.9 NA OTU3 7.8 4.5 NA OTU4 21.7 24.2 Proteobacteria Betaproteobacteria Aquabacterium OTU10 13.8 8.0 NA OTU51 6.1 2.3 For Peer ReviewRhizobacter OTU6 Only 10.2 6.9 Pseudomonas OTU2 9.6 36.8 Gammaproteobacteria NA OTU19 2.2 0.8

Table 1: OTUs distribution in attached (≥ 8 m) and free fractions (< 8 m) in exponential

growth phase. The values are the mean of two to three biological replicates.

Wiley-Blackwell and Society for Applied Microbiology

Cette étude interdisciplinaire a impliqué de nombreux collaborateurs ayant leur expertise propre dans diverses techniques, telles que la microscopie, la cytométrie en flux, la culture cellulaire… Faute de place, chacun des protocoles a dû être résumé brièvement dans l’article. La sous-partie suivante détaille les approches de séquençage et les méthodes bio-informatiques pour l’analyse du métagénome et du séquençage de l’ARNr 16S.

II.3. Matériel et méthodes

II.3.1. Séquençage métagénomique & RNAseq

Une extraction d’ADN total a été réalisée (par Mila Kojadinovic et Carine Puppo, BIP) sur une culture mixte A. formosa – bactéries lors de la phase exponentielle de croissance de la diatomée filtrée sur 0.8 microns, afin de maximiser la quantité d’ADN eucaryote (une fraction des bactéries passe à travers le filtre). Le séquençage a été réalisé à Lyon (plate-forme ProfilXpert) sur un appareil Illumina NextSeq 500, produisant des lectures pairées de 2x150 bases. A cause d’un réactif défectueux, le premier séquençage a produit seulement 119 millions de paires de lectures. Un second séquençage à partir de la même banque a été réalisé en complément, produisant 343 millions de paires de lectures. Ces séquences ont été déposées dans la banque de données SRA (Short Reads Archive, regroupant les données de séquençage) du NCBI (National Center for Biotechnology Information, centre américain de ressources en biologie). Leur numéro d’accession est le SRX2949862. Afin de compléter ce séquençage ADN, un séquençage ARN (ci-après RNAseq) a été réalisé sur une culture dans les mêmes conditions. Les ARN messagers ont été sélectionnés par capture des queues polyA, ce qui a comme intérêt principal de cibler le séquençage d’ARN codant pour des protéines, qui est minoritaire dans la cellule. En effet, 90-95% de l’ARN de la cellule eucaryote n’est pas polyadénylé et est constitué en grande majorité par des ARN ribosomiques et dans une moindre mesure par des ARN non codants (siRNA, lncRNA, etc). Cette méthode offre des performances similaires ou

41

supérieures à l’alternative qui consiste à éliminer les ARNr des ARNs totaux avant séquençage (Zhao et al. 2014). Elle permet également dans notre cas de sélectionner les ARNm eucaryotes, qui sont polyadénylés, contrairement aux transcrits bactériens qui ne le sont généralement pas, même si des contre-exemples existent comme chez E. coli (Kushner 2015). Ce RNAseq a donc aidé à la distinction des séquences génomiques eucaryotes (auxquelles on peut associer des séquences ARNm), des séquences génomiques bactériennes (auxquelles on ne peut associer aucune séquence ARNm). De plus, le RNAseq a été essentiel afin d’annoter des gènes eucaryotes dont la structure contient généralement une succession d’introns et d’exons (cf. III.3.3). Le RNAseq a été réalisé par la plate-forme ProfilXpert à l’aide d’un appareil NextSeq 500, produisant 116 millions de paires de lectures de 2x75 bases. Ces séquences sont accessibles au NCBI avec le numéro d’accession SRX2949863. Les différentes lectures ont subi un contrôle qualité à l’aide du logiciel AlienTrimmer (Criscuolo et Brisse 2013) avec les options –q 20 –p 80 –l 100 –k 10, ce qui a éliminé environ un quart des lectures de moindre qualité.

II.3.2. Assemblage métagénomique

Le séquençage d’un mélange de génomes, rendu possible grâce à des technologies de séquençage plus performantes (cf I.7), présente de nombreux écueils, et notamment de produire des séquences chimériques provenant de deux génomes distincts. Ceci est à mettre en balance avec une recherche de contiguïté maximale, puisque les séquences assemblées (contigs) les plus longues seront par la suite plus faciles à analyser. Une statistique très classique de l’assemblage est le N50, c’est-à-dire la taille du contig médian en taille totale de l’assemblage (c’est à dire que 50% de la séquence complète est comprise dans des contigs de taille supérieure à N50). D’autres éléments entrent en ligne de compte dans l’évaluation de la qualité d’un assemblage, et des efforts comme l’Assemblathon (Bradnam et al. 2013; Earl et al. 2011) ont permis une vraie réflexion sur le processus d’assemblage d’un génome. Cependant, au vu du nombre d’outils disponibles, de la difficulté de leur paramétrage (choix du k-mer notamment), et de la qualité des résultats qui varie selon les échantillons, le processus reste assez empirique et son optimisation procède par essais et erreurs. De plus, un autre facteur important à

42

considérer dans l’assemblage (à fortiori métagénomique) concerne les ressources de calculs nécessaires. Plus le nombre de lectures est important (à cause des erreurs de séquençage), et plus la diversité d’espèces est importante (à cause de k-mers uniques à chaque espèce), plus la demande en mémoire vive augmente. Les différents assemblages calculés durant ma thèse l’ont été sur deux machines de la grille de calcul de l’IGS, possédant chacune 1 To de mémoire vive, et respectivement 32 et 40 cœurs. Les premiers essais d’assemblage des lectures de séquençage à l’aide de logiciels classiques tels que Velvet (Zerbino et Birney 2008) ou Abyss (Simpson et al. 2009) ont donné des résultats très mitigés avec la présence quasi-exclusive de séquences bactériennes dans les assemblages finaux. Cela pouvait être dû à une abondance importante de certaines bactéries, mais également à la relative facilité d’assembler ces séquences moins riches en éléments répétés qu’un génome nucléaire eucaryote. J’ai ensuite privilégié le logiciel SPAdes (Bankevich et al. 2012), car son domaine d’application originel (l’assemblage de génome à partir d’une cellule unique) est comparable aux conditions rencontrées en métagénomique. En effet, le protocole d’amplification (Multiple Displacement Amplification), utilisé dans le séquençage de cellule unique et parfois également en métagénomique, provoque d’importantes disparités de couverture et des lectures chimériques (Bankevich et al. 2012; Dean et al. 2002; Marine et al. 2014). La combinaison de plusieurs tailles de k-mers différentes permet à SPAdes de reconstituer efficacement les régions très couvertes comme celles peu couvertes. À cause de sa consommation importante en mémoire, et car il n’avait pas été développé pour la métagénomique, SPAdes était relativement peu utilisé dans ce contexte. Des auteurs l’ont cependant employé pour assembler le métagénome d’un bryozoaire marin (Miller et al. 2016), ou des efflorescences de cyanobactéries dans un lac chinois (Xie et al. 2016). Dans notre contexte de communauté bactérienne de moyenne complexité, il s’agit du logiciel qui a donné les meilleurs résultats. On peut noter qu’IDBA-UD (Peng et al. 2012), qui utilise une stratégie similaire à SPAdes, a également donné des résultats satisfaisants. Par ailleurs, une version de SPAdes spécifiquement dédiée à l’assemblage métagénomique a été développée depuis. MetaSPAdes propose une utilisation en mémoire vive réduite et une meilleure gestion des mélanges de souches très proches (Nurk et al. 2017).

43

L’assemblage métagénomique a été généré à l’aide de SPADES 3.6.0 (options --careful -k 21,33,55,77,99,127) sur une machine possédant 40 cœurs et 1To de mémoire vive.

II.3.3. Tri des contigs métagénomiques

De nombreuses méthodes de tri des contigs métagénomiques ont été développées pour reconstituer des génomes les plus complets possibles. Ces génomes assemblés à partir d’un métagénome (Metagenome-assembled genomes, MAG) sont aujourd’hui générés automatiquement à très grande échelle, comme en attestent les quelques 2600 MAG obtenus à partir des données Tara océans (Tully, Graham, et Heidelberg 2018). Avant d’utiliser ces méthodes pour séparer les différentes bactéries présentes dans la culture d’A. formosa, les données de RNAseq ont été alignées sur le métagénome avec TopHat (Trapnell, Pachter, et Salzberg 2009) pour distinguer les séquences eucaryotes. La Figure 12 illustre l’intérêt d’utiliser l’alignement des données de RNAseq pour distinguer les contigs d’origine eucaryote. On y voit également une assignation taxonomique, qui a été déterminée en recherchant la séquence la plus proche de chaque cadre ouvert de lecture dans la base de données protéique nr (non-redundant) du NCBI. Un groupe de contigs avec un GC moyen d’environ 40% et une profondeur de séquençage de 1000X environ, couvert par le RNAseq et d'assignation taxonomique eucaryote ou inconnue, correspond au génome nucléaire d’A. formosa. Deux contigs avec un GC légèrement supérieur à 30% et une profondeur de séquençage de 60000X correspondent à des fragments du génome chloroplastique de la diatomée. Un contig avec un GC inférieur à 30% et une profondeur de séquençage d’environ 20000X correspond à un fragment du génome mitochondrial. Les séquences bactériennes ne sont pas couvertes par le RNAseq, à quelques exceptions près qui sont de courts contigs portant des séquences de gènes d’ARN ribosomiques. Les profondeurs de séquençage et GC% moyens des contigs bactériens sont très variables, reflétant la présence de nombreux génomes différents.

44

Figure 12 : Visualisation des contigs issus de l’assemblage métagénomique de la culture mixte A. formosa-bactéries. Axe des abscisses : pourcentage GC moyen de chaque contig. Axe des ordonnées : Profondeur de séquençage moyenne de chaque contig (échelle logarithmique). La taille des points est proportionnelle à la fraction du contig couverte par des données de transcriptomique. La couleur est fonction de l’assignation taxonomique (rouge = bactérie, vert = eucaryote, blanc = indéterminé).

Une fois la fraction eucaryote du métagénome soustraite, l’étape suivante est de distinguer les différents génomes de la communauté. La composition nucléotidique (GC%, fréquences de k-mers), la profondeur moyenne (calculée ici en réalignant les lectures sur les contigs avec Bowtie2 (Langmead et Salzberg 2012), et l’assignation taxonomique, sont notamment employées pour distribuer les contigs dans différents lots de séquences homogènes. La plupart des logiciels utilisent l’une ou l’autre de ces

45

informations, ou plusieurs en combinaison (Sedlar, Kupkova, et Provaznik 2016). Certains, comme GroopM, tirent parti de l’analyse en parallèle de plusieurs métagénomes similaires dans lesquels des profils d’abondance peuvent être rapprochés (Imelfort et al. 2014). Comme pour l’assemblage, la performance des nombreux logiciels concurrents est difficile à prédire à l’avance. MyCC est une option intéressante qui intègre un module de visualisation des contigs triés, et autorise le paramétrage des différentes distributions de k-mers à comparer pour différencier les génomes (Lin et Liao 2016). Dans mon travail, j’ai utilisé MyCC de manière itérative, en mettant de côté les regroupements diagnostiqués comme corrects et en soumettant les contigs restants à un nouveau tri (Fig. 13). Pour chaque contig, si une majorité de cadres ouverts de lectures avaient pour meilleurs homologues des séquences avec une assignation taxonomique commune, celle-ci a été assignée au contig. L’information la plus précise a été privilégiée, mais si aucun Genre ne pouvait être choisi, la Famille, puis l’Ordre, la Classe ou le Phylum majoritaire ont été considérés. Des génomes aux caractéristiques de pourcentage GC moyen et de profondeur de séquençage très proches ont ainsi pu être séparés sur la base de leur assignation taxonomique. Sur la Figure 13, les contigs du regroupement 5 (Fig. 13, en vert) et du regroupement 6 (Fig. 13, en jaune) ont une profondeur de séquençage de 100 et un pourcentage GC moyen d’environ 40. Cependant les séquences du regroupement 5 sont proches du genre Flavobacterium alors que celles du regroupement 6 sont proches de la famille Chitinophagaceae. Ces deux regroupements ont été conservés et on peut voir dans le Tableau 4 que les bactéries correspondantes, B3 et B5, ont des génomes très bien reconstitués en respectivement 68 et 6 contigs, et sont estimés complets à 100% sans aucune contamination (voir ci-après). Cette assignation taxonomique a donc été utilisée comme base pour une correction manuelle lorsque cela était nécessaire.

46

Figure 13 : Visualisation d’un sous-ensemble de contigs bactériens. Axe des abscisses : pourcentage GC moyen de chaque contig. Axe des ordonnées : Profondeur de séquençage moyenne de chaque contig (échelle logarithmique). La taille de chaque point est proportionnelle à la longueur du contig. 8 regroupements de contigs sont représentés dans différentes couleurs.

Malgré les nombreux critères utilisés et une curation manuelle, des erreurs ne dans le tri des contigs les plus courts ne peuvent être évitées, et la qualité des MAG obtenus doit être évaluée avant de poursuivre leur analyse. Cela est possible, dans une certaine mesure, en recherchant des gènes très conservés et généralement présents en une seule copie dans les génomes. Plus il manque un nombre important de ces gènes, plus le MAG sera considéré comme incomplet, et plus un nombre important de ces gènes est retrouvé en de multiples exemplaires au lieu d’un seul, plus le MAG sera considéré comme 47

contaminé. CheckM adapte la liste des gènes diagnostiques à rechercher dans chaque MAG en fonction du groupe taxonomique de provenance de chaque génome, déterminé par phylogénie en utilisant des gènes universels (D. H. Parks et al. 2015). Les caractéristiques des 30 génomes bactériens qu’il a été possible de séparer sont présentées dans le Tableau 4. Les 30 génomes obtenus ainsi que la fraction n’ayant pas pu être triée ont été déposés au NCBI sous le numéro de Bioproject PRJNA340070.

Bact. Taxonomie Ab. (X) GC% Tot. (Mb) Contigs N50 (kb) Comp. (%) Cont. (%) 1 Bacteroidetes 492 36 5,5 225 581 99 6 2 Cytopagaceae 497 36 4,2 164 84 99 15 3 Flavobacterium 10 42 3,8 68 139 100 0 4 Flavobacterium 114 40 3,7 118 72 94 1 5 Chitinophagaceae 114 38 4,3 6 742 100 0 6 Verrucomicrobiales 4 62 5,1 2218 4 89 6 7 Alphaproteobacteria 79 56 3,4 22 224 99 0 8 Alphaproteobacteria 448 64 3,5 1 3471 98 1 9 Rhizobiaceae 61 62 7 32 726 99 1 10 Bradythizobium 10 64 7,7 206 78 98 2 11 Rhizobiales 22 60 4,2 25 499 99 0 12 Alphaproteobacteria 4 60 4,4 1655 7 85 15 13 Pseudorhodobacter 130 60 4,5 36 601 99 0 14 Rhodobacteraceae 7 63 4,1 285 25 94 1 15 Novosphingobium 62 63 4,9 40 315 99 10 16 Sphingomonadaceae 16 55 3,1 30 223 94 0 17 Alphaproteobacteria 15 67 3 53 99 94 0 18 Comamonadaceae 138 59 4,7 61 170 99 1 19 Comamonadaceae 13 60 3,7 144 43 97 8 20 Burkholderiales 256 63 3,3 20 644 100 0 21 Burkholderiales 15 66 5,5 90 131 100 3 22 Ralstonia 138 63 5 22 480 100 0 23 Burkholderiales 17 58 4,8 118 98 94 2

48

Bact. Taxonomie Ab. (X) GC% Tot. (Mb) Contigs N50 (kb) Comp. (%) Cont. (%) 24 Burkholderiales 4 59 5,1 1872 5 85 15 25 Burkholderiales 4 70 6,8 4004 2 73 30 26 Burkholderiales 523 61 4,4 35 550 100 1 27 Pseudomonas 378 58 6,9 124 174 100 6 28 Pseudomonas 95 59 6,1 78 140 94 1 29 Pseudomonas 5 61 3,7 914 6 84 3 30 Pseudomonas 83 65 4,9 28 347 100 0

Tableau 4 : Caractéristiques des 30 génomes bactériens assemblés à partir du métagénome. L’information de taxonomie est donnée au degré de précision le plus grand possible parmi Phylum, Classe, Ordre, Famille, et Genre. L’abondance (Ab.) est la profondeur de séquençage : chaque base est séquencée par X lectures différentes en moyenne. La taille totale (Tot.) est la somme des longueurs des contigs de chaque génome. Le taux de GC moyen (GC%) correspond au pourcentage de bases G+C dans chaque génome. Le N50 est la taille (en dizaines de milliers de bases ou kilo-bases, kb) du contig médian permettant d’obtenir la moitié de l’assemblage. La complétude (Compl.) est exprimée en pourcentage de gènes marqueurs simple copie conservés présents dans chaque génome. La contamination (Cont.) est exprimée en pourcentage de gènes marqueurs simple copie conservés présents en multiples copies dans chaque génome.

II.3.4. Annotation et analyse des génomes bactériens

Les génomes bactériens obtenus à partir du tri des contigs ont été annotés automatiquement à l’aide du logiciel Prokka (Seemann 2014). Ces annotations ont été fournies à Pathway Tools (Karp et al. 2016) pour reconstruire les voies métaboliques présentes dans chaque génome à partir de la base de donnée MetaCyc (Caspi 2006). Lorsque c’était nécessaire, des recherches de gènes individuels dans les annotations automatiques, et des confirmations par BLAST ont été réalisées sur des métabolismes ciblés.

49

II.3.5. Séquençage de l’ARN ribosomique 16S

Le gène de l’ARN ribosomique 16S est utilisé comme gène marqueur pour identifier et classifier les bactéries et archées depuis les années 1990, même si le niveau de résolution est inférieur à celui obtenu par hybridation de l’ADN (Stackebrandt et Goebel 1994). On estime généralement qu’un pourcentage d’identité inférieur à 97% entre les séquences de deux gènes 16S n’est pas compatible avec l’appartenance à une même espèce (cela serait équivalent à une valeur d’hybridation de l’ADN de 60 à 70%) (Stackebrandt et Goebel 1994). Inversement, à partir de ce seuil de 97% d’identité, on considère que les différentes séquences peuvent être regroupées au sein d’une Unité Taxonomique Opérationnelle (Operational Taxonomic Unit, OTU), pour laquelle on choisira une séquence de référence qui sera comparée aux bases de données pour assignation taxonomique. Cette OTU regroupera parfois des espèces proches lorsque la variabilité de la séquence du gène 16S est faible, et la même espèce pourra produire plusieurs OTU si son génome contient plusieurs copies du gène avec des variations (Nguyen et al. 2016). Avec l’évolution des techniques de séquençage, la quantité de “code-barres” moléculaires (DNA barcoding) qui peut être générée permet de décrire la diversité environnementale en détails, y compris pour les eucaryotes. Par exemple, la distribution globale des diatomées océaniques a été décrite à l’aide d’une région hypervariable du gène de l’ARN ribosomique 18S, homologue du 16S bactérien (Malviya et al. 2016). La quantité de données générées permet en général des comparaisons statistiques entre échantillons, même si celles-ci sont compliquées par le fait que l’abondance de chaque OTU est une proportion du total, et que les comparaisons s’effectuent donc sur des données relatives, et non absolues (c.-à.-d. que le nombre de barcodes séquencés pour une espèce ne peut pas être converti en nombre de bactéries présentes dans l’échantillon). Cette limitation peut être contournée en ajoutant une quantité connue de bactéries exogènes pour calibrer les calculs (Stämmler et al. 2016). Le retour à un nombre absolu de bactéries est en outre compliqué par la variabilité du nombre de copies des gènes de l’ARN ribosomique évoqué plus haut. Bien qu’étant la plupart du temps quasi-identiques en terme de séquence, ces copies sont très variables

50

en nombre (du simple ou double, voire plus) dans presque tous les phyla bactériens (Větrovský et Baldrian 2013). Si l’utilité du séquençage de l’ARNr 16S pour évaluer la diversité globale d’un échantillon est bien établie, la méthode ne permet donc pas forcément de distinguer des espèces proches. Or, on sait qu’au sein d’un même genre, les différentes espèces peuvent avoir des caractéristiques différentes (métabolisme, physiologie, morphologie), et qu’au sein d’une même espèce le génome accessoire (c.-à.-d. constitué des gènes dont la présence n’est pas systématique dans les individus d’une même espèce) peut apporter de la variabilité (Jackson et al. 2011). Ceci n’est pas un frein définitif à la prédiction de fonctions associées à une bactérie non séquencée à partir de sa seule taxonomie. En effet, une méthode prédisant l’abondance de familles de gènes à partir des OTU identifiées d’un échantillon retrouve des enrichissements fonctionnels similaires à ceux déterminés par séquençage métagénomique (Langille et al. 2013). On peut tout de même remarquer que cette approche ne peut être appliquée que si des séquences génomiques d’organismes très apparentés sont disponibles dans les bases de données, et si les transferts horizontaux de gènes depuis des clades lointains ne sont pas trop nombreux. D’après la comparaison des deux techniques sur la communauté bactérienne d’un lac d’eau douce, la métagénomique semble par ailleurs produire moins d’artefacts liés aux erreurs de séquençage, et propose une meilleure résolution taxonomique que le séquençage de l’ARNr 16S dans certains clades (Poretsky et al. 2014). Le fait d’avoir combiné les deux méthodes permet cependant de profiter de leurs avantages respectifs et de compenser ces biais. Le séquençage de l’ARNr 16S a été utilisé afin de suivre la composition de la communauté bactérienne au cours de la croissance d’A. formosa, et de distinguer les bactéries préférentiellement attachées à la diatomée (retenues sur un filtre de 0,8 microns) de celles préférentiellement libres (passant au travers du filtre de 0,8 microns mais retenues par celui de 0,22 microns). Les régions V4-V5 de l’ARNr 16S ont été amplifiées à l’aides des amorces 515F et 928R et séquencées par la plate-forme Genotoul (Toulouse) à l’aide d’un séquenceur Illumina MiSeq. Les paires de lectures chevauchantes longues de 2*250 bases ont été fusionnées à l’aide du logiciel Flash (Magoc et Salzberg 2011) et ont subi un contrôle

51

qualité avec le logiciel AlienTrimmer. Les OTU ont été déterminées en utilisant la suite UPARSE (Edgar 2013).

II.4. Discussion

Cette analyse multidisciplinaire de la culture mixte de laboratoire contenant A. formosa et diverses bactéries fait l’objet d’une publication dans le journal Environmental Microbiology. Cette revue est spécialisée en écologie, et la première partie de la discussion concerne le positionnement de notre travail vis à vis de cette discipline (II.4.1). Les analyses bio-informatiques qui ont mené à la séparation de 30 génomes bactériens et au suivi de la communauté par séquençage de l’ARN ribosomique 16S seront ensuite plus longuement discutées (.2). Je comparerai ensuite notre approche à des méthodologies alternatives employées avec succès par d’autres équipes (.3).

II.4.1. Positionnement de l’étude

Une question concernant la communauté bactérienne étudiée dans ce travail est sa représentativité par rapport à celle cohabitant avec A. formosa dans l’environnement naturel. Des isolats plus récents du Lake District pourraient être soumis à un séquençage de l’ARNr 16S à titre de comparaison. De la même façon, des échantillons isolés à différentes saisons, ou dans d’autres lacs ou rivières, pourraient montrer des différences. Ces analyses forment un axe de perspectives intéressant, mais ce travail important dépasse le cadre du projet Microbio-E, dont l’optique est biotechnologique. En revanche, une équipe partenaire du CEA (Cadarache) ayant mis au point la culture d’A. formosa à plus grande échelle, il serait intéressant d’observer l’évolution de la communauté bactérienne dans ces conditions. Ce suivi de la stabilité de la communauté pourrait également être envisagé dans le temps. Des résultats préliminaires nous apportent des premiers éléments de réponse sur ce point, puisque deux séries de séquençage de l’ARNr 16S ont été réalisées à un an d’intervalle (l’ensemble des réplicats concernant la dynamique bactérienne ont été refaits pour confirmation). La diversité et les identités des OTU retrouvées sont quasi-identiques, indiquant que la culture est relativement stable dans le temps. La seule différence notable est l’absence de deux OTU

52

correspondant à des Flavobacteriaceae, qui n’ont pas été retrouvées dans les échantillons les plus récents. Ceci suggère que la communauté bactérienne est sélectionnée au cours du temps, et que des bactéries facultatives peuvent disparaître, mais que des bactéries exogènes contaminantes ne semblent pas introduites dans la culture.

II.4.2. Écueils et avantages des méthodes employées

Je vais maintenant revenir sur les développements récents en métagénomique (II.4.2.1) et en barcoding 16S (II.4.2.2), ainsi que sur les biais des deux techniques. Je critiquerai la qualité de nos résultats et commenterai leur portée en les comparants à des études similaires.

II.4.2.1 La métagénomique et la reconstruction de génomes individuels

Notre approche consistant à séquencer simultanément le génome d’un organisme eucaryote et ceux des bactéries lui étant associées n’est pas encore très répandue. La très grande majorité des projets de séquençage comprennent une étape d’axénisation visant à éliminer les contaminants potentiels. Chez la diatomée Synedra acus par exemple, l’élimination complète des bactéries est obtenue par la combinaison d’une étape de filtration et du traitement avec un détergent, puis l’utilisation de l’antibiotique Ciprofloxacine (Shishlyannikov et al. 2011). L’assemblage et l’annotation sont grandement facilités par l’élimination préalable des contaminants, même si certaines contaminations peuvent être introduites accidentellement lors de la mise en œuvre du protocole de séquençage. Une petite quantité d’ADN du bactériophage lambda PhiX est par exemple ajoutée en guise de calibration lors du séquençage Illumina, et les lectures correspondantes doivent être éliminées avant l’assemblage, ce qui n’est pas toujours fait préalablement à l’analyse des séquences (Mukherjee et al. 2015). Plus généralement, la contamination peut venir de l’environnement de l’échantillon. Récemment, une équipe ayant séquencé le génome du tardigrade Hypsibius dujardini y a découvert 6663 gènes (17.5% du total) ayant une origine bactérienne probable (Boothby et al. 2015). Les auteurs ont supposé que ces gènes proviendraient de transferts horizontaux de gènes

53

(Horizontal Gene Transfers, HGT ci-après). Or, la taille totale de l’assemblage était bien supérieure (210Mb) à l’estimation de la taille du génome (130Mb), et de nombreux contigs comportaient uniquement des gènes bactériens. Un HGT est cependant plausible à condition d’être environné d’autres gènes dont l’origine n’est pas ambigüe (Ravenhall et al. 2015). Un séquençage indépendant du même échantillon a par la suite conclu que la taille excédentaire de l’assemblage et la présence de ces gènes bactériens étaient bien dues à une contamination, et non à des transferts horizontaux de gènes (Koutsovoulos et al. 2016). Dans notre étude, le choix assumé de réaliser le séquençage métagénomique de la culture d’A. formosa et l’utilisation de RNAseq (polyA+) nous ont permis d’identifier les contigs eucaryotes, dont l’assemblage amélioré et l’analyse sont présentés Chapitre 2. Nous reviendrons par ailleurs sur cette problématique des HGT bactéries-eucaryotes dans le Chapitre 3. Le tri de contigs issus d’un assemblage métagénomique en vue d’obtenir des génomes (quasi-)complets a récemment permis l’étude du génome de la première archée d’un nouveau clade archéen (Lokiarchaeota) frère des eucaryotes (Spang et al. 2015), ou de découvrir un nouveau phylum bactérien provenant de sources géothermiques (Eloe- Fadrosh et al. 2016). Jusqu’ici plutôt utilisé sur des échantillons de faible complexité, le binning permet maintenant de reconstituer plusieurs centaines, voire milliers de Metagenome-Assembled Genomes (MAG) à partir d’échantillons environnementaux (Tully et al. 2017; D. H. Parks et al. 2017; Tully, Graham, et Heidelberg 2018). Cependant ces études à grande échelle ne reconstituent correctement qu’une fraction des génomes séquencés. Seul un huitième (7903 parmi 64295) des MAG assemblés par Parks et collaborateurs (2017) est considéré comme étant de bonne qualité, c’est à dire avec un ratio “Complétude / 5*Contamination” supérieur ou égal à 50, un N50 supérieur ou égal à 10kb, et au plus 500 scaffolds. En utilisant ces critères, les trois quarts (23 parmi 30) des MAG obtenus dans notre étude sont de bonne qualité. La différence est encore plus importante si on s’intéresse aux génomes “quasi-complets”, c’est à dire au moins 90% complets et contaminés à 5% ou moins. Trois quarts (23 parmi 30) des MAG que nous avons obtenus répondent toujours à ces critères, tandis que seul 1 MAG sur 20 (3438 parmi 64295) passe ce second filtre dans l’étude à grande échelle (D. H. Parks et al. 2017). Cette différence s’explique en partie par la diversité plus importante dans les

54

échantillons environnementaux, par une profondeur de séquençage qui était peut-être moins importante suivant les échantillons, mais également par l’utilisation de méthodes privilégiées pour leur facilité d’automatisation et leur coût en ressources réduit. Ainsi, l’assembleur de la suite logicielle propriétaire CLCBio est réputé pour être rapide et très économe en mémoire, mais n’est peut-être pas aussi efficace que SPAdes dans un contexte métagénomique. Les stratégies de binning employées dans ces études à grande échelle ne semblent pas différentes de celle décrite ici, et l’évaluation de la qualité des MAG est identique. La capacité de passage à l’échelle est en revanche supérieure, par exemple le logiciel MetaBAT (Kang et al. 2015) est entièrement automatisé alors que MyCC, utilisé dans mon travail, demande plus de paramétrage. Au-delà de ces quelques nuances méthodologiques, les écueils rencontrés dans l’analyse des MAG restent les mêmes. Les évaluations de complétion et contamination de génomes environnementaux doivent être regardées avec prudence, surtout en l’absence d’espèce proche connue, car le choix de gènes diagnostiques est alors moins spécifique. De plus, lorsque les génomes sont très incomplets, la présence d’un gène diagnostique sur un contig contaminant sera interprétée à tort comme une complétion plus grande si ce même gène est absent du regroupement par ailleurs. Cela peut mener à de sévères sous-estimations de la contamination lorsque de nouveaux clades sont étudiés (Becraft et al. 2017). Il est donc essentiel de se limiter à l’analyse des MAG de bonne qualité, voir quasi-complets. La qualité de l’assemblage est à cet égard essentielle. Parks et collaborateurs (2017) remarquent que les gènes de l’ARN ribosomique sont difficiles à assembler car leur conservation est importante et qu’ils sont regroupés en un opéron parfois présent en multiples copies dans un génome. Des méthodes sont spécifiquement développées pour pallier à ce problème (C. Yuan et al. 2015), mais au-delà de l’identification des espèces présentes, c’est leur association à des MAG qui pose problème. En effet les stratégies classiques du binning ne sont pas applicables aux séquences des gènes des ARN ribosomiques qui ont des caractéristiques (GC% notamment) très divergentes de leur génome d’appartenance. L’assignation taxonomique de chaque MAG doit donc se faire de façon conservative à partir de l’annotation des protéines prédites, et la comparaison avec le séquençage de l’ARNr 16S est rendue plus difficile. En d’autres termes, il n’est souvent pas possible d’associer un

55

MAG à son gène d’ARN ribosomique, et par conséquent, à une OTU séquencée par l’approche du barcoding.

II.4.2.2. Séquençage de l’ARNr 16S

Le gène de l’ARN ribosomique 16S est très utilisé pour sonder la composition de différents environnements, et a notamment permis de caractériser les communautés bactériennes associées à des diatomées en culture ou dans la nature (Schäfer et al. 2002; Grossart et al. 2005; Bruckner et al. 2008; Zakharova et al. 2013; Mishamandani et al. 2016; Jauffrais et al. 2017). Le choix de la région du gène de l’ARNr 16S à amplifier est crucial, car certains genres bactériens ou archéens ne sont pas détectés par toutes les amorces (Gantner et al. 2011; Klindworth et al. 2013). De plus, ces régions hypervariables ne sont pas toujours assez discriminantes pour distinguer les espèces proches, et d’autres gènes sont souvent utilisés en complément ou préférés pour établir des phylogénies plus détaillées (Dahllöf, Baillie, et Kjelleberg 2000). La difficulté technique principale concerne les erreurs de séquençage, qui, malgré des traitements bio-informatiques prévus en conséquence, occasionnent un nombre assez important de fausses Unités Taxonomiques Opérationnelles (OTU). Cela est d’autant plus vrai que le taux d’erreur du séquençage Illumina, très bas au demeurant, est plus important en fin de lecture, notamment avec les paires de lectures longues de 2*250 bases du MiSeq (Schirmer et al. 2015). Certains auteurs recommandent donc l’utilisation de la région V4, plus courte et entièrement couverte par chacune des deux lectures d’une paire chevauchante, à la place des régions V4-V5 (chevauchement de 125 bases), ou V3- V4 (chevauchement de 70 bases) (Kozich et al. 2013). Les erreurs de séquençage sont plus facilement corrigées grâce au recouvrement supérieur de la région V4, et le nombre de fausses OTU peut être jusqu’à 20 fois inférieur à celui obtenu avec la région V4-V5 (Kozich et al. 2013). Les couples d’amorces sont régulièrement optimisés, et des biais empêchant l’amplification des séquences archéennes qui existaient avec la région V4 au moment de notre étude ont depuis été corrigés (Walters et al. 2016). Notre choix s’était porté sur la région V4-V5, souvent reconnue comme très résolutive pour l’assignation des OTU, mais dont la qualité des résultats est en revanche plus sensible aux erreurs de séquençage (Claesson et al. 2010). Nous avons donc à posteriori

56

dû utiliser un filtre ne gardant que les 16 OTU présentes à plus d’1% d’abondance dans au moins une condition. Ce seuil évite également la comparaison délicate des variations d’abondance d’OTU couvertes par quelques lectures seulement. En définitive, 99% des lectures ont été utilisées, ce qui montre que les OTU écartées ne représentaient qu’une fraction très faible du total. Nous n’avons cependant pas effectué d’analyse statistique pour déterminer quelles OTU avaient une abondance variable au cours des phases de latence, exponentielle et stationnaire de la croissance de la diatomée, ou pour différencier les OTU préférentiellement attachées à la diatomée (filtrées sur 0,8 microns) ou libres (filtrées sur 0,22 microns). En effet, pour comparer les OTU différentiellement abondantes on utilise généralement des méthodes développées pour l’analyse de l’expression différentielle en RNAseq, comme par exemple DESeq2 (Love, Huber, et Anders 2014). Or ces méthodes s’appliquent en partant du principe que le nombre d’individus (ici des OTU) observés est grand, et que seule une faible proportion varie, tandis que la grande majorité reste constante. De plus, la variance entre réplicats est pondérée par la variance de tous les individus appartenant à la même catégorie d’abondance : ainsi la variance d’une OTU peu abondante sera corrigée par celle de toutes les OTU peu abondantes. Ces conditions nécessitent donc un grand nombre d’individus pour être remplies, ce qui n’est pas le cas ici puisque nous avons un nombre très restreint de 16 OTU. De plus, les valeurs d’abondance sont exprimées relativement au total de lectures séquencées, qui reste à peu près constant entre réplicats. Les abondances varient donc toutes en même temps, et même si la quantité absolue d’une bactérie A reste identique, la variation de la bactérie B occasionne un changement de la quantité relative de A. Nous avons donc opté pour un simple classement des différences les plus importantes entre conditions. Une difficulté supplémentaire est la comparaison des résultats obtenus par le séquençage de l’ARNr 16S avec ceux issus de la métagénomique. Les 30 MAG obtenus précédemment ne contiennent généralement pas de gène de l’ARNr 16S, comme nous l’avons vu précédemment. De plus, les OTU peuvent regrouper plusieurs espèces proches, et il faudrait utiliser un seuil d’identité de presque 100% pour séparer des espèces, ou des souches, suivant les genres (Edgar 2017). Les deux techniques donnent cependant un aperçu similaire de la communauté bactérienne co-cultivée avec A.

57

formosa. Parmi les différences notables, on notera l’absence d’OTU assignée aux Verrucomicrobia alors qu’un MAG est retrouvé, et la diversité Alphaproteobacteria qui est sous-estimée (3 OTU) par rapport à la métagénomique (11 MAG).

II.4.3. Comparaison avec la littérature

Malgré les nuances observées entre la métagénomique et le séquençage de l’ARNr 16S, il est intéressant de noter que les genres bactériens retrouvés sont typiques du milieu lacustre, ou tout du moins que leur présence y est attestée : les Burkholderiales ne sont en effet pas spécifiques des milieux d’eau douce, et les Pseudomonadales sont plus généralement abondants dans l’océan (Newton et al. 2011). Concernant l’association à des diatomées, les Alphaprotéobactéries, Betaprotéobactéries, Gammaprotéobactéries, Bacteroidetes et Verrucomicrobia sont retrouvées dans l’analyse de 14 cultures de diatomées d’eau douce (Bruckner et al. 2008). À un niveau plus fin, on retrouve bien des similarités avec la présence de Pseudomonas, Flavobacterium, Rhodobacter ou Sphingomonas (Bruckner et al. 2008). La communauté associée à A. formosa est donc cohérente avec ce qui est connu des bactéries d’eau douce, et des communautés associées aux diatomées d’eau douce cultivées. La principale différence de ces résultats concerne peut-être le nombre relativement élevé d’espèces bactériennes différentes présentes en co-culture avec A. formosa. Le caractère semi- quantitatif des précédentes études, menées à l’aide de méthodes de barcoding moléculaires, ne donnait en effet pas une image aussi précise du nombre d’espèces en présence. De plus, les exemples marquants de symbiose diatomée-bactérie concernent plutôt des endosymbiontes uniques (Prechtl et al. 2004). Bien qu’intéressante à décrire, la diversité d’au moins 30 espèces cohabitant avec A. formosa complique l’analyse des interactions potentiellement en place. Notre première approche a été de vérifier la présence des bases génétiques nécessaires à la mise en place d’interactions qui avaient été identifiées auparavant dans d’autres systèmes. Pour découvrir de nouveaux mécanismes, l’approche qui consiste à isoler des bactéries puis les mettre en culture avec une diatomée axénique, semble supérieure. On peut en effet observer sur le long terme des paramètres physiologiques de l’algue, comme son taux de croissance, sa propension au stockage de lipides, et les corréler à

58

l’ajout d’espèces bactériennes antagonistes, neutres ou bénéfiques. En couplant un séquençage transcriptomique en présence et en absence de la bactérie candidate, on peut ainsi déduire les voies métaboliques sollicitées différentiellement au cours de l’association. Si elle est donc la plupart du temps limitée à deux partenaires, on peut surtout regretter que cette méthode ne soit applicable qu’avec des clones bactériens isolés au préalable. Malgré de nombreux progrès dans les techniques de culture cellulaire, nombre d’espèces environnementales sont toujours difficiles à faire croître en laboratoire (Stewart 2012). De plus, la spécificité des interactions fait qu’il peut être difficile de trouver un clone bactérien ayant un effet bénéfique sur la souche d’algue d’intérêt : en effet, une bactérie ayant une influence positive sur une souche de diatomée peut être antagoniste d’une autre souche de la même espèce. Il pourrait donc être intéressant de partir de la communauté initiale associée à l’algue et sélectionnée sur une période courte en culture de laboratoire, puis de chercher à introduire d’autres partenaires potentiels, plutôt que de partir d’une souche axénique.

II.5. Conclusion

Cette étude a permis de faire un pas substantiel dans notre compréhension de la communauté bactérienne associée à une diatomée. Partis du simple constat que « les cultures de la diatomée A. formosa contiennent des bactéries » ; nous sommes parvenus à une description bien plus détaillée de la diversité et des fonctions associées aux 30 bactéries dont nous avons pu décrire le génome. Cependant, beaucoup de zones d’ombre subsistent et des expériences complémentaires pourraient permettre de renforcer ces premiers résultats. Utiliser la transcriptomique pour identifier les gènes bactériens activés au cours de la croissance de la culture pourrait ainsi permettre de préciser les modes d’interactions entre la diatomée et les bactéries. La métabolomique est également une technique intéressante qui permettrait d’identifier directement les métabolites synthétisés et éventuellement échangés dans la communauté. De même, le profil transcriptionnel de la diatomée pourrait varier au cours du temps, et en fonction des bactéries en présence. Il serait aussi intéressant de faire varier les conditions de cultures, par exemple en ne supplémentant plus de vitamines B1, B7 et B12, en

59

changeant le cycle jour/nuit, ou en modifiant la quantité d’azote ou de fer disponible. Néanmoins ces expériences de transcriptomique comparative n’étaient pas envisageables avant d’avoir déterminé la composition de la communauté dans des conditions standard. Par ailleurs, des résultats encourageants ont été obtenus récemment avec l’antibiotique Ibipenem pour rendre axénique la culture d’A. formosa. Cela pourrait permettre la co-culture spécifique avec certains des clones bactériens d’ores et déjà isolés par le BIP à partir de la culture. Les différentes perspectives de poursuite de cette étude sont révélatrices de la nécessité pour ce projet d’allier des compétences en culture cellulaire, cytométrie, microscopie, microbiologie, génomique… Les laboratoires BIP, IGS, la plate-forme de microscopie de l’Institut de Microbiologe de la Méditerrannée, le MIO, le CEA à Cadarache, ont mis en commun leurs expertises. Cette collaboration a été la plus intéressante lorsqu’elle a permis de compléter un biais connu d’une des techniques avec les résultats d’une autre. Les abondances relatives des OTU ont ainsi été complétées par le comptage du nombre absolu de cellules bactériennes en cytométrie. La contrepartie de cette interdisciplinarité a été la nécessité de développer beaucoup de techniques différentes autour d’un organisme non-modèle encore relativement nouveau. Au moment de l’analyse, mettre en parallèle les différents résultats n’a pas toujours été évident. En effet, comment savoir si la bactérie observée au microscope est bien celle comptée par le cytomètre, suivie au cours du temps grâce à son ARN 16S et dont le génome a été reconstruit par métagénomique ? La complexité de la communauté était inconnue et très certainement sous-estimée au début de l’étude, et nombre d’expériences (certaines conditions du séquençage de l’ARNr 16S par exemple) se sont montrées difficiles à interpréter une fois les résultats obtenus. Malgré ces difficultés nos résultats constituent une base de travail très intéressante, notamment car ils ont permis la mise en place d’un travail plus approfondi sur l’analyse des réseaux métaboliques de la diatomée et des bactéries, grâce à une collaboration avec l’équipe Dyliss de l’INRIA (Rennes). Les objectifs et les premiers résultats de cette perspective in silico seront décrits dans le Chapitre 2.

60

Chapitre 2 : Étude génomique d’A. formosa

III.0. Résumé

Afin d’obtenir une séquence de référence du génome nucléaire d’A. formosa de bonne qualité, nous avons cherché à améliorer l’assemblage de la fraction eucaryote du métagénome. Pour cela, nous avons initié début 2016 une collaboration avec la plate- forme Get-Plage (INRA, Toulouse), parmi les premiers centres de séquençage français à posséder un séquenceur Pacific Biosciences RS II. Le séquençage de 14 unités de séquençage, appelées SMRT Cells, a d’une part permis de reconstituer le génome mitochondrial d’A. formosa en un seul chromosome (III.1), et d’autre part d’améliorer la séquence de référence du génome nucléaire la diatomée (III.2).

III.1. Génome mitochondrial d’A. formosa

III.1.1. Introduction

Les premières séquences de génomes mitochondriaux de diatomées ont été obtenues au cours des projets de séquençage des diatomées modèles P. tricornutum et T. pseudonana (Secq et Green 2011), ainsi que celui de la diatomée d’eau douce S. acus (Ravin et al. 2010). Les génomes mitochondriaux de diatomées endosymbiontes de deux dinoflagellés Durinskia baltica et Kryptoperidinium foliaceum ont également été séquencés (Imanian et al. 2012). Par la suite, de nombreuses autres séquences ont été obtenues, par exemple pour Berkeleya fennica (An et al. 2014), Skeletonema marinoi (An et al. 2015), Navicula ramosissima (An et al. 2016), Pseudo-nitzschia multiseries (X.-L. Yuan, Cao, et Bi 2015), et Fistulifera solaris (Tang et Bi 2015). Très récemment, six autres génomes mitochondriaux de diatomées ont été séquencés (Pogoda et al. 2018). Les génomes mitochondriaux de T. pseudonana, P. tricornutum et S. acus ont été comparés entre eux et aux séquences d’autres organismes proches (Secq et Green 2011).

61

Le contenu en gènes des génomes mitochondriaux de diatomées est extrêmement conservé, avec une trentaine de gènes codant des protéines ribosomiques, la cytochrome oxidase, l’apocytochrome B, la NADH déshydrogénase et une ATPase. Certains de ces gènes peuvent être en cours de pseudogénisation alors qu’une copie a été transférée au noyau par transfert endosymbiotique de gène (Ravin et al. 2010). De plus, certains gènes peuvent contenir des introns ou être fusionnés. Il y a également une certaine variabilité dans les ARN de transfert présents. La caractéristique la plus marquante de ces génomes est la présence d’une région de taille variable constituée de nombreuses séquences répétées, dont l’arrangement et la séquence ne sont pas conservées entre les espèces. Cette région dépourvue de séquences codantes contraste avec le reste du génome, très dense en gènes. Les génomes mitochondriaux de deux algues cryptophytes présentent également chacun une grande région répétée (Hauth 2005; E. Kim et al. 2008). Sans que l’explication de la présence de cette région répétée ait été complètement élucidée, elle pourrait être liée au mode de réplication. Le fait que la structure des répétitions ne soit pas conservée complique l’interprétation. De plus, il n’est pas établi que la présence d’une unique région répétée soit systématique. En effet, une région répétée n’est pas retrouvée systématiquement dans les séquences mitochondriales obtenues plus récemment. On peut cependant penser que les courtes lectures des technologies de séquençage à haut débit ne sont pas adaptées pour assembler correctement les répétitions. Lors du séquençage métagénomique (cf. Chapitre 1), un contig d’environ 38kb avec un GC% moyen de 27% et une profondeur de séquençage de 17000X a été identifié comme un fragment riche en gènes du génome mitochondrial d’A. formosa (Fig. 12). De nombreux autres contigs très courts partageant ces caractéristiques en GC et profondeur, ainsi que la présence de courtes répétitions aux extrémités du contig mitochondrial indiquaient que l’ensemble des répétitions n’était pas résolu. Les lectures Illumina, de longueur 2*150 bases étant vraisemblablement plus courtes que la région répétée, celle-ci ne pouvait pas être assemblée de façon non-ambigüe. La profondeur de séquençage très importante est liée au nombre de copies du génome mitochondrial présentes dans la cellule, mais ne permet donc pas d’améliorer l’assemblage. À l’inverse,

62

les données Pacbio sont utiles car la longueur des lectures permet de couvrir des régions répétées beaucoup plus longues.

III.1.2. Papier “Complete mitochondrial genome of the freshwater diatom A. formosa”

63

MITOCHONDRIAL DNA PART B: RESOURCES, 2017 VOL. 2, NO. 1, 97–98 http://dx.doi.org/10.1080/23802359.2017.1285210

MITOGENOME ANNOUNCEMENT Complete mitochondrial genome sequence of the freshwater diatom Asterionella formosa

Adrien Villaina, Mila Kojadinovicb, Carine Puppob, Laura Priorettib, Pierre Hubertc, Yizhi Zhangb,Gerald Gregori d, Alain Roulete,f,Celine Roquese,f, Jean-Michel Claveriea,g, Brigitte Gonterob and Guillaume Blanca aInformation Genomique & Structurale UMR 7256, Aix Marseille Univ CNRS, IMM FR 3479, Marseille, France; bBIP UMR 7281, IMM FR 3479, Aix Marseille Univ CNRS, Marseille Cedex 20, France; cLaboratoire d'Ingenierie des Systemes Macromoleculaires, Aix Marseille Univ CNRS UMR 7255 (IMM FR 3479), Marseille, France; dMediterranean Institute of Oceanography, Aix Marseille Univ, Univ Toulon, CNRS, Marseille, France; eGeT-PlaGe, Genotoul, INRA, Castanet-Tolosan, France; fUAR1209, INRA, Castanet-Tolosan, France; gAssistance Publique des Hopitaux^ de Marseille (APHM), Marseille, France

ABSTRACT ARTICLE HISTORY We report the complete mitochondrial genome sequence of the freshwater diatom Asterionella formosa. Received 23 December 2016 The large 61.9 kb circular sequence encodes 34 proteins and 25 tRNAs that are universally conserved in Accepted 18 January 2017 other sequenced diatoms. We fully resolved a unique 24 kb region containing highly conserved KEYWORDS repeated sequence units, possibly collocating with an origin of replication. Diatoms; Asterionella; mitogenome; pacbio

Diatoms are one of the largest and ecologically most signifi- sequence is available in DDBJ/EMBL/GenBank under the cant groups of organisms on the Earth. These unicellular stra- accession no. KY021079. menopile algae are broadly distributed in marine and The gene content of the A. formosa mitogenome is almost freshwater habitats and studied for potential biotechnological identical to previously published diatoms mitochondrial applications as well. Asterionella formosa Hassall (Lund 1949) genomes (Secq & Green 2011; Ravin et al. 2010). The 62 is a freshwater araphid pennate diatom species forming typ- genes include small and large rRNAs subunits, 25 tRNAs, and ical star-shaped colonies. A single colony was isolated from 35 protein-coding genes encoding 16 ribosomal protein sub- Esthwaite Water (54.4N, 2.9W) in the English Lake District in units (rps), 10 NADH dehydrogenase subunits (nad), 3 ATPase December 2014. DNA was extracted following a hexadecyltri- subunits (atp), 3 cytochrome oxidase subunits (cox), the apoc- methylammonium bromide (CTAB)-based protocol, and ytochrome B, and the Sec-independent translocase protein sequenced using the Pacific Biosciences RSII instrument. TatC. A single type II intron with an intronic reverse-tran- Genome assembly of data from 13 SMRT cells was per- scriptase domain is located in the cox1 gene, while two are formed using the HGAP 2.0 protocol (Chin et al. 2013) imple- found in its homolog in other diatoms. The gene cluster mented in SMRT analysis (2.3.0.140936.p0.0). A 82,419-bp rps10-rps8-rpl6-rps2-rps4-atp8-rps12-rps7-rpl14-rpl5-nad1-tatC- long contig was identified as the mitochondrial genome and rps11-rpl2-rps19-rps3-rpl16-atp9-nad4l-nad11 is present and manually circularized into a 61,877-bp chromosome. Protein- seems conserved among diatoms. As in Phaeodactylum tricor- coding genes were predicted by retaining all open reading nutum, but unlike Thalassiosira pseudonana and Synedra acus, frames (ORFs) > 100 codons, whereas ORFs <100 codons were most protein-coding genes (32/35 ¼ 91%) are encoded on the only predicted as genes when exhibiting a BLASTP (Altschul same strand. This strong-bias is apparently species-specific as 1997) match (E-value <1E-5) in the NCBI non-redundant (Nr) it does not correlate with the phylogenetic relationships database. For all validated genes, start codon predictions shown in Figure 1. Gene density is high and illustrated by were further refined by comparison with homologous overlaps between rpl2 and rps19, and rps19 and rps3. In con- sequences. Transfer RNAs were predicted using tRNAscan SE trast, a 24.9 kb long region devoid of predicted coding (Lowe & Eddy 1997) and ribosomal RNAs were predicted by sequences and composed of successive blocks of various tan- alignment with diatom reference sequences. We annotated demly arrayed repeats is located between trnQ and nad11. repeated sequences by combining the results of tandem A single, large repeat region has already been described in repeats finder (Benson 1999) and local BLASTN searches. other mitogenomes and has been suggested to serve as a Functional annotations were gathered and manually validated replication origin in two cryptophytes (Hauth 2005; Kim et al. within Unipro UGENE (the UGENE team 2012). The genome 2008). This feature is also typical of diatom mitogenomes

CONTACT Guillaume Blanc [email protected] Information Genomique & Structurale UMR 7256, Aix Marseille Univ CNRS, IMM FR 3479, Marseille, France; Brigitte Gontero [email protected] BIP UMR 7281, IMM FR 3479, Aix Marseille Univ CNRS, Marseille Cedex 20, France ß 2017 The Author(s). Published by Informa UK Limited, trading as Taylor & Francis Group. This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by/4.0/), which permits unrestricted use, dis- tribution, and reproduction in any medium, provided the original work is properly cited. 98 A. VILLAIN ET AL.

References

Altschul S. 1997. Gapped BLAST and PSI-BLAST: a new generation of pro- tein database search programs. Nucleic Acids Res. 25:3389–3402. An SM, Kim SY, Noh JH, Yang EC. 2016a. Complete mitochondrial gen- ome of Skeletonema marinoi (Mediophyceae, Bacillariophyta), a clonal chain forming diatom in the west coast of Korea. Mitochondrial DNA Part B. 1:549–550. An SM, Noh JH, Choi DH, Lee JH, Yang EC. 2016b. Repeat region absent in mitochondrial genome of tube-dwelling diatom Berkeleya fennica (Naviculales, Bacillariophyceae). Mitochondrial DNA Part A. 27:2137–2138. Benson G. 1999. Tandem repeats finder: a program to analyze DNA sequences. Nucleic Acids Res. 27:573–580. € Figure 1. Visualization with TreeGraph (Stover & Muller€ 2010) of a phylogenetic Chin C-S, Alexander DH, Marks P, Klammer AA, Drake J, Heiner C, Clum A, tree of selected diatoms and stramenopile mitogenomes based on the concat- Copeland A, Huddleston J, Eichler EE, et al. 2013. Nonhybrid, finished enation of the protein sequences of the following genes : atp6, atp9, cox1, cox2, microbial genome assemblies from long-read SMRT sequencing data. cox3, nad1, nad2, nad4, nad4l, nad5, nad6, nad7, rpl2, rps12, rps19, rps4, rps8. – Alignments were performed with MUSCLE (Edgar 2004) and the tree was con- Nat Methods. 10:563 569. structed with PhyML (Guindon et al. 2009) 20120412 using the CpREV model, Darriba D, Taboada GL, Doallo R, Posada D. 2011. ProtTest 3: fast selection selected by ProtTest 3 (Darriba et al. 2011). Bootstrap values of 100 permuta- of best-fit models of protein evolution. Bioinformatics. 27:1164–1165. tions are indicated at the nodes. Edgar RC. 2004. MUSCLE: multiple sequence alignment with high accur- acy and high throughput. Nucleic Acids Res. 32:1792–1797. (Ravin et al. 2010; Secq & Green 2011), however, neither the Guindon S, Delsuc F, Dufayard J-F, Gascuel O. 2009. Estimating max- imum likelihood phylogenies with PhyML, p. 113–137. In: Posada, D, sequences nor the general organizations of these repeats are ed. Bioinformatics for DNA sequence analysis. Totowa (NJ): Humana conserved. A few ion torrent-sequenced diatom mitogenomes Press. are reportedly lacking such a repeat region (An et al. 2016a, Hauth AM. 2005. The Rhodomonas salina mitochondrial genome: bac- 2016b) but this absence may be due to the incapacity of teria-like operons, compact gene arrangement and complex repeat short reads to resolve complex repeats, contrary to Sanger or region. Nucleic Acids Res. 33:4433–4442. Pacbio sequencing. Kim E, Lane CE, Curtis BA, Kozera C, Bowman S, Archibald JM. 2008. Complete sequence and analysis of the mitochondrial genome of Hemiselmis andersenii CCMP644 (Cryptophyceae). BMC Genomics. Disclosure statement 9:215 Lowe TM, Eddy SR. 1997. tRNAscan-SE: a program for improved detection A declaration of interest statement reporting no conflict has been of transfer RNA genes in genomic sequence. Nucleic Acids Res. inserted. Please confirm the statement is accurate. 25:955–964. Lund JWG. 1949. Studies on Asterionella: I. The origin and nature of the cells producing seasonal maxima. J Ecol. 37:389. Funding Okonechnikov K, Golosova O, Fursov M, the UGENE team. 2012. This work was supported by the A MIDEX project (ANR-11-IDEX-0001-02) Unipro UGENE: a unified bioinformatics toolkit. Bioinformatics. 28: – funded by the ‘Investissements d’avenir’ French Government program, 1166 1167. managed by the French National Research Agency (ANR), the Centre Ravin NV, Galachyants YP, Mardanov AV, Beletsky AV, Petrova DP, national de la recherche scientifique interdisciplinary PEPS project Sherbakova TA, Zakharova YR, Likhoshway YV, Skryabin KG, Grachev Exomod, the Aix-Marseille University, and la Region PACA. MA. 2010. Complete sequence of the mitochondrial genome of a dia- We acknowledge the use of the PACA-Bioinfo Platform, supported by tom alga Synedra acus and comparative analysis of diatom mitochon- IBISA and France-Genomique (ANR-10-INBS-0009). This work was per- drial genomes. Curr Genet. 56:215–223. formed in collaboration with the GeT core facility, Toulouse, France Secq M-PO-L, Green BR. 2011. Complex repeat structures and novel fea- (http://get.genotoul.fr), and was supported by France Genomique tures in the mitochondrial genomes of the diatoms Phaeodactylum tri- National infrastructure, funded as part of ‘Investissement d’avenir’ pro- cornutum and Thalassiosira pseudonana. Gene. 476:20–26. gram managed by Agence Nationale pour la Recherche (contract ANR- Stover€ BC, Muller€ KF. 2010. TreeGraph 2: combining and visualizing evi- 10-INBS-09). dence from different phylogenetic analyses. BMC Bioinformatics. 11:7. III.1.3. Discussion

L’utilisation de lectures longues Pacbio a permis la résolution de la longue région contenant des répétitions dans le génome mitochondrial d’A. formosa. Ce résultat illustre l’intérêt de ces données en complément du premier séquençage Illumina, qui était nécessaire afin d’établir à moindre coût un assemblage métagénomique pouvant servir de base de travail. En effet, les outils d’assemblage exploitant les longues lectures Pacbio sont développés dans l’optique d’assembler une séquence provenant d’une source unique, et non d’un mélange d’organismes. Le coût de séquençage et le débit réduit rendent prohibitive l’utilisation de la technologie Pacbio en métagénomique, même si de rares tentatives ont été menées pour compléter des séquençages de lectures courtes (Frank et al. 2016), ou pour fermer quelques génomes bactériens à partir d’un métagénome peu complexe (Driscoll et al. 2017). En l’absence de méthode permettant d’exploiter l’ensemble des lectures Pacbio, il a donc fallu trier les lectures pour conserver uniquement celles correspondant au contig mitochondrial obtenu précédemment. Cette stratégie a également été utilisée avec succès pour l’assemblage du génome nucléaire (cf. III.2.). Le contenu en gènes du génome mitochondrial d’A. formosa est très similaire à celui des séquences déjà publiées. Un article récent décrivant six nouveaux génomes mitochondriaux de diatomées conclut également que le contenu en gènes est très conservé (Pogoda et al. 2018). Les variations concernent la proportion de séquences codantes sur chaque brin, la présence d’introns dans certains gènes, et la présence éventuelle de rétro-transposons (Pogoda et al. 2018). Une région répétée unique de grande taille, possiblement liée à la réplication du génome mitochondrial, n’est pas non plus retrouvée systématiquement. On peut penser que l’utilisation dans de nombreux cas de technologies de séquençage courtes lectures ne permet pas de résoudre correctement une telle région de répétitions. Cependant, certains auteurs ont identifié et estimé la taille de la région répétée en utilisant la différence de profondeur de séquençage par rapport au reste du génome (Pogoda et al. 2018). Il pourrait donc s’agir d’une différence supplémentaire dans l’organisation de génomes qui sont par ailleurs très stables dans leur contenu en gènes, y compris dans des diatomées endosymbiontes

64

de dinoflagellés (Imanian et al. 2012). Le bon fonctionnement des mitochondries de diatomées ne semble pas impacté par ces variations, et l’accumulation de séquences mitochondriales supplémentaires depuis les 3 premières obtenues (Ravin et al. 2010; Secq et Green 2011) n’a donc pas une très grande portée, au-delà d’un intérêt éventuel en classification taxonomique (Pogoda et al. 2018).

III.2. Analyse du génome nucléaire d’A. formosa

III.2.1. Introduction

Le décryptage du génome d’un organisme est généralement vu comme une ressource importante dans l’étude de son fonctionnement. La séquence nucléotidique représente le premier niveau de stockage d’information qui permet le maintien du plan d’organisation général à travers les générations. Grâce à la génétique classique, on connaît la fonction de nombreux gènes, unités de base finalement transcrites en ARN, et pour certaines traduites en protéines. En identifiant les gènes à l’échelle d’un génome, on peut les comparer à cette base de connaissance pour en déduire leur fonction probable. Les gènes uniques à une espèce sont particulièrement intéressants à étudier, et malgré le nombre croissant de génomes connus, chaque nouveau génome semble contenir des gènes introuvables ailleurs (Nelson et Buggs 2016). La génétique inverse est alors particulièrement importante pour élucider la fonction de ces gènes orphelins. En outre, les nombreuses régions non codantes que comportent les génomes (environ 95% du total pour les diatomées) ne sont pas seulement de l’ADN « poubelle » (junk DNA), et sont de toute façon intéressantes à analyser d’un point de vue évolutif. Il est donc important que la séquence de référence d’un génome ne comporte pas d’erreurs, et que les contigs soient les plus longs possibles afin de faciliter l’annotation, limiter les cas de gènes tronqués et rendre possible la description des régions non codantes. Or, la multiplication des génomes de qualité « brouillon » (draft) s’est accompagnée d’une diminution globale de la qualité des assemblages, occasionnant en retour des erreurs d’annotation, avec notamment des cadres ouverts de lecture tronqués et des erreurs dans nombres de gènes prédits (Denton et al. 2014; Klassen et Currie 2012). Comme

65

nous l’avons vu avec le génome mitochondrial d’A. formosa (cf. III.1.), les longues lectures (type Pacbio) sont plus à même de résoudre les régions répétées. Leur utilisation améliore grandement les assemblages et permet de corriger des erreurs dans des génomes bactériens en vue d’obtenir des versions finales de ces séquences (Acuña- Amador 2018). C’est pourquoi nous avons décidé d’utiliser cette technologie afin d’obtenir une séquence de référence de meilleure qualité pour A. formosa. De nombreuses séquences sont déjà disponibles puisqu’il s’agit de la dixième diatomée dont le génome nucléaire est séquencé à ce jour ; d’autres programmes de séquençage de diatomées sont en cours, par exemple celui de Seminavis robusta. Ces différents génomes ont été séquencés à l’aide de technologies différentes, et la qualité de leur assemblage respectif est donc très variable (Tableau 2). Cela n’a pas empêché chacun de ces génomes d’être analysé selon un angle particulier et d’apporter des connaissances intéressantes sur la biologie des diatomées (cf. I.8.). La qualité variable de l’annotation a en revanche pu être un obstacle à la comparaison des génomes entre eux, mais un travail poussé de regroupement et comparaison de familles protéiques de la plupart des génomes de diatomées connus a été réalisée récemment dans le cadre de l’analyse du génome de P. multristriata (Basu et al. 2017).

III.2.2. Matériel et méthodes

III.2.2.1. Séquençage Pacbio et assemblage du génome

L’objectif de ce séquençage était d’améliorer l’assemblage du génome nucléaire de la diatomée, et une étape de filtration sur 0,8 microns a été réalisée afin de limiter la quantité d’ADN bactérien séquencé. Par ailleurs la préservation de l’ADN lors de l’extraction a été primordiale afin de pouvoir séquencer les fragments les plus longs possibles. Le séquençage a été réalisé sur un instrument Pacific Biosciences RSII sur la plate-forme Génomique GetPlaGe de l’INRA à Toulouse. Les méthodes spécifiquement développées pour l’assemblage des lectures longues de type PacBio n’ont pas été adaptées aux approches métagénomiques (c-.à.-d profondeur de séquençage et biais compositionnels trop variables). En effet, le coût du séquençage par cette technologie, le débit moindre que celui offert par Illumina et le taux d’erreur

66

supérieur ne rendent pas le séquençage Pacbio très compétitif pour cette application. Certaines méthodes mixtes se proposent d’utiliser à la fois des données de lectures courtes et des données de lectures longues, comme par exemple SPAdes, utilisé précédemment (cf. III.3.2.). Cependant les meilleurs résultats ont pu être obtenus avec le protocole d’assemblage HGAP (Hierarchical Genome Assembly Process), développé par Pacbio à partir du logiciel d’assemblage Celera et du logiciel d’amélioration de la séquence consensus Quiver (Chin et al. 2013). Puisque cette solution n’est donc pas adaptée à l’assemblage métagénomique, le tri entre séquences bactériennes et eucaryotes doit donc être effectué en amont de l’étape d’assemblage. À cet effet, une liste blanche a été générée en ne conservant que les lectures Pacbio alignées à l’aide de BLASR (Chaisson et Tesler 2012) sur les contigs eucaryotes de l’assemblage métagénomique de référence (obtenu en III.3.2 avec les données Illumina). Au contraire les lectures alignées sur des contigs bactériens ont été écartées. La profondeur de séquençage des contigs a été calculée en alignant à la fois les lectures Pacbio avec BLASR et les lectures Illumina avec Bowtie2 (Langmead et Salzberg 2012). Les polymorphismes nucléotidiques d’une base (Single Nucleotide Polymorphism, SNP) ont ensuite été identifiés à l’aide de l’outil Haplotypecaller de GATK (Poplin et al., s. d.). Le génome a été comparé à lui-même à l’aide de blastn (Camacho et al. 2009) ce qui a permis d’identifier 518 contigs qui ont pu être alignés avec au moins 90% d’identité nucléotidique sur 90% de leur longueur avec des contigs plus longs à l’aide de Mummer (Delcher et al. 1999). Ils ont été interprétés comme correspondant à des régions présentant une divergence suffisante entre les deux haplotypes parentaux pour occasionner des ruptures de l’assemblage. En complément, HaploMerger2 (Huang, Kang, et Xu 2017) a été utilisé pour estimer la taille du génome haploïde. On peut noter que des solutions spécifiquement dédiées à l’assemblage de génomes diploïdes existent, comme FALCON (Chin et al. 2016). Ce logiciel n’a malheureusement produit que des assemblages de très petites tailles à partir de nos données, contrairement aux résultats satisfaisants obtenus par exemple sur un autre génome de diatomée (Mock et al. 2017). Les données RNAseq d’A. formosa ont été alignées sur le génome à l’aide TopHat v2.1.0 (paramètres par défaut). BUSCO 2.0 (Simão et al. 2015) a été utilisé pour estimer le degré de complétude du génome en recherchant des orthologues présents en copie

67

unique et très conservés parmi les Alvéolés et Straménopiles (jeu de données alveolata_ensembl comprenant notamment T. pseudonana, P. tricornutum et différents oomycètes). La présence/absence, en simple ou multiples copies, et la fragmentation sur plusieurs contigs des gènes recherchés ont été utilisées comme critères de comparaison des assemblages.

III.2.2.2. Annotation du génome

L’annotation du génome a été effectuée à l’aide de MAKER (Cantarel et al. 2008), qui combine des outils pour masquer les régions répétées afin qu’elles n’impactent pas la recherche de gènes, l’alignement de protéines homologues et de données d’expression pour aider à la prédiction de gènes, et donc les différents algorithmes de prédiction de gènes. Les régions répétées ont été identifiées en amont à l’aide de RepeatScout (A. L. Price, Jones, et Pevzner 2005) et LTRharvest (Ellinghaus, Kurtz, et Willhoeft 2008) en utilisant les paramètres par défaut. Les répétitions ont été regroupées en familles à l’aide de cd- hit (W. Li et Godzik 2006) (paramètres par défaut). Les familles de répétitions ont ensuite été comparées à l’aide de tblastx aux bases de données Repbase (Bao, Kojima, et Kohany 2015) et GYPSY (Llorens et al. 2011). Ces résultats ont servi à compiler une librairie de séquences de transposons et rétrotransposons qui a été fournie à RepeatMasker pour masquer ces régions avant l’annotation du génome d’A. formosa. Le prédicteur de gènes Augustus (Stanke et Morgenstern 2005) a été entraîné de façon itérative à l’aide de modèles de gènes ab initio produits par SNAP (Korf 2004), des protéines prédites à partir des génomes de T. pseudonana et P. tricornutum, et des données RNAseq d’A. formosa. Les protéines prédites à partir de l’annotation ont été utilisées comme séquences requêtes dans une recherche par blastp contre la base de données SWISS-PROT (Bairoch et Apweiler 2000) afin d’obtenir des annotations fonctionnelles de confiance. Les recherches de protéines n’ayant pas donné de résultat ont été réitérées contre la base de données nr (non-redundant) du NCBI, qui est plus vaste mais dont les séquences ne sont pas expertisées (on a donc une confiance relativement moindre par rapport à la recherche précédente). Enfin, une recherche dans la base de données de familles

68

protéiques PFAM (Finn et al. 2014) a également été effectuée à l’aide de pfamscan (Chojnacki et al. 2017).

III.2.2.3. Comparaison aux autres génomes nucléaires de diatomées

Les séquences protéiques d’A. formosa ont été comparées à celles des autres diatomées à l’aide d’orthoMCL (L. Li, Stoeckert, et Roos 2003). Les 50 regroupements protéiques comprenant chacun une seule séquence par diatomée, et ce pour chaque diatomée, ont été utilisés pour réaliser une phylogénie. Chaque regroupement a été aligné à l’aide de MAFFT (Katoh et al. 2002) (paramètre --auto), et les colonnes des alignements avec moins de 70% d’occupation ont été supprimées. Les 50 alignements ont ensuite été fournis à Phyml (Guindon et al. 2010) (paramètres par défaut). Pour chaque diatomée, les nombres de regroupements protéiques spécifiques à cette espèce, ou partagés avec une ou plusieurs espèces ont été comptabilisés et représentés graphiquement sous R (R Core Team 2017). Les mêmes dénombrements ont été effectués en ne considérant que les regroupements contenant une protéine d’A. formosa.

III.2.2.4. Recherche de transferts horizontaux de gènes bactériens

Le mode opératoire décrit dans le Chapitre 3 (cf. IV.2.) a été appliqué sur le génome nucléaire d’A. formosa afin d’y détecter des gènes potentiellement d’origine bactérienne, sur la base de reconstructions phylogénétiques en désaccord avec la phylogénie des espèces (c.-à-d. des séquences de diatomées situées au sein d’un clade bactérien plutôt qu’au sein des Straménopiles comme attendu). Les séquences des 30 génomes bactériens reconstitués dans ce travail (cf. Chapitre 1) ont été incluses dans les arbres compatibles avec un événement de HGT. Ceci a été fait pour déterminer si les bactéries actuellement en co-culture A. formosa sont proches de bactéries ayant potentiellement échangé du matériel génétique avec cette diatomée.

69

III.2.3. Résultats

III.2.3.1. Évaluation de la qualité de l’assemblage

Le nouvel assemblage obtenu à partir des lectures Pacbio a une taille totale supérieure de près de 20 Mb à la fraction eucaryote de l’assemblage métagénomique Illumina (Tableau 5). Ceci peut être dû à la fois à un meilleur assemblage des régions répétées et à la redondance de certains contigs, probablement à cause d’un taux d’hétérozygotie plus important pour ces régions (les deux allèles sont trop différentes pour donner une unique séquence consensus). Le nombre de contigs a été drastiquement diminué d’un facteur 12, occasionnant une augmentation importante de la statistique de N50 (Tableau 5). Ainsi la moitié de la somme des séquences (43,6 Mb) est comprise dans des contigs d’une taille supérieure ou égale à 227,5 kb, alors que pour l’assemblage Illumina, 34,2 Mb étaient compris dans des contigs supérieurs à 15,9 kb.

Complétude Assemblage Taille (Mb) N50 (kb) Contigs RNAseq C S D F M Illumina 68,4 15,9 15453 94,1% 204 (87,2%) 190 14 20 10 Pacbio 87,2 227,5 1234 94,7% 217 (92,7%) 177 40 12 5

Tableau 5 : Caractéristiques de la séquence du génome nucléaire d’A. formosa obtenue à l’aide de données Illumina ou Pacbio. Le N50 est la taille du contig le plus court nécessaire pour atteindre la moitié de la taille totale de l’assemblage en prenant les contigs les plus longs (la moitié de l’assemblage est donc comprise dans des contigs de taille supérieure à N50). Sur 234 orthologues universels en simple copie qui ont été recherchés, certains sont retrouvés complets (C) et ce en simple copie (S) ou dupliqués (D), tandis que d’autres sont fragmentés (F) ou manquants (M).

Cette diminution importante de la fragmentation de la séquence de référence se traduit, comme évoqué précédemment (cf. IV.2.1.), par des gènes plus faciles à identifier et moins morcelés, malgré un pourcentage de réalignement des données de RNAseq

70

similaire entre les deux assemblages (Tableau 5). Ainsi, le nombre d’orthologues complets retrouvés par BUSCO dans le génome d’A. formosa est en hausse de 5,5%, soit 13 orthologues supplémentaires, dont 5 qui étaient absents de l’assemblage Illumina, et 8 qui étaient présents mais morcelés sur plusieurs contigs. À l’échelle d’un génome de diatomée, cela représente donc environ 5,5% de 12000, soit 660 gènes qui auraient été manqués ou mal annotés en utilisant l’assemblage Illumina. En outre cette estimation ne tient pas compte de la performance des logiciels de prédiction de gènes, qui aurait certainement été moindre. En effet, l’outil d’annotation MAKER recommande par exemple de d’annoter que les contigs d’une taille supérieure à 10kb, ce qui revient à éliminer les 13806 contigs les plus courts (89% du total) de l’assemblage Illumina, soit 26,2 Mb (38% du total en séquence). Pour l’assemblage Pacbio, seuls 61 contigs (5% du total) totalisant 450 kb (0,5% du total en séquence) sont concernés. Le risque d’omettre ou de mal annoter certains gènes est donc bien moindre avec l’assemblage Pacbio. On remarque cependant que les orthologues étant normalement en simple copie sont plus souvent dupliqués dans l’assemblage Pacbio (Tableau 5 colonne D). Ceci, couplé à une taille totale de l’assemblage plus élevée qu’en Illumina (Tableau 5 colonne Taille) et que celle attendue d’après l’estimation par cytométrie en flux (80 Mb), suggère que certaines séquences de l’assemblage Pacbio sont redondantes.

III.2.3.2. Annotation du génome

Une grande proportion du génome d’A. formosa (33 Mb soit 37,8%) correspond à des régions répétées (principalement des rétrotransposons). Les modèles de gènes obtenus à l’aide d’Augustus ont permis de prédire 17133 protéines, dont 2753 sont probablement redondantes à cause de contigs dupliqués dans les régions à plus fort taux d’hétérozygotie (le taux moyen étant par ailleurs de 1 SNP tous les 3900 nucléotides). Une autre estimation de la redondance vient de la reconstruction haploïde effectuée par HaploMerger2, qui est de 67,6 Mb. Un travail complémentaire visant à déterminer précisément la fraction haploïde de ce génome devrait permettre de clarifier les choses, et aura certainement un impact sur le nombre et la qualité des modèles de gènes prédits, comme évoqué précédemment. En l’état l’annotation du génome d’A. formosa est en cours de finalisation et sera déposée dans les bases de données prochainement.

71

III.2.3.3. Comparaison avec d’autres génomes de diatomées

Les protéines prédites à partir de chacun des dix génomes de diatomées comparés ici ont été regroupées en clusters à l’aide d’orthoMCL. On dénombre environ 10000 familles de protéines par diatomée (Fig. 14), un nombre qui peut varier en fonction de la taille des génomes et de la qualité de leur assemblage et annotation (les deux extrêmes étant P. tricornutum avec un petit génome très bien assemblé et annoté et T. oceanica dont le génome est plus grand et très morcelé). Les regroupements ne contenant qu’une protéine pour chaque diatomée ont été utilisées pour établir un arbre phylogénétique, qui est relativement cohérent avec la phylogénie des espèces : T. oceanica, T. pseudonana et C. cryptica sont des Thalasiossirales (diatomées centriques) et forment un clade, tandis que P. tricornutum et F. solaris sont des Navicules, plus proches des Nitzschia et Fragilariopsis qui possèdent également un raphe, que des Fragilariales A. formosa et S. acus. Cependant comme nous l’avons vu précédemment (cf. I.4.) la classification des diatomées est complexe, et le nombre de séquences utilisées ici, ainsi que l’échantillonnage taxonomique et les méthodes utilisées ne permettent pas de parvenir à une phylogénie très révélatrice à l’échelle des diatomées. On peut cependant comparer cet arbre avec le partage pour chaque diatomée des familles protéiques communes avec A. formosa (Fig. 15), ce qui confirme que S. acus est bien l’espèce la plus proche. On dénombre 307 regroupements protéiques qui leur sont spécifiques, contenant 435 protéines d’A. formosa. Parmi les fonctions prédites de ces protéines (Tableau 6), on retrouve par exemple des protéines impliquées dans la résistance au stress oxydatif (OXR1, AERO1) ou des transporteurs (Solute carriers, des canaux comme PHT1-11 pour le potassium et Scn11a pour le sodium). La majorité des protéines (311 soit 71,5%) est cependant sans fonction connue, et beaucoup ont des fonctions peu spécifiques (kinases, transferases) ou ne sont annotées que par la présence d’un domaine protéique conservé. Il est donc assez difficile de déduire de cette analyse si des spécificités propres à l’adaptation à l’eau douce sont par exemple communes à A. formosa et S. acus.

72

Figure 14 : Nombre cumulé de familles de domaines PFAM spécifiques et partagées chez dix diatomées. De haut en bas : T. oceanica (tho), T. pseudonana (tha), C. cryptica (ccr), A. formosa (afo), S. acus (sac), F. solaris (fso), P. tricornutum (ptr), F. cylindrus (fcy), P. multiseries (pse), P. multistriata (pst). Les familles PFAM les plus communes (un plus grand nombre de diatomées possède une protéine de cette catégorie) sont en couleurs froides, les familles les moins partagées en couleurs chaudes.

73

Figure 15 : Familles de domaines PFAM communes avec A. formosa pour dix diatomées. Le graphe est orienté de la même façon que dans la Fig. 14. Seules les familles de domaines PFAM présentes chez A. formosa ont été conservées. Un arbre phylogénétique basé sur les 50 familles monoprotéiques présentes chez toutes les diatomées est présenté sur la partie gauche de la figure.

Afin d’élargir la comparaison, les domaines protéiques conservés de PFAM ont été recherchés dans les protéines prédites de chaque diatomée. Les tailles des domaines et familles de domaines PFAM ont ensuite été comparées afin de mettre en évidence une éventuelle différence dans les domaines protéiques spécifiques à A. formosa. Le Tableau 6 montre les domaines fréquemment retrouvés chez A. formosa qui le sont moins en moyenne chez les 9 autres, et vice-versa. On retrouve principalement des domaines correspondant à des régions répétées (ankyrin, pentatricopeptide, Sel1), ou des domaines très communs et peu révélateurs de l’importance d’une protéine dans le métabolisme (méthyltransferase, domaine doigt de zinc). Certaines catégories (données non présentées) peuvent paraître intéressantes, par exemple celle liée à la vacuole, mais les protéines incluses dans ces familles n’ont généralement pas de fonction prédite.

74

Famille PFAM fdia fast Famille PFAM fdia fast Répétitions Ankyrin 0,57 0,88 Répétitions Sel1 0,87 0,03 Domaine RING finger 0,39 0,59 Domaine MYND finger 0,60 0,11 Domaine CHRD 0 0,2 Transcriptase inverse 0,33 0,02 Répétition MORN 0,14 0,27 Répétition riches en Leucines 0,49 0,21 Répétition pentatricopeptide 0,20 0,32 Domaine associé aux Hélicases 0,61 0,33 Transporteur mitochondrial 0,58 0,7 Domaine de fonction inconnue 0,21 0

Tableau 6 : Quelques domaines protéiques PFAM dont l’abondance chez A. formosa est différente de celle chez 9 autres diatomées. La fréquence moyenne du domaine PFAM chez

A. formosa (fast) correspond au nombre de protéines comprenant ce domaine sur le nombre total de protéines contenant des domaines PFAM. Le même calcul est effectué pour les 9 autres diatomées et la moyenne est calculée pour obtenir fdia.

Cette comparaison globale des domaines PFAM est pourtant à même de détecter des différences notables entre les familles de protéines présentes chez les dix diatomées. En effet, en comparant les fréquences des familles protéiques de T. pseudonana (nombre de protéines dans la famille divisé par nombre total de protéines) aux fréquences des neuf autres, on note que des familles protéiques impliquées dans le métabolisme de la chitine sont très représentées. Sur 4634 domaines, la « Chitin-binding Peritrophin-A domain » est 5ème, la « Chitinase class I » 24ème et la « Chitin synthase » 40ème dans le classement des domaines plus fréquents chez T. pseudonana que chez les autres diatomées. Par ailleurs, seules les diatomées C. cryptica et T. oceanica ont également des protéines représentantes de la famille « Chitinase class I ». Or Thalassiosira et Cyclotella sont les deux seuls genres de diatomées connus pour produire de la chitine, utilisée dans la paroi cellulaire ou excrétée sous forme de fibres pour favoriser leur flottaison ou former des liens avec d’autres cellules de diatomées (Durkin, Mock, et Armbrust 2009). Si au moment de l’analyse de ces génomes il n’y avait pas eu de connaissance sur la présence et le rôle de la chitine chez ces espèces, cette analyse des familles protéiques aurait tout de même été un indice fort d’une très probable différence physiologique.

75

III.2.3.4. Les transferts horizontaux de gènes chez A. formosa

La problématique des transferts horizontaux de gènes bactériens chez les diatomées est traitée plus en détails dans le Chapitre 3, mais une recherche a également été effectuée dans le génome d’A. formosa. Le fait que les génomes des bactéries actuellement en co-culture avec cette diatomée soient connus (cf. Chapitre 1) permet de vérifier si ces bactéries ou des espèces proches sont à l’origine de HGT récents chez A. formosa. Dans ce génome, nous avons détecté 41 gènes (0,2% du total) pouvant avoir une origine bactérienne, un chiffre nettement en deçà des 2 à 5% classiquement rapportés (Basu et al. 2017; Bowler et al. 2008). La plupart des HGT prédits (33 sur 41 soit 80%) sont retrouvés dans le jeu de données RNAseq, et pourraient donc être fonctionnels. Par ailleurs, parmi 41 de ces prédictions, 21 sont partagées avec d’autres diatomées et 20 sont spécifiques d’A. formosa, et pourraient donc correspondre à des acquisitions plus récentes. Cependant aucune reconstruction phylogénétique ne montre une bactérie co-cultivée avec A. formosa comme groupe donneur potentiel. Il ne semble donc pas qu’il y ait de mécanisme de transfert de gènes du microbiome vers la diatomée. Soit le microbiome de la diatomée n’est pas suffisamment stable au cours du temps pour favoriser ces échanges, soit ceux-ci sont trop peu fréquents pour s’accumuler dans le génome d’A. formosa sur des échelles de temps courtes. Ces échanges pourraient au contraire être relativement fréquents mais avoir tendance à ne pas être sélectionnés s’ils ne procurent pas de gain de valeur adaptative.

III.2.4. Discussion

Le nombre de génomes nucléaires eucaryotes séquencés est de plus en plus grand, et cette tendance se retrouve pour les diatomées. Le nombre de génomes de diatomées séquencés était de 4 (dont 1 non publié) début 2015, un chiffre qui a plus que doublé en trois ans. Ceci est une chance puisque ces ressources sont très utiles pour mieux comprendre le fonctionnement des diatomées, mais également un défi. En effet l’analyse d’un nouveau génome doit être de plus en plus poussée pour espérer y détecter des différences notables pouvant expliquer des particularités phénotypiques. Dans un premier temps, au vu de la taille et de la complexité d’un génome eucaryote, il faut déjà

76

un travail important pour obtenir une séquence de référence de qualité. Dans ce travail, l’utilisation de la technologie de séquençage Pacbio a été particulièrement importante, permettant d’améliorer considérablement l’assemblage d’A. formosa obtenu précédemment avec la technologie Illumina. Le fait que des méthodes d’assemblage métagénomique ne soient à ma connaissance pas développées pour les données Pacbio a cependant compliqué l’étape d’assemblage, et il est possible que de meilleurs résultats puissent être atteints à partir des mêmes données suite au développement de nouvelles méthodes. Quoiqu’il en soit, la séquence de référence d’A. formosa obtenue au cours de cette thèse est d’un niveau comparable aux travaux récents, et pourra donc être valorisée. Dans cette optique, différentes analyses visant à décrire le génome d’A. formosa et à le comparer aux génomes de diatomées connus sont en cours de finalisation, et ces résultats préliminaires ont été présentés dans ce chapitre. En complément, et afin de poursuivre l’axe d’investigation des possibles interactions entre A. formosa et les bactéries co-cultivées, une collaboration avec l’équipe Dyliss de l’INRIA (Rennes) a été initiée. Cette équipe d’informatique développe des méthodes pour la comparaison de réseaux métaboliques, et possède déjà une expertise dans l’étude des interactions entre l’algue brune Ectocarpus siliculosus et les bactéries qui lui sont associées. Cette collaboration a pour but de compléter les investigations préliminaires du Chapitre 1, où les interactions possibles entre A. formosa et les bactéries associées ont été recherchées à partir de ce qui était connu dans la littérature. Ici au contraire, les complémentarités métaboliques seront explorées sans à priori. Pour cela, le réseau métabolique d’A. formosa a déjà été prédit à partir de l’annotation du génome, et complété par orthologie en le comparant aux réseaux mieux caractérisés des organismes modèles P. tricornutum et Arabidopsis thaliana. Ce travail va maintenant être étendu aux autres génomes de diatomées, afin d’établir dans un premier temps si certaines voies métaboliques sont incomplètes dans ces différents organismes. On peut en effet imaginer que certains de ces défauts sont compensés par des bactéries associées. Ce premier élément pourrait mettre en évidence des différences dans le degré de dépendance potentielle de chaque diatomée, de la même façon que l’auxotrophie pour différentes vitamines est variable selon les espèces (Croft, Warren, et Smith 2006). Une

77

fois cette évaluation préliminaire effectuée, le réseau métabolique d’A. formosa pourra être comparé à ceux des 30 bactéries dont le génome a été obtenu. Il sera particulièrement intéressant de déterminer quelles voies métaboliques sont peut-être rendues actives par l’apport de certaines bactéries. Une piste intéressante sera de comparer l’apport potentiel de ces 30 bactéries, comparé à celui qu’auraient 30 autres espèces bactériennes, choisies au hasard parmi des bactéries environnementales. Cela donnerait des éléments sur le fait que la communauté associée à A. formosa est sélectionnée ou non. On pourra également utiliser les réseaux métaboliques des bactéries séquencées les plus proches des OTU retrouvées dans la culture d’A. formosa, pour évaluer l’intérêt de la métagénomique par rapport au séquençage de l’ARNr 16S. On peut également envisager de rechercher dans les banques de données les espèces bactériennes les plus complémentaires à priori d’A. formosa. Cette collaboration in silico va donc tenter de répondre à de nombreuses questions, mais devra surtout être source d’hypothèses ciblées qui pourront ensuite être testées expérimentalement. Prédire l’identité des probables partenaires privilégiés de la diatomée et les conditions de culture les plus à même de mettre en évidence des interactions seront d’une grande aide au travail expérimental. Si dans le même temps des progrès sont faits sur l’axénisation de la culture, nous devrions beaucoup progresser dans notre compréhension de la communauté mixte A. formosa-bactéries.

78

Chapitre 3 : Les transferts horizontaux de gènes bactériens chez les diatomées

IV.0. Résumé

Les Transferts Horizontaux de Gènes (HGT) sont très courants dans le monde procaryote, où ces échanges de matériel génétique constituent une grande part des fonctions “accessoires” des génomes, et donc de la variabilité entre souches apparentées. Chez les eucaryotes, quelques exemples marquants montrent que ce phénomène a pu avoir lieu. Son incidence semble cependant plus anecdotique, en raison de l’absence d’un mécanisme spécifiquement dédié à l’incorporation d’ADN exogène, et car la structure des génomes eucaryotes (présence d’introns, absence d’opérons) rend probablement plus difficile le succès de l’intégration d’un gène. Pourtant, l’analyse des génomes de diatomées suggère que jusqu’à 5% des gènes pourraient être d’origine bactérienne. Le cycle de l’urée, essentiel dans la redistribution de l’azote, et jusqu’ici seulement retrouvé chez les métazoaires, aurait ainsi été en grande partie acquis chez les diatomées grâce à des HGT d’origine bactérienne. Le travail présenté dans ce chapitre avait pour objectif de produire une nouvelle estimation de la prépondérance des acquisitions de gènes bactériens chez les diatomées, et exploite à cet effet les données transcriptomiques de 97 diatomées marines représentant un large échantillonnage taxonomique. En étant critique envers les reconstructions phylogénétiques automatisées, et grâce à des banques de données complétées depuis les précédentes analyses, nous proposons une vision plus nuancée de l’impact des HGT dans l’histoire évolutive des diatomées.

79

IV.1. Introduction

IV.1.1. Les transferts horizontaux de gènes

Les transferts horizontaux de gènes sont un phénomène dont l’importance est reconnue chez les archées et bactéries (Garcia-Vallvé, Romeu, et Palau 2000; Zhaxybayeva et Doolittle 2011), qui peuvent échanger leur matériel génétique par conjugaison (Guglielmini et al. 2011), transduction (Canchaya et al. 2003) ou transformation (Johnston et al. 2014). Ces différentes opportunités d’échanger des gènes par le biais de plasmides ou sur leur chromosome rendent les génomes des bactéries particulièrement flexibles. On observe souvent de grandes différences entre les répertoires de gènes d’organismes appartenant à une même espèce, ce qui a conduit à l’adoption du concept de pangénome, qui constitue l’ensemble des gènes présents dans au moins une des souches de l’espèce (Tettelin et al. 2005). La validité du concept d’espèce bactérienne est d’ailleurs discutée, et sa définition semble aujourd’hui liée au core génome. Celui-ci consiste en l’ensemble des gènes communs à toutes les souches d’une espèce, et maintiendrait l’identité phénotypique des espèces bactériennes que l’on connaît (Riley et Lizotte-Waniewski 2009). Le concept d’espèce est également débattu pour les eucaryotes en général (Seifert 2014), et les diatomées en particulier (David G. Mann 1989; David G. Mann et Vanormelingen 2013). L’acquisition de gènes étrangers n’y est cependant pas suffisante pour être considérée comme un des moteurs de la spéciation au même titre que l’accumulation de polymorphismes, la duplication de génome entier ou les recombinaisons. Les transferts de gènes endosymbiotiques depuis les génomes d’organelles contribuent cependant de façon notable aux génomes nucléaires eucaryotes. Chez les protistes, l’hétérotrophie pourrait être un mode de vie propice à un certain nombre de transferts horizontaux du fait de la mise en présence avec des fragments d’ADN de bactéries ingérées (Doolittle 1998). Par ailleurs, quelques exemples marquants de gènes transférés horizontalement dans des génomes d’eucaryotes multicellulaires sont connus. Le gène syncytin, impliqué dans la morphogénèse du placenta chez l’homme, a ainsi été acquis suite à l’insertion d’un rétrovirus (Mi et al. 2000), un phénomène qui s’est produit à plusieurs reprises parmi

80

les mammifères (Dupressoir, Lavialle, et Heidmann 2012). Un photorécepteur permettant aux fougères de capter très efficacement la lumière, le néochrome, a vraisemblablement été acquis horizontalement depuis un petit groupe de plantes, les anthocérotes (F.-W. Li et al. 2014). Il semble que ces gènes aient procuré un tel avantage évolutif qu’ils ont été très fortement sélectionnés. Au contraire, des prédictions à plus grande échelle, mais dont l’impact était plus difficile à apprécier, ont par la suite été réfutées. C’est le cas par exemple dans le génome humain (Stanhope et al. 2001; Salzberg 2017), ou dans le génome d’un tardigrade (Bemm et al. 2016; Koutsovoulos et al. 2016). Des problèmes méthodologiques dans la prédiction automatisée à grande échelle des HGT à partir de données génomiques sont à pointer du doigt. Les indices pouvant suggérer une origine étrangère d’un gène sont l’incongruence de la phylogénie de ce gène avec la phylogénie des espèces, et des caractéristiques intrinsèques de la séquence (GC% ou biais de codon) anormales par rapport au reste du génome (Ravenhall et al. 2015). Une fois un gène candidat identifié, l’évaluation du contexte génomique est nécessaire afin de vérifier que l’ensemble de la séquence n’est pas exogène (il pourrait alors plus probablement s’agir d’une contamination), mais également pour identifier d’éventuelles séquences d’insertion (Ravenhall et al. 2015). Cette remise en question de plusieurs prédictions de transferts horizontaux de gènes est accompagnée d’un débat animé sur l’existence de ce phénomène dans les génomes eucaryotes, qui pourrait n’être qu’artefactuelle (Ku et al. 2015; Martin 2017, 2018), ou au contraire bien réelle (Leger et al. 2018a; Roger 2018). Parmi les points importants du débat, on peut premièrement noter que les mécanismes spécifiques d’échange de matériel génétique entre cellules (analogues à ceux des procaryotes) sont moins répandus, et que les génomes eucaryotes ne présentent pas de structuration en pangénome. En ce qui concerne les diatomées, certaines espèces sont capables de recevoir de l’ADN bactérien par conjugaison (Karas et al. 2015). Cet ADN exogène peut alors être maintenu sur plusieurs générations dans des structures extra- chromosomiques indépendantes, les épisomes, en raison de la structure spécifique des centromères des diatomées (Diner et al. 2017). Deuxièmement, les gènes eucaryotes impliqués dans des HGT prédits sont la plupart du temps caractérisés par des identités de séquence faibles avec leurs homologues procaryotes. Cela suggère des transferts

81

anciens et/ou une accumulation de mutations dans les gènes acquis, faisant tendre leur composition nucléotidique vers celle du génome récipiendaire (Ku et Martin 2016). Si le flux de HGT était constant au cours de l’évolution, ceux-ci devraient constamment s’accumuler dans les génomes eucaryotes, et des exemples de HGT récents devraient émerger des prédictions génomiques. Or ces exemples ne sont pas retrouvés, alors qu’ils devraient être plus faciles à identifier, ce qui suggère que l’extrême majorité des évènements de transferts sont anciens (Ku et Martin 2016). Notons que ce n’est pas le cas chez Blastocystis, un straménopile commensal de l’intestin humain, où certains HGT prédits ont une identité protéique de l’ordre de 70% avec les potentiels donneurs (Eme et al. 2017). L’évolution accélérée chez ce clade de parasites renforce par ailleurs l’idée qu’il s’agit de transferts récents (Moreira et López-García 2017). Dans les autres cas, où l’identité protéique est faible, les reconstructions phylogénétiques sont plus compliquées, ce qui constitue le désaccord numéro 3 (quelles phylogénies garder ou éliminer sur la base de leur qualité), et un scénario évolutif alternatif est envisageable.

Topologie ? observée Divergence de séquence élevée B E Scenarii évolutifs compatibles

HGT

Organismes séquencés B B B B E B B E E E Scénario A: HGT ancien Scénario B: transmission verticale + pertes de gènes

Figure 16 : Scenarii évolutifs alternatifs pour expliquer une affinité phylogénétique eucaryote/bactérie couplée à une forte divergence des séquences. Les triangles colorés

82

représentent les règnes eucaryotes et bactériens. Les branches de l’arbre phylogénétique représentées en pointillés signalent la perte du gène dans la lignée de l’organisme dont le génome est séquencé. E: organisme eucaryote; B: organisme bactérien. (Figure G. Blanc)

Le quatrième point oppose en effet l’hypothèse du HGT (Fig. 16, scénario A) avec celle d’une origine verticale du gène depuis l’ancêtre des eucaryotes, concomitante à la perte de ce gène dans la quasi-totalité des lignées d’eucaryotes séquencées. Dans ce dernier scénario, un gène unique chez un eucaryote pourrait avoir une origine verticale tout en ayant des homologues uniquement chez les procaryotes (Albalat et Cañestro 2016) (Fig. 16, scénario B). Une critique de cette hypothèse est qu’elle implique un génome eucaryote ancestral contenant un nombre important de gènes (Leger et al. 2018b). Le relatif manque de données dans différentes lignées eucaryotes complique encore cette évaluation entre perte différentielle et HGT. La problématique est similaire à celle de l’hypothèse Chromiste (cf. I.3). Pour remettre cette polémique en perspective, notons que l’on connaissait les mécanismes d’échange de matériel génétique chez les bactéries depuis les années 1950, et que l’importance des HGT à l’échelle d’un génome n’a été appréciée quantitativement que grâce au séquençage, à la fin des années 1990 (Garcia- Vallvé, Romeu, et Palau 2000). Au contraire, pour les HGT vers des génomes eucaryotes, les données génomiques précèdent à la fois l’explication mécanistique et l’impact évolutif qu’on peut attribuer au phénomène. En effet, alors que la résistance des pathogènes aux antibiotiques est un problème depuis les années 1950 (Spellberg et Gilbert 2014), il n’y a à ma connaissance pas de phénomène évolutif majeur à l’échelle des eucaryotes qui serait explicable par des transferts horizontaux de gènes. Ainsi on suspecte la présence de nombreux HGT dans les génomes de diatomées depuis la fin des années 2000, et les premiers éléments sur l’échange d’ADN entre bactéries et diatomées commencent seulement à être décrits. On peut donc penser que la poursuite de ce travail expérimental va prochainement permettre de préciser l’ampleur du phénomène. Dans l’intervalle, le choix de paramètres conservatifs dans la prédiction in silico de HGT semble indiqué, afin de limiter au maximum le nombre de faux positifs. Chez les diatomées, les premières estimations basées sur l’analyse des génomes de P. tricornutum et T. pseudonana attribuaient une origine bactérienne à environ 5% des

83

gènes (Bowler et al. 2008, 200; Lommer et al. 2012). Cette estimation est diminuée de moitié dans l’étude du génome de P. multistriata (Basu et al. 2017). Cela peut s’expliquer par la recherche de transferts spécifiques à l’espèce plutôt qu’au groupe des straménopiles ou SAR, des bases de données plus complètes rendant plus probable la présence d’un homologue eucaryote, et des critères d’analyse des arbres phylogénétiques plus stricts (valeurs de support des arbres et nombre de bactéries présentes dans le clade pour valider l’hypothèse HGT). Parmi les gènes d’origine bactérienne, on trouve notamment plusieurs composants du cycle de l’urée, une plaque tournant importante du métabolisme des diatomées impliquée dans la fixation du carbone et l’assimilation d’azote (Allen et al. 2011). Une partie de cette voie métabolique a lieu dans la mitochondrie, où est par exemple adressée la protéine carbamoyl phosphate synthase (CPS), dont l’origine évolutive pré-date la divergence avec les métazoaires. La plupart des autres étapes du cycle et des réactions auxiliaires ont lieu dans le cytosol, et de nombreuses enzymes telles que l’ornithine cyclodeaminase, l’agmatinase, la glutamine synthetase III, la carbamate kinase et l’hydroxylamine reductase auraient une origine bactérienne (Bowler, Vardi, et Allen 2010; Bowler et al. 2008; Allen et al. 2011). Un autre exemple marquant de transfert horizontal probable concerne des protéines impliquées dans la résistance au froid dans des diatomées des glaces. Ces protéines se liant à la glace (ice-binding proteins, IBP) ne sont retrouvées que dans des organismes vivant dans un environnement froid, aussi bien archées que bactéries, fungi, diatomées, algues vertes... L’incongruence entre l’arbre phylogénétique des espèces et celui de ces IBP, ainsi que la forte similarité entre certaines séquences de diatomées et de bactéries, font que l’hypothèse du transfert horizontal est très plausible (Raymond et Kim 2012). Cependant il semble que certaines IBP ne proviennent pas de HGT, et que des duplications suivies de divergences aient par ailleurs permis l’expansion de la famille protéique dans le genre Fragilariopsis (Bayer-Giraldi et al. 2010; Sorhannus 2011). Les transferts horizontaux de gènes semblent donc relativement rares chez les eucaryotes, mais ils peuvent être sélectionnés et maintenus lorsqu’ils procurent un avantage important.

84

IV.1.2. Cadre du projet

Notre travail s’inscrit dans un projet collaboratif plus global piloté par le laboratoire de Génomique des Plantes et Algues (CNRS UMR8197) de l’ENS et l’équipe de Génomique Environnementale et Microbienne du John Craig Venter Institute (USA). Cette collaboration vise à exploiter un vaste jeu de données de séquençage transcriptomique de diatomées marines afin de décrire les caractéristiques génétiques et métaboliques de ces espèces ayant un fort impact sur l’écosystème marin. Les données consistent principalement en 90 transcriptomes de diatomées marines cultivées dans le cadre du projet MMETSP (Marine Microbial Eukaryote Transcriptome Sequencing Project) (Keeling et al. 2014). 7 souches additionnelles fortement représentées dans certaines stations du projet TARA (Malviya et al. 2016) ont été ajoutées pour compléter ce jeu de données, ainsi que les protéines prédites à partir des génomes des deux diatomées modèles T. pseudonana et P. tricornutum. Différents aspects du projet tels qu’une phylogénie détaillée des diatomées, l’étude de la diversité et de la transcription des rétro-transposons, ou la recherche de métabolismes spécifiques ont été menés par les collaborateurs. Notre apport a été la quantification des événements de transferts horizontaux bactériens spécifiques au clade des diatomées. Disposer d’un échantillonnage aussi important et diversifié est intéressant dans l’optique de détecter des évènements de transfert récents spécifiques d’une espèce. Cependant, la nature transcriptomique des données interdit l’analyse du contexte génomique pour valider les HGT candidats. En effet, chaque transcrit est reconstitué séparément et aucune information sur l’organisation des gènes sur les chromosomes n’est accessible. Le risque de contamination par une espèce bactérienne co-cultivée existe donc, et doit être pris en compte. En revanche, on peut penser qu’un HGT candidat retrouvé dans plusieurs diatomées n’est probablement pas dû à une contamination aléatoire de leurs cultures respectives. Disposer de 97 transcriptomes permet en outre de comparer les prédictions sur un échantillonnage large, et d’évaluer la conservation au niveau du genre ou de niveaux taxonomiques plus larges.

85

IV.2. Matériel et Méthodes

IV.2.1. Données utilisées

Le traitement des données de séquençage a été réalisé par John Mccrow (JCVI). Les transcrits ont été assemblés à l’aide d’Abyss (Birol et al. 2009) et de CAP3 (Huang, Kang, et Xu 2017). Les produits de traduction des transcrits assemblés ont été prédits à l’aide d’ESTScan (Iseli, Jongeneel, et Bucher 1999). Ce dernier a aussi réalisé l’annotation et le regroupement des protéines prédites en familles à l’aide d’OrthoMCL (L. Li, Stoeckert, et Roos 2003). Nous avons utilisé les 99,845 regroupements (clusters) et 227,187 séquences uniques (singletons). Certains de ces regroupements contiennent des familles protéiques complexes comprenant de nombreux paralogues et orthologues. Pour limiter les temps de calcul, et car les regroupements plus vastes ne correspondaient vraisemblablement pas à des familles protéiques restreintes, seuls les clusters comprenant au maximum 150 séquences ont été traités. La séquence la plus longue a été utilisée comme référence pour les recherches d’homologies.

IV.2.2. Recherche d’homologues et alignements multiples

La séquence de référence de chaque regroupement et les séquences uniques ont été utilisées comme requêtes pour des recherches contre une version modifiée de la base de données Genbank (voir ci-dessous) avec BLASTP (seuil d’e-value < 1e-5). Avant la recherche BLAST, la banque protéique non-redondante de Genbank nr a été séparée en trois sous-divisions, contenant respectivement les séquences de diatomées (contenant principalement des séquences protéiques prédites à partir des génomes séquencés), les séquences eucaryotes, et les séquences non eucaryotes (virales, archéennes et bactériennes). Dans chaque sous-base de données, les séquences ont été rapprochées (par clustering) en utilisant Cd-hit (W. Li et Godzik 2006) avec un critère de 90% de similarité. Les recherches BLAST ont été successivement menées sur ces versions réduites des trois bases de données.

86

Pour chaque protéine de MMETSP, les trente meilleurs résultats eucaryotes (sauf diatomées) et trente meilleurs résultats non eucaryotes ont été conservés. En l’absence de résultat significatif chez les non-eucaryotes, la séquence a été éliminée de l’analyse. La séquence et ses homologues ont été alignées à l’aide de MAFFT (Katoh et al. 2002). Les alignements ont été ensuite traités comme suit : (i) toutes les colonnes contenant des trous (gaps) dans la séquence de MMETSP ont été supprimées. (ii) Les séquences homologues tronquées ont été supprimées lorsqu’elles remplissaient les deux conditions suivantes : la séquence alignée (suite à l’étape (i)) contenait moins de 100 acides aminés alignés, et la séquence était plus courte que 80% la séquence de MMETSP. L’identité globale entre les séquences de MMETSP et leurs 60 homologues respectifs a été calculée. La plus grande valeur d’identité avec un homologue non-eucaryote a été comparée avec la plus grande valeur pour un eucaryote.

IV.2.3. Construction et analyse d’arbres phylogénétiques

Les protéines restantes de chaque regroupement de MMETSP ont été ajoutées à l’alignement multiple correspondant, et les séquences les plus sévèrement tronquées ont été éliminées en utilisant les mêmes critères que précédemment. Un arbre phylogénétique a été construit à partir de ces alignements multiples (pour les regroupements et pour les séquences spécifiques) à l’aide de FastTree (M. N. Price, Dehal, et Arkin 2010) en utilisant les paramètres par défaut. Les valeurs de support de branches ont été calculées avec la méthode approchée de Shimodaira-Hasegawa. L’analyse automatique des arbres a été conduite comme suit : (i) Chaque arbre a d’abord été enraciné avec la séquence la plus distante phylogénétiquement de la séquence de référence de MMETSP. (ii) Si le groupe frère de la séquence MMETSP ne contenait que des séquences eucaryotes (non-diatomées), sans considération de support de branche, l’arbre a été interprété comme compatible avec une évolution verticale. (iii) Pour les arbres restants, les branches ayant un support inférieur à 70% ont été réduites pour considérer seulement les groupes frères les plus fiables.

87

(iv) Si deux groupes frères successifs de la séquence MMETSP contenaient uniquement des séquences non-eucaryotes de même nature (soit bactérie, soit archée, soit virus), l’arbre a été considéré comme compatible avec un transfert horizontal. (v) Tous les autres cas où des séquences d’origines différentes étaient mélangées ont été classifiés comme « Ambigus ».

Les résultats de l’analyse automatique des arbres phylogénétiques ont été intégrés aux graphes d’identité protéique.

IV.3. Résultats

IV.3.1. Analyse des meilleurs homologues eucaryotes et non-eucaryotes

Certaines protéines de MMETSP sont plus proches d’une séquence non-eucaryote que de n’importe quelle séquence eucaryote connue (Fig. 17A, points sous la diagonale). Il y a 3,965 clusters (et 1,542 additionnels qui n’ont pas d’homologue eucaryote et sont exclus de la figure) et 1,056 singletons (+1,857 séquences uniques n’ayant pas d’homologue eucaryote) dans ce cas. Ces chiffres représentent respectivement 5.5% et 1.3% des séquences des regroupements (clusters) et des séquences uniques (singletons). Ces séquences de MMETSP peuvent trouver leur origine dans des événements de transferts horizontaux, ou provenir de contamination des échantillons. La distribution des pourcentages d’identité protéique des séquences de MMETSP comparées aux protéines non-eucaryotes est différente entre les singletons et les regroupements (Fig. 17B). Une grande majorité des séquences issues des familles de protéines (Fig. 17B, courbe orange), souvent partagées par plusieurs diatomées, ont en effet un pourcentage de similarité relativement bas (inférieur à 40%), tandis qu’une plus grande proportion de singletons (Fig. 17B, courbe bleue) présente des identités plus élevées (supérieures à 40%).

88

Figure 17 : Visualisation du pourcentage d’identité des séquences de MMETSP avec leurs meilleurs homologues. (A) Pourcentages d’identité des séquences de MMETSP avec le meilleur homologue eucaryote (ordonnées) et le meilleur homologue non-eucaryote (abscisses). Chaque point est soit un singleton (en bleu), soit la séquence représentative d’un regroupement (en orange). Les points en dessous de la diagonale d’identité x=y (en rouge) ont un meilleur homologue non-eucaryote. (B) Distribution du pourcentage d’identité avec le meilleur homologue non-eucaryote pour les singletons (en bleu) et regroupements (en orange). Figure par G. Blanc.

Deux explications sont possibles : (i) un transfert horizontal récent a plus de chances d’être partagé par un petit nombre de diatomées. Ainsi, les singletons concernent plus probablement des gènes récemment acquis. Puisque les séquences impliquées dans un transfert horizontal récent (aussi bien la séquence de diatomée que de l’organisme

89

donneur) ont eu moins de temps pour diverger que les transferts plus anciens, les singletons ont plus de chances de partager des hauts niveaux de similarité avec les homologues non-eucaryotes. (ii) Une autre explication possible est que les singletons peuvent être plus sujets à des contaminations bactériennes, puisque la contamination de cultures indépendantes de diatomées d’espèces différentes par la même bactérie est peu probable (ces séquences contaminantes bactériennes se retrouveraient alors dans un cluster).

Figure 18 : Scénarios d’hérédité déduits de l’analyse automatique des arbres phylogénétiques. Les graphiques montrent les pourcentages d’identité des séquences de MMETSP avec leur meilleur homologue eucaryote (ordonnées) et non-eucaryote (abscisses). Les protéines de MMETSP ont été réparties dans les six graphiques en fonction du scénario prédit (Hérédité verticale, Ambiguë, HGT) et selon si la protéine était un singleton ou faisait au contraire partie d’un cluster. La diagonale d’identité x=y est colorée en rouge. Figure par G. Blanc.

Il y a globalement une concordance entre la position des points par rapport à la diagonale et le scénario évolutif auquel ils ont été assignés (héritage vertical ou transfert horizontal) (Fig. 18). Les protéines de MMETSP qui ne pouvaient être assignées à aucun scénario de manière claire ont été marquées comme “ambiguës” et sont pour la plupart

90

regroupées autour de la diagonale marquant l’équidistance entre eucaryotes et non- eucaryotes. Pour les clusters de MMETSP, les HGT espèce unique proviennent d’une seule espèce (avec la présence éventuelle de paralogues ou variants d’épissage), tandis que les HGT multi-espèces sont retrouvés dans plus d’une espèce. Ces derniers sont moins touchés par une contamination bactérienne potentielle, puisque la contamination indépendante et à l’identique de différentes cultures semble peu probable.

IV.3.2. Quantification des HGT candidats, partagés ou uniques

Le Tableau 7 présente le nombre de clusters et singletons conservés aux différents stades de l’analyse. Au final, 5,239 familles de protéines de MMETSP sont prédites comme provenant de transferts horizontaux, soit 1,6% des données initiales. Ce nombre est inférieur à l’estimation de 5% obtenue en analysant le génome de P. tricornutum, mais semble cohérent avec l’analyse du génome de P. multistriata, qui divisait ce chiffre initial par deux (Basu et al. 2017). 1,840 prédictions ont été faites sur la base de l’analyse automatique d’arbres phylogénétiques contenant à la fois des séquences eucaryotes et des séquences non-eucaryotes, tandis que 3,399 prédictions résultent de l’absence d’homologue chez les eucaryotes. De plus, 1,903 HGT (soit 0.6% du total) sont communs à plus d’une espèce, et peuvent donc être considérés comme ancestraux (à des degrés variables).

91

Clusters Singletons Total Données initiales 99845 227187 327032 ayant un homologue dans nr 42477 (42,5%) 42477 + homologue non-eucaryote 17834 (17,9%) 3514 (1,5%) 21348 (6,5%) + homologue eucaryote 16292 (16,3%) 1657 (0,7%) 17949 (5,5%) + en-dessous de la diagonale* 3965 (4,0%) 1056 (0,5%) 5021 (1,5%) Prédictions héritage vertical 9476 (9,5%) 513 (0,2%) 9989 (3,1%) cas ambigu 5654 (5,7%) 466 (0,2%) 6120 (1,9%) HGT 2704 (2,7%) 2535 (1,1%) 5239 (1,6%) HGT sans homologue E 1542 (1,5%) 1857 (0,8%) 3399 (1,0%) + partagé par 2+ diatomées 1109 (1,1%) 1109 (0,3%) HGT avec homologue E et non-E 1162 (1,2%) 678 (0,3%) 1840 (0,6%) + partagée par 2+ diatomées 794 (0,8%) 794 (0,2%)

Tableau 7 : Nombre de séquences à chaque étape de la recherche de HGT candidats. Parmi les données initiales, seules les séquences ayant un homologue non-eucaryote dans les bases de données sont considérées. Celles n’ayant par ailleurs pas d’homologue eucaryote sont considérées par défaut comme des HGT candidats. Les autres séquences sont soumises à une reconstruction phylogénétique. * : les séquences en dessous de la diagonale x=y (Fig. 17A) sont plus proches de leur homologue non-eucaryote que de leur homologue eucaryote.

IV.3.3. Détection de contaminations bactériennes

Nous avons comparé la fréquence des évènements de transferts horizontaux de gènes pour les différents transcriptomes de MMETSP. La plupart des échantillons contiennent entre 0,9% et 2,0% de HGT (1,4% en moyenne), en comptant à la fois les évènements spécifiques à un échantillon et ceux retrouvés dans plusieurs. Deux échantillons, ceux de Chaetoceros souche UNC1202 et Chaetoceros neogracile souche CCMP1317, ont des proportions bien plus importantes de HGT prédits, de 6,3% and 6,1% respectivement.

92

Alors que la proportion de transferts horizontaux partagés par plusieurs espèces de diatomées (événements ancestraux) est relativement stable parmi les échantillons (de 0,5 à 1,6%, moyenne=1,2%), les pourcentages de HGT spécifiques d’une seule diatomée sont beaucoup plus variables (de 0,0 à 5,4%, moyenne=0,3%). Ceci explique une grande partie de la variabilité observée entre les échantillons. Les niveaux exceptionnels d’évènements spécifiques prédits dans Chaetoceros souche UNC1202 et Chaetoceros neogracile souche CCMP1317, et dans une moindre mesure dans Pseudo-nitzschia fraudulenta (1,1%), Striatella unipunctata (1,3%), Thalassionema nitzschioides (1,5%), et Thalassiosira antarctica (1,8%) peuvent être la conséquence de contaminations bactériennes plus ou moins importantes. Contrairement aux transferts horizontaux partagés par plusieurs diatomées, les HGT spécifiques à une seule espèce montrent des associations préférentielles entre certaines diatomées et espèces bactériennes (Tableau 8). Cela est particulièrement clair pour les espèces de diatomées ayant un fort pourcentage de HGT spécifiques prédits. Par exemple, parmi les 514 HGT spécifiques à C. neogracile, 226 impliquent Fluviicola taffensis comme groupe frère. De plus, respectivement 69 et 59 HGT sont associés à Polaribacter spp. et Crocinitomix spp., des Alphaprotéobactéries des familles Cryomorphaceae et Flavobacteriales. Il est possible que la culture ou les extractions d’ARN de C. neogracile aient été contaminées avec des bactéries apparentées à ces souches avant le séquençage. Au contraire, les HGT partagés par plusieurs diatomées ont un profil beaucoup plus divers en ce qui concerne les groupes bactériens donneurs potentiels. Le nombre de transferts associés à une espèce bactérienne est presque toujours inférieur à 6 (données non présentées).

93

sp.

radiate

danicus

.

.

fradulenta

brightwellii

C

L

unipunctata

.

.

.

C. neogracile

P

T. Antarctica T.

D

S Chaetoceros Fluviicola taffensis 226 Hyphomonas spp. 167 Blastopirellula marina 115 Roseobacter spp. 101 Phaeobacter spp. 94 Balneola spp. 1 72 Cand. Amoebophilus asiaticus 70 Polaribacter spp. 69 1 6 17 Crocinitomix spp. 59 1 Muricauda spp. 50 Alteromonas spp. 44 2 Pseudophaeobacter arcticus 39 Sulfitobacter spp. 12 34 2 Pseudohongiella spp. 1 33 Gammaproteobac. NOR5-3 17 Henriciella marina 15 1 Hoeflea spp. 1 14 Rhodobacteraceae bac. SB2 10

Tableau 8 : Nombre d’événements de HGT prédits entre certains couples diatomées- bactéries. Huit diatomées (colonnes) ont un nombre élevé de HGT impliquant les mêmes donneurs bactériens potentiels (lignes). Ces associations préférentielles correspondent à des taux anormalement élevés de HGT prédits et pourraient être dues à des contaminations.

IV.3.4. Origine des transferts horizontaux prédits

L’extrême majorité (plus de 99%) des transferts horizontaux prédits proviennent de bactéries, d’après la composition des groupes frères des séquences de MMETSP dans les arbres reconstruits. Ceci est le cas aussi bien des HGT spécifiques à une diatomée que de ceux partagés par plusieurs. Un seul HGT provenant d’une archée a été prédit dans les transferts partagés par plusieurs diatomées, ainsi qu’un transfert depuis un virus (phage

94

de Synechochoccus). Dans les transferts non partagés, 8 HGT ont comme origine prédite des virus, dont un virus de diatomée à ARN simple. En ce qui concerne les bactéries donneuses potentielles, la composition en espèces des groupes frères bactériens a été analysée. Même si les espèces précises peuvent être différentes entre les HGT spécifiques et les HGT partagés, les mêmes grands groupes bactériens ont été retrouvés comme donneurs : Protéobactéries, Bacteroidetes, Terrabactéries, et PVC (Planctomycetes, Verrucomicrobia et Chlamydiae), globalement dans les mêmes proportions. Il est intéressant de noter que ces grands groupes bactériens sont aussi connus pour être associés avec des diatomées dans leurs habitats naturels aujourd’hui (Shady A. Amin, Parker, et Armbrust 2012). Les gènes acquis par les diatomées pourraient donc provenir majoritairement de bactéries proches, aussi bien par le passé (HGT partagés par plusieurs diatomées) que plus récemment (HGT spécifiques à une diatomée) Au-delà de leur simple nombre, l’impact des évènements de transferts horizontaux de gènes bactériens sur la physiologie des diatomées est difficile à évaluer. Nous allons revenir dans un premier temps sur l’analyse fonctionnelle des HGT, puis sur l’exemple le mieux décrit de transfert horizontal chez les diatomées, le cycle de l’urée (Allen, Vardi, et Bowler 2006; Bowler et al. 2008; Allen et al. 2011).

IV.3.5. Analyse fonctionnelle des transferts horizontaux prédits

Nous nous sommes concentrés sur le sous-ensemble le plus fiable de transferts horizontaux, à savoir les 1109+794=1903 HGT partagés par au moins deux diatomées. La fonction des familles protéiques concernées a été prédite en utilisant à la fois l’assignation à des catégories KOG (Eukaryotic Orthologous Genes) réalisée en amont au cours de l’annotation des transcriptomes, et par une recherche supplémentaire par blast contre la base de données Swissprot, afin d’obtenir une seconde source d’annotation de qualité. La grande majorité des protéines prédites à partir des séquences codantes identifiées comme HGT n’a pas pu être reliée à une catégorie KOG apportant de l’information sur

95

leur fonction (Tableau 9). En effet, 82,9% n’étaient assignées à aucune catégorie, 5,2% à la catégorie « Fonction générale », et 1,1% à la catégorie « Fonction inconnue ». Cette proportion d’assignation KOG n’apportant aucune information est légèrement plus grande que pour l’ensemble des protéines prédites. D’autre part, aucune catégorie KOG n’était significativement plus représentée dans les protéines issues de transferts que dans l’ensemble des protéines (e-value de tests du chi2>10-5).

Catégorie KOG Nb % Catégorie KOG Nb % Aucune 1577 82,9 Trans. et Métabol. lipides 17 0,9 Fonction générale 99 5,2 Trans. et Métabol. carbohydrates 15 0,8 Transduction du signal 39 2,0 Métabolites secondaires 13 0,7 Trans. et Métabol. acides aminés 27 1,4 Trans. et Métabol. coenzyme 11 0,6 Fonction inconnue 21 1,1 Paroi cellulaire / membrane 10 0,5 Modification post-traductionnelles 21 1,1 Cytosquelette 9 0,5

Tableau 9 : Catégories KOG des HGT candidats. (Trans. et Métabol. : Transport et Métabolisme)

Moins d’un tiers (601 sur 1903, soit 31,6%) des protéines issues de transferts ont donné un résultat lors de la recherche par blast contre la base de données SwissProt (au seuil d’e-value 1E-5). La plupart de ces résultats positifs était par ailleurs très générique (par exemple : activité kinase, protéine riche en leucines) et ne permettait pas de préciser le rôle potentiel de ces protéines dans la cellule. Même lorsque des homologues avec des fonctions mieux définies sont disponibles, comprendre de quelle façon ces protéines peuvent s’intégrer au métabolisme des diatomées et donc évaluer l’impact de ces HGT n’est pas évident. Un véritable nouveau projet pourrait être mené dans ce sens. Notons une prédiction à priori intéressante de HGT pour un gène dont la protéine semblait impliquée dans la synthèse de la vitamine B2. On peut en effet imaginer que des enzymes complétant ou rendant plus efficaces certaines voies de biosynthèses pourraient être de bonnes candidates pour des transferts horizontaux qui seraient sélectionnés pour l’avantage évolutif qu’ils confèreraient. Après réanalyse cette

96

prédiction s’est malheureusement révélée être un faux positif. Revenons maintenant à un cas connu de HGT chez les diatomées, afin de comparer nos résultats avec ceux d’études précédentes, en continuant à nous intéresser à l’impact fonctionnel des HGT chez les diatomées.

IV.3.6. Le cas du cycle de l’urée

Le cycle de l’ornithine-urée (Ornithine Urea Cycle, OUC) est essentiel pour les diatomées dans la redistribution du carbone et de l’azote fixés. Les différentes réactions métaboliques ont lieu dans la mitochondrie et le cytosol. D’après une étude phylogénétique poussée, une enzyme clef du cycle de l’urée, la Carbamoyl phosphate synthase (CPS), trouve son origine avant la divergence entre straménopiles et haptophytes (Allen et al. 2011). Elle a également été dupliquée il y a plus d’un milliard d’années. Cette enzyme a donc vraisemblablement été héritée verticalement par les diatomées de leur ancêtre straménopile. Cependant, plusieurs autres enzymes du cycle de l’urée ou de voies métaboliques associées sont suspectées provenir de transferts de gènes horizontaux (Tableau 10). Aucune de ces enzymes n’a été retrouvée dans nos prédictions de HGT : 7 ont été attribuées à un héritage vertical, et il n’a pas été possible de conclure pour les 4 autres. Afin de résoudre ce désaccord important entre nos résultats automatisés et les prédictions de la littérature, les analyses phylogénétiques des différentes enzymes du cycle de l’urée ont été refaites manuellement. Le jeu des séquences homologues utilisé a été enrichi, les alignements multiples ont été vérifiés manuellement pour éliminer toute séquence incomplète ou mal alignée, et les arbres phylogénétiques ont été reconstruits et expertisés manuellement. Pour l’ornithine carbamoyltransferase, prédite comme HGT dans les analyses des génomes de P. tricornutum (Bowler et al. 2008) et P. multiseries (Basu et al. 2017), notre prédiction automatique donnait la préférence à un scénario d’héritage vertical. La réanalyse manuelle a abouti à la construction de l’arbre phylogénétique présenté Figure 19, et confirme que ce gène n’a probablement pas fait l’objet d’une acquisition horizontale. En effet, bien que la topologie de l’arbre soit entachée du fait que eucaryotes soient séparés avec les plantes d’une part et les métazoaires et fungi d’autre part, et par le placement relativement incertain de plusieurs séquences d’archées, la grande

97

majorité des séquences de diatomées sont solidement incluses dans un clade avec d’autres straménopiles qui forme un groupe frère avec les séquences métazoaires et fongiques. L’hypothèse d’un transfert horizontal d’une bactérie ou même d’une archée ne semble pas supportée par cet arbre. De la même façon, la topologie des arbres phylogénétiques de la glutamine synthetase, hydroxylamine reductase, cyclodeaminase et agmatinase sont incompatibles avec l’hypothèse d’un transfert horizontal, puisque la majorité (sinon toutes) les séquences de diatomées se retrouvent groupées au sein d’autres clades eucaryotes. Dans deux cas (carbamate kinase et NADPH nitrite reductase), seules des séquences du groupe SAR (Straménopiles Alvélolés Rhizaires) constituent le groupe frère des séquences de MMETSP. La topologie des arbres et les valeurs de support des branches ne permettent pas de déterminer si ce clade est plus proche de bactéries ou d’autres eucaryotes. Les travaux précédents concluent pour ces deux gènes à une origine horizontale ancienne (p. ex. Tableau 10, prédiction de HGT spécifique aux diatomées ou aux straménopiles d’après Basu 2017). Puisque nous nous concentrons ici sur les transferts apparus au sein des diatomées, nous concluons à un héritage vertical, ayant court à minima depuis l’ancêtre commun des Straménopiles. Par ailleurs les arbres phylogénétiques reconstruits dans ce travail ne sont selon nous pas suffisants se prononcer sur l’histoire évolutive plus ancienne de ces gènes.

98

Ce travail Allen 2006 Bowler 2008 Basu 2017 Automatique Réanalyse

urease / Non HGT / cluster trop grand / argininosuccinate lyase / Non HGT / ambigu / argininosuccinate synthase / Non HGT / vertical / arginase / Non HGT / vertical / decarboxylase / Non HGT / ambigu / glutamine synthetase HGT Non HGT / cluster trop grand vertical prismane HGT HGT (faible) / vertical vertical cyclodeaminase / HGT (faible) Non HGT/HGT vertical vertical carbamoyltransferase / HGT (faible) HGT Stram. vertical vertical agmatinase HGT Non HGT / vertical vertical carbamate kinase HGT HGT HGT Diat. vertical vertical NADPH nitrite reductase HGT HGT HGT Stram. ambigu vertical

Tableau 10 : Résumé des prédictions de l’origine évolutive de 12 protéines impliquées dans le cycle de l’urée et métabolismes liés. L’urease, l’argininosuccinate lyase, l’argininosuccinate synthase, l’arginase et la decarboxylase n’ont pas été prédites comme HGT dans les études précédentes. Les HGT candidats proposés par Allen (2006), Bowler (2008) ou Basu (2017) ont été analysés automatiquement et manuellement.

99

Figure 19 : Arbre phylogénétique de la carbamoyltransferase. L’arbre est enraciné au poids moyen (midpoint rooting). Sur la partie haute de l’arbre, la quasi-totalité (41) des séquences de diatomées (en violet) font partie d’un clade comprenant d’autres straménopiles (en bleu). Les groupes frères sont constitués d’eucaryotes métazoaires et Fungi (en vert). On note la présence de séquences d’archées (en rouge) dispersées dans cette partie de l’arbre. Ce sont des séquences d’Heimdallarchaeota, des archées environnementales détectées par métagénomique dont la qualité des séquences aussi bien que le placement phylogénétique exact ne sont pas certains à l’heure actuelle. Les bactéries (en brun) forment un clade distinct. Dans la partie basse de l’arbre, 3 séquences de diatomées ainsi que des séquences de SAR sont dans une position ambiguë par rapport à d’autres séquences d’archées et le clade des plantes. Une unique séquence de diatomée a pour groupe frère un clade archéen.

Pour récapituler, cinq gènes de diatomées liés au cycle de l’urée n’ont jamais été évoqués comme provenant de transferts horizontaux, nos résultats suggèrent que cinq autres gènes qui étaient soupçonnés d’être des HGT étaient probablement des faux positifs, et que la reconstruction phylogénétique ne permet pas de conclure pour deux derniers. Ces résultats semblent donc remettre en cause l’hypothèse de 100

l’acquisition/diversification par les diatomées du cycle de l’urée grâce à des transferts horizontaux de gènes bactériens. Une raison possible pour cette différence avec les études précédentes est le nombre bien plus important de génomes eucaryotes séquencés ces dernières années. Cela a certainement permis de clarifier les relations phylogénétiques entre des organismes mal connus jusqu’alors. La diversité des séquences de MMETSP a sûrement également contribué à ce résultat, même si certains arbres n’ont pas retrouvé la monophylie des diatomées, ce qui pourrait indiquer des différences entre les espèces, des problèmes dans l’assemblage ou des contaminations bactériennes.

IV.4. Discussion

IV.4.1. Qualité des données et biais méthodologiques

Notre évaluation de l’importance des HGT chez les diatomées a tiré parti du grand nombre de transcriptomes séquencés dans le cadre du projet MMETSP. Ces données couvrent une grande partie de la diversité phylogénétique des diatomées, cependant la quantité de données à analyser a été un frein au niveau des temps de calcul des analyses. Les protéines prédites ont été regroupées en clusters, dont certains correspondaient à des familles protéiques complexes comprenant de nombreux paralogues et orthologues. Dans ce cas, seule la séquence la plus longue a été conservée comme représentative du cluster, ce qui peut mener à une sur ou sous-estimation du nombre de HGT si certaines des protéines du cluster ne partagent pas la même histoire évolutive que la séquence représentative (le cluster étant dans ce cas paraphylétique). Les peptides prédits utilisés dans cette étude étaient souvent des protéines tronquées. La qualité des alignements multiples s’en est ressentie, et même si le logiciel FastTree prend en compte ce problème, les arbres obtenus pourraient être moins fiables qu’en utilisant des protéines complètes. La qualité et la taille totale des assemblages transcriptomique de chaque diatomée étaient par ailleurs très variables. Malgré cela l’évaluation de la contribution des HGT à chaque transcriptome s’est avérée très reproductible, avec un taux d’environ 1 à 2%.

101

IV.4.2. Comparaison avec les précédentes études

Nous avons identifié 1.6% des familles protéiques des transcriptomes comme candidates potentielles de transferts horizontaux bactériens. Cette estimation peut être considérée comme une limite haute en raison des suspicions de contaminations bactériennes. Ce chiffre est plus bas que les précédentes estimations, obtenues par l’analyse de génomes de diatomées, qui étaient de l’ordre de 5%. Cependant, tous les gènes issus de HGT ne sont pas forcément exprimés dans les conditions de culture utilisées ou bien correspondent à des pseudogènes et pourraient donc ne pas être présents dans les transcriptomes. La fraction mise en évidence dans cette étude pourrait être considérée comme ayant un impact biologique. D’autres gènes issus de HGT pourraient s’exprimer uniquement dans des conditions très précises et donc participer à l’adaptation de la diatomée à un nouvel environnement. Par ailleurs, le nombre de transferts spécifiques à une espèce est globalement faible, en accord avec la récente analyse du génome de P. multiseries. Plusieurs raisons peuvent expliquer ces différences dans l’estimation de la fréquence de transferts horizontaux. Premièrement, notre analyse était centrée sur le groupe des diatomées, et non sur celui des Straménopiles, ou des SAR (Straménopiles Alvéolés, Rhizaires) comme pour les études précédentes. Ce choix a été effectué car les distances évolutives importantes et le signal phylogénétique parfois dégradé font que les SAR peuvent apparaître dans les reconstructions presque aussi distants des autres eucaryotes que des bactéries. Cela peut mener à une sur-prédiction des HGT. Au contraire, en se concentrant sur les diatomées, les SAR sont gardés comme taxons potentiels pouvant indiquer l’héritage vertical. Deuxièmement, les données analysées sont des transcriptomes, alors qu’il s’agissait de génomes dans les études précédentes. Les séquences transférées horizontalement pourraient être moins exprimées, non- fonctionnelles ou activement éteintes. Ceci pourrait conduire à une sous-estimation du nombre de transferts horizontaux en utilisant des données transcriptomiques plutôt que génomiques. D’un autre côté, certains transcrits correspondant au même gène peuvent se retrouvés distribués dans plusieurs regroupements protéiques, probablement à cause

102

d’une absence de chevauchement entre les différents segments du transcrit (ce qui doit être plus fréquent pour les gènes faiblement exprimés). Ce phénomène aurait l’effet inverse de surestimer le nombre de HGT prédits.

IV.4.3. Impact fonctionnel des HGT chez les diatomées

Un HGT à fort impact décrit précédemment, celui d’une partie du cycle de l’urée, n’a pas été confirmé par notre travail. Ce résultat négatif reste à confirmer, mais n’est pas aberrant, puisqu’une enzyme clef du cycle, la carbamoyl-phosphate synthase, était vraisemblablement présente dans l’ancêtre eucaryote avant la divergence métazoaires- straménopiles, et a donc été héritée verticalement. En revanche cela pose la question de l’impact fonctionnel de ces transferts horizontaux de gènes, qui est difficile à évaluer en raison du nombre important de peptides prédits pour lesquels aucune fonction ne peut être attribuée par recherche d’homologues dans les bases de données.

103

Conclusion

Dans ce travail, j’ai appliqué différentes méthodes d’analyse pour traiter des données génomiques appliquées à l’étude d’un groupe de micro-algues, les diatomées. Je vais dans un premier temps revenir sur les tous derniers développements dans ce domaine afin de mieux décrire l’impact des résultats que j’ai obtenu. Les travaux en génomique sont souvent complétés par des prédictions formulées sur la base de reconstructions métaboliques, et validés par des travaux expérimentaux qui permettent de vérifier le bien-fondé des hypothèses formulées en amont. Ceci nous interrogera sur la place de la génomique en biologie. Je reviendrai ensuite sur la pertinence du concept d’holobionte dans l’étude des interactions entre diatomées et bactéries, et présenterai quelques orientations possibles pour l’étude d’A. formosa en particulier.

V.1. Remise en contexte des résultats

L’étude des diatomées a été enrichie par l’apport de la génomique. Les espèces modèles P. tricornutum et T. pseudonana ont vu leur génome séquencé dès le milieu des années 2000, ce qui les a propulsées au statut d’espèces modèles. Des travaux récents continuent d’améliorer notre connaissance du fonctionnement de ces espèces, avec par exemple des reconstructions détaillées du réseau métabolique de P. tricornutum (J. Kim et al. 2016; Levering et al. 2016) ou la ré-annotation de son génome à l’aide de nombreuses données transcriptomiques (Rastogi et al. 2018). En parallèle, des outils génétiques sont développés, avec par exemple TALEN, utilisé pour améliorer le stockage de lipides d’une souche de P. tricornutum (Daboussi et al. 2014), et le système CRISPR/Cas9, mis au point chez P. tricornutum et T. pseudonana (Nymark et al. 2016; Hopes et al. 2016). L’utilisation de ces espèces modèles de laboratoire est essentielle pour mieux comprendre le fonctionnement général des diatomées. De nombreuses autres espèces sont par ailleurs étudiées pour leurs spécificités, et le progrès des techniques de séquençage a permis le développement de ces espèces non modèles,

104

comme Fragilariopsis cylindrus (Mock et al. 2017) ou Pseudo-nitzschia multistriata (Basu et al. 2017). J’ai participé au projet visant à instaurer la diatomée d’eau douce A. formosa comme nouvelle espèce de laboratoire, et établi la séquence de référence de son génome. Une plus-value importante de ce travail consiste en la reconstruction additionnelle de 30 génomes bactériens à partir du séquençage métagénomique de cette communauté de moyenne complexité. La reconstitution de génomes à partir d’un métagénome se développe de plus en plus (D. H. Parks et al. 2017; Tully, Graham, et Heidelberg 2018), et permet à cette étude d’atteindre un nouveau degré de précision dans la description de la communauté associée à une diatomée. Le séquençage de l’ARNr 16S a également été utilisé pour compléter ce premier aperçu de la communauté diverse et dynamique associée à A. formosa. Afin d’aller plus loin dans cette analyse, j’ai mis en place durant le dernier quart de ma thèse une collaboration avec l’équipe de biologie des systèmes Dyliss, à l’INRIA. L’apport de méthodes dédiées à la comparaison de réseaux métaboliques devrait ainsi permettre de mettre en évidence des complémentarités métaboliques éventuelles entre la diatomée et les bactéries co-cultivées. Alors qu’il est potentiellement important, le sujet de l’interaction des diatomées avec des bactéries satellites semble souvent négligé en ce qui concerne les espèces de laboratoire. On peut quand même noter l’étude récente du microbiome de P. tricornutum par séquençage de l’ARNr 16S, qui a abouti à l’établissement d’un premier modèle mathématique des interactions potentielles au sein des cultures de cette diatomée (Moejes et al. 2017). Malgré tout, d’autres organismes sont plus beaucoup plus souvent étudiés par le prisme de l’holobionte, comme les éponges marines par exemple. Chez Cymbastela concentrica, des données de métatranscriptomique ont mené à la prédiction d’échanges métaboliques au sein d’une communauté composée notamment d’une diatomée et de plusieurs espèces bactériennes (Moitinho-Silva et al. 2017). Ce relatif manque d’intérêt pour les communautés bactériennes associées aux diatomées est peut-être dû au fait que ces micro-algues, du fait de leur taille mais également de la concentration bactérienne dans leur environnement, sont à priori au contact de moins de bactéries qu’une plante ou un animal (Shady A. Amin, Parker, et Armbrust 2012). De plus, en dehors de quelques cas de symbiose obligatoire, le rôle des bactéries satellites n’est pas immédiatement évident. Un aspect plus souvent étudié des diatomées est leur rôle et leur importance

105

sur le plan environnemental. Leur biodiversité a par exemple été caractérisée dans le cadre du projet Tara océans (Malviya et al. 2016). J’ai pour ma part contribué à l’analyse de transcriptomes de 97 diatomées marines, obtenus dans le cadre d’un autre projet à grande échelle, MMETSP. La prédiction de transferts horizontaux de gènes bactériens semble confirmer que le répertoire de gènes des diatomées comprend bel et bien des séquences d’origine bactérienne. La proportion exacte de séquences bactérienne pourrait par contre être moindre que celle envisagée lorsque le phénomène a été décrit à l’origine. De plus, l’absence de gènes impliqués dans le cycle de l’urée dans les HGT candidats va à l’encontre de l’hypothèse selon laquelle des apports bactériens avaient amené à la diversification de cette voie, et apporté avantage sélectif aux diatomées. L’impact biologique de ces gènes à l’origine évolutive trouble reste donc à préciser, dans un contexte où l’existence même de transferts de gènes vers des génomes eucaryotes est remise en question par certains (Martin 2017), et où des prédictions erronées dans d’autres organismes doivent encourager à la plus grande des prudences (Koutsovoulos et al. 2016; Salzberg 2017).

V.2. Les données massives et la place de la génomique en biologie

Ce bref retour sur quelques très récents développements en génomique, et plus particulièrement sur ceux qui touchent à l’étude des diatomées, montre que mon travail de thèse s’inscrit parfaitement dans les tendances actuelles. Comme on l’a noté (cf I.7), le développement des techniques de séquençage et la diminution drastique de leur coût d’utilisation a d’un côté mené à la multiplication des projets de séquençage de génomes d’organismes non modèles (cf I.8 pour le cas des diatomées), et de l’autre à des études à très grande échelle (ex : 1000 Genomes, Encode, Tara Océans...). Mon travail présente ces deux aspects, avec le séquençage du génome d’A. formosa d’une part, et l’analyse de 97 transcriptomes de diatomées marines d’autre part, ceci en utilisant différentes applications (métagénomique, RNAseq, séquençage de l’ARNr 16S) et technologies (Illumina, Pacific Biosciences). Dans l’absolu, on pourra regretter que cette multiplication des données semble s’accompagner d’une diminution de la qualité

106

moyenne des résultats (les génomes sont moins bien assemblés, moins bien annotés, des erreurs ont tendance à se propager dans les bases de données…), et que la formulation d’hypothèses scientifiques soit parfois postérieure à l’expérience. Cette approche « déterminée par les données » peut être opposée à celle « déterminée par les hypothèses », même si les deux philosophies ne sont pas forcément incompatibles (van Helden 2012). Cependant l’exploration de données massives demande une expertise et une grande rigueur, sans quoi nombre de résultats erronés apparaissent à cause de biais statistiques, et ne peuvent évidemment pas être reproduits par la suite. Certaines disciplines comme les sciences humaines sont particulièrement touchées (Open Science Collaboration 2015), mais d’importants projets de génomique tels qu’ENCODE ont été également vertement critiqués (Graur et al. 2013). Sans remettre en cause ni détailler la teneur particulière de ces critiques, j’ai l’impression qu’un reproche général fait à ces approches massives est que les questions qu’elles soulèvent ne s’intègrent pas toujours immédiatement dans un cadre théorique qui permet une validation expérimentale. Même lorsqu’elles sont exemptes de biais liés à la collection ou l’analyse des données, les corrélations issues de l’analyse de ces jeux de données ne devraient constituer qu’une base de travail. De la même façon, l’analyse de données omiques grâce à la bio- informatique est souhaitable, mais ne se suffit pas à elle-même. L’importance accordée au séquençage d’un nouveau génome est à cet égard très révélatrice. Alors que les descriptions des premières séquences étaient publiées dans les journaux les plus prestigieux au début des années 2000, elles sont maintenant reléguées dans des revues spécialisées, parfois sous la forme d’articles très sommaires (c’est le cas par exemple de la séquence du génome mitochondrial d’A. formosa) (Smith 2016). Cela est logique, puisque la valeur de l’information apportée par un nouveau génome décroît avec la quantité de données déjà disponibles, et avec la moindre qualité de la séquence et de son annotation. De plus, les considérations ayant la plus grande portée biologique, par exemple la présence de gènes impliqués dans le cycle de l’urée alors que cette voie métabolique n’était pas connue chez les diatomées (Armbrust 2004), sont la plupart du temps partagées par les espèces proches. Les génomes de ces dernières, séquencés par la suite, doivent donc révéler des différences particulières à l’espèce, forcément plus délicates à établir, surtout sur la base seule d’une séquence génomique. L’alternative

107

pour les « papiers génomes » est donc d’inclure de très nombreuses données complémentaires qui servent à appuyer un message biologique cohérent et fort. L’étude de l’adaptation au froid de la diatomée F. cylindrus a ainsi été faite sur la base d’un génome séquencé à l’aide des technologies Sanger et Pacific Biosciences, de données d’expression composées d’une banque d’EST et de 6 conditions différentes de RNAseq, d’un méta-transcriptome environnemental et du séquençage Sanger d’amplicons pour des allèles d’intérêt (Mock et al. 2017). Or, si le séquençage d’un génome est accessible à beaucoup plus d’équipes aujourd’hui, une telle accumulation de données omiques reste relativement coûteuse à générer, et peut-être d’avantage encore à analyser. Dans ce contexte, la biologie des systèmes peut être une solution à envisager pour guider l’exploration des données génomiques. Ce cadre d’analyse, adossé à de solides bases mathématiques et informatiques, permet de modéliser avec plus ou moins de granularité des phénomènes biologiques très divers à partir de connaissances théoriques et de données expérimentales quantitatives (Kitano 2002; Breitling 2010). Des simulations permettent ensuite de formuler des prédictions sur le comportement du système modélisé. Cette approche permet une meilleure compréhension de mécanismes complexes, et peut donc aider à la génération d’hypothèses et à l’optimisation du plan expérimental visant à les vérifier.

V.3. Portée et perspectives

La biologie est une science complexe que nous ne pouvons appréhender que par le biais de modèles appuyés sur des observations, et éventuellement inclus dans des théories ayant une portée plus large (Shou et al. 2015). Par exemple l’observation que la majorité des macroorganismes (sinon tous) est en relation avec des micro-organismes, et que ces symbioses peuvent avoir un rôle évolutif important a mené à la proposition de la théorie de l’holobionte par Margulis en 1991, déjà très critiquée par Cavalier-Smith à l’époque (Thomas Cavalier-Smith 1992). Plus récemment, principalement sur la base de travaux menés sur les coraux, c’est le génome de l’hôte et ceux des micro-organismes associés qui sont proposés comme unités de base sur lesquelles la sélection naturelle s’applique, dans la non moins controversée théorie de l’hologénome (Zilber-Rosenberg

108

et Rosenberg 2008). Notre travail sur la communauté bactérienne associée à A. formosa s’inscrit dans la continuité des travaux pionniers sur les bactéries satellites de diatomées (Shady A. Amin, Parker, et Armbrust 2012). Nous apportons de nouvelles données qui permettent principalement de décrire avec une plus grande précision les espèces bactériennes présentes. La question de l’impact des différentes bactéries co- cultivées sur A. formosa reste entière, car si les bases génétiques pour des interactions complémentaires sont là, leur mise en action n’est pas avérée. Et si la définition de l’holobionte ne présume pas d’interactions mutuellement bénéfiques (il s’agit d’un terme neutre, au même titre que symbiose), on peut s’interroger sur l’intérêt du concept dans le cas où les micro-organismes associés sont accessoires. Le fait que l’axénisation d’A. formosa soit problématique est un élément qui suggère que l’élimination d’une ou plusieurs bactéries est délétère pour l’algue. Au contraire, on peut imaginer que la présence de 30 bactéries différentes rend leur élimination plus compliquée, et a conduit à l’utilisation d’antibiotiques ayant un effet direct et néfaste sur l’algue. La recherche de gènes de résistance aux antibiotiques dans les génomes bactériens devrait permettre l’optimisation du protocole d’axénisation. Pour mettre en évidence des interactions entre la diatomée et/ou certaines bactéries, la perturbation des conditions de culture semble essentielle, en premier lieu en jouant sur le milieu utilisé. L’échange de vitamines est par exemple une piste intéressante au vu des disparités importantes au niveau des voies de biosynthèse présentes dans la communauté. Cependant les vitamines B1, B7 et B12 sont supplémentées dans le milieu DM, ce qu’il faudrait éviter si l’on veut pouvoir observer d’éventuelles complémentarités à ce niveau-là. L’analyse des réseaux métaboliques sous la forme de graphes pouvant être croisés pourra également permettre d’explorer des combinaisons nouvelles par rapport aux mécanismes d’interaction diatomée-bactéries déjà connus. L’utilisation de métatranscriptomique et métabolomique dans différentes conditions pourra apporter à la fois des éléments de confirmation des hypothèses, et contribuer à en bâtir de nouvelles. Un travail important est donc encore nécessaire pour mâturer l’étude de la communauté bactérienne associée à A. formosa, qui s’avère plus complexe qu’initialement envisagé. L’apport de la génomique est ici évident puisque nous avons pu écarter l’hypothèse d’un symbionte intracellulaire obligatoire (les images de microscopie ne permettaient pas de conclure),

109

et nous sommes rendus compte que les quelques morphotypes observés correspondaient à un nombre plus élevé de 30 espèces. De plus, même si le protocole de filtration a permis de montrer des différences au niveau de la proximité spatiale vis à vis de la diatomée, la corrélation avec des échanges accrus avec l’algue n’est pas si facile à établir. À ce stade, notre état des lieux poussé de la communauté bactérienne associée à A. formosa en culture rend envisageable des questionnements plus fins. On sait par exemple que l’holobionte joue un rôle primordial dans l’immunité (Pitlik et Koren 2017). Il serait intéressant de déterminer si le parasitisme par des chytrides, dont on pense qu’elles peuvent avoir un rôle dans la structuration génétique des populations d’A. formosa (Gsell et al. 2013), ont également un impact sur le microbiome de la diatomée. Inversement, des bactéries ayant la capacité de produire des molécules antifongiques pourraient avoir un rôle protecteur, comme c’est le cas de certaines bactéries cutanées de batraciens infestés par des chytrides (Flechas et al. 2012). De façon plus générale, étudier le microbiome associé à A. formosa sur un plan écologique pourrait être instructif, afin de pouvoir évaluer sa stabilité en dehors des conditions standards utilisées en laboratoire. Le maintien des associations dans le temps n’est pas systématique dans tous les holobiontes (Hester et al. 2016) mais me semble malgré tout important. En effet, même si la composition de la communauté bactérienne peut partiellement fluctuer selon les variations de paramètres physico-chimiques ou géographiques, il faut cependant que l’hologénome soit stable sur une échelle de temps suffisamment longue pour pouvoir être considéré comme une unité de sélection. Or, si les génomes de diatomées contiennent un certain nombre de gènes d’origine bactérienne, nos résultats n’indiquent pas de flux de gènes préférentiel entre notre souche d’A. formosa et les bactéries qui lui sont associées aujourd’hui. L’utilisation de jeux de données plus massifs couvrant un large échantillonnage taxonomique, tel que celui de MMETSP, sont certainement plus adaptés pour adresser les questions d’évolution et d’échanges de gènes latéraux. Je note cependant qu’au-delà des biais notamment liés à la reconstruction automatisée de très nombreux arbres phylogénétiques, l’interprétation selon différents scénarios évolutifs par plusieurs auteurs peut mener à des hypothèses différentes à partir de résultats très proches. Le problème est peut-être que ces interprétations ne se prêtent pas facilement à une

110

validation expérimentale, et ne sont donc pas jugées à l’aune des prédictions qu’elles peuvent permettre. Suivre les variations génétiques accumulées au cours du temps par A. formosa et les différentes bactéries dans un cadre d’évolution expérimentale serait tout de même très intéressant, et pourrait permettre d’identifier des bactéries sélectionnées. Ce travail pourrait être complété par des remises en cultures avec la diatomée de clones spécifiques isolés au préalable. Des efforts dans ce sens sont menés, mais toutes les espèces identifiées ici n’ont pas pu être isolées à ce jour (Prioretti, communication personnelle). Pour conclure, la génomique est un outil très adapté à l’étude des interactions diatomées-bactéries, et rend envisageable le décryptage d’interactions fines et multipartites. Pour cela, un complément doit cependant être apporté, par le biais de données omiques additionnelles, un travail de modélisation, ou un retour à l’expérimentation. Sur le plan des concepts, il ne me semble pas que celui d’holobionte apporte une réelle plus-value dans l’étude de ces interactions. Par ailleurs, aucun indice tiré de l’analyse des génomes d’A. formosa et des bactéries associées ne renforce l’hypothèse selon laquelle l’hologénome aurait un rôle sur le plan évolutif. J’espère que cette contribution à notre socle de connaissances des diatomées et de leurs relations complexes avec le monde bactérien servira à promouvoir de futures découvertes.

111

Bibliographie

Acuña-Amador, Luis. 2018. « Genomic Repeats, Misassembly and Reannotation: A Case Study with Long-Read Resequencing of Porphyromonas Gingivalis Reference Strains », 24. Adl, Sina M., Alastair G. B. Simpson, Christopher E. Lane, Julius Lukeš, David Bass, Samuel S. Bowser, Matthew W. Brown, et al. 2012. « The Revised Classification of Eukaryotes ». Journal of Eukaryotic Microbiology 59 (5): 429‑514. https://doi.org/10.1111/j.1550-7408.2012.00644.x. Albalat, Ricard, et Cristian Cañestro. 2016. « Evolution by Gene Loss ». Nature Reviews. Genetics 17 (7): 379‑91. https://doi.org/10.1038/nrg.2016.39. « Algae World: David Mann publications: David Mann publications: PhD thesis on Nitzschiaceae (Bacillariaceae), including Nitzschia and Hantzschia ». 2018. 15 avril 2018. http://rbg-web2.rbge.org.uk/algae/publications_mann_thesis.html. Allen, Andrew E., Christopher L. Dupont, Miroslav Oborník, Aleš Horák, Adriano Nunes- Nesi, John P. McCrow, Hong Zheng, et al. 2011. « Evolution and Metabolic Significance of the Urea Cycle in Photosynthetic Diatoms ». Nature 473 (7346): 203‑7. https://doi.org/10.1038/nature10074. Allen, Andrew E, Assaf Vardi, et Chris Bowler. 2006. « An ecological and evolutionary context for integrated nitrogen metabolism and related signaling pathways in marine diatoms ». Current Opinion in Plant Biology, Physiology and metabolism / edited by Eran Pichersky and Krishna Niyogi, 9 (3): 264‑73. https://doi.org/10.1016/j.pbi.2006.03.013. Alverson, Andrew J., Bánk Beszteri, Matthew L. Julius, et Edward C. Theriot. 2011. « The model marine diatom Thalassiosira pseudonana likely descended from a freshwater ancestor in the genus Cyclotella ». BMC evolutionary biology 11 (1): 125. Ameryk, Anetta, Richard L. Hahnke, Sławomira Gromisz, Janina Kownacka, Mariusz Zalewski, Lena Szymanek, Joanna Całkiewicz, Julita Dunalska, et Jens Harder. 2014. « Bacterial community structure influenced by Coscinodiscus sp. in the Vistula river plume**This research was carried out with the support of a grant from the Polish Ministry of Science and Higher Education (No. NN304 025334) and statutory activities of the Department of Fisheries Oceanography and Marine Ecology of the National Marine Fisheries Research Institute (project P1-2). » Oceanologia 56 (4): 825‑56. https://doi.org/10.5697/oc.56-4.825. Amin, S. A., L. R. Hmelo, H. M. van Tol, B. P. Durham, L. T. Carlson, K. R. Heal, R. L. Morales, et al. 2015. « Interaction and Signalling between a Cosmopolitan Phytoplankton and Associated Bacteria ». Nature 522 (7554): 98‑101. https://doi.org/10.1038/nature14488. 112

Amin, Shady A., Micaela S. Parker, et E. Virginia Armbrust. 2012. « Interactions between Diatoms and Bacteria ». Microbiology and Molecular Biology Reviews : MMBR 76 (3): 667‑84. https://doi.org/10.1128/MMBR.00007-12. Amspoker, Michael C., et C. David McIntire. 1978. « DISTRIBUTION OF INTERTIDAL DIATOMS ASSOCIATED WITH SEDIMENTS IN YAQUINA ESTUARY, OREGON 1, 2 ». Journal of Phycology 14 (4): 387‑95. https://doi.org/10.1111/j.1529- 8817.1978.tb02457.x. An, Sung Min, Soo Yeon Kim, Jae Hoon Noh, et Eun Chan Yang. 2015. « Complete mitochondrial genome of Skeletonema marinoi (Mediophyceae, Bacillariophyta), a clonal chain forming diatom in the west coast of Korea ». Mitochondrial DNA, décembre, 1‑2. https://doi.org/10.3109/19401736.2015.1106523. An, Sung Min, Jae Hoon Noh, Dong Han Choi, Jung Ho Lee, et Eun Chan Yang. 2014. « Repeat Region Absent in Mitochondrial Genome of Tube-Dwelling Diatom Berkeleya Fennica (Naviculales, Bacillariophyceae) ». Mitochondrial DNA, novembre, 1‑2. https://doi.org/10.3109/19401736.2014.982594. An, Sung Min, Jae Hoon Noh, Hyee Ryun Lee, Dong Han Choi, Jung Ho Lee, et Eun Chan Yang. 2016. « Complete Mitochondrial Genome of Biraphid Benthic Diatom, Navicula Ramosissima (Naviculales, Bacillariophyceae) ». Mitochondrial DNA Part B 1 (1): 549‑50. https://doi.org/10.1080/23802359.2016.1198997. Antonelli, Marta, Carlos E. Wetzel, Luc Ector, Adriaan J. Teuling, et Laurent Pfister. 2017. « On the Potential for Terrestrial Diatom Communities and Diatom Indices to Identify Anthropic Disturbance in Soils ». Ecological Indicators 75 (avril): 73‑81. https://doi.org/10.1016/j.ecolind.2016.12.003. Archibald, John M., et Patrick J. Keeling. 2002. « Recycled Plastids: A ‘Green Movement’ in Eukaryotic Evolution ». Trends in Genetics 18 (11): 577‑84. https://doi.org/10.1016/S0168-9525(02)02777-4. Armbrust, E. V. 2004. « The Genome of the Diatom Thalassiosira Pseudonana: Ecology, Evolution, and Metabolism ». Science 306 (5693): 79‑86. https://doi.org/10.1126/science.1101156. Aumont, Olivier, Ernst Maier-Reimer, Stéphane Blain, et P. Monfray. 2003. « An Ecosystem Model of the Global Ocean Including Fe, Si, P Colimitations: AN ECOSYSTEM MODEL OF THE WORLD OCEAN ». Global Biogeochemical Cycles 17 (2): n/a-n/a. https://doi.org/10.1029/2001GB001745. Azam, F., D. C. Smith, G. F. Steward, et A. Hagstrom. 1994. « Bacteria-Organic Matter Coupling and Its Significance for Oceanic Carbon Cycling ». Microbial Ecology 28 (2): 167‑79. https://doi.org/10.1007/BF00166806. Bairoch, Amos, et Rolf Apweiler. 2000. « The SWISS-PROT protein sequence database and its supplement TrEMBL in 2000 ». Nucleic Acids Research 28 (1): 45‑48. Bankevich, Anton, Sergey Nurk, Dmitry Antipov, Alexey A. Gurevich, Mikhail Dvorkin, Alexander S. Kulikov, Valery M. Lesin, et al. 2012. « SPAdes: A New Genome

113

Assembly Algorithm and Its Applications to Single-Cell Sequencing ». Journal of Computational Biology 19 (5): 455‑77. https://doi.org/10.1089/cmb.2012.0021. Bao, Weidong, Kenji K. Kojima, et Oleksiy Kohany. 2015. « Repbase Update, a database of repetitive elements in eukaryotic genomes ». Mobile DNA 6 (juin). https://doi.org/10.1186/s13100-015-0041-9. Basu, Swaraj, Shrikant Patil, Daniel Mapleson, Monia Teresa Russo, Laura Vitale, Cristina Fevola, Florian Maumus, et al. 2017. « Finding a Partner in the Ocean: Molecular and Evolutionary Bases of the Response to Sexual Cues in a Planktonic Diatom ». New Phytologist 215 (1): 140‑56. https://doi.org/10.1111/nph.14557. Bavestrello, G, A Arillo, B Calcinai, R Cattaneo-Vietti, C Cerrano, E Gaino, A Penna, et M Sara. 2000. « Parasitic Diatoms inside Antarctic Sponges ». The Biological Bulletin 198 (1): 29‑33. https://doi.org/10.2307/1542801. Bayer-Giraldi, Maddalena, Christiane Uhlig, Uwe John, Thomas Mock, et Klaus Valentin. 2010. « Antifreeze Proteins in Polar Sea Ice Diatoms: Diversity and Gene Expression in the Genus Fragilariopsis: Cold Adaptation in the Polar Genus Fragilariopsis ». Environmental Microbiology 12 (4): 1041‑52. https://doi.org/10.1111/j.1462-2920.2009.02149.x. Becraft, Eric D., Tanja Woyke, Jessica Jarett, Natalia Ivanova, Filipa Godoy-Vitorino, Nicole Poulton, Julia M. Brown, et al. 2017. « Rokubacteria: Genomic Giants among the Uncultured Bacterial Phyla ». Frontiers in Microbiology 8 (novembre). https://doi.org/10.3389/fmicb.2017.02264. Bedoshvili, Ye. D., T. P. Popkova, et Ye. V. Likhoshway. 2009. « Chloroplast Structure of Diatoms of Different Classes ». Cell and Tissue Biology 3 (3): 297‑310. https://doi.org/10.1134/S1990519X09030122. Bemm, Felix, Clemens Leonard Weiß, Jörg Schultz, et Frank Förster. 2016. « Genome of a Tardigrade: Horizontal Gene Transfer or Bacterial Contamination? » Proceedings of the National Academy of Sciences 113 (22): E3054‑56. https://doi.org/10.1073/pnas.1525116113. Bertrand, Céline, Évelyne Franquet, Stéphanie Fayolle, et Arlette Cazaubon. 2003. « Une nouvelle approche de la biodiversité : plasticité morphologique chez une diatomée d’eau douce ». Comptes Rendus Biologies 326 (1): 107‑20. https://doi.org/10.1016/S1631-0691(03)00012-X. Bidle, Kay D., et Farooq Azam. 1999. « Accelerated Dissolution of Diatom Silica by Marine Bacterial Assemblages ». Nature 397 (6719): 508‑12. https://doi.org/10.1038/17351. Bigelow, P., et P. Alexander. 2000. « Diatoms on the cirri of tropical barnacles ». Journal of the Marine Biological Association of the United Kingdom 80 (1): 737‑38. Birol, I., S. D. Jackman, C. B. Nielsen, J. Q. Qian, R. Varhol, G. Stazyk, R. D. Morin, et al. 2009. « De Novo Transcriptome Assembly with ABySS ». Bioinformatics 25 (21): 2872‑77. https://doi.org/10.1093/bioinformatics/btp367.

114

Boothby, Thomas C., Jennifer R. Tenlen, Frank W. Smith, Jeremy R. Wang, Kiera A. Patanella, Erin Osborne Nishimura, Sophia C. Tintori, et al. 2015. « Evidence for Extensive Horizontal Gene Transfer from the Draft Genome of a Tardigrade ». Proceedings of the National Academy of Sciences of the United States of America 112 (52): 15976‑81. https://doi.org/10.1073/pnas.1510461112. Bowler, Chris, Andrew E. Allen, Jonathan H. Badger, Jane Grimwood, Kamel Jabbari, Alan Kuo, Uma Maheswari, et al. 2008. « The Phaeodactylum Genome Reveals the Evolutionary History of Diatom Genomes ». Nature 456 (7219): 239‑44. https://doi.org/10.1038/nature07410. Bowler, Chris, Assaf Vardi, et Andrew E. Allen. 2010. « Oceanographic and Biogeochemical Insights from Diatom Genomes ». Annual Review of Marine Science 2 (1): 333‑65. https://doi.org/10.1146/annurev-marine-120308- 081051. Bradnam, Keith R, Joseph N Fass, Anton Alexandrov, Paul Baranay, Michael Bechner, Inanç Birol, Sébastien Boisvert, et al. 2013. « Assemblathon 2: Evaluating de Novo Methods of Genome Assembly in Three Vertebrate Species ». GigaScience 2 (1). https://doi.org/10.1186/2047-217X-2-10. Branton, Daniel, David W Deamer, Andre Marziali, Hagan Bayley, Steven A Benner, Thomas Butler, Massimiliano Di Ventra, et al. 2008. « The potential and challenges of nanopore sequencing ». Nature biotechnology 26 (10): 1146‑53. https://doi.org/10.1038/nbt.1495. Breitling, Rainer. 2010. « What is systems biology? » Frontiers in Physiology 1. https://doi.org/10.3389/fphys.2010.00009. Brodie, Juliet, et Jane Lewis. 2007. Unravelling the Algae: The Past, Present, and Future of Algal Systematics. CRC Press. Brown, Joseph W., et Ulf Sorhannus. 2010. « A Molecular Genetic Timescale for the Diversification of Autotrophic Stramenopiles (Ochrophyta): Substantive Underestimation of Putative Fossil Ages ». Édité par M. Thomas P. Gilbert. PLoS ONE 5 (9): e12759. https://doi.org/10.1371/journal.pone.0012759. Bruckner, C. G., R. Bahulikar, M. Rahalkar, B. Schink, et P. G. Kroth. 2008. « Bacteria Associated with Benthic Diatoms from Lake Constance: Phylogeny and Influences on Diatom Growth and Secretion of Extracellular Polymeric Substances ». Applied and Environmental Microbiology 74 (24): 7740‑49. https://doi.org/10.1128/AEM.01399-08. Buhmann, Matthias T., John G. Day, et Peter G. Kroth. 2013. « Post-Cryopreservation Viability of the Benthic Freshwater Diatom Planothidium Frequentissimum Depends on Light Levels ». Cryobiology 67 (1): 23‑29. https://doi.org/10.1016/j.cryobiol.2013.04.005. Buhmann, Matthias T., Birgit Schulze, Alexander Förderer, David Schleheck, et Peter G. Kroth. 2016. « Bacteria May Induce the Secretion of Mucin-like Proteins by the Diatom Phaeodactylum Tricornutum ». Édité par T. Mock. Journal of Phycology 52 (3): 463‑74. https://doi.org/10.1111/jpy.12409. 115

Burki, F., N. Okamoto, J.-F. Pombert, et P. J. Keeling. 2012. « The Evolutionary History of Haptophytes and Cryptophytes: Phylogenomic Evidence for Separate Origins ». Proceedings of the Royal Society B: Biological Sciences 279 (1736): 2246‑54. https://doi.org/10.1098/rspb.2011.2301. Burki, Fabien, Kamran Shalchian-Tabrizi, Marianne Minge, Åsmund Skjæveland, Sergey I. Nikolaev, Kjetill S. Jakobsen, et Jan Pawlowski. 2007. « Phylogenomics Reshuffles the Eukaryotic Supergroups ». Édité par Geraldine Butler. PLoS ONE 2 (8): e790. https://doi.org/10.1371/journal.pone.0000790. Camacho, Christiam, George Coulouris, Vahram Avagyan, Ning Ma, Jason Papadopoulos, Kevin Bealer, et Thomas L Madden. 2009. « BLAST+: architecture and applications ». BMC Bioinformatics 10 (décembre): 421. https://doi.org/10.1186/1471-2105-10-421. Canchaya, Carlos, Ghislain Fournous, Sandra Chibani-Chennoufi, Marie Lise Dillmann, et Harald Brüssow. 2003. « Phage as Agents of Lateral Gene Transfer ». Current Opinion in Microbiology 6 (4): 417‑24. Cantarel, Brandi L., Ian Korf, M.C. Robb, Genis Parra, Eric Ross, Barry Moore, Carson Holt, Alejandro Sánchez Alvarado, et Mark Yandell. 2008. « MAKER: An easy-to-use annotation pipeline designed for emerging model organism genomes ». Genome Research 18 (1): 188‑96. https://doi.org/10.1101/gr.6743907. Canter, Hilda M., et G. H. M. Jaworski. 1979. « THE OCCURRENCE OF A HYPERSENSITIVE REACTION IN THE PLANKTONIC DIATOM ASTERIONELLA FORMOSA HASSALL PARASITIZED BY THE CHYTRID RHIZOPHYDIUM PLANKTONICUM CANTER EMEND., IN CULTURE* ». New Phytologist 82 (1): 187‑206. https://doi.org/10.1111/j.1469-8137.1979.tb07574.x. Caspi, R. 2006. « MetaCyc: A Multiorganism Database of Metabolic Pathways and Enzymes ». Nucleic Acids Research 34 (90001): D511‑16. https://doi.org/10.1093/nar/gkj128. Cavalier-Smith, T. 1999. « Principles of Protein and Lipid Targeting in Secondary Symbiogenesis: Euglenoid, Dinoflagellate, and Sporozoan Plastid Origins and the Eukaryote Family Tree ». The Journal of Eukaryotic Microbiology 46 (4): 347‑66. Cavalier-Smith, Thomas. 1992. « Helotism, Symbiosis and Evolution ». Tree 7 (12): 422‑ 23. ———. 2010. « Kingdoms Protozoa and Chromista and the eozoan root of the eukaryotic tree ». Biology Letters 6 (3): 342‑45. https://doi.org/10.1098/rsbl.2009.0948. Chaisson, Mark J, et Glenn Tesler. 2012. « Mapping Single Molecule Sequencing Reads Using Basic Local Alignment with Successive Refinement (BLASR): Application and Theory ». BMC Bioinformatics 13 (1): 238. https://doi.org/10.1186/1471- 2105-13-238.

116

Chepurnov, Victor A., et David G. Mann. 1997. « Variation in the Sexual Behaviour of Natural Clones of Achnanthes Longipes (Bacillariophyta) ». European Journal of Phycology 32 (2): 147‑54. https://doi.org/10.1080/09670269710001737079. Chepurnov, Victor A., David G. Mann, Peter von Dassow, Pieter Vanormelingen, Jeroen Gillard, Dirk Inzé, Koen Sabbe, et Wim Vyverman. 2008. « In Search of New Tractable Diatoms for Experimental Biology ». BioEssays 30 (7): 692‑702. https://doi.org/10.1002/bies.20773. Chepurnov, Victor A., David G. Mann, Koen Sabbe, et Wim Vyverman. 2004. « Experimental Studies on Sexual Reproduction in Diatoms ». In International Review of Cytology, 237:91‑154. Elsevier. https://doi.org/10.1016/S0074- 7696(04)37003-8. Chin, Chen-Shan, David H Alexander, Patrick Marks, Aaron A Klammer, James Drake, Cheryl Heiner, Alicia Clum, et al. 2013. « Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data ». Nature Methods 10 (6): 563‑ 69. https://doi.org/10.1038/nmeth.2474. Chin, Chen-Shan, Paul Peluso, Fritz J Sedlazeck, Maria Nattestad, Gregory T Concepcion, Alicia Clum, Christopher Dunn, et al. 2016. « Phased Diploid Genome Assembly with Single-Molecule Real-Time Sequencing », 7. Chojnacki, Szymon, Andrew Cowley, Joon Lee, Anna Foix, et Rodrigo Lopez. 2017. « Programmatic Access to Bioinformatics Tools from EMBL-EBI Update: 2017 ». Nucleic Acids Research 45 (W1): W550‑53. https://doi.org/10.1093/nar/gkx273. Claesson, Marcus J., Qiong Wang, Orla O’Sullivan, Rachel Greene-Diniz, James R. Cole, R. Paul Ross, et Paul W. O’Toole. 2010. « Comparison of two next-generation sequencing technologies for resolving highly complex microbiota composition using tandem variable 16S rRNA gene regions ». Nucleic Acids Research 38 (22): e200. https://doi.org/10.1093/nar/gkq873. Clement, Romain, Erik Jensen, Laura Prioretti, Stephen C Maberly, et Brigitte Gontero. 2017. « Diversity of CO2-Concentrating Mechanisms and Responses to CO2 Concentration in Marine and Freshwater Diatoms ». Journal of Experimental Botany 68 (14): 3925‑35. https://doi.org/10.1093/jxb/erx035. Cooper, Matthew B, et Alison G Smith. 2015. « Exploring Mutualistic Interactions between Microalgae and Bacteria in the Omics Age ». Current Opinion in Plant Biology 26 (août): 147‑53. https://doi.org/10.1016/j.pbi.2015.07.003. Criscuolo, Alexis, et Sylvain Brisse. 2013. « AlienTrimmer: A Tool to Quickly and Accurately Trim off Multiple Short Contaminant Sequences from High- Throughput Sequencing Reads ». Genomics 102 (5‑6): 500‑506. https://doi.org/10.1016/j.ygeno.2013.07.011. Croft, M. T., M. J. Warren, et A. G. Smith. 2006. « Algae Need Their Vitamins ». Eukaryotic Cell 5 (8): 1175‑83. https://doi.org/10.1128/EC.00097-06. Daboussi, Fayza, Sophie Leduc, Alan Maréchal, Gwendoline Dubois, Valérie Guyot, Christophe Perez-Michaut, Alberto Amato, et al. 2014. « Genome engineering

117

empowers the diatom Phaeodactylum tricornutum for biotechnology ». Nature Communications 5 (mai). https://doi.org/10.1038/ncomms4831. Dahllöf, Ingela, Harriet Baillie, et Staffan Kjelleberg. 2000. « rpoB-Based Microbial Community Analysis Avoids Limitations Inherent in 16S rRNA Gene Intraspecies Heterogeneity ». Applied and Environmental Microbiology 66 (8): 3376‑80. Dean, F. B., S. Hosono, L. Fang, X. Wu, A. F. Faruqi, P. Bray-Ward, Z. Sun, et al. 2002. « Comprehensive Human Genome Amplification Using Multiple Displacement Amplification ». Proceedings of the National Academy of Sciences 99 (8): 5261‑66. https://doi.org/10.1073/pnas.082089499. Delcher, Arthur L, Simon Kasif, Robert D Fleischmann, Jeremy Peterson, Owen White, et Steven L Salzberg. 1999. « Alignment of Whole Genomes ». Nucleic Acids Research 27 (11): 8. Denton, James F., Jose Lugo-Martinez, Abraham E. Tucker, Daniel R. Schrider, Wesley C. Warren, et Matthew W. Hahn. 2014. « Extensive Error in the Number of Genes Inferred from Draft Genome Assemblies ». Édité par Roderic Guigo. PLoS Computational Biology 10 (12): e1003998. https://doi.org/10.1371/journal.pcbi.1003998. DENYS, LUC, et WILLEM H DE SMET. 2010. « EPIPELLIS OIKETIS (BACILLARIOPHYTA) ON HARBOR PORPOISES FROM THE NORTH SEA CHANNEL () ». POLISH BOTANICAL JOURNAL, 8. Derelle, Romain, Purificación López-García, Hélène Timpano, et David Moreira. 2016. « A Phylogenomic Framework to Study the Diversity and Evolution of Stramenopiles (=Heterokonts) ». Molecular Biology and Evolution 33 (11): 2890‑98. https://doi.org/10.1093/molbev/msw168. Desbois, Andrew P., Tomas Lebl, Liming Yan, et Valerie J. Smith. 2008. « Isolation and Structural Characterisation of Two Antibacterial Free Fatty Acids from the Marine Diatom, Phaeodactylum Tricornutum ». Applied Microbiology and Biotechnology 81 (4): 755‑64. https://doi.org/10.1007/s00253-008-1714-9. Deschamps, Philippe, et David Moreira. 2012. « Reevaluating the Green Contribution to Diatom Genomes ». Genome Biology and Evolution 4 (7): 683‑88. https://doi.org/10.1093/gbe/evs053. Diner, Rachel E., Chari M. Noddings, Nathan C. Lian, Anthony K. Kang, Jeffrey B. McQuaid, Jelena Jablanovic, Josh L. Espinoza, et al. 2017. « Diatom Centromeres Suggest a Mechanism for Nuclear DNA Acquisition ». Proceedings of the National Academy of Sciences 114 (29): E6015‑24. https://doi.org/10.1073/pnas.1700764114. Donald A. Croll, et Robert W. Holmes. 1982. « A Note on the Occurrence of Diatoms on the Feathers of Diving Seabirds ». The Auk 99 (4): 765‑66. Doolittle, W. F. 1998. « You Are What You Eat: A Gene Transfer Ratchet Could Account for Bacterial Genes in Eukaryotic Nuclear Genomes ». Trends in Genetics: TIG 14 (8): 307‑11.

118

Dorrell, Richard G, Gillian Gile, Giselle McCallum, Raphaël Méheust, Eric P Bapteste, Christen M Klinger, Loraine Brillet-Guéguen, Katalina D Freeman, Daniel J Richter, et Chris Bowler. 2017. « Chimeric Origins of Ochrophytes and Haptophytes Revealed through an Ancient Plastid Proteome ». ELife 6 (mai). https://doi.org/10.7554/eLife.23717. Dorrell, Richard G., et Alison G. Smith. 2011. « Do Red and Green Make Brown?: Perspectives on Plastid Acquisitions within Chromalveolates ▿ ». Eukaryotic Cell 10 (7): 856‑68. https://doi.org/10.1128/EC.00326-10. Douglas, Angela E., et John H. Werren. 2016. « Holes in the Hologenome: Why Host- Microbe Symbioses Are Not Holobionts ». MBio 7 (2): e02099-15. https://doi.org/10.1128/mBio.02099-15. Doxey, Andrew C, Daniel A Kurtz, Michael DJ Lynch, Laura A Sauder, et Josh D Neufeld. 2015. « Aquatic metagenomes implicate Thaumarchaeota in global cobalamin production ». The ISME Journal 9 (2): 461‑71. https://doi.org/10.1038/ismej.2014.142. Driscoll, Connor B., Timothy G. Otten, Nathan M. Brown, et Theo W. Dreher. 2017. « Towards long-read metagenomics: complete assembly of three novel genomes from bacteria dependent on a diazotrophic cyanobacterium in a freshwater lake co-culture ». Standards in Genomic Sciences 12 (janvier). https://doi.org/10.1186/s40793-017-0224-8. Druzhkova, Elena, Anatoliy Oleinik, et Pavel Makarevich. 2018. « Live Autochthonous Benthic Diatoms on the Lower Depths of Arctic Continental Shelf. Preliminary Results ». Oceanologia 60 (1): 97‑100. https://doi.org/10.1016/j.oceano.2017.07.001. Dupressoir, A., C. Lavialle, et T. Heidmann. 2012. « From Ancestral Infectious Retroviruses to Bona Fide Cellular Genes: Role of the Captured Syncytins in Placentation ». Placenta 33 (9): 663‑71. https://doi.org/10.1016/j.placenta.2012.05.005. Durham, Bryndan P., Shalabh Sharma, Haiwei Luo, Christa B. Smith, Shady A. Amin, Sara J. Bender, Stephen P. Dearth, et al. 2015. « Cryptic carbon and sulfur cycling between surface ocean plankton ». Proceedings of the National Academy of Sciences of the United States of America 112 (2): 453‑57. https://doi.org/10.1073/pnas.1413137112. Durkin, C. A., T. Mock, et E. V. Armbrust. 2009. « Chitin in Diatoms and Its Association with the Cell Wall ». Eukaryotic Cell 8 (7): 1038‑50. https://doi.org/10.1128/EC.00079-09. Earl, D., K. Bradnam, J. St. John, A. Darling, D. Lin, J. Fass, H. O. K. Yu, et al. 2011. « Assemblathon 1: A Competitive Assessment of de Novo Short Read Assembly Methods ». Genome Research 21 (12): 2224‑41. https://doi.org/10.1101/gr.126599.111.

119

Edgar, Robert C. 2013. « UPARSE: Highly Accurate OTU Sequences from Microbial Amplicon Reads ». Nature Methods 10 (10): 996‑98. https://doi.org/10.1038/nmeth.2604. ———. 2017. « Updating the 97% Identity Threshold for 16S Ribosomal RNA OTUs », septembre. https://doi.org/10.1101/192211. Edlund, Mark B., et Eugene F. Stoermer. 1997. « ECOLOGICAL, EVOLUTIONARY, AND SYSTEMATIC SIGNIFICANCE OF DIATOM LIFE HISTORIES1 ». Journal of Phycology 33 (6): 897‑918. https://doi.org/10.1111/j.0022-3646.1997.00897.x. Eid, J., A. Fehr, J. Gray, K. Luong, J. Lyle, G. Otto, P. Peluso, et al. 2009. « Real-Time DNA Sequencing from Single Polymerase Molecules ». Science 323 (5910): 133‑38. https://doi.org/10.1126/science.1162986. Ellinghaus, David, Stefan Kurtz, et Ute Willhoeft. 2008. « LTRharvest, an efficient and flexible software for de novo detection of LTR retrotransposons ». BMC Bioinformatics 9 (janvier): 18. https://doi.org/10.1186/1471-2105-9-18. Eloe-Fadrosh, Emiley A., David Paez-Espino, Jessica Jarett, Peter F. Dunfield, Brian P. Hedlund, Anne E. Dekas, Stephen E. Grasby, et al. 2016. « Global metagenomic survey reveals a new bacterial candidate phylum in geothermal springs ». Nature Communications 7 (janvier): 10476. https://doi.org/10.1038/ncomms10476. Eme, Laura, Eleni Gentekaki, Bruce Curtis, John M. Archibald, et Andrew J. Roger. 2017. « Lateral Gene Transfer in the Adaptation of the Anaerobic Parasite Blastocystis to the Gut ». Current Biology: CB 27 (6): 807‑20. https://doi.org/10.1016/j.cub.2017.02.003. Fietz, Susanne, Alfredo Martínez-Garcia, Gemma Rueda, Vicky L. Peck, Carme Huguet, Marina Escala, et Antoni Rosell-Melé. 2011. « Crenarchaea and Phytoplankton Coupling in Sedimentary Archives: Common Trigger or Metabolic Dependence? » Limnology and Oceanography 56 (5): 1907‑16. https://doi.org/10.4319/lo.2011.56.5.1907. Findlay, J. A., et A. D. Patil. 1984. « Antibacterial Constituents of the Diatom Navicula Delognei ». Journal of Natural Products 47 (5): 815‑18. Finn, Robert D., Alex Bateman, Jody Clements, Penelope Coggill, Ruth Y. Eberhardt, Sean R. Eddy, Andreas Heger, et al. 2014. « Pfam: the protein families database ». Nucleic Acids Research 42 (Database issue): D222‑30. https://doi.org/10.1093/nar/gkt1223. Flechas, Sandra V., Carolina Sarmiento, Martha E. Cárdenas, Edgar M. Medina, Silvia Restrepo, et Adolfo Amézquita. 2012. « Surviving Chytridiomycosis: Differential Anti-Batrachochytrium Dendrobatidis Activity in Bacterial Isolates from Three Lowland Species of Atelopus ». Édité par Brian Gratwicke. PLoS ONE 7 (9): e44832. https://doi.org/10.1371/journal.pone.0044832. Foster, Rachel A, Marcel M M Kuypers, Tomas Vagner, Ryan W Paerl, Niculina Musat, et Jonathan P Zehr. 2011. « Nitrogen fixation and transfer in open ocean diatom–

120

cyanobacterial symbioses ». The ISME Journal 5 (9): 1484‑93. https://doi.org/10.1038/ismej.2011.26. Frank, J. A., Y. Pan, A. Tooming-Klunderud, V. G. H. Eijsink, A. C. McHardy, A. J. Nederbragt, et P. B. Pope. 2016. « Improved Metagenome Assemblies and Taxonomic Binning Using Long-Read Circular Consensus Sequence Data ». Scientific Reports 6 (1). https://doi.org/10.1038/srep25373. Furusawa, Gou, Takeshi Yoshikawa, Akihiro Yasuda, et Taizo Sakata. 2003. « Algicidal Activity and Gliding Motility of Saprospira Sp. SS98-5 ». Canadian Journal of Microbiology 49 (2): 92‑100. https://doi.org/10.1139/w03-017. Galachyants, Y. P., Yu. R. Zakharova, D. P. Petrova, A. A. Morozov, I. A. Sidorov, A. M. Marchenkov, M. D. Logacheva, et al. 2015. « Sequencing of the Complete Genome of an Araphid Pennate Diatom Synedra Acus Subsp. Radians from Lake Baikal ». Doklady Biochemistry and Biophysics 461 (1): 84‑88. https://doi.org/10.1134/S1607672915020064. Gantner, Stephan, Anders F. Andersson, Laura Alonso-Sáez, et Stefan Bertilsson. 2011. « Novel Primers for 16S RRNA-Based Archaeal Community Analyses in Environmental Samples ». Journal of Microbiological Methods 84 (1): 12‑18. https://doi.org/10.1016/j.mimet.2010.10.001. Garcia, Sarahi L., Moritz Buck, Katherine D. McMahon, Hans-Peter Grossart, Alexander Eiler, et Falk Warnecke. 2015. « Auxotrophy and Intrapopulation Complementary in the ‘Interactome’ of a Cultivated Freshwater Model Community ». Molecular Ecology 24 (17): 4449‑59. https://doi.org/10.1111/mec.13319. Garcia-Vallvé, Santiago, Anton Romeu, et Jaume Palau. 2000. « Horizontal gene transfer in bacterial and archaeal complete genomes ». Genome Research 10 (11): 1719– 1725. Gardner, Malcolm J., Neil Hall, Eula Fung, Owen White, Matthew Berriman, Richard W. Hyman, Jane M. Carlton, et al. 2002. « Genome Sequence of the Human Malaria Parasite Plasmodium Falciparum ». Nature 419 (6906): 498‑511. https://doi.org/10.1038/nature01097. Goffeau, A., B. G. Barrell, H. Bussey, R. W. Davis, B. Dujon, H. Feldmann, F. Galibert, et al. 1996. « Life with 6000 Genes ». Science (New York, N.Y.) 274 (5287): 546, 563‑67. Gordon, Jeffrey, Nancy Knowlton, David A. Relman, Forest Rohwer, et Merry Youle. 2013. « Superorganisms and Holobionts ». Microbe 8 (4): 152‑53. Gordon, Richard, et Ryan W. Drum. 1994. « The Chemical Basis of Diatom Morphogenesis ». In International Review of Cytology, 150:243‑372. Elsevier. https://doi.org/10.1016/S0074-7696(08)61544-2. Graham, James M., Linda E. Graham, Shahrizim B. Zulkifly, Brian F. Pfleger, Spencer W. Hoover, et Jun Yoshitani. 2012. « Freshwater Diatoms as a Source of Lipids for Biofuels ». Journal of Industrial Microbiology & Biotechnology 39 (3): 419‑28. https://doi.org/10.1007/s10295-011-1041-5.

121

Graur, D., Y. Zheng, N. Price, R. B. R. Azevedo, R. A. Zufall, et E. Elhaik. 2013. « On the Immortality of Television Sets: “Function” in the Human Genome According to the Evolution-Free Gospel of ENCODE ». Genome Biology and Evolution 5 (3): 578 ‑90. https://doi.org/10.1093/gbe/evt028. Grossart, Hans-Peter, Florian Levold, Martin Allgaier, Meinhard Simon, et Thorsten Brinkhoff. 2005. « Marine Diatom Species Harbour Distinct Bacterial Communities: Marine Diatom Species Harbour Distinct Bacterial Communities ». Environmental Microbiology 7 (6): 860‑73. https://doi.org/10.1111/j.1462- 2920.2005.00759.x. Gsell, Alena S, Lisette N de Senerpont Domis, Koen JF Verhoeven, Ellen van Donk, et Bastiaan W Ibelings. 2013. « Chytrid Epidemics May Increase Genetic Diversity of a Diatom Spring-Bloom ». The ISME Journal 7 (10): 2057‑59. https://doi.org/10.1038/ismej.2013.73. Guglielmini, Julien, Leonor Quintais, Maria Pilar Garcillán-Barcia, Fernando de la Cruz, et Eduardo P. C. Rocha. 2011. « The Repertoire of ICE in Prokaryotes Underscores the Unity, Diversity, and Ubiquity of Conjugation ». Édité par Josep Casadesús. PLoS Genetics 7 (8): e1002222. https://doi.org/10.1371/journal.pgen.1002222. Guillou, Laure, Seung-Yeo Moon-Van Der Staay, Herve Claustre, Frederic Partensky, et Daniel Vaulot. 1999. « Diversity and Abundance of Bolidophyceae (Heterokonta) in Two Oceanic Regions ». Applied and Environmental Microbiology 65 (10): 4528 ‑36. Guindon, Stéphane, Jean-François Dufayard, Vincent Lefort, Maria Anisimova, Wim Hordijk, et Olivier Gascuel. 2010. « New Algorithms and Methods to Estimate Maximum-Likelihood Phylogenies: Assessing the Performance of PhyML 3.0 ». Systematic Biology 59 (3): 307‑21. https://doi.org/10.1093/sysbio/syq010. Guiry, Michael D. 2012. « HOW MANY SPECIES OF ALGAE ARE THERE? » Journal of Phycology 48 (5): 1057‑63. https://doi.org/10.1111/j.1529-8817.2012.01222.x. Hauth, A. M. 2005. « The Rhodomonas Salina Mitochondrial Genome: Bacteria-like Operons, Compact Gene Arrangement and Complex Repeat Region ». Nucleic Acids Research 33 (14): 4433‑42. https://doi.org/10.1093/nar/gki757. Hayakawa, Toshiyuki, Sakae Kudoh, Yoshihiro Suzuki, et Masayuki Takahashi. 1994. « TEMPERATURE-DEPENDENT CHANGES IN COLONY SIZE OF THE FRESHWATER PENNATE DIATOM ASTERIONELLA FORMOSA (BACILLARIOPHYCEAE) AND THEIR POSSIBLE ECOLOGICAL IMPLICATIONS1 ». Journal of Phycology 30 (6): 955‑64. https://doi.org/10.1111/j.0022- 3646.1994.00955.x. Helden, Paul van. 2012. « Data-driven hypotheses ». EMBO reports 14 (2): 104‑104. https://doi.org/10.1038/embor.2012.207. Hendey, N. Ingram, D. H. Cushing, et G. W. Ripley. 1954. « Electron Microscope Studies Of Diatoms ». Journal of the Royal Microscopical Society 74 (1): 22‑34. https://doi.org/10.1111/j.1365-2818.1954.tb01999.x.

122

Hester, Eric R, Katie L Barott, Jim Nulton, Mark JA Vermeij, et Forest L Rohwer. 2016. « Stable and Sporadic Symbiotic Communities of Coral and Algal Holobionts ». The ISME Journal 10 (5): 1157‑69. https://doi.org/10.1038/ismej.2015.190. Hildebrand, Mark, Aubrey K Davis, Sarah R Smith, Jesse C Traller, et Raffaela Abbriano. 2012. « The Place of Diatoms in the Biofuels Industry ». Biofuels 3 (2): 221‑40. https://doi.org/10.4155/bfs.11.157. Hildebrand, Mark, et Sarah J.L. Lerch. 2015. « Diatom Silica Biomineralization: Parallel Development of Approaches and Understanding ». Seminars in Cell & Developmental Biology 46 (octobre): 27‑35. https://doi.org/10.1016/j.semcdb.2015.06.007. Hopes, Amanda, Vladimir Nekrasov, Sophien Kamoun, et Thomas Mock. 2016. « Editing of the Urease Gene by CRISPR-Cas in the Diatom Thalassiosira Pseudonana ». Plant Methods 12 (1). https://doi.org/10.1186/s13007-016-0148-0. Horiguchi, Takeo, et Yoshihito Takano. 2006. « Serial Replacement of a Diatom Endosymbiont in the Marine Dinoflagellate Peridinium Quinquecorne (Peridiniales, Dinophyceae) ». Phycological Research 54 (3): 193‑200. https://doi.org/10.1111/j.1440-1835.2006.00426.x. Howe, C. J., A. C. Barbrook, R. E. R. Nisbet, P. J. Lockhart, et A. W. D. Larkum. 2008. « The Origin of Plastids ». Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences 363 (1504): 2675‑85. https://doi.org/10.1098/rstb.2008.0050. Huang, Shengfeng, Mingjing Kang, et Anlong Xu. 2017. « HaploMerger2: rebuilding both haploid sub-assemblies from high-heterozygosity diploid genome assembly ». Bioinformatics 33 (16): 2577‑79. https://doi.org/10.1093/bioinformatics/btx220. Imanian, Behzad, Jean-François Pombert, Richard G. Dorrell, Fabien Burki, et Patrick J. Keeling. 2012. « Tertiary Endosymbiosis in Two Dinotoms Has Generated Little Change in the Mitochondrial Genomes of Their Dinoflagellate Hosts and Diatom Endosymbionts ». Édité par Ross Frederick Waller. PLoS ONE 7 (8): e43763. https://doi.org/10.1371/journal.pone.0043763. Imelfort, Michael, Donovan Parks, Ben J. Woodcroft, Paul Dennis, Philip Hugenholtz, et Gene W. Tyson. 2014. « GroopM: An Automated Tool for the Recovery of Population Genomes from Related Metagenomes ». PeerJ 2 (septembre): e603. https://doi.org/10.7717/peerj.603. Ippolito, Giuliana d’, Angela Sardo, Debora Paris, Filomena Vella, Maria Adelfi, Pierpaolo Botte, Carmela Gallo, et Angelo Fontana. 2015. « Potential of Lipid Metabolism in Marine Diatoms for Biofuel Production ». Biotechnology for Biofuels 8 (1): 28. https://doi.org/10.1186/s13068-015-0212-4. Iseli, C., C. V. Jongeneel, et P. Bucher. 1999. « ESTScan: A Program for Detecting, Evaluating, and Reconstructing Potential Coding Regions in EST Sequences ». Proceedings. International Conference on Intelligent Systems for Molecular Biology, 138‑48. 123

Iverson, V., R. M. Morris, C. D. Frazar, C. T. Berthiaume, R. L. Morales, et E. V. Armbrust. 2012. « Untangling Genomes from Metagenomes: Revealing an Uncultured Class of Marine Euryarchaeota ». Science 335 (6068): 587‑90. https://doi.org/10.1126/science.1212665. Jackson, Robert W., Boris Vinatzer, Dawn L. Arnold, Steve Dorus, et Jesús Murillo. 2011. « The Influence of the Accessory Genome on Bacterial Pathogen Evolution ». Mobile Genetic Elements 1 (1): 55‑65. https://doi.org/10.4161/mge.1.1.16432. Jauffrais, Thierry, Hélène Agogué, Marin-Pierre Gemin, Laureen Beaugeard, et Véronique Martin-Jézéquel. 2017. « Effect of Bacteria on Growth and Biochemical Composition of Two Benthic Diatoms Halamphora Coffeaeformis and Entomoneis Paludosa ». Journal of Experimental Marine Biology and Ecology 495 (octobre): 65 ‑74. https://doi.org/10.1016/j.jembe.2017.06.004. Jaworski, G.H.M., S.W. Wiseman, et C.S. Reynolds. 1988. « Variability in Sinking Rate of the Freshwater Diatom Asterionella Formosa : The Influence of Colony Morphology ». British Phycological Journal 23 (2): 167‑76. https://doi.org/10.1080/00071618800650201. Johnston, Calum, Bernard Martin, Gwennaele Fichant, Patrice Polard, et Jean-Pierre Claverys. 2014. « Bacterial Transformation: Distribution, Shared Mechanisms and Divergent Control ». Nature Reviews Microbiology 12 (3): 181‑96. https://doi.org/10.1038/nrmicro3199. Kaczmarska, Irena, Margaret Beaton, Anita C. Benoit, et Linda K. Medlin. 2006. « MOLECULAR PHYLOGENY OF SELECTED MEMBERS OF THE ORDER THALASSIOSIRALES (BACILLARIOPHYTA) AND EVOLUTION OF THE FULTOPORTULA1 ». Journal of Phycology 42 (1): 121‑38. https://doi.org/10.1111/j.1529-8817.2006.00161.x. Kang, Dongwan D., Jeff Froula, Rob Egan, et Zhong Wang. 2015. « MetaBAT, an Efficient Tool for Accurately Reconstructing Single Genomes from Complex Microbial Communities ». PeerJ 3 (août): e1165. https://doi.org/10.7717/peerj.1165. Karas, Bogumil J., Rachel E. Diner, Stephane C. Lefebvre, Jeff McQuaid, Alex P.R. Phillips, Chari M. Noddings, John K. Brunson, et al. 2015. « Designer Diatom Episomes Delivered by Bacterial Conjugation ». Nature Communications 6 (1). https://doi.org/10.1038/ncomms7925. Karp, Peter D., Mario Latendresse, Suzanne M. Paley, Markus Krummenacker, Quang D. Ong, Richard Billington, Anamika Kothari, et al. 2016. « Pathway Tools Version 19.0 Update: Software for Pathway/Genome Informatics and Systems Biology ». Briefings in Bioinformatics 17 (5): 877‑90. https://doi.org/10.1093/bib/bbv079. Katoh, Kazutaka, Kazuharu Misawa, Kei-ichi Kuma, et Takashi Miyata. 2002. « MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform ». Nucleic Acids Research 30 (14): 3059‑66. Keeling, Patrick J., Fabien Burki, Heather M. Wilcox, Bassem Allam, Eric E. Allen, Linda A. Amaral-Zettler, E. Virginia Armbrust, et al. 2014. « The Marine Microbial Eukaryote Transcriptome Sequencing Project (MMETSP): Illuminating the 124

Functional Diversity of Eukaryotic Life in the Oceans through Transcriptome Sequencing ». Édité par Roland G. Roberts. PLoS Biology 12 (6): e1001889. https://doi.org/10.1371/journal.pbio.1001889. Kerckvoorde, Andy van, Koen Trappeniers, Ivan Nijs, et Louis Beyens. 2000. « Terrestrial Soil Diatom Assemblages from Different Vegetation Types in Zackenberg (Northeast Greenland) ». Polar Biology 23 (6): 392‑400. https://doi.org/10.1007/s003000050460. Kim, Eunsoo, Christopher E. Lane, Bruce A. Curtis, Catherine Kozera, Sharen Bowman, et John M. Archibald. 2008. « Complete Sequence and Analysis of the Mitochondrial Genome of Hemiselmis andersenii CCMP644 (Cryptophyceae) ». BMC Genomics 9: 215. https://doi.org/10.1186/1471-2164-9-215. Kim, Joomi, Michele Fabris, Gino Baart, Min K. Kim, Alain Goossens, Wim Vyverman, Paul G. Falkowski, et Desmond S. Lun. 2016. « Flux Balance Analysis of Primary Metabolism in the Diatom Phaeodactylum Tricornutum ». The Plant Journal 85 (1): 161‑76. https://doi.org/10.1111/tpj.13081. Kimura, Kei, et Yuji Tomaru. 2015. « Discovery of Two Novel Viruses Expands the Diversity of Single-Stranded DNA and Single-Stranded RNA Viruses Infecting a Cosmopolitan Marine Diatom ». Édité par K. E. Wommack. Applied and Environmental Microbiology 81 (3): 1120‑31. https://doi.org/10.1128/AEM.02380-14. Kiran, Marella Thomas, Mallimadugula Venkata Bhaskar, et Archana Tiwari. 2016. « Phycoremediation of Eutrophic Lakes Using Diatom Algae ». In Lake Sciences and Climate Change, édité par M. Nageeb Rashed. InTech. https://doi.org/10.5772/64111. Kitano, H. 2002. « Systems Biology: A Brief Overview ». Science 295 (5560): 1662‑64. https://doi.org/10.1126/science.1069492. Klassen, Jonathan L, et Cameron R Currie. 2012. « Gene Fragmentation in Bacterial Draft Genomes: Extent, Consequences and Mitigation ». BMC Genomics 13 (1): 14. https://doi.org/10.1186/1471-2164-13-14. Klindworth, Anna, Elmar Pruesse, Timmy Schweer, Jörg Peplies, Christian Quast, Matthias Horn, et Frank Oliver Glöckner. 2013. « Evaluation of General 16S Ribosomal RNA Gene PCR Primers for Classical and Next-Generation Sequencing- Based Diversity Studies ». Nucleic Acids Research 41 (1): e1‑e1. https://doi.org/10.1093/nar/gks808. Kooistra, Wiebe H.C.F., et Linda K. Medlin. 1996. « Evolution of the Diatoms (Bacillariophyta) ». Molecular Phylogenetics and Evolution 6 (3): 391‑407. https://doi.org/10.1006/mpev.1996.0088. Korf, Ian. 2004. « Gene Finding in Novel Genomes ». BMC Bioinformatics, 9. Koutsovoulos, Georgios, Sujai Kumar, Dominik R. Laetsch, Lewis Stevens, Jennifer Daub, Claire Conlon, Habib Maroon, Fran Thomas, Aziz A. Aboobaker, et Mark Blaxter. 2016. « No Evidence for Extensive Horizontal Gene Transfer in the Genome of the

125

Tardigrade Hypsibius Dujardini ». Proceedings of the National Academy of Sciences of the United States of America 113 (18): 5053‑58. https://doi.org/10.1073/pnas.1600338113. Kozich, James J., Sarah L. Westcott, Nielson T. Baxter, Sarah K. Highlander, et Patrick D. Schloss. 2013. « Development of a Dual-Index Sequencing Strategy and Curation Pipeline for Analyzing Amplicon Sequence Data on the MiSeq Illumina Sequencing Platform ». Applied and Environmental Microbiology 79 (17): 5112‑ 20. https://doi.org/10.1128/AEM.01043-13. Ku, Chuan, et William F. Martin. 2016. « A Natural Barrier to Lateral Gene Transfer from Prokaryotes to Eukaryotes Revealed from Genomes: The 70 % Rule ». BMC Biology 14 (1): 89. https://doi.org/10.1186/s12915-016-0315-9. Ku, Chuan, Shijulal Nelson-Sathi, Mayo Roettger, Filipa L. Sousa, Peter J. Lockhart, David Bryant, Einat Hazkani-Covo, James O. McInerney, Giddy Landan, et William F. Martin. 2015. « Endosymbiotic origin and differential loss of eukaryotic genes ». Nature 524 (7566): 427‑32. https://doi.org/10.1038/nature14963. Kudoh, Sakae, et Masayuki Takahashi. 1989. « Physico-Chemical Control of the Growth of a Diatom, Asterionella Formosa Hass., in a Shallow Eutrophic Lake ». Journal of Plankton Research 11 (5): 1001‑19. https://doi.org/10.1093/plankt/11.5.1001. Kushner, Sidney R. 2015. « Polyadenylation in E. Coli : A 20 Year Odyssey ». RNA 21 (4): 673‑74. https://doi.org/10.1261/rna.049700.115. Langille, Morgan G I, Jesse Zaneveld, J Gregory Caporaso, Daniel McDonald, Dan Knights, Joshua A Reyes, Jose C Clemente, et al. 2013. « Predictive Functional Profiling of Microbial Communities Using 16S RRNA Marker Gene Sequences ». Nature Biotechnology 31 (9): 814‑21. https://doi.org/10.1038/nbt.2676. Langmead, Ben, et Steven L Salzberg. 2012. « Fast Gapped-Read Alignment with Bowtie 2 », 4. Larkum, Anthony W.D., Peter J. Lockhart, et Christopher J. Howe. 2007. « Shopping for Plastids ». Trends in Plant Science 12 (5): 189‑95. https://doi.org/10.1016/j.tplants.2007.03.011. Lee, Hayan, James Gurtowski, Shinjae Yoo, Maria Nattestad, Shoshana Marcus, Sara Goodwin, W. Richard McCombie, et Michael Schatz. 2016. « Third-generation sequencing and the future of genomics », avril. https://doi.org/10.1101/048603. Lee, John J., M. E. McEnery, B. Ter Kuile, J. Erez, R. Röttger, R. F. Rockwell, W. W. Faber Jr., A. Lagziel, et R. Rottger. 1989. « Identification and Distribution of Endosymbiotic Diatoms in Larger Foraminifera ». Micropaleontology 35 (4): 353. https://doi.org/10.2307/1485677. Leger, Michelle M., Laura Eme, Courtney W. Stairs, et Andrew J. Roger. 2018a. « Demystifying Eukaryote Lateral Gene Transfer (Response to Martin 2017 DOI: 10.1002/Bies.201700115) ». BioEssays, mars, 1700242. https://doi.org/10.1002/bies.201700242.

126

———. 2018b. « Demystifying Eukaryote Lateral Gene Transfer (Response to Martin 2017 DOI: 10.1002/Bies.201700115) ». BioEssays, mars, 1700242. https://doi.org/10.1002/bies.201700242. Levering, Jennifer, Jared Broddrick, Christopher L. Dupont, Graham Peers, Karen Beeri, Joshua Mayers, Alessandra A. Gallina, Andrew E. Allen, Bernhard O. Palsson, et Karsten Zengler. 2016. « Genome-Scale Model Reveals Metabolic Basis of Biomass Partitioning in a Model Diatom ». Édité par Adrianna Ianora. PLOS ONE 11 (5): e0155038. https://doi.org/10.1371/journal.pone.0155038. Li, Fay-Wei, Juan Carlos Villarreal, Steven Kelly, Carl J. Rothfels, Michael Melkonian, Eftychios Frangedakis, Markus Ruhsam, et al. 2014. « Horizontal Transfer of an Adaptive Chimeric Photoreceptor from Bryophytes to Ferns ». Proceedings of the National Academy of Sciences of the United States of America 111 (18): 6672‑77. https://doi.org/10.1073/pnas.1319929111. Li, Li, Christian J. Stoeckert, et David S. Roos. 2003. « OrthoMCL: Identification of Ortholog Groups for Eukaryotic Genomes ». Genome Research 13 (9): 2178‑89. https://doi.org/10.1101/gr.1224503. Li, Runsheng, Chia-Ling Hsieh, Amanda Young, Zhihong Zhang, Xiaoliang Ren, et Zhongying Zhao. 2015. « Illumina Synthetic Long Read Sequencing Allows Recovery of Missing Sequences Even in the “Finished” C. Elegans Genome ». Scientific Reports 5 (1). https://doi.org/10.1038/srep10814. Li, W., et A. Godzik. 2006. « Cd-Hit: A Fast Program for Clustering and Comparing Large Sets of Protein or Nucleotide Sequences ». Bioinformatics 22 (13): 1658‑59. https://doi.org/10.1093/bioinformatics/btl158. Lin, Hsin-Hung, et Yu-Chieh Liao. 2016. « Accurate Binning of Metagenomic Contigs via Automated Clustering Sequences Using Information of Genomic Signatures and Marker Genes ». Scientific Reports 6 (1). https://doi.org/10.1038/srep24175. Liu, Lin, Yinhu Li, Siliang Li, Ni Hu, Yimin He, Ray Pong, Danni Lin, Lihua Lu, et Maggie Law. 2012. « Comparison of Next-Generation Sequencing Systems ». Journal of Biomedicine and Biotechnology 2012: 1‑11. https://doi.org/10.1155/2012/251364. Llorens, Carlos, Ricardo Futami, Laura Covelli, Laura Domínguez-Escribá, Jose M. Viu, Daniel Tamarit, Jose Aguilar-Rodríguez, et al. 2011. « The Gypsy Database (GyDB) of mobile genetic elements: release 2.0 ». Nucleic Acids Research 39 (Database issue): D70‑74. https://doi.org/10.1093/nar/gkq1061. Lommer, Markus, Michael Specht, Alexandra-Sophie Roy, Lars Kraemer, Reidar Andreson, Magdalena A. Gutowska, Juliane Wolf, et al. 2012. « Genome and low- iron response of an oceanic diatom adapted to chronic iron limitation ». Genome biology 13 (7): R66. Love, Michael I, Wolfgang Huber, et Simon Anders. 2014. « Moderated Estimation of Fold Change and Dispersion for RNA-Seq Data with DESeq2 ». Genome Biology 15 (12). https://doi.org/10.1186/s13059-014-0550-8.

127

Lundholm, Nina, Niels Daugbjerg, et Øjvind Moestrup. 2002. « Phylogeny of the Bacillariaceae with Emphasis on the Genus Pseudo - Nitzschia (Bacillariophyceae) Based on Partial LSU RDNA ». European Journal of Phycology 37 (1): 115‑34. https://doi.org/10.1017/S096702620100347X. Magoc, T., et S. L. Salzberg. 2011. « FLASH: Fast Length Adjustment of Short Reads to Improve Genome Assemblies ». Bioinformatics 27 (21): 2957‑63. https://doi.org/10.1093/bioinformatics/btr507. Malviya, Shruti, Eleonora Scalco, Stéphane Audic, Flora Vincent, Alaguraj Veluchamy, Julie Poulain, Patrick Wincker, et al. 2016. « Insights into Global Diatom Distribution and Diversity in the World’s Ocean ». Proceedings of the National Academy of Sciences 113 (11): E1516‑25. https://doi.org/10.1073/pnas.1509523113. Mann, D. G., et S. J. M. Droop. 1996. « 3. Biodiversity, Biogeography and Conservation of Diatoms ». Hydrobiologia 336 (1‑3): 19‑32. https://doi.org/10.1007/BF00010816. Mann, David G. 1988. « Why didn’t Lund see sex in Asterionella ? A discussion of the diatom life cycle in nature ». In Algae and the Aquatic Environment, Bioress, 383‑ 412. Bristol: Round, F. E. ———. 1989. « The species concept in diatoms: evidence for morphologically distinct, sympatric gamodemes in four epipelic species ». Plant Systematics and Evolution 164 (1‑4): 215–237. Mann, David G., et Pieter Vanormelingen. 2013. « An Inordinate Fondness? The Number, Distributions, and Origins of Diatom Species ». Journal of Eukaryotic Microbiology 60 (4): 414‑20. https://doi.org/10.1111/jeu.12047. Marine, Rachel, Coleen McCarren, Vansay Vorrasane, Dan Nasko, Erin Crowgey, Shawn W Polson, et K Wommack. 2014. « Caught in the Middle with Multiple Displacement Amplification: The Myth of Pooling for Avoiding Multiple Displacement Amplification Bias in a Metagenome ». Microbiome 2 (1): 3. https://doi.org/10.1186/2049-2618-2-3. Marra, Raquel Cristina, Priscila Izabel Tremarin, Vanessa Majewski Algarte, et Thelma Veiga Ludwig. 2016. « Epiphytic Diatoms (Diatomeae) from Piraquara II Urban Reservoir, Paraná State ». Biota Neotropica 16 (4). https://doi.org/10.1590/1676-0611-BN-2016-0200. Martin, William F. 2017. « Too Much Eukaryote LGT ». BioEssays 39 (12): 1700115. https://doi.org/10.1002/bies.201700115. ———. 2018. « Eukaryote Lateral Gene Transfer Is Lamarckian ». Nature Ecology & Evolution, mars. https://doi.org/10.1038/s41559-018-0521-7. Martino, Alessandra De, Agnès Meichenin, Juan Shi, Kehou Pan, et Chris Bowler. 2007. « Genetic and Phenotypic Characterization of Phaeodactylum Tricornutum (Bacillariophyceae) Accessions 1 ». Journal of Phycology 43 (5): 992‑1009. https://doi.org/10.1111/j.1529-8817.2007.00384.x.

128

McLellan, M. R. 1989. « CRYOPRESERVATION OF DIATOMS ». Diatom Research 4 (2): 301 ‑18. https://doi.org/10.1080/0269249X.1989.9705078. McMahon, Katherine. 2015. « ‘Metagenomics 2.0’ ». Environmental Microbiology Reports 7 (1): 38‑39. https://doi.org/10.1111/1758-2229.12253. Medlin, Linda K. 2010. « Pursuit of a Natural Classification of Diatoms: An Incorrect Comparison of Published Data ». European Journal of Phycology 45 (2): 155‑66. https://doi.org/10.1080/09670260903511657. Medlin, Linda K. 2014. « Evolution of the Diatoms: VIII. Re-Examination of the SSU-Rrna Gene Using Multiple Outgroups and a Cladistic Analysis of Valve Features ». Journal of Biodiversity, Bioprospecting and Development 01 (03). https://doi.org/10.4172/2376-0214.1000129. Medlin, Linda K. 2016. « Evolution of the Diatoms: Major Steps in Their Evolution and a Review of the Supporting Molecular and Morphological Evidence ». Phycologia 55 (1): 79‑103. https://doi.org/10.2216/15-105.1. Medlin, Linda K., et Irena Kaczmarska. 2004. « Evolution of the Diatoms: V. Morphological and Cytological Support for the Major Clades and a Taxonomic Revision ». Phycologia 43 (3): 245‑70. https://doi.org/10.2216/i0031-8884-43- 3-245.1. Mekhalfi, Malika, Sawsan Amara, Sylvie Robert, Frédéric Carrière, et Brigitte Gontero. 2014. « Effect of Environmental Conditions on Various Enzyme Activities and Triacylglycerol Contents in Cultures of the Freshwater Diatom, Asterionella Formosa (Bacillariophyceae) ». Biochimie 101 (juin): 21‑30. https://doi.org/10.1016/j.biochi.2013.12.004. Mekhalfi, Malika, Carine Puppo, Luisana Avilan, Régine Lebrun, Pascal Mansuelle, Stephen C. Maberly, et Brigitte Gontero. 2014. « Glyceraldehyde-3-Phosphate Dehydrogenase Is Regulated by Ferredoxin-NADP Reductase in the Diatom Asterionella Formosa ». New Phytologist 203 (2): 414‑23. https://doi.org/10.1111/nph.12820. Mi, Sha, Xinhua Lee, Xiang-ping Li, Geertruida M. Veldman, Heather Finnerty, Lisa Racie, Edward LaVallie, et al. 2000. « Syncytin Is a Captive Retroviral Envelope Protein Involved in Human Placental Morphogenesis ». Nature 403 (6771): 785‑89. https://doi.org/10.1038/35001608. Miller, Ian J., Theodore R. Weyna, Stephen S. Fong, Grace E. Lim-Fong, et Jason C. Kwan. 2016. « Single Sample Resolution of Rare Microbial Dark Matter in a Marine Invertebrate Metagenome ». Scientific Reports 6 (1). https://doi.org/10.1038/srep34362. Mishamandani, Sara, Tony Gutierrez, David Berry, et Michael D. Aitken. 2016. « Response of the Bacterial Community Associated with a Cosmopolitan Marine Diatom to Crude Oil Shows a Preference for the Biodegradation of Aromatic Hydrocarbons: Alga-Bacterial Dynamics to Crude Oil Exposure ». Environmental Microbiology 18 (6): 1817‑33. https://doi.org/10.1111/1462-2920.12988.

129

Mock, Thomas, Robert P. Otillar, Jan Strauss, Mark McMullan, Pirita Paajanen, Jeremy Schmutz, Asaf Salamov, et al. 2017. « Evolutionary genomics of the cold-adapted diatom Fragilariopsis cylindrus ». Nature 541 (7638): 536‑40. https://doi.org/10.1038/nature20803. Modesto, Sean P., et Jason S. Anderson. 2004. « The Phylogenetic Definition of Reptilia ». Édité par François Lutzoni. Systematic Biology 53 (5): 815‑21. https://doi.org/10.1080/10635150490503026. Moejes, Fiona, Antonella Succurro, Ovidiu Popa, Julie Maguire, et Oliver Ebenhöh. 2017. « Dynamics of the Bacterial Community Associated with Phaeodactylum Tricornutum Cultures ». Processes 5 (4): 77. https://doi.org/10.3390/pr5040077. Moitinho-Silva, Lucas, Cristina Díez-Vives, Giampiero Batani, Ana IS Esteves, Martin T Jahn, et Torsten Thomas. 2017. « Integrated Metabolism in Sponge–microbe Symbiosis Revealed by Genome-Centered Metatranscriptomics ». The ISME Journal 11 (7): 1651‑66. https://doi.org/10.1038/ismej.2017.25. Moore, Eric R., Briana S. Bullington, Alexandra J. Weisberg, Yuan Jiang, Jeff Chang, et Kimberly H. Halsey. 2017. « Morphological and Transcriptomic Evidence for Ammonium Induction of Sexual Reproduction in Thalassiosira Pseudonana and Other Centric Diatoms ». PLOS ONE 12 (7): e0181098. https://doi.org/10.1371/journal.pone.0181098. Moore, J.Keith, Scott C Doney, David M Glover, et Inez Y Fung. 2001. « Iron Cycling and Nutrient-Limitation Patterns in Surface Waters of the World Ocean ». Deep Sea Research Part II: Topical Studies in Oceanography 49 (1‑3): 463‑507. https://doi.org/10.1016/S0967-0645(01)00109-6. Moran, Nancy A., et Daniel B. Sloan. 2015. « The Hologenome Concept: Helpful or Hollow? » PLOS Biology 13 (12): e1002311. https://doi.org/10.1371/journal.pbio.1002311. Moreira, David, et Purificación López-García. 2017. « Protist Evolution: Stealing Genes to Gut It Out ». Current Biology 27 (6): R223‑25. https://doi.org/10.1016/j.cub.2017.02.010. Moustafa, Ahmed, Bánk Beszteri, Uwe G. Maier, Chris Bowler, Klaus Valentin, et Debashish Bhattacharya. 2009. « Genomic footprints of a cryptic plastid endosymbiosis in diatoms ». science 324 (5935): 1724–1726. Mukherjee, Supratim, Marcel Huntemann, Natalia Ivanova, Nikos C Kyrpides, et Amrita Pati. 2015. « Large-Scale Contamination of Microbial Isolate Genomes by Illumina PhiX Control ». Standards in Genomic Sciences 10 (1): 18. https://doi.org/10.1186/1944-3277-10-18. Muller, Richard. s. d. « Changes of Colony Sizes of Asterionella Formosa Hass. in the Sorpe Reservoir », 13. Nakayama, T., R. Kamikawa, G. Tanifuji, Y. Kashiyama, N. Ohkouchi, J. M. Archibald, et Y. Inagaki. 2014. « Complete Genome of a Nonphotosynthetic Cyanobacterium in a Diatom Reveals Recent Adaptations to an Intracellular Lifestyle ». Proceedings of

130

the National Academy of Sciences 111 (31): 11407‑12. https://doi.org/10.1073/pnas.1405222111. Nakayama, Takuro, Yuko Ikegami, Takeshi Nakayama, Ken-ichiro Ishida, Yuji Inagaki, et Isao Inouye. 2011. « Spheroid Bodies in Rhopalodiacean Diatoms Were Derived from a Single Endosymbiotic Cyanobacterium ». Journal of Plant Research 124 (1): 93‑97. https://doi.org/10.1007/s10265-010-0355-0. Nanjappa, Deepak, Remo Sanges, Maria I. Ferrante, et Adriana Zingone. 2017. « Diatom flagellar genes and their expression during sexual reproduction in Leptocylindrus danicus ». BMC Genomics 18 (octobre). https://doi.org/10.1186/s12864-017- 4210-8. Nelson, Paul A., et Richard J. A. Buggs. 2016. « Next generation apomorphy: the ubiquity of taxonomically restricted genes ». In The Systematics Association Special, édité par Peter D. Olson, Joseph Hughes, et James A. Cotton, 237‑63. Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9781139236355.013. Newton, R. J., S. E. Jones, A. Eiler, K. D. McMahon, et S. Bertilsson. 2011. « A Guide to the Natural History of Freshwater Lake Bacteria ». Microbiology and Molecular Biology Reviews 75 (1): 14‑49. https://doi.org/10.1128/MMBR.00028-10. Nguyen, Nam-Phuong, Tandy Warnow, Mihai Pop, et Bryan White. 2016. « A Perspective on 16S RRNA Operational Taxonomic Unit Clustering Using Sequence Similarity ». Npj Biofilms and Microbiomes 2 (1). https://doi.org/10.1038/npjbiofilms.2016.4. Nurk, Sergey, Dmitry Meleshko, Anton Korobeynikov, et Pavel A. Pevzner. 2017. « MetaSPAdes: A New Versatile Metagenomic Assembler ». Genome Research 27 (5): 824‑34. https://doi.org/10.1101/gr.213959.116. Nymark, Marianne, Amit Kumar Sharma, Torfinn Sparstad, Atle M. Bones, et Per Winge. 2016. « A CRISPR/Cas9 System Adapted for Gene Editing in Marine Algae ». Scientific Reports 6 (1). https://doi.org/10.1038/srep24951. Open Science Collaboration. 2015. « Estimating the Reproducibility of Psychological Science ». Science 349 (6251): aac4716‑aac4716. https://doi.org/10.1126/science.aac4716. Parks, Donovan H., Michael Imelfort, Connor T. Skennerton, Philip Hugenholtz, et Gene W. Tyson. 2015. « CheckM: Assessing the Quality of Microbial Genomes Recovered from Isolates, Single Cells, and Metagenomes ». Genome Research 25 (7): 1043‑55. https://doi.org/10.1101/gr.186072.114. Parks, Donovan H., Christian Rinke, Maria Chuvochina, Pierre-Alain Chaumeil, Ben J. Woodcroft, Paul N. Evans, Philip Hugenholtz, et Gene W. Tyson. 2017. « Recovery of Nearly 8,000 Metagenome-Assembled Genomes Substantially Expands the Tree of Life ». Nature Microbiology 2 (11): 1533‑42. https://doi.org/10.1038/s41564-017-0012-7. Parks, Matthew B, Norman J Wickett, et Andrew J Alverson. 2018. « Signal, Uncertainty, and Conflict in Phylogenomic Data for a Diverse Lineage of Microbial Eukaryotes

131

(Diatoms, Bacillariophyta) ». Molecular Biology and Evolution 35 (1): 80‑93. https://doi.org/10.1093/molbev/msx268. Parks, Matthew, Teofil Nakov, Elizabeth C Ruck, Norman J Wickett, et Andrew J Alverson. 2017. « Phylogenomics reveals an extensive history of genome duplication in diatoms (Bacillariophyta) », août. https://doi.org/10.1101/181115. Paul, Carsten, et Georg Pohnert. 2011. « Interactions of the Algicidal Bacterium Kordia Algicida with Diatoms: Regulated Protease Excretion for Specific Algal Lysis ». Édité par Terence Evens. PLoS ONE 6 (6): e21032. https://doi.org/10.1371/journal.pone.0021032. Peng, Y., H. C. M. Leung, S. M. Yiu, et F. Y. L. Chin. 2012. « IDBA-UD: A de Novo Assembler for Single-Cell and Metagenomic Sequencing Data with Highly Uneven Depth ». Bioinformatics 28 (11): 1420‑28. https://doi.org/10.1093/bioinformatics/bts174. Pete, Romain, Keith Davidson, Mark C. Hart, Tony Gutierrez, et Axel E.J. Miller. 2010. « Diatom Derived Dissolved Organic Matter as a Driver of Bacterial Productivity: The Role of Nutrient Limitation ». Journal of Experimental Marine Biology and Ecology 391 (1‑2): 20‑26. https://doi.org/10.1016/j.jembe.2010.06.002. Pevzner, P. A., H. Tang, et M. S. Waterman. 2001. « An Eulerian Path Approach to DNA Fragment Assembly ». Proceedings of the National Academy of Sciences 98 (17): 9748‑53. https://doi.org/10.1073/pnas.171285098. Pienaar, Richard N., Hiroto Sakai, et Takeo Horiguchi. 2007. « Description of a New Dinoflagellate with a Diatom Endosymbiont, Durinskia Capensis Sp. Nov. (Peridiniales, Dinophyceae) from South Africa ». Journal of Plant Research 120 (2): 247‑58. https://doi.org/10.1007/s10265-006-0047-y. Pitlik, Silvio D., et Omry Koren. 2017. « How Holobionts Get Sick—toward a Unifying Scheme of Disease ». Microbiome 5 (1). https://doi.org/10.1186/s40168-017- 0281-7. Pogoda, Cloe S., Kyle G. Keepers, Sarah E. Hamsher, Joshua G. Stepanek, Nolan C. Kane, et J. Patrick Kociolek. 2018. « Comparative Analysis of the Mitochondrial Genomes of Six Newly Sequenced Diatoms Reveals Group II Introns in the Barcoding Region of Cox1 ». Mitochondrial DNA Part A, mars, 1‑9. https://doi.org/10.1080/24701394.2018.1450397. Poplin, Ryan, Valentin Ruano-Rubio, Mark A DePristo, Tim J Fennell, Mauricio O Carneiro, Geraldine A Van, D Gauthier, Ami Levy-Moonshine, David Roazen, et Khalid Shakir. s. d. « Scaling Accurate Genetic Variant Discovery to Tens of Thousands of Samples ». Biorxiv, 22. https://doi.org/10.1101/201178. Poretsky, Rachel, Luis M. Rodriguez-R, Chengwei Luo, Despina Tsementzi, et Konstantinos T. Konstantinidis. 2014. « Strengths and Limitations of 16S RRNA Gene Amplicon Sequencing in Revealing Temporal Microbial Community Dynamics ». Édité par Francisco Rodriguez-Valera. PLoS ONE 9 (4): e93827. https://doi.org/10.1371/journal.pone.0093827.

132

Prazeres, Martina, Tracy Ainsworth, T. Edward Roberts, John M. Pandolfi, et William Leggat. 2017. « Symbiosis and microbiome flexibility in calcifying benthic foraminifera of the Great Barrier Reef ». Microbiome 5 (mars). https://doi.org/10.1186/s40168-017-0257-7. Prechtl, Julia, Christoph Kneip, Peter Lockhart, Klaus Wenderoth, et Uwe-G. Maier. 2004. « Intracellular Spheroid Bodies of Rhopalodia Gibba Have Nitrogen-Fixing Apparatus of Cyanobacterial Origin ». Molecular Biology and Evolution 21 (8): 1477‑81. https://doi.org/10.1093/molbev/msh086. Price, Alkes L., Neil C. Jones, et Pavel A. Pevzner. 2005. « De Novo Identification of Repeat Families in Large Genomes ». Bioinformatics (Oxford, England) 21 Suppl 1 (juin): i351-358. https://doi.org/10.1093/bioinformatics/bti1018. Price, Morgan N., Paramvir S. Dehal, et Adam P. Arkin. 2010. « FastTree 2 – Approximately Maximum-Likelihood Trees for Large Alignments ». PLoS ONE 5 (3). https://doi.org/10.1371/journal.pone.0009490. Quail, Michael, Miriam E Smith, Paul Coupland, Thomas D Otto, Simon R Harris, Thomas R Connor, Anna Bertoni, Harold P Swerdlow, et Yong Gu. 2012. « A Tale of Three next Generation Sequencing Platforms: Comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq Sequencers ». BMC Genomics 13 (1): 341. https://doi.org/10.1186/1471-2164-13-341. Quick, Joshua, Nicholas J. Loman, Sophie Duraffour, Jared T. Simpson, Ettore Severi, Lauren Cowley, Joseph Akoi Bore, et al. 2016. « Real-Time, Portable Genome Sequencing for Ebola Surveillance ». Nature 530 (7589): 228‑32. https://doi.org/10.1038/nature16996. R Core Team. 2017. « R: A language and environment for statistical computing. » In . Vienna, : R Foundation for Statistical Computing. https://www.R- project.org/. Ramanan, Rishiram, Byung-Hyuk Kim, Dae-Hyun Cho, Hee-Mock Oh, et Hee-Sik Kim. 2016. « Algae–bacteria Interactions: Evolution, Ecology and Emerging Applications ». Biotechnology Advances 34 (1): 14‑29. https://doi.org/10.1016/j.biotechadv.2015.12.003. Rastogi, Achal, Uma Maheswari, Richard G. Dorrell, Fabio Rocha Jimenez Vieira, Florian Maumus, Adam Kustka, James McCarthy, et al. 2018. « Integrative Analysis of Large Scale Transcriptome Data Draws a Comprehensive Landscape of Phaeodactylum Tricornutum Genome and Evolutionary Origin of Diatoms ». Scientific Reports 8 (1). https://doi.org/10.1038/s41598-018-23106-x. Ravenhall, Matt, Nives Škunca, Florent Lassalle, et Christophe Dessimoz. 2015. « Inferring Horizontal Gene Transfer ». PLoS Computational Biology 11 (5). https://doi.org/10.1371/journal.pcbi.1004095. Ravin, Nikolai V., Yuri P. Galachyants, Andrey V. Mardanov, Alexey V. Beletsky, Darya P. Petrova, Tatyana A. Sherbakova, Yuliya R. Zakharova, Yelena V. Likhoshway, Konstantin G. Skryabin, et Mikhail A. Grachev. 2010. « Complete Sequence of the Mitochondrial Genome of a Diatom Alga Synedra Acus and Comparative Analysis

133

of Diatom Mitochondrial Genomes ». Current Genetics 56 (3): 215‑23. https://doi.org/10.1007/s00294-010-0293-3. Raymond, James A., et Hak Jun Kim. 2012. « Possible role of horizontal gene transfer in the colonization of sea ice by algae ». PloS one 7 (5): e35968. Riaux-Gobin, Catherine, Andrzej Witkowski, J. Patrick Kociolek, Luc Ector, Damien Chevallier, et Pierre Compère. 2017. « New Epizoic Diatom (Bacillariophyta) Species from Sea Turtles in the Eastern Caribbean and South Pacific ». Diatom Research 32 (1): 109‑25. https://doi.org/10.1080/0269249X.2017.1299042. Riemann, L., G. F. Steward, et F. Azam. 2000. « Dynamics of Bacterial Community Composition and Activity during a Mesocosm Diatom Bloom ». Applied and Environmental Microbiology 66 (2): 578‑87. Riley, Margaret A., et Michelle Lizotte-Waniewski. 2009. « Population Genomics and the Bacterial Species Concept ». Methods in molecular biology (Clifton, N.J.) 532: 367‑ 77. https://doi.org/10.1007/978-1-60327-853-9_21. Risgaard-Petersen, N., M. H. Nicolaisen, N. P. Revsbech, et B. A. Lomstein. 2004. « Competition between Ammonia-Oxidizing Bacteria and Benthic Microalgae ». Applied and Environmental Microbiology 70 (9): 5528‑37. https://doi.org/10.1128/AEM.70.9.5528-5537.2004. Roger, Andrew J. 2018. « Reply to “Eukaryote Lateral Gene Transfer Is Lamarckian” ». Nature Ecology & Evolution, mars. https://doi.org/10.1038/s41559-018-0522-6. Rosenberg, Eugene, Gil Sharon, Ilil Atad, et Ilana Zilber-Rosenberg. 2010. « The Evolution of Animals and Plants via Symbiosis with Microorganisms: Evolution via Symbiosis ». Environmental Microbiology Reports 2 (4): 500‑506. https://doi.org/10.1111/j.1758-2229.2010.00177.x. Rosenberg, Eugene, et Ilana Zilber-Rosenberg. 2016. « Microbes Drive Evolution of Animals and Plants: The Hologenome Concept ». MBio 7 (2): e01395-15. https://doi.org/10.1128/mBio.01395-15. Salzberg, Steven L. 2017. « Horizontal Gene Transfer Is Not a Hallmark of the Human Genome ». Genome Biology 18 (1). https://doi.org/10.1186/s13059-017-1214-2. Sanchez, Nicolas, Eunice A. Brown, Yngvar Olsen, Olav Vadstein, Jose L. Iriarte, Humberto E. Gonzalez, et Murat Van Ardelan. 2018. « Effect of Siderophore on Iron Availability in a Diatom and a Dinoflagellate Species: Contrasting Response in Associated Bacteria ». Frontiers in Marine Science 5 (avril). https://doi.org/10.3389/fmars.2018.00118. Sanger, F. 1975. « The Croonian Lecture, 1975. Nucleotide Sequences in DNA ». Proceedings of the Royal Society of London. Series B, Biological Sciences 191 (1104): 317‑33. Schäfer, Hendrik, Ben Abbas, Harry Witte, et Gerard Muyzer. 2002. « Genetic diversity of ‘satellite’ bacteria present in cultures of marine diatoms ». FEMS Microbiology Ecology 42 (1): 25‑35. https://doi.org/10.1111/j.1574-6941.2002.tb00992.x.

134

Schirmer, Melanie, Umer Z. Ijaz, Rosalinda D’Amore, Neil Hall, William T. Sloan, et Christopher Quince. 2015. « Insight into Biases and Sequencing Errors for Amplicon Sequencing with the Illumina MiSeq Platform ». Nucleic Acids Research 43 (6): e37‑e37. https://doi.org/10.1093/nar/gku1341. Schnepf, Eberhard, et Malte Elbrächter. 1999. « Dinophyte Chloroplasts and Phylogeny - A Review ». Grana 38 (2): 81‑97. https://doi.org/10.1080/713786928. Scholz, Bettina, Laure Guillou, Agostina V. Marano, Sigrid Neuhauser, Brooke K. Sullivan, Ulf Karsten, Frithjof C. Küpper, et Frank H. Gleason. 2016. « Zoosporic parasites infecting marine diatoms — A black box that needs to be opened ». Fungal ecology 19 (février): 59‑76. https://doi.org/10.1016/j.funeco.2015.09.002. Secq, Marie-Pierre Oudot-Le, et Beverley R. Green. 2011. « Complex Repeat Structures and Novel Features in the Mitochondrial Genomes of the Diatoms Phaeodactylum Tricornutum and Thalassiosira Pseudonana ». Gene 476 (1‑2): 20‑26. https://doi.org/10.1016/j.gene.2011.02.001. Sedlar, Karel, Kristyna Kupkova, et Ivo Provaznik. 2016. « Bioinformatics strategies for taxonomy independent binning and visualization of sequences in shotgun metagenomics ». Computational and Structural Biotechnology Journal 15 (décembre): 48‑55. https://doi.org/10.1016/j.csbj.2016.11.005. Seemann, T. 2014. « Prokka: Rapid Prokaryotic Genome Annotation ». Bioinformatics 30 (14): 2068‑69. https://doi.org/10.1093/bioinformatics/btu153. Seifert, Bernhard. 2014. « A pragmatic species concept applicable to all eukaryotic organisms independent from their mode of reproduction or evolutionary history ». Soil organisms 86 (1): 85‑93. Shishlyannikov, Sergey M., Yulia R. Zakharova, Nadezhda A. Volokitina, Ivan S. Mikhailov, Darya P. Petrova, et Yelena V. Likhoshway. 2011. « A Procedure for Establishing an Axenic Culture of the Diatom Synedra Acus Subsp. Radians (Kütz.) Skabibitsch. from Lake Baikal: Lake Baikal, Synedra Acus, Axenic Culture ». Limnology and Oceanography: Methods 9 (10): 478‑84. https://doi.org/10.4319/lom.2011.9.478. Shou, Wenying, Carl T Bergstrom, Arup K Chakraborty, et Frances K Skinner. 2015. « Theory, Models and Biology ». ELife 4 (juillet). https://doi.org/10.7554/eLife.07158. Simão, Felipe A., Robert M. Waterhouse, Panagiotis Ioannidis, Evgenia V. Kriventseva, et Evgeny M. Zdobnov. 2015. « BUSCO: Assessing Genome Assembly and Annotation Completeness with Single-Copy Orthologs ». Bioinformatics 31 (19): 3210‑12. https://doi.org/10.1093/bioinformatics/btv351. Simpson, J. T., K. Wong, S. D. Jackman, J. E. Schein, S. J.M. Jones, et I. Birol. 2009. « ABySS: A Parallel Assembler for Short Read Sequence Data ». Genome Research 19 (6): 1117‑23. https://doi.org/10.1101/gr.089532.108.

135

Singh, Ravindra Pal, et C.R.K. Reddy. 2014. « Seaweed-Microbial Interactions: Key Functions of Seaweed-Associated Bacteria ». FEMS Microbiology Ecology 88 (2): 213‑30. https://doi.org/10.1111/1574-6941.12297. Sison-Mangus, Marilou P., Sunny Jiang, Raphael M. Kudela, et Sanjin Mehic. 2016. « Phytoplankton-Associated Bacterial Community Composition and Succession during Toxic Diatom Bloom and Non-Bloom Events ». Frontiers in Microbiology 7 (septembre). https://doi.org/10.3389/fmicb.2016.01433. Slaby, Beate M, Thomas Hackl, Hannes Horn, Kristina Bayer, et Ute Hentschel. 2017. « Metagenomic binning of a marine sponge microbiome reveals unity in defense but metabolic specialization ». The ISME Journal 11 (11): 2465‑78. https://doi.org/10.1038/ismej.2017.101. Smith, David Roy. 2016. « Goodbye Genome Paper, Hello Genome Report: The Increasing Popularity of ‘Genome Announcements’ and Their Impact on Science: Table 1. » Briefings in Functional Genomics, juin, elw026. https://doi.org/10.1093/bfgp/elw026. Sorhannus, Ulf. 2011. « Evolution of Antifreeze Protein Genes in the Diatom Genus Fragilariopsis: Evidence for Horizontal Gene Transfer, Gene Duplication and Episodic Diversifying Selection ». Evolutionary Bioinformatics 7 (janvier): EBO.S8321. https://doi.org/10.4137/EBO.S8321. Soria-Dengg, S, et U Horstmann. 1995. « Ferrioxamines B and E as Iron Sources for the Marine Diatom Phaeodactylum Tricornutum ». Marine Ecology Progress Series 127: 269‑77. https://doi.org/10.3354/meps127269. Soria-Dengg, S, R Reissbrodt, et U Horstmann. 2001. « Siderophores in Marine Coastal Waters and Their Relevance for Iron Uptake by Phytoplankton: Experiments with the Diatom Phaeodactylum Tricornutum ». Marine Ecology Progress Series 220: 73‑82. https://doi.org/10.3354/meps220073. Spang, Anja, Jimmy H. Saw, Steffen L. Jørgensen, Katarzyna Zaremba-Niedzwiedzka, Joran Martijn, Anders E. Lind, Roel van Eijk, Christa Schleper, Lionel Guy, et Thijs J. G. Ettema. 2015. « Complex Archaea That Bridge the Gap between Prokaryotes and Eukaryotes ». Nature 521 (7551): 173‑79. https://doi.org/10.1038/nature14447. Spaulding, S. 2012. « Asterionella formosa ». Diatoms of the United States. http://westerndiatoms.colorado.edu/taxa/species/asterionella_formosa. Spellberg, B., et D. N. Gilbert. 2014. « The Future of Antibiotics and Resistance: A Tribute to a Career of Leadership by John Bartlett ». Clinical Infectious Diseases 59 (suppl 2): S71‑75. https://doi.org/10.1093/cid/ciu392. Stackebrandt, E., et B. M. Goebel. 1994. « Taxonomic Note: A Place for DNA-DNA Reassociation and 16S RRNA Sequence Analysis in the Present Species Definition in Bacteriology ». International Journal of Systematic and Evolutionary Microbiology 44 (4): 846‑49. https://doi.org/10.1099/00207713-44-4-846.

136

Stämmler, Frank, Joachim Gläsner, Andreas Hiergeist, Ernst Holler, Daniela Weber, Peter J. Oefner, André Gessner, et Rainer Spang. 2016. « Adjusting Microbiome Profiles for Differences in Microbial Load by Spike-in Bacteria ». Microbiome 4 (1). https://doi.org/10.1186/s40168-016-0175-0. Stanhope, Michael J., Andrei Lupas, Michael J. Italia, Kristin K. Koretke, Craig Volker, et James R. Brown. 2001. « Phylogenetic analyses do not support horizontal gene transfers from bacteria to vertebrates ». Nature 411 (6840): 940‑44. https://doi.org/10.1038/35082058. Stanke, Mario, et Burkhard Morgenstern. 2005. « AUGUSTUS: a web server for gene prediction in eukaryotes that allows user-defined constraints ». Nucleic Acids Research 33 (Web Server issue): W465‑67. https://doi.org/10.1093/nar/gki458. Stewart, E. J. 2012. « Growing Unculturable Bacteria ». Journal of Bacteriology 194 (16): 4151‑60. https://doi.org/10.1128/JB.00345-12. Tanaka, Tsuyoshi, Yoshiaki Maeda, Alaguraj Veluchamy, Michihiro Tanaka, Heni Abida, Eric Maréchal, Chris Bowler, et al. 2015. « Oil Accumulation by the Oleaginous Diatom Fistulifera Solaris as Revealed by the Genome and Transcriptome ». The Plant Cell Online 27 (1): 162‑76. https://doi.org/10.1105/tpc.114.135194. Tang, Xianghai, et Guiqi Bi. 2015. « Complete Mitochondrial Genome of Fistulifera Solaris (Bacillariophycidae) ». Mitochondrial DNA, septembre, 1‑2. https://doi.org/10.3109/19401736.2015.1089545. Tanniou, Anaëlle, Vincent Turpin, et Thierry Lebeau. 2012. « Comparison of Cryopreservation Methods for the Long Term Storage of the Marine Diatom Haslea Ostrearia (Simonsen) ». Cryobiology 65 (1): 45‑50. https://doi.org/10.1016/j.cryobiol.2012.03.011. Tettelin, Hervé, Vega Masignani, Michael J. Cieslewicz, Claudio Donati, Duccio Medini, Naomi L. Ward, Samuel V. Angiuoli, et al. 2005. « Genome analysis of multiple pathogenic isolates of Streptococcus agalactiae: Implications for the microbial “pan-genome” ». Proceedings of the National Academy of Sciences of the United States of America 102 (39): 13950‑55. https://doi.org/10.1073/pnas.0506758102. The Arabidopsis Genome Initiative. 2000. « Analysis of the Genome Sequence of the Flowering Plant Arabidopsis Thaliana ». Nature 408 (6814): 796‑815. https://doi.org/10.1038/35048692. The C. elegans Sequencing Consortium. 1998. « Genome Sequence of the Nematode C. elegans: A Platform for Investigating Biology ». Science 282 (5396): 2012‑18. https://doi.org/10.1126/science.282.5396.2012. Theriot, Edward C. 2010. « A preliminary multigene phylogeny of the diatoms (Bacillariophyta): challenges for future research ». Plant Ecology and Evolution 143 (3): 278‑96. https://doi.org/10.5091/plecevo.2010.418. Theriot, Edward C., Matt P. Ashworth, Teofil Nakov, Elizabeth Ruck, et Robert K. Jansen. 2015. « Dissecting Signal and Noise in Diatom Chloroplast Protein Encoding

137

Genes with Phylogenetic Information Profiling ». Molecular Phylogenetics and Evolution 89 (août): 28‑36. https://doi.org/10.1016/j.ympev.2015.03.012. Theriot, Edward C., Jamie J. Cannone, Robin R. Gutell, et Andrew J. Alverson. 2009. « The limits of nuclear encoded SSU rDNA for resolving the diatom phylogeny ». European journal of phycology 44 (3): 277‑90. https://doi.org/10.1080/09670260902749159. Thomas, Torsten, Doug Rusch, Matt Z DeMaere, Pui Yi Yung, Matt Lewis, Aaron Halpern, Karla B Heidelberg, Suhelen Egan, Peter D Steinberg, et Staffan Kjelleberg. 2010. « Functional Genomic Signatures of Sponge Bacteria Reveal Unique and Shared Features of Symbiosis ». The ISME Journal 4 (12): 1557‑67. https://doi.org/10.1038/ismej.2010.74. Tilman, David, Susan Soltau Kilham, et Peter Kilham. 1976. « Morphometric Changes in Asterionella Formosa Colonies under Phosphate and Silicate Limitation1 ». Limnology and Oceanography 21 (6): 883‑86. https://doi.org/10.4319/lo.1976.21.6.0883. Tirichine, Leila, Achal Rastogi, et Chris Bowler. 2017. « Recent Progress in Diatom Genomics and Epigenomics ». Current Opinion in Plant Biology 36 (avril): 46‑55. https://doi.org/10.1016/j.pbi.2017.02.001. Totti, Cecilia, Michel Poulin, Tiziana Romagnoli, Cesira Perrone, Chiara Pennesi, et Mario De Stefano. 2009. « Epiphytic Diatom Communities on Intertidal Seaweeds from Iceland ». Polar Biology 32 (11): 1681‑91. https://doi.org/10.1007/s00300-009- 0668-4. Traller, Jesse C., Shawn J. Cokus, David A. Lopez, Olga Gaidarenko, Sarah R. Smith, John P. McCrow, Sean D. Gallaher, et al. 2016. « Genome and methylome of the oleaginous diatom Cyclotella cryptica reveal genetic flexibility toward a high lipid phenotype ». Biotechnology for Biofuels 9 (novembre). https://doi.org/10.1186/s13068-016-0670-3. Trapnell, Cole, Lior Pachter, et Steven L. Salzberg. 2009. « TopHat: Discovering Splice Junctions with RNA-Seq ». Bioinformatics 25 (9): 1105‑11. https://doi.org/10.1093/bioinformatics/btp120. Tully, Benjamin J., Elaina D. Graham, et John F. Heidelberg. 2018. « The reconstruction of 2,631 draft metagenome-assembled genomes from the global oceans ». Scientific Data 5 (janvier): 170203. https://doi.org/10.1038/sdata.2017.203. Tully, Benjamin J., Rohan Sachdeva, Elaina D. Graham, et John F. Heidelberg. 2017. « 290 Metagenome-Assembled Genomes from the Mediterranean Sea: A Resource for Marine Microbiology ». PeerJ 5 (juillet): e3558. https://doi.org/10.7717/peerj.3558. Udall, Joshua A., et R. Kelly Dawe. 2018. « Is It Ordered Correctly? Validating Genome Assemblies by Optical Mapping ». The Plant Cell 30 (1): 7‑14. https://doi.org/10.1105/tpc.17.00514.

138

Uitz, Julia, Hervé Claustre, Bernard Gentili, et Dariusz Stramski. 2010. « Phytoplankton Class-Specific Primary Production in the World’s Oceans: Seasonal and Interannual Variability from Satellite Observations: PHYTOPLANKTON CLASS- SPECIFIC PRODUCTION ». Global Biogeochemical Cycles 24 (3): n/a-n/a. https://doi.org/10.1029/2009GB003680. Van den Wyngaert, S., M. Möst, R. Freimann, B. W. Ibelings, et P. Spaak. 2015. « Hidden Diversity in the Freshwater Planktonic Diatom Asterionella Formosa ». Molecular Ecology 24 (12): 2955‑72. https://doi.org/10.1111/mec.13218. Venter, J. C. 2004. « Environmental Genome Shotgun Sequencing of the Sargasso Sea ». Science 304 (5667): 66‑74. https://doi.org/10.1126/science.1093857. Větrovský, Tomáš, et Petr Baldrian. 2013. « The Variability of the 16S RRNA Gene in Bacterial Genomes and Its Consequences for Bacterial Community Analyses ». Édité par Josh Neufeld. PLoS ONE 8 (2): e57923. https://doi.org/10.1371/journal.pone.0057923. Vilmi, Annika, Satu Maaria Karjalainen, Victor L. Landeiro, et Jani Heino. 2015. « Freshwater Diatoms as Environmental Indicators: Evaluating the Effects of Eutrophication Using Species Morphology and Biological Indices ». Environmental Monitoring and Assessment 187 (5). https://doi.org/10.1007/s10661-015-4485- 7. Walker, Giselle, Richard G. Dorrell, Alexander Schlacht, et Joel B. Dacks. 2011. « Eukaryotic Systematics: A User’s Guide for Cell Biologists and Parasitologists ». Parasitology 138 (13): 1638‑63. https://doi.org/10.1017/S0031182010001708. Walters, William, Embriette R. Hyde, Donna Berg-Lyons, Gail Ackermann, Greg Humphrey, Alma Parada, Jack A. Gilbert, et al. 2016. « Improved Bacterial 16S RRNA Gene (V4 and V4-5) and Fungal Internal Transcribed Spacer Marker Gene Primers for Microbial Community Surveys ». Édité par Holly Bik. MSystems 1 (1): e00009-15. https://doi.org/10.1128/mSystems.00009-15. Wan Maznah, W. O., et Mashhor Mansor. 2002. « Aquatic pollution assessment based on attached diatom communities in the Pinang River Basin, Malaysia ». In Hydrobiologia, 487:229‑41. Wetz, Michael S., et Patricia A. Wheeler. 2007. « Release of Dissolved Organic Matter by Coastal Diatoms ». Limnology and Oceanography 52 (2): 798‑807. https://doi.org/10.4319/lo.2007.52.2.0798. Williams, David M., et J. Patrick Kociolek. 2007. « Pursuit of a Natural Classification of Diatoms: History, Monophyly and the Rejection of Paraphyletic Taxa ». European Journal of Phycology 42 (3): 313‑19. https://doi.org/10.1080/09670260701419921. Windler, Miriam, Katrin Leinweber, Carolina Rio Bartulos, Bodo Philipp, et Peter G. Kroth. 2015. « Biofilm and Capsule Formation of the Diatom Achnanthidium Minutissimum Are Affected by a Bacterium ». Édité par M. Cock. Journal of Phycology 51 (2): 343‑55. https://doi.org/10.1111/jpy.12280.

139

Woehle, Christian, Tal Dagan, William F. Martin, et Sven B. Gould. 2011. « Red and Problematic Green Phylogenetic Signals among Thousands of Nuclear Genes from the Photosynthetic and Apicomplexa-Related Chromera velia ». Genome Biology and Evolution 3 (septembre): 1220‑30. https://doi.org/10.1093/gbe/evr100. Wujek, Daniel. 2013. « Epizooic Diatoms on the Cerci of Ephemeroptera (Caenidae) Naiads ». The Great Lakes Entomologist 46 (1): 8. Xie, Meili, Minglei Ren, Chen Yang, Haisi Yi, Zhe Li, Tao Li, et Jindong Zhao. 2016. « Metagenomic Analysis Reveals Symbiotic Relationship among Bacteria in Microcystis-Dominated Community ». Frontiers in Microbiology 7 (février). https://doi.org/10.3389/fmicb.2016.00056. Yuan, Cheng, Jikai Lei, James Cole, et Yanni Sun. 2015. « Reconstructing 16S RRNA Genes in Metagenomic Data ». Bioinformatics 31 (12): i35‑43. https://doi.org/10.1093/bioinformatics/btv231. Yuan, Xiao-Long, Min Cao, et Gui-Qi Bi. 2015. « The Complete Mitochondrial Genome of Pseudo-Nitzschia Multiseries (Baciuariophyta) ». Mitochondrial DNA, septembre, 1 ‑2. https://doi.org/10.3109/19401736.2015.1053061. Zakharova, Yulia R., Yuri P. Galachyants, Maria I. Kurilkina, Alexander V. Likhoshvay, Darya P. Petrova, Sergey M. Shishlyannikov, Nikolai V. Ravin, Andrey V. Mardanov, Alexey V. Beletsky, et Yelena V. Likhoshway. 2013. « The Structure of Microbial Community and Degradation of Diatoms in the Deep Near-Bottom Layer of Lake Baikal ». Édité par Melanie R. Mormile. PLoS ONE 8 (4): e59977. https://doi.org/10.1371/journal.pone.0059977. Zerbino, Daniel R., et Ewan Birney. 2008. « Velvet: Algorithms for de novo short read assembly using de Bruijn graphs ». Genome Research 18 (5): 821‑29. https://doi.org/10.1101/gr.074492.107. Zhao, Wei, Xiaping He, Katherine A Hoadley, Joel S Parker, David Hayes, et Charles M Perou. 2014. « Comparison of RNA-Seq by Poly (A) Capture, Ribosomal RNA Depletion, and DNA Microarray for Expression Profiling ». BMC Genomics 15 (1): 419. https://doi.org/10.1186/1471-2164-15-419. Zhaxybayeva, Olga, et W. Ford Doolittle. 2011. « Lateral Gene Transfer ». Current Biology 21 (7): R242‑46. https://doi.org/10.1016/j.cub.2011.01.045. Zilber-Rosenberg, Ilana, et Eugene Rosenberg. 2008. « Role of Microorganisms in the Evolution of Animals and Plants: The Hologenome Theory of Evolution ». FEMS Microbiology Reviews 32 (5): 723‑35. https://doi.org/10.1111/j.1574- 6976.2008.00123.x.

140