Analyses génomiques et recherche de production de molécules naturelles antimicrobiennes d’une souche de fulvissimus chez l’hôte natif et par transfert hétérologue chez un hôte alternatif

Mémoire

Xavier Murphy Després

Maîtrise en biochimie - avec mémoire Maître ès sciences (M. Sc.)

Québec, Canada

© Xavier Murphy Després, 2019

Analyses génomiques et recherche de production de molécules naturelles antimicrobiennes d’une souche de Streptomyces fulvissimus chez l’hôte natif et par transfert hétérologue chez un hôte alternatif

Mémoire de Maîtrise en biochimie

Xavier Murphy Després

Sous la direction de :

Manon Couture directrice de recherche Rong Shi, codirecteur de recherche

Résumé

Développé dans le contexte mondial de lutte aux souches microbiennes résistantes aux antibiotiques, ce projet de maîtrise a pour but d’isoler et de caractériser un opéron de synthèse d’une molécule naturelle potentiellement bioactive, un tétramate polycyclique macrolactame (PTM), provenant d’une souche de streptomycète peu caractérisée mais dont le génome a été récemment séquencé1. L’objectif principal est de transférer l’opéron dans une souche spécialisée de Escherichia coli pour son expression et sa caractérisation. Nous avons observé que la souche d’intérêt, Streptomyces fulvissimus ATCC27431 / DSM 40593, produisait effectivement une molécule capable d’inhiber la croissance d’une levure. Nous n’avons cependant pas été en mesure de réaliser l’isolation et le transfert hétérologue de l’opéron, malgré l’utilisation de trois approches différentes. La première approche consistait à obtenir directement les gènes de l’opéron via une amplification PCR à partir d’ADN génomique de S. fulvissimus. La seconde approche comportait l’assemblage de gènes synthétisés chimiquement pour reconstituer l’opéron sur deux plasmides. La dernière approche impliquait la création puis le criblage d’une librairie d’ADN génomique de S. fulvissimus basée sur le fosmide pCC1FOS dans l’hôte E. coli. Les résultats inattendus issus du séquençage de quelques fosmides ont justifié le séquençage complet de l’ADN génomique de la souche ATCC 27431 / DSM 40593. Les contigs obtenus montrent que notre souche diffère de la souche de S. fulvissimus dont le génome a été publié, ce qui suggère que le génome publié a été incorrectement associé à cette souche. Nos résultats montrent également que l’opéron de biosynthèse du PTM n’est pas présent, en tout ou en partie, dans ces contigs et que ces derniers ne s’alignent pas parfaitement avec l’ADN d’aucune souche connue de streptomycète, ce qui implique que nous avons séquencé, pour la première fois, l’ADN de cette souche de S. fulvissimus. L’analyse bio-informatique des contigs nous a permis de mettre en évidence chez cette bactérie des voies de biosynthèse de molécules naturelles potentiellement bioactives qui pourraient être d’intérêt pour des études futures.

iii

Abstract

In the context of the worldwide fight against drug-resistant microbes, this project aims to isolate and characterize a putative gene cluster for the synthesis of a bioactive molecule, a polycyclic tetramate macrolactam (PTM), from a poorly characterized but recently sequenced strain of Streptomyces1. The main goal is to transfer the gene cluster in a specialised strain of Escherichia coli for its expression and characterization. We observed that the strain of interest, identified as Streptomyces fulvissimus DSM 40593 / ATCC 27431, indeed synthesized a molecule capable of inhibiting the growth of yeast. However, we have not been able to isolate or transfer the gene cluster even though we employed three different strategies. The first strategy involved PCR amplification of the gene cluster directly from S. fulvissimus’ genomic DNA. The second strategy involved the chemical synthesis and enzymatic assembly of the gene cluster on two plasmids. The final strategy involved the construction and screening of a S. fulvissimus genomic DNA library with the pCC1FOS fosmid in the E. coli host. DNA sequencing of a few fosmids generated unexpected results and justified the sequencing of the complete genome of Streptomyces fulvissimus ATCC 27431 / DSM 40593. The assembled DNA contigs differed from the sequence of the Streptomyces strain whose genome was previously published and suggest that the latter was probably mislabeled. Our contigs show that the PTM biosynthetic gene cluster is absent from our strain’s genome, and they do not align perfectly with the sequence of any published genome, which suggests that we sequenced the genome of the S. fulvimissus strain ATCC 27431 / DSM 40593 for the first time. Bioinformatics analysis allowed the detection of genes potentially involved in the biosynthesis of bioactive molecules that could be of interest in future studies.

iv

Table des matières

Résumé ...... iii Abstract ...... iv Table des matières ...... v Liste des figures ...... ix Liste des tableaux ...... x Liste des abréviations ...... xi Remerciements ...... xiii Introduction ...... 1 Problématique ...... 1 Les antibiotiques et l’apparition de la résistance aux antibiotiques ...... 1 La résistance aux antimicrobiens ...... 2 Les mécanismes de résistance chez les microbes ...... 3 L’approche Top-down : Les approches traditionnelles de découverte des antibiotiques ...... 5 Des nouvelles approches en découverte d’antibiotiques et en thérapie antimicrobienne ...... 6 Le séquençage de nouvelle génération et le potentiel de découvertes biologiques ..... 8 Les avancées en métagénomique ...... 9 Les grandes approches en métagénomique ...... 10 Le criblage fonctionnel d’échantillons métagénomiques ...... 11 Cadre théorique ...... 12 Le transfert hétérologue d’ADN ...... 12 La construction de plasmides via une amplification PCR de gènes d’intérêt ...... 12 La synthèse chimique de gènes ...... 13 Principes généraux ...... 13 L’optimisation des codons des gènes ...... 13 Les librairies génomiques basées sur les fosmides ...... 14 Les Streptomycètes ...... 15 Streptomyces fulvissimus et son génome ...... 15 Les Polycyclic Tetramate Macrolactams (PTM) ...... 17 Les polycétides synthases (PKS) ...... 18 Les synthétases de peptides non-ribosomaux (NRPS) ...... 20 Les PKS/NRPS hybrides et les PTM ...... 22

v

Le transfert hétérologue des PKS/NRPS ...... 24 Les gènes codant le PTM de Streptomyces fulvissimus DSM 40593 ...... 25 Les enzymes de décoration de l’opéron PTM ...... 27 Hypothèse et objectifs : ...... 28 Hypothèse ...... 28 Objectifs de recherche ...... 28 Notes sur les stratégies de réalisation du projet ...... 28 Clonage par amplification PCR ...... 28 Synthèse chimique des gènes ...... 29 Construction et criblage d’une banque d’ADN génomique ...... 29 Analyses génomiques ...... 29 Chapitre 1 : Matériel et méthodes ...... 30 1.1 Solutions ...... 30 1.2 Souches de microorganismes ...... 31 1.3 Culture des microorganismes ...... 33 1.3.1 Isolation des spores de la souche ATCC 27431 / DSM 40593 ...... 34 1.3.2 Production d’antimicrobiens par la souche ATCC 27431 / DSM 40593 ...... 34 1.4 Vecteurs ...... 35 1.5 Amorces PCR ...... 35 1.6 Isolement d’ADNg de S. fulvissimus ...... 38 1.6.1 Méthode du Livre «Practical Streptomyces Genetics» ...... 38 1.6.2 Mise à l’échelle de la méthode pour la construction de la banque d’ADNg ...... 39 1.7 Amplification d’ADN par PCR ...... 40 1.7.1 Amplification par Colony PCR OneTaq ...... 40 1.7.2 Amplification avec la polymérase Q5 ...... 40 1.8 Analyse et dosage des ADNs ...... 41 1.8.1 Dosage sur gel et par NanoDrop ...... 42 1.8.2 Séparation de l’ADN sur gel d’agarose ...... 42 1.9 Clonage d’ADN...... 43 1.9.1 Clonage de fragments PCR ...... 43 1.9.2 Assemblage isotherme de type Gibson via l’utilisation de gBlocks ...... 43 1.9.2.1 Conception des gBlocks et des constructions plasmidiques ...... 44 1.9.2.2 Optimisation du contenu nucléotidique des gBlocks pour E. coli ...... 47 1.9.3 Transformation bactérienne ...... 47 1.9.3.1 Les cellules électrocompétentes ...... 47

vi

1.9.3.2 Protocole d’électroporation et analyse d’efficacité de transformation des cellules électrocompétentes ...... 47 1.9.4 Analyse des clones ...... 48 1.10 Clonintegration ...... 48 1.11 Construction de la banque d’ADNg ...... 48 1.12 Criblage de la banque d’ADNg ...... 51 1.12.1 Stratégie de criblage pour la détection de l’opéron de biosynthèse du PTM de Streptomyces fulvissimus ...... 52 1.12.2 Obtention et dosage de la sonde ...... 52 1.12.3 Hybridation des colonies de E.coli contenant la librairie d’ADN génomique ... 53 1.12.4 Criblage des membranes hybridées avec les sondes marquées à la digoxigénine ...... 55 1.13 Séquençage (Sanger et Illumina) ...... 56 1.13.1 Séquençage Sanger (Technologie 454) ...... 56 1.13.2 Séquençage de nouvelle génération (Illumina)...... 56 1.14 Analyse génomiques ...... 57 1.14.1 Analyses de similarité de séquences ...... 57 1.14.2 Annotation des contigs avec Prokka et RAST ...... 57 1.14.2.1 Création d’une librairie locale de génomes de streptomycètes pour l’annotation des contigs avec Prokka 1.12 ...... 57 Chapitre 2 : Résultats ...... 59 2.1 La souche S. fulvissimus ATCC 27431 / DSM 40593 ...... 59 2.1.1 Croissance en milieu gélosé ...... 59 2.1.2 Production de molécule(s) antibactérienne(s) ou antifongique(s) ...... 60 2.2 Clonage des gènes de la voie de synthèse PTM par amplification PCR ...... 61 2.2.1 Amplification des gènes pour clonage dans pASK-IBA5+ ...... 61 2.2.2 Isolement d’ADN génomique ...... 62 2.2.3 Problème technique avec le EZ-Vision ...... 63 2.3 Assemblage isotherme de type Gibson d’ADNs synthétiques ...... 64 2.3.1 Les ADNs synthétiques sous forme de gBlocks de 2 000 pb...... 64 2.3.2 L’assemblage en une étape des ADNs synthétiques ...... 64 2.3.3 L’assemblage séquentiel des ADNs synthétiques ...... 65 2.3.4 Les approches de clonage directement dans E. coli ...... 68 2.4 Banque d’ADN génomique et le séquençage par la méthode Sanger ...... 70 2.4.1 Isolement de l’ADNg pour construction de la banque ...... 70 2.4.2 Construction de la banque ...... 71

vii

2.4.2.1 Efficacité d’infection des phages et nombre de clones générés ...... 71 2.4.2.2 Vérification de la taille des inserts de deux fosmides générés ...... 72 2.4.3 Criblage ...... 73 2.4.4 Séquençage Sanger de 15 clones ...... 73 2.5 Le séquençage du génome de S. fulvissimus ATCC 27431 / DSM 40593 ...... 76 2.5.1 Analyse du contenu en gènes des contigs obtenus ...... 76 2.5.2 Analyses de la séquence du gène codant l’ARN 16S des contigs de S. fulvissimus ATCC27431 / DSM 40593 ...... 77 2.5.3 Les contigs annotés de S. fulvissimus ATCC 27431 / DSM 40593 ...... 83 Chapitre 3 : Discussion ...... 85 3.1 L’approche par construction plasmidique basée sur une extraction PCR des gènes prédits de l’opéron de biosynthèse du PTM ...... 85 3.2 L’approche par construction plasmidique basée sur un assemblage isotherme de type Gibson avec des blocs d’ADN synthétique ...... 86 3.3 L’approche par le criblage génétique d’une librairie génomique de l’ADN de S. fulvissimus ATCC 27431 / DSM 40593...... 87 3.4 Les analyses génomiques et bio-informatiques ...... 89 Conclusion ...... 91 Bibliographie ...... 92 Annexes...... 98 Annexe I : Séquence typique d’un gBlock; l’exemple du gBlock G4_TE ...... 98 Annexe II : Carte du fosmide pCC1FOS ...... 99 Annexe III : Alignement de nos séquences Sanger de fosmides avec les contigs de Streptomyces fulvissimus ATCC 27431 / DSM 40593 obtenus par la méthode Illumina ...... 100

viii

Liste des figures

Figure 1: Approches en découvertes de nouveaux produits naturels bioactifs ...... 5 Figure 2: Schéma du regroupement de gènes de synthèse de PTM de Streptomyces fulvissimus. 16 Figure 3: Exemple de PTMs connus...... 18 Figure 4: Schéma de la synthèse d’un PTM...... 23 Figure 5: Représentations de différents opérons connus servant à la biosynthèse des PTM chez les streptomycètes ...... 26 Figure 6: Domaines de la PKS/NRPS du regroupement de gènes de biosynthèse du PTM de Streptomyces fulvissimus, tel que prédit par le Conserved Domain Search du NCBI (https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)...... 26 Figure 7: Schéma de la stratégie d'assemblage reconstruisant l’opéron de biosynthèse du PTM prédit via des gBlocks par un assemblage isotherme de type Gibson dans des deux plasmides.. . 44 Figure 8: Carte plasmidique du vecteur pOSIP-TT ...... 46 Figure 9: Schéma-résumé de la technique de coloration au bromure d'éthidium...... 49 Figure 10: Schéma d'une inoculation typique d'un de nos omnitrays ...... 54 Figure 11 : La croissance de S. fulvissimus ATCC 27431 en milieu gélosé ...... 59 Figure 12: Résultats des tests d’inhibition de la croissance de E. coli (gauche) et de S. cerevisiae (droite) en proximité de S. fulvissimus cultivée à partir de spores...... 60 Figure 13: Migration sur gel d’agarose de quatre dilutions de l'ADNg extrait pour une analyse qualitative de celui-ci...... 62 Figure 14: Test de coloration de l'ADN migré sur un gel ...... 63 Figure 15: Schéma de la stratégie d'assemblage séquentiel pour le plasmide pOSIP-TT:TE avec les deux gBlocks appelés «gBlocks intermédiaires», G1G2_TE et G3G4_TE...... 66 Figure 16: Exemples d’amplifications d’assemblages partiels de deux gBlocks...... 67 Figure 17 : Résultat de la digestion de deux fosmides (1 et 2) et d’un fosmide-contrôle (+) par ScaI ...... 72 Figure 18 : Membrane criblée avec une sonde marquée à la digoxigénine après la coloration ...... 73 Figure 19 : Alignement de séquence entre le gène de l'ARN 16S dans notre contig 62 (1303692.50.r) et le génome de référence pour S. fulvissimus DSM 40593 (1-79057583) ...... 78 Figure 20 : Alignement de séquences du gène de l'ARN 16S de notre contig 62 (1303692.50.r) et de la séquence partielle de l'ARN 16S pour la souche DSM 40593, publiée par la DSM (LM99765.1) ...... 79 Figure 21 : Schéma montrant l’appartenance des ORFs annotés dans les contigs de S. fulvissimus ATCC 27431 à des sous-systèmes selon l’outil d’annotation RAST ...... 83 Figure 22 : Séquence du gBlock G4_TE, d'une taille de 2000 pb...... 98 Figure 23 : Carte du fosmide pCC1FOS...... 99

ix

Liste des tableaux

Tableau 1: Quatre classes d'antibiotiques connus et leurs mécanismes habituels de résistance . ... 4 Tableau 2: Protéines prédites de l’opéron de biosynthèse du PTM...... 16 Tableau 3: Exemples de polycétides connus...... 20 Tableau 4: Exemples de molécules contenant des peptides non-ribosomaux ou formées de peptides non-ribosomaux...... 21 Tableau 5 : Quelques microorganismes recommandés pour les projets de transfert d’opérons contenant des PKS/NRPS ...... 24 Tableau 6: Identité et similarité de séquence entre les gènes prédits de l'opéron de S. fulvissimus (à gauche dans la première colonne) et l’opéron de biosynthèse de frontalamide de Streptomyces SPB78 (à droite à droite dans la première colonne) ...... 25 Tableau 7: Solutions utilisées au cours du projet, avec leur composition et leur usage...... 30 Tableau 8: Microorganismes utilisés, avec leurs particularités et leur usage au cours du projet ..... 32 Tableau 9: Milieux de culture avec leur composition et leur usage...... 33 Tableau 10: Liste des différents vecteurs avec leurs particularités ...... 35 Tableau 11: Amorces pour l'amplification PCR des gènes de Streptomyces fulvissimus...... 36 Tableau 12: Amorces pour l'amplification PCR des gBlocks intermédiaires...... 37 Tableau 13: Amorces utilisées pour le séquençage avec la méthode Sanger...... 37 Tableau 14: Contenu des mélanges réactionnels typiquement utilisés pour les amplifications PCR...... 41 Tableau 15: Protocole d'amplification PCR typique selon les ADN polymérases utilisées...... 41 Tableau 16 : Résumé des assemblages tentés et détectés pour la stratégie d’assemblage séquentiel ...... 68 Tableau 17 : Résultats de l'alignement des séquences Sanger obtenues pour les clones sélectionnés ...... 75 Tableau 18 : Pourcentages d’identité des séquences des ARN 16S de souches de S. fulvissimus et S. alboflavus...... 81 Tableau 19 : Statistiques d'alignement entre nos séquences de fosmides et nos contigs ...... 100

x

Liste des abréviations

[Domaine] A : Domaine d'adénylation ACP : Acyl carrier protein (Protéine transporteuse de groupement acyle) ADNe : ADN environnemental ADNg : ADN génomique AT : Acyltransférase BAC : Bacterial Artificial Chromosome (Chromosome bactérien artificiel) BAP1 : Escherichia coli BAP1 [Domaine] C : Domaine de condensation CoA : Coenzyme A CDC : Center for Disease Control and Prevention CYP : Cytochrome P450 DH : Déhydratase E. coli : Escherichia coli EC100D : E. coli Transformax EC100D pir+ FAD : Flavine Adénine Dinucléotide FADox : FAD-dependent oxyreductase (Oxydoréductase FAD-dépendante) FAH : Fatty Acid Hydroxylase (Hydroxylase d'acide gras) KR : Ketoreductase (Céto-réductase) KS : Ketosynthase (Céto-synthase) LCR : Ligase Cycling Reaction MDR : Multi-Drug Resistant / Resistance (Résistances à de multiples médicaments) MRSA: Methicillin-Resistant Staphylococcus aureus (Staphylococcus aureus résistant à la méticilline) NCBI : National Center for Biotechnology Information NRPS : Non-ribosomal peptide synthethase (Enzyme de synthèse des peptides non-ribosomaux) PaPPase : Phosphoestérase-PA-phosphatase [k]pb : [kilo]Paires de bases [d’ADN] PCR : Polymerase Chain Reaction (Réaction en chaîne par polymérase) PDR : Pan-Drug-Resistant / Resistance (Résistance à tous les médicaments testés) PKS : Polyketide Synthase (Polycétide synthase) PKS/NRPS : Hybrid polyketide synthase non ribosomal peptide synthethase (Protéine hybride de synthèse de polycétides/peptides non-ribosomaux) PTM : Polycyclic Tetramate Macrolactam (Tétramate polycyclique macrolactame) rbs : ribosome binding site (site de liaison du ribosome) S. alboflavus : Streptomyces alboflavus S. cerevisiae : Saccharomyces cerevisiae S. coelicolor : Streptomyces coelicolor S. fulvissimus : Streptomyces fulvissimus S. lividans : Streptomyces lividans Sp. / Spp. : Species, singular / plural (Espèce, singulier / pluriel) TE : Thioestérase WHO : World Health Organization (ou OMS, Organisation Mondiale de la Santé) ZnDEH : Zinc-binding dehydrogenase (Déhydrogénase liant le zinc)

xi

When you come to a fork in the road, take it. – Yogi Berra

xii

Remerciements

J’ai une grande quantité de personnes à remercier ici, car ce mémoire n’a pas été de tout repos et c’est un projet plein de rebondissements qu’il contient!

J’aimerais d’abord remercier mon comité d’évaluation :

Ma directrice, Manon Couture, pour son aide, son implication, sa patience et sa positivité constantes tout au long de la réalisation du projet et de la rédaction de ce mémoire;

Mon codirecteur, Rong Shi, pour m’avoir accompagné dans ce projet avec bonne humeur et enthousiasme;

Michel Guertin, pour son soutien et pour avoir contribué au développement de mon professionnalisme scientifique;

Yves Bourbonnais, pour ses précieux conseils et son aide.

J’aimerais aussi remercier :

Ma famille et mes amis, pour avoir pris de nouvelles de temps en temps;

Ma conjointe, Isabelle Dorval, pour son entêtement à croire que j’étais capable;

Mes parents, Peter Murphy et Carole Després, pour m’avoir montré l’exemple.

xiii

Introduction

Problématique

Les antibiotiques et l’apparition de la résistance aux antibiotiques La première découverte d’un antibiotique a été publiée par Alexander Fleming, rapportée en 1929 dans le British Journal of Experimental Pathology2. La molécule qu’il nomma «pénicilline», jusqu’alors inconnue, a bouleversé les paradigmes de la médecine et a grandement augmenté la probabilité de rémission des patients hospitalisés faisant face à une infection microbienne, particulièrement dans le contexte opératoire. Bien que des substances antimicrobiennes aient été utilisées depuis l’Antiquité (Hippocrate, un médecin grec, recommandait d’irriguer les blessures avec du vin ou du vinaigre afin de favoriser leur guérison, plus de deux millénaires avant notre ère3), l’utilisation contrôlée et rationnelle d’antibiotiques est très récente. En effet, la pénicilline n’est devenue accessible au public qu’en 1945, après la fin de la deuxième guerre mondiale. L’efficacité inédite de cette molécule, un antibiotique de type bêta-lactame ciblant la synthèse de la paroi de peptidoglycane chez les bactéries à Gram positif, ainsi que sa grande disponibilité, rendirent l’utilisation de la pénicilline très attirante et facile. Déjà en 1945, Alexander Fleming avertissait cependant de la possibilité de sélectionner des bactéries résistantes à la pénicilline si on surutilisait celle-ci4. On remarqua rapidement que ses craintes étaient vérifiées. Une «pénicillinase» capable de dégrader la pénicilline avait déjà été repérée en 19405, et la capacité de transfert de résistances aux antibiotiques entre deux bactéries d’espèces différentes a été rapportée pour la première fois en 19596. Ceci étant dit, l’industrie pharmaceutique florissante et dynamique de cette époque favorisait la découverte rapide de nouveaux antibiotiques, alors que l’on entrait dans une période surnommée «l’Âge d’Or de l’antibiotique»7; le problème de résistance était moins apparent et définitivement moins menaçant qu’il ne l’est aujourd’hui.

Peu après l’introduction des antibiotiques en santé humaine, ils furent testés puis – massivement – utilisés en santé animale. Les antibiotiques étaient particulièrement utilisés en élevage pour prévenir des infections difficilement détectables chez les bêtes, comme les infections pulmonaires ou intestinales, pour n’en nommer que deux. Cette difficulté à détecter les maladies chez les animaux avant qu’il ne soit trop tard encouragea la consommation prophylactique d’antibiotiques (c’est-à-dire lorsqu’il n’y a aucun symptôme de maladie et que l’animal semble sain) dans les élevages; de plus, il avait été montré que

1

certains antibiotiques ingérés par les animaux accéléraient leur croissance et augmentaient leur gain de poids, améliorant donc la rentabilité des entreprises agricoles d’élevage8,9. Un marché immense en santé animale et dans le domaine agroalimentaire s’ouvrait donc aux compagnies pharmaceutiques. Ceci, combiné à l’utilisation systématique des antibiotiques courants en médecine moderne, a eu le malheureux effet secondaire d’encourager à l’échelle planétaire la sélection de souches microbiennes résistantes aux antibiotiques et la propagation de ces résistances dans la nature10–12.

La résistance aux antimicrobiens L'émergence rapide de souches microbiennes résistantes et même multirésistantes aux agents antimicrobiens est un problème pressant et inquiétant dans les domaines de la santé13,14, de l'alimentation14 et de l'écologie15. Bien que la résistance aux antimicrobiens apparaisse naturellement chez les micro-organismes, le processus a été artificiellement accéléré à la suite d’usage massif et négligeant de ces produits en santé humaine et dans l’industrie agroalimentaire11. Plus récemment, on observe l’émergence de souches multirésistantes aux antibiotiques, c’est-à-dire que les antibiotiques les plus couramment utilisés pour traiter les infections contre ces organismes sont moins efficaces – voire carrément inefficaces. On parle alors de souches microbiennes multi-drug resistant (MDR). La multirésistance apparaît aussi bien chez les bactéries que les champignons, et les rend de plus en plus difficiles à éradiquer ou même à contrôler. Le terme pan-drug resistant (PDR) est notablement apparu dans les cas où aucun antibiotique testé ne peut cliniquement inhiber la croissance d’une souche particulière (du moins dans des doses non- toxiques pour l’humain)16. Les impacts potentiels de la multirésistance et de la pan- résistance au niveau des pandémies et des infections graves sont menaçants à un point tel que les médias publics et gouvernementaux rapportent fréquemment le phénomène qui n’avait, jusqu'à tout récemment, intéressé presque exclusivement que la communauté scientifique17,18. Dans les analyses du Center for Disease Control and Prevention (CDC), le développement de nouveaux antimicrobiens est présenté comme un des éléments centraux nécessaires à la future lutte aux microbes MDR et PDR19, qui est une priorité en recherche en santé humaine. Certains spécialistes plus pessimistes avancent même qu’une «apocalypse post-antibiotique20» est imminente si la situation n’est pas corrigée ou si la médecine moderne ne s’ajuste pas. Cette expression alarmiste est populaire dans les médias, mais force est d’admettre qu’elle est relativement appropriée pour décrire la

2

situation actuelle : les micro-organismes développent des résistances aux antimicrobiens plus rapidement que nous ne trouvons de moyens à long terme pour les combattre. Sous- peu, des infections communes pourraient devenir intraitables et le taux de mortalité pourrait conséquemment monter en flèche : la bactérie Staphylococcus aureus résistante à la méticilline (MRSA) est déjà responsable de plus de morts annuelles aux États-Unis que la sommes des morts dues au VIH/SIDA, au Parkinson et aux homicides21. La World Health Organization (WHO) reprend aussi l’expression «apocalypse post-antibiotique» qu’elle présente désormais comme une réalité et non seulement une prédiction. Elle affirme que la lutte à la résistance aux antibiotiques est l’un des plus grands défis scientifiques du XXIe siècle11,22.

Les mécanismes de résistance chez les microbes Les micro-organismes ont développé de nombreux mécanismes biologiques pour leur permettre de résister aux agents antimicrobiens. Dans la nature, les communautés de micro-organismes en compétition pour l’accès aux ressources limitées de leur environnement ont aussi bien développé des armes biologiques pour dominer localement que des mécanismes pour leur résister et, par le fait même, éviter l’auto-toxicité. Ces résistances sont dites «intrinsèques», ou «innées», et ne causent généralement pas de problème dans le contexte de la santé humaine et animale. Les résistances plus inquiétantes sont celles dites «acquises», celles qui apparaissent à la suite d’une exposition clinique à un antibiotique et qui servent explicitement à contrer l’antibiotique en question23. Quelques classes d’antibiotiques courantes et leurs mécanismes de résistance sont présentés au Tableau 1. Les mécanismes peuvent apparaître spontanément à la suite d’une mutation génétique ou être obtenus par l’acquisition de gènes de résistance via une souche résistante ou encore une autre espèce microbienne. Cette première façon d’acquérir une résistance se nomme «transfert horizontal de gènes» et elle est l’un des facteurs les plus importants de la propagation des résistances chez les microbes23.

En résumé, les classes actuelles d’antibiotiques sont de moins en moins efficaces, et un nombre insuffisant de nouveaux antibiotiques – ou mieux, de nouvelles classes d’antibiotiques – sont découverts ou commercialisés pour les remplacer13.

3

Tableau 1: Quatre classes d'antibiotiques connus et leurs mécanismes habituels de résistance a.

Classe Exemples Mécanismes de moléculaire de typiques Cible biologique résistance l’antibiotique d’antibiotiques Hydrolyse de l’antibiotique, Synthèse de la Pénicilline, éjection de Bêta-lactames paroi de céphalosporine l’antibiotique ou peptidoglycane mutation de la cible Synthèse de la Mutation dans la Vancomycine, Glycopeptides paroi de synthèse des téicoplanine peptidoglycane peptidoglycanes Éjection de Synthèse des l’antibiotique, Macrolides Érythromycine protéines mutation de la cible Hydrolyse, glycosylation ou phosphorylation Synthèse des de l’antibiotique, Tetracyclines Minocycline protéines éjection de l’antibiotique ou mutation de la cible

a Informations tirées de Davies et Davies, 201024 4

Figure 1: Approches en découvertes de nouveaux produits naturels bioactifs. Les approches dites plus «traditionnelles», les approches Top-down, sont en mauve, tandis que les approches issues des nouvelles technologies, appelées Bottom-up sont en bleu. Tiré de Luo et al., 201436.

L’approche Top-down : Les approches traditionnelles de découverte des antibiotiques Les premiers antibiotiques étaient découverts à l’aide de criblages fonctionnels de toxicité, en étudiant la capacité à inhiber la croissance d’organismes-cibles de certaines molécules naturellement produites via la fermentation de souches microbiennes provenant de sources environnementales variées. Les années d’après-guerre (de 1945 jusqu’aux années 1960, environ) ont été baptisées «l’Âge d’Or de l’antibiotique» en raison de la découverte rapide et importante de nouvelles molécules présentant une activité antimicrobienne à cette époque. Cette situation était le résultat d’une course industrielle à la découverte de nouveaux antibiotiques, qui semblaient être les nouveaux centres d’intérêt en pharmacologie et en médecine. Devant le succès indéniable des antibiotiques utilisés par l’armée américaine durant la guerre, des compagnies pharmaceutiques ont simultanément mobilisé leurs industries et leur personnel pour trouver de nouvelles molécules au pouvoir antimicrobien, ce qui a alors mené à la découverte de la quasi-totalité des antibiotiques connus aujourd’hui7,25. Les coûts énormes liés à ces processus de découverte, couplés au manque de nouveaux résultats d’intérêt à la fin des années 50 (et au fait que la plupart des

5

antibiotiques déjà découverts fonctionnaient bien), ont mené au désintérêt progressif global des compagnies pharmaceutiques envers les antibiotiques. Bien que les technologies associées à cette approche, qu’on peut appeler Top-down (voir la Figure 1) aient évolué et soient généralement en mesure de générer de manière fiable et robuste de nouvelles découvertes, un nombre très faible d’antibiotiques et surtout de nouvelles classes d’antibiotiques sont approuvés à chaque année; ces nouveaux agents antimicrobiens sont de surcroit souvent gardés en dernière ligne dans le réseau médical, afin d’éviter le développement et la propagation de nouvelles résistances contre eux26.

Des nouvelles approches en découverte d’antibiotiques et en thérapie antimicrobienne Ce faisant, la recherche, la découverte et le développement de nouveaux antibiotiques et molécules thérapeutiques est plus pertinent et plus urgent que jamais. La communauté scientifique a donc l’importante mission de développer des nouveaux traitements efficaces, en modifiant les antimicrobiens déjà existants par ingénierie biochimique, en découvrant des nouvelles molécules antimicrobiennes pour lesquelles il n’existe pas encore de résistance globalement répandue ou en testant des traitements alternatifs. Des succès ont déjà été observés pour des antibiotiques et/ou leurs analogues modifiés chimiquement, comme la vancomycine27, un antibiotique généralement utilisé en seconde ligne lors d’infection par Staphylococcus aureus résistante à la méticilline ou encore lors d’une infection grave à Clostridium difficile. Certains prédisent cependant que ces modifications ne permettront qu’un bref délai dans l’apparition de nouvelles résistances14,28.

La virothérapie par les bactériophages est également une avenue intéressante pour contrer les infections par des bactéries résistantes aux antibiotiques. Leur popularité a grandi du début du 20e siècle; ils étaient même bien connus jusqu’aux années 70, lorsqu’ils ont été déclassés en raison de l’engouement pour les nouveaux antibiotiques. Plus récemment, leur potentiel thérapeutique (et plus particulièrement leur capacité naturelle intrinsèque à évoluer pour contourner des résistances bactériennes) a recommencé à intéresser la communauté scientifique, et plusieurs tests cliniques ont été approuvés pour évaluer leur usage en santé humaine21.

Une autre piste de solution intéressante est offerte par les nouvelles approches dites Bottom-up (voir la figure 1). L’une des avenues intéressantes de l’approche bottom-up est

6

la découverte de nouvelles molécules naturelles bioactives assistée in silico par l’analyse de séquences génomiques et métagénomiques. En effet, deux des facteurs limitants des approches traditionnelles en découverte d’antimicrobiens sont le nombre élevé de souches à tester lors d’une campagne de criblage, nécessaire ne serait-ce qu’à la découverte d’une seule molécule active, et le problème de re-détection fréquente de molécules déjà connues. Une campagne de criblage intensive n’offre donc aucune garantie de détection de molécules utilisables en santé humaine ou en agriculture. Il est toutefois connu que les microorganismes produisent déjà des molécules bioactives naturellement, sans que nous soyons nécessairement capables de les détecter en laboratoire29. En ce sens, le séquençage d'ADN de dernière génération a permis la découverte massive opportune de nouveaux opérons et regroupements de gènes de biosynthèse de molécules naturelles d'intérêt, dont certaines sont des antibiotiques, qui n’ont toujours pas été identifiés ou caractérisés, ou qui restent cryptiques (dont l’expression n’est pas observée en conditions de laboratoire). Il existe donc des gènes d’intérêt déjà présents dans les bases de données actuelles, sans qu’ils aient nécessairement été repérés ou caractérisés. Avec les approches bottom-up, il est désormais possible de forcer l’activation d’opérons cryptiques via l’ajout de promoteurs géniques30,31 ou de transférer ces gènes vers des organismes-hôtes mieux caractérisés et adaptés à l’expression hétérologue 32–35. Le potentiel de nouvelles découvertes à partir de microorganismes méconnus, et même déjà connus, est donc immense! Déjà, l’ajout de promoteurs à des gènes natifs cryptiques dans certains microorganismes a permis la découvertes de plusieurs nouvelles molécules bioactives, tandis que le transfert hétérologue de certains opérons de synthèse de molécules bioactives a permis la caractérisation de plusieurs nouvelles molécules d’intérêt36. Il y a donc un renouvellement et une diversification de l’intérêt scientifique pour la découverte de solutions au problème de la résistance aux antibiotiques.

Parmi les microorganismes dont le génome est séquencé, une bactérie a attiré notre intérêt en particulier pour ce projet de maîtrise, soit la souche Streptomyces fulvissimus ATCC 27431 / DSM 40593, un actinomycète encore peu connub. Le génome publié montre un regroupement de gènes du sentier métabolique d’une molécule non-identifiée de type

bEn date de février 2019, seulement 57 articles mentionnent S. fulvissimus (et la majorité ne la mentionnent qu’indirectement dans leur texte) sur la base de données du National Center for Biotechnology Information (NCBI) depuis le premier article la mentionnant par son nom, en 1989. 7

Polycyclic Tetramate Macrolactam (PTM)1 qui a été repéré par notre groupe, sans avoir déjà été caractérisé (suite à la Section 1.2.5).

Le séquençage de nouvelle génération et le potentiel de découvertes biologiques Le séquençage de nouvelle génération, rendu possible grâce aux percées en technologies de séquençage ainsi qu’en assemblage de génome via la bio-informatique, favorise la découverte massive de nouveaux organismes dans tous les règnes du vivant. Séquencer le génome humain pour la première fois a coûté plusieurs milliards de dollars américains au début des années 2000, et plusieurs années ont été nécessaires à la réalisation du projet. Il y a déjà 3 ans, en 2015, un séquençage de cette taille pouvait se faire avec le système Illumina HiSeq X pour moins de 1000 dollars américains et en quelques heures37! La communauté scientifique a donc désormais la possibilité de séquencer des millions de nouveaux génomes à chaque annéec, et la taille de la base de données génomiques Genbank double en moyenne à tous les 18 mois depuis son lancement en 198238. Ce faisant, nombre de nouveaux génomes sont désormais disponibles à la communauté scientifique, et ils peuvent être utilisés afin d’évaluer le potentiel de biosynthèse de molécules naturelles de micro-organismes inédits ou redécouverts à la suite du séquençage complet de leur génome.

Cette maîtrise s’inscrit dans ce contexte; le génome de la bactérie S. fulvissimus DSM 40593 a récemment été séquencé et publié sur la base de données du National Center for Biotechnology Information (NCBI)1. Dans ce génome, nous avons remarqué la présence d’un regroupement de gènes d’environ 17 000 paires de bases codant pour des protéines de biosynthèse d’une molécule naturelle bioactive, potentiellement un antibiotique. Puisque les gènes sont orientés dans la même direction et potentiellement co-transcrits, nous parlerons de ce regroupement de gènes comme un opéron dans ce mémoire. Étant donné le potentiel important de la découverte d’un nouvel antibiotique dans le contexte mondial actuel, nous avons entrepris ce projet qui vise à mettre au point le transfert hétérologue de l’opéron dans la bactérie Escherichia coli, une approche de type bottom-up éprouvée39, afin de faciliter son étude. Ainsi, l’activation et l’expression des gènes permettrait de caractériser chaque protéine de l’opéron et la molécule naturelle produite. Cette méthode s’apparente à un criblage fonctionnel en métagénomique, ce qui permet l’étude de génomes – ou de

c https://www.ncbi.nlm.nih.gov/genbank/statistics 8

métagénomes – sans avoir à passer par la culture du ou des microorganismes dont ils sont issus.

Les avancées en métagénomique Une discipline relativement nouvelle a profité du fait que les méthodes de séquençage soient désormais capables de générer une plus grande quantité d’information génomique, et ce très rapidement. La métagénomique, ou l’étude d’ADN environnemental (ADNe), est une discipline naissante : son concept-même est apparu en 198540, tandis que le terme «métagénome» a été utilisé pour la première fois en 199841. Le principe est révolutionnaire, au sens où il permet la détection et l’étude des microorganismes inconnus via la caractérisation de molécules ubiquitaires dans le monde des vivants : les acides nucléiques. Partout où la vie est présente, les organismes vivants laissent des traces génétiques de leur présence et de leur activité. Les microorganismes vivent naturellement dans des communautés microbiennes uniques, souvent non-reproductibles en laboratoire. Il est donc présentement impossible de connaître la totalité de la richesse biologique de ces communautés, mais la métagénomique permet de s’en approcher. L’étude de l’ADNe permet de connaître les particularités génétiques ou encore fonctionnelles de certains environnements d’intérêts, tels divers microbiotes intestinaux42,43, des communautés bactériennes impliquées dans la décontamination de l’eau44 ou encore des écosystèmes microbiens des fonds marins45, pour n’en nommer que quelques-uns. De plus, la métagénomique est aussi utile pour étudier les bactéries non-cultivables en laboratoire : l’une des principales limites à la découverte de nouveaux microorganismes est en effet l’incapacité de créer des milieux de cultures propices à la croissance de plusieurs bactéries d’intérêt. Ceci peut s’expliquer entre autres par le manque de connaissances que nous avons par rapport à leurs conditions de croissance optimales, leur nutrition, ou sur les spécificités de leur environnement natif46. En isolant directement l’ADN dans son environnement natif, l’étude d’une bactérie d’intérêt n’est plus dépendante de sa culture en laboratoire : le problème est donc contourné47. Ces attraits que possèdent la métagénomique, couplés aux récentes avancées en séquençage d’ADN, ont fait exploser sa popularité dans les dernières années : depuis l’année 2000, où la bibliothèque du NCBI ne recensait qu’une seule publication mentionnant le mot métagénomique, près de 11 000 articles mentionnant ce domaine de recherche ont été publiés, dont plus de 6000 dans les 4 dernières années seulementd.

d En date de février 2019 : https://www.ncbi.nlm.nih.gov/pubmed/?term=metagenomic 9

Les grandes approches en métagénomique L’apparition de la métagénomique comme domaine de recherche a été entièrement dépendante du développement des technologies de séquençage. Avant l’avènement du séquençage à haut-débit, les études dites «indépendante de culture» des microorganismes étaient plutôt concentrées sur l’analyse des ARN ribosomaux 16S (procaryotes) ou 18S (eucaryotes) présents dans les échantillons d’ADNe48,49. Les séquences étaient obtenues en séquençant des librairies génomiques construites avec de l’ADNe amplifié pour des gènes spécifiques dont l’intérêt était notable ou dont la séquence était conservée et pouvait être facilement obtenue par PCR à l’aide d’amorces universelles. Bien que cela permettait de dévoiler de nouvelles connaissances sur les communautés microbiennes, une grande partie de l’information génétique présente dans ces échantillons était perdue puisque l’étude ne ciblait que certaines séquences spécifiques. L’ampleur et la complexité de la tâche requise pour totalement séquencer un échantillon d’ADNe par la méthode Sanger50, la méthode de séquençage principale à l’époque, rendait cette option pratiquement impensable. Bien que l’analyse de gènes spécifiques présents dans une communauté microbienne soit encore réalisée aujourd’hui51, c’est plutôt dans la première décennie des années 2000, avec l’arrivée d’abord du pyroséquençage automatisé puis des autres technologies de séquençage à haut-débit, que la métagénomique a révélé son plein potentiel : il est désormais possible d’analyser rapidement le contenu génomique complet d’ADNe de n’importe quel environnement, avec l’assurance qu’une partie considérable des ADNs présents – et donc des microorganismes présents – dans l’environnement étudié seront représentés dans les résultats de séquençage52. Ainsi, il est devenu possible de séquencer complètement des échantillons d’ADNe et de retracer la diversité microbienne par des analyses bio-informatiques, générant d’énormes bases de données contenant à la fois des informations sur les organismes présents dans l’échantillon et des informations sur les gènes qu’ils possèdent. Cette approche a mené à la découverte de milliers de nouveaux microorganismes, virus53 et de nouvelles enzymes d’intérêt pour les milieux médical, industriel et pharmaceutique47. Tel que mentionné précédemment, la métagénomique est donc un domaine de recherche effervescent, à un point tel que les données métagénomiques se sont accumulées plus rapidement que la vitesse à laquelle la communauté scientifique n’a été en mesure de les analyser54.

10

Le criblage fonctionnel d’échantillons métagénomiques Une autre approche pour analyser l’ADN d’un échantillon environnemental, réalisable en parallèle ou indépendamment du séquençage, est le criblage métagénomique fonctionnel. Cette approche est particulièrement à propos lorsque la ou les molécules recherchées possèdent une cible particulière connue ou que les analyses de séquences ont prédit la production d’une molécule bioactive d’intérêt par un ou plusieurs organismes dans l’échantillon. Plusieurs méthodes de criblage fonctionnel existent mais, au meilleur de nos connaissances, toutes semblent passer par la construction d’une librairie de clones (aussi appelée banque) contenant chacun une partie de l’échantillon d’ADNe sous forme soit de plasmides, de cosmides ou de chromosome bactérien artificiel (BAC). La capacité élevée d’insertion de larges fragments d’ADN des cosmides (environ 25 à 45 kilobases), leur stabilité et leur nombre relativement élevé de copies les rendent idéaux pour un tel criblage; les plasmides standards possèdent généralement une capacité d’insertion de tailles de fragments d’ADN faible (nécessitant donc un nombre plus élevé de clones à cribler) et sont moins utilisés dans ce contexte, tandis que les BACs possèdent un nombre de copies faible, ce qui pourrait nuire à un criblage fonctionnel efficace. L’une des méthodes de criblage les plus populaires est donc la construction de librairie génomique à l’aide de cosmides. Une variation bien connue de cette méthode est la construction de librairies génomiques basées sur des fosmides. Un fosmide est, dans les faits, un cosmide basé sur le plasmide F, un plasmide sexuel de E. coli ne pouvant être maintenu qu’à une seule copie par cellule. Certains fosmides possèdent également une origine de réplication dont l’utilisation par la cellule hôte est sous le contrôle d’un promoteur inductible, ce qui mène donc au maintien de plusieurs copies du fosmides par cellule lorsque les conditions le permettent. C’est cette dernière approche qui a été utilisée pour la construction d’une librairie génomique de S. fulvissimus ATCC 27431 / DSM 40593 dans le cadre de ce projet de maîtrise.

11

Cadre théorique

Le transfert hétérologue d’ADN Afin d’étudier l’ADN (ADNg ou l’ADNe), il est souvent nécessaire de le transférer dans un organisme cultivable, ou du moins plus facilement cultivable, en laboratoire. À cette fin, il est possible de transférer des gènes connus sur une construction plasmidique (ou encore sur des vecteurs de type cosmide ou BAC) ou une librairie génomique complète sur une série de vecteurs, et de l’insérer dans l’organisme-hôte souhaité via une transformation chimique, une électroporation ou une infection par des phages contenant ladite librairie ou construction. Non seulement cela permet l’amplification de l’ADN inséré pour son séquençage, mais l’ADN peut aussi, idéalement, être exprimé par l’organisme dans lequel il est transféré. Ceci permet alors l’étude fonctionnelle d’opérons ou de gènes qu’il contiendrait. Tel que décrit ci-haut, cette deuxième possibilité est à la base du concept de criblage fonctionnel de clones ou de librairies génomiques pour découvrir des molécules bioactives. Lorsque l’approche fonctionne, il est alors possible d’identifier des clones contenant un opéron servant à produire une molécule bioactive. Le transfert hétérologue offre également la possibilité de contourner des limitations liées à l’organisme natif comme la présence d’inhibiteurs ou de suppresseurs géniques empêchant l’expression ou l’activation d’opérons biosynthétiques d’intérêt. Cette approche est intéressante, du moment que l’organisme-hôte utilisé ne contient pas déjà les gènes codant la voie de biosynthèse d’intérêt ou des gènes interférant avec celle-ci. C’est cette approche de transfert hétérologue d’un opéron biosynthétique, par trois approches différentes, qui a été tentée dans ce projet (voir les Sections 1.2.2 à 1.2.4 inclusivement). Les aspects généraux de ces approches sont résumés ci-dessous.

La construction de plasmides via une amplification PCR de gènes d’intérêt La réaction en chaîne de polymérase (PCR, pour Polymerase Chain Reaction) est devenue, depuis son développement dans les années 1980, une technique indispensable dans plusieurs domaines des sciences fondamentales et appliquées : autant en médecine légale qu’en biochimie; en industrie qu’en recherche55. Une des méthodes les plus communes pour le transfert hétérologue de gènes est l’amplification de gènes d’intérêt à partir de l’ADN contenant l’opéron ou les gènes désirés. À l’aide d’amorces PCR appropriées, il est possible d’amplifier de longues sections génomiques allant de quelques centaines à plusieurs milliers de paires de bases, et de rendre ces fragments nommés «amplicons» compatibles avec un

12

vecteur désigné. L’accessibilité et la robustesse de cette méthode font partie de ses principaux attraits : des amorces PCR personnalisées sont abordables et leur obtention est rapide, et plusieurs polymérases disponibles pour amplifier l’ADN sont précises et fidèles.

La synthèse chimique de gènes Principes généraux Lorsque la séquence d’un gène est connue, il est possible de réaliser son transfert hétérologue via sa synthèse chimique puis sa transformation dans l’organisme-hôte. La synthèse chimique d’oligonucléotide est une technologie éprouvée; dès les années 1950, des expériences de synthèse chimique d’oligonucléotides avaient lieu. Bien qu’initialement limitées à de très courts oligonucléotides, le potentiel de ces méthodes a éventuellement mené à la situation actuelle, soit la possibilité de synthétiser rapidement et à coûts relativement faibles des séquences allant de quelques nucléotides à plus de 9000 paires de bases56, selon les compagnies offrant ce service. La synthèse chimique d’un gène possède plusieurs avantages : elle permet l’étude de gènes autrement difficiles à extraire ou dont la souche d’origine est indisponible; elle permet l’étude de gènes provenant de bactéries impossibles à étudier dans un laboratoire de recherche standard en raison de son niveau de biosécurité associé; elle permet enfin d’étudier l’effet d’un gène séquencé lors d’une étude métagénomique mais dont la souche d’origine est inconnue ou non-cultivable. Les compagnies qui offrent les services de synthèse chimique de l’ADN offrent parfois des mesures de pré-assemblages dans des vecteurs connus comme des plasmides, par exemple. Il est donc maintenant possible de commander de l’ADN sur mesure, purifié et prêt à être utilisé en seulement quelques jours ou quelques semaines, en fonction de la taille de l’ADN désiré.

L’optimisation des codons des gènes La synthèse chimique de gènes d’intérêt possède enfin un avantage indirect supplémentaire, qui est celui de réaliser l’optimisation des codons en fonction de l’organisme-hôte dans lequel les gènes seront transférés. L’optimisation des codons est le procédé par lequel la dégénérescence du code génétique est mise à profit afin de faciliter l’expression d’un gène pour l’organisme-hôte. Dans un organisme dont la composition du en ADN du génome est très différente à celle d’un autre organisme, le transfert de gènes hétérologues fonctionnels de l’un vers l’autre ne sera pas toujours possible, ou du moins

13

efficace. Un organisme possède généralement un biais dans l’utilisation des codons pour un même acide aminé, et cela a tendance à varier grandement entre les différents organismes. L’origine évolutive de ces biais d’utilisation des codons est encore fortement débattue, mais deux facteurs influençant ceux-ci ont été exposés : Le contenu génomique en bases G et C, ainsi que la température du milieu de croissance57. C’est dans cette perspectives et en tenant compte de l’hôte prévu pour le transfert hétérologue (Section 1.2.12) qu’une optimisation des codons des gènes de biosynthèse du PTM a été réalisée pour cette stratégie.

Les librairies génomiques basées sur les fosmides Des protocoles existent pour la construction de librairies génomiques basées sur des fosmides et transfectées par des phages chez un hôte bactérien pour l’étude d’ADN. Ceci permet la capture efficace et l’amplification de larges fragments d’ADN pour leur criblage ou leur séquençage58. Ces méthodes permettent de réaliser des projets aussi bien en génomique qu’en métagénomique ainsi que d’amplifier l’ADN de bactéries autrement incultivables. Un problème de cette méthode est que l’information sur l’organisme d’origine est souvent incomplète, et qu’il n’est pas systématiquement possible de retracer le microorganisme d’où elle provient. Ces problèmes sont de moins en moins importants en raison des avancées en bio-informatique, qui rend l’assemblage de génomes de plus en plus efficace et précis. Les librairies génomiques existent déjà depuis un certain temps; la première à être complétée fut celle du bactériophage phi X174 en 1977, par le double lauréat du prix Nobel Frederick Sanger59. Les avancées technologiques dans les décennies suivantes ont permis la construction de librairies génomiques de plus en plus grandes et de plus en plus complexes. Le développement des librairies génomiques basées sur les fosmides dans les années 1990 a permis la construction de librairies plus stables sur plusieurs générations de croissance microbienne. Les projets de séquençage via ces librairies ont permis de compléter et/ou valider plusieurs génomes publiés dans les années 2000, notamment celui de l’humain60. Un des avantages de la préparation de librairies génomiques basées sur les fosmides est leur faible nombre de copies dans la cellule, ce qui favorise la stabilité des librairies. Les librairies génomiques basées sur les fosmides seraient, pour la même raison, potentiellement moins biaisées contre les gènes codants pour des molécules bioactives, particulièrement si lesdites molécules sont actives contre l’organisme-hôte61.

14

Les Streptomycètes Les streptomycètes forment un genre bactérien bien connu. Elles sont des bactéries saprophytes (c’est-à-dire qui se nourrissent principalement de matière organique inerte, et participent donc au processus de décomposition de celle-ci) à Gram + et majoritairement présentes dans le sol. Ce genre bactérien est devenu particulièrement connu pour sa production quantitativement impressionnante de composés secondaires d’intérêt biologique et, dans une seconde mesure, pour sa capacité à exprimer des protéines hétérologues62. Des antibiotiques notables produits des streptomycètes comprennent, entre autres, la streptomycine63, la tétracycline64 et le chloramphénicol65. De plus, un modèle proposé par Watve et al. en 2001 estime qu’environ 100 000 composés antimicrobiens sont produits par le genre Streptomyces66. Les streptomycètes sont donc particulièrement intéressants pour les nouvelles approches de type bottom-up : il a été prédit que la diminution actuelle du nombre de composés bioactifs découverts chez ce genre bactérien serait due à une diminution des capacités de criblages ou des efforts de recherche plutôt que par l’épuisement des composés à découvrir66. Plus récemment, la production de nouvelles molécules d’intérêt biologique comme la prodigiosine, une molécule aux propriétés anticancer67, et la valinomycine, un antibiotique d’intérêt en biologie fondamentale pour sa capacité à retirer le gradient électrochimique membranaire68, a été observée dans diverses souches du genre Streptomyces. Il va donc sans dire que ce genre bactérien est d’un grand intérêt dans le contexte où des millions de nouveaux génomes sont séquencés à chaque année. Le potentiel de découverte d’une molécule antimicrobienne inédite chez cette espèce est grand, et c’est dans ce contexte que le projet a été initié avec la souche ATCC 27431 / DSM 40593 de Streptomyces fulvissimus, qui possèderait un opéron pour la biosynthèse d’une molécule de type PTM qui n’a pas été encore caractérisée.

Streptomyces fulvissimus et son génome Streptomyces fulvissimus, son nom latin voulant dire «très jaune», est une bactérie décrite pour la première fois en 1930 par Hans Lauritz Jensen dans une étude des actinomycètes présents dans le sol danois69. Tout comme les streptomycètes en général, elle forme des colonies dotées de spores localisées sur un mycélium aérien. La couleur des spores est blanc-blanchâtre, tandis que les colonies elles-mêmes sont de couleur jaune, parfois beige. La production d’un pigment orange est souvent observée, après la phase initiale de croissance mais avant la production des spores, et la production d’un pigment rouge vif est observée sur certains milieux solides70. S. fulvissimus, tel que mentionné précédemment,

15

n’est que marginalement connue. La production de l’ionophore valinomycine, déjà mentionnée plus haut, a été observée et étudiée chez une souche, mais peu d’autres molécules produites par S. fulvissimus ont été caractérisées à ce jour. Le génome de la souche S. fulvissimus DSM 40593 publié en 20131 contient 7.9 millions de paires de bases, dont 71.5% de bases G+C, ce qui peut être considéré comme élevé (le génome de E. coli en contient typiquement 50%, et l’humain en contient environ 40%). L’opéron qui nous a initialement intéressé est celui représenté à la Figure 2. D’une taille d’environ 17 000 paires de bases, il contient 7 gènes codant des protéines, dont une d’une taille prédite estimée à 338 000 Daltons (Da). Les protéines prédites de cet opéron sont répertoriées dans le Tableau 2.

Figure 2: Schéma du regroupement de gènes de synthèse de PTM de Streptomyces fulvissimus.

Tableau 2: Protéines prédites de l’opéron de biosynthèse du PTM. Les informations génomiques proviennent du génome publié par Myronovskyi et al (2013)1. Les prédictions de tailles des protéines ont été réalisées avec l’outil «Translate tool» du portail de bio-informatique ExPASY. (https://web.expasy.org/translate/)

Nom attribué à la Nombre de paires de Rôle prédit protéine prédite bases du gène

FAH Hydroxylase d’acides gras 942

Polycétide-synthase / PKS/NRPS synthétase de peptides 9381 non-ribosomaux hybride Oxydoréductase FAD- FADox1 1701 dépendante Oxydoréductase FAD- FADox2 1698 dépendante Alcool déhydrogénase ZnDEH 1056 liant le zinc CYP Cytochrome P450 1197 Phosphoestérase-PA- PaPPase 804 Phosphatase

16

Une comparaison rapide avec des regroupements de gènes de structures similaires connus nous a permis de prédire que cet opéron possède les gènes requis pour faire la biosynthèse d’une molécule de type Polycyclic Tetramate Macrolactam (PTM), qui sont des molécules d’intérêt dans le contexte de la lutte aux micro-organismes résistants aux antibiotiques. La structure de ce regroupement de gènes rappelle celle d’opérons déjà identifiés dans d’autres génomes (voir Figure 2 et comparer à la Figure 5)71. Peu de ces opérons ont été caractérisé au niveau fonctionnel, de sorte qu’il n’est pas sûr de prédire quel type de PTM serait synthétisé. De plus, un gène appartenant potentiellement au regroupement, celui codant la PaPPase (Figure 2), est absent des autres opérons connus (Figure 5).

Les Polycyclic Tetramate Macrolactams (PTM) Les PTM sont des molécules naturelles bioactives présentes dans tous les domaines du vivant72, dont la grande famille inclut des antibiotiques, des antifongiques et d'autres molécules aux activités variées71. Le cœur structural des PTM est synthétisé par une large enzyme hybride, multi-domaine, qui s'appelle «polycétide synthase / synthétase de peptides non-ribosomaux hybride» (PKS/NRPS). À ce cœur structural, des enzymes modificatrices dites «de décoration» viennent ajouter des cycles internes, des groupements fonctionnels et d'autres modifications. Avec l’observation de leur cœur structural constant, même entre les différents domaines du vivant, l’hypothèse d’une origine biosynthétique commune pour tous les PTM a été émise par Blodgett et al. en 201071. Des exemples de la variété de molécules de type PTM sont présentés à la figure 3, ci-dessous.

17

Figure 3: Exemple de PTMs connus. Adapté de Blodgett et al (2010)71.

Les PTM ne sont pas une famille de molécules découverte particulièrement récemment. L’ikarugamycine, un antibiotique de la famille des PTM, a fait l’objet de plusieurs publications depuis sa découverte en 197273. Malgré cela, nous en savons toujours très peu sur les processus de biosynthèse de ces molécules. L’étude de ce type de sentiers biosynthétiques, tel que nous désirions le faire de ce projet, demeure largement à faire afin d’obtenir un aperçu plus clair du processus par lequel les bactéries synthétisent ces intéressantes molécules organiques à la structure complexe. L'information décrite pour ce mémoire par rapport à la biosynthèse des PTM provient surtout des données sur les PKS/NRPS qui les synthétisent, et les données sur ces protéines hybrides massives sont elles-mêmes dépendantes des connaissances sur chacune de leurs composantes hybrides respectives, soit les polycétides synthases (PKS) et les synthétases de peptides non-ribosomaux (NRPS).

Les polycétides synthases (PKS) Les polycétide synthases (PKS, pour Polyketide Synthase, en anglais) forment une grande famille de protéines qui contient plusieurs classes. Les PKS peuvent être soit formées d’une seule protéine de grande taille ou d’un complexe formé de plusieurs protéines

18

indépendantes, selon les différentes classes de PKS. Ces enzymes catalysent la synthèse de produits complexes à partir de propionyl-CoA et de methylmalonyl-CoA par des condensations décarboxylatives successives. Bien que ce procédé d'assemblage soit souvent comparé à celui de la synthèse des acides gras, des différences notables sont observées dans le fonctionnement des PKS et des synthases d’acides gras au niveau de leur spécificité interne, du traitement de leurs intermédiaires de réaction et de leurs interactions avec d’autres protéines74. Les polycétides produits par les PKS sont par la suite soumis à plusieurs modifications, ce qui génère des produits finaux aux fonctions variées. La structure et la fonction des polycétides seront particulièrement influencées par les enzymes de décorations associées à l’opéron contenant la PKS75. À titre d’exemple, quelques polycétides connus sont rapportés dans le Tableau 3.

19

Tableau 3: Exemples de polycétides connus.

Organisme Nom Fonction Structure d’origine

Saccharopolyspora Érythromycine Antibiotique erythrea76,77

Inhibiteur de la Aspergillus Lovastatine biosynthèse terreus78 du cholestérol

Amphotéricine Streptomyces Antifongique B nodosus79,80

L’image de la structure de la Lovastatine provient de https://en.wikipedia.org/wiki/Lovastatin (repéré en juillet 2018). Les autres images des structures présentées sont en libre-accès.

Les synthétases de peptides non-ribosomaux (NRPS) Les synthétases de peptides non-ribosomaux (NRPS, pour Non-Ribosomal Peptide Synthetase, en anglais), tel que leur nom l'indique, catalysent la synthèse de peptides sans passer par le sentier classique de la synthèse peptidique par les ribosomes. Les précurseurs utilisés pour cette synthèse peuvent varier, mais ils sont généralement des acides aminés, standards ou non, entre lesquels les liens peptidiques sont formés via la création de liens thioester. La formation de ces liens est rendue possible grâce à un groupement 4' phosphopanthétéine présent sur les domaines transporteurs de groupements acyles (ACP, pour Acyl-Carrier Protein, en anglais) de la NRPS. Les liens individuels de deux acides aminés seront ensuite condensés en un seul lien peptidique81. Ces peptides courts seront

20

enfin modifiés pour leur intégration à une protéine ou une molécule bioactive. Pour la valinomycine, une molécule intéressante produite par S. fulvissimus, c’est un assemblage répété contenant à la fois une L-valine et une D-valine qui forme le cœur de la molécule68. Dans le cas des PTM, c’est une ornithine qui est l’acide aminé de départ. À titre d’exemple, quelques molécules formées de peptides non-ribosomaux sont aussi présentées dans le Tableau 4.

Tableau 4: Exemples de molécules contenant des peptides non-ribosomaux ou formées de peptides non-ribosomaux.

Organisme Nom Fonction Structure d’origine

Streptomyces Valinomycine Antibiotique/ionophore fulvissimus1 (entre autres)

Amycolatopsis Vancomycine Antibiotique orientalis82

Tolypocladium Cyclosporine Immunosuppresseur inflatum83

Les images des structures présentées sont en libre-accès.

21

Les PKS/NRPS hybrides et les PTM C'est la combinaison hybride des deux types de protéines, les PKS et les NRPS, qui donne naissance aux PKS/NRPS. Ce type d’enzyme est responsable de la synthèse de molécules complexes, notamment de type PTM. Un PTM possède trois parties structurales : une partie polycyclique, qui proviendrait de l'action de la moitié PKS de l’enzyme, et les parties tétramate et macrolactame, qui seraient plutôt le résultat de l’activité de la moitié NRPS de l’enzyme. La molécule synthétisée par les PKS/NRPS est largement dépendante des modules internes de ces enzymes géantes ainsi que des enzymes de décoration qui font partie des opérons biosynthétiques associés; en effet, il est possible de former un large spectre de molécules de différentes familles avec comme point de départ une protéine de type PKS/NRPS84,85. Pour son fonctionnement, une PKS/NRPS requiert tous les précurseurs nécessaires au fonctionnement d’une PKS ainsi que ceux d’une NRPS. De plus, après sa propre synthèse, une PKS/NRPS devra subir une modification post- traductionnelle pour être fonctionnelle, via une autre enzyme comme une phosphopanthétéinyl transférase, par exemple. Cette modification active les domaines transporteurs de groupements acyles (ACP) qui permettent l’élongation de la chaîne acyle de la partie PKS de d’enzyme ainsi que la liaison de la chaîne acyle allongée par la PKS à la molécule peptidique synthétisée par la NRPS. Un schéma de la synthèse d’un PTM par une PKS/NRPS est présenté à la Figure 4.

22

A. B.

C. D.

E.

+ Activité des enzymes de décoration

Figure 4: Schéma de la synthèse d’un PTM. Adapté de Blodgett et al. (2010)71.

À l’étape A, de la Figure 4, la moitié PKS de l’enzyme (à gauche) produit une chaîne carbonée, et la fixe à son groupement ACP. La moitié NRPS, ayant fixé un ornithine, reçoit ensuite la chaîne produite par la moitié PKS et la fixe à son acide aminé. À l’étape B, une seconde chaîne est produite par la moitié PKS qui, à l’étape C, sera fixée au second groupement amine libre de l’ornithine. À l’étape D, une attaque nucléophile a lieu, ce qui forme la partie tétramate de la molécule et relâche l’intermédiaire de la moitié NRPS. À l’étape E, dans une action simultanée de réactions spontanées internes et d’activité des enzymes de décoration, le PTM final est refermé.

23

Le transfert hétérologue des PKS/NRPS Il faut savoir que le transfert d’un opéron codant notamment pour une protéine hybride de type PKS/NRPS ne peut être réalisé dans n’importe quel organisme-hôte : il faut d’abord s’assurer que l’organisme désiré possède la capacité de produire les précurseurs des molécules synthétisées par la PKS/NRPS, et qu’il est également en mesure d’activer les groupement ACP de la protéine via une phosphopanthétéinyl transférase39. Quelques organismes-hôte, suggérés pour de tels transferts, sont répertoriés au Tableau 5. Bien que d’autres organismes soient utilisables, ceux indiqués au Tableau 5 sont ceux qui ont notamment été considérés dans la réalisation de ce projet de maîtrise.

Tableau 5 : Quelques microorganismes recommandés pour les projets de transfert d’opérons contenant des PKS/NRPS Contenu en Organisme Particularités bases G+C Croissance rapide; possède le gène de la protéine phosphopanthétéinyl transférase Escherichia coli BAP177 Sfp de Bacillus subtilis; catabolisme des 50.8% précurseurs des PKS dans la bactérie inhibé Croissance rapide; possède nativement Bacillus subtilis39 43.5% l’enzyme Sfp Métabolisme similaire à celui de S. Streptomyces coelicolor fulvissimus; streptomycète bien 71.9% ou lividans39,62 caractérisé; croissance lente; possibilité d’interférence de métabolites secondaires Croissance plus rapide que Streptomyces spp.; contenu G+C du génome Pseudomonas putida39 62.3% relativement élevé. Possède une enzyme Sfp native

24

Les gènes codant le PTM de Streptomyces fulvissimus DSM 40593 La Figure 5 (à la page suivante) présente sous forme de schéma des opérons connus de biosynthèse de PTM. L’analyse de la configuration de l'opéron de biosynthèse d’un PTM chez S. fulvissimus (voir Figure 2) a mené au lancement de ce projet. En effet, elle rappelle fortement celle des opérons codant pour des frontalamides – des PTM qui ont d'abord été découverts chez la souche Streptomyces SPB78, un symbiote trouvé sur l'insecte Dendroctonus frontalis71. Les frontalamides forment une sous-famille de PTM possédant une activité antifongique connue. Dans le cas de l’insecte Dendroctonus frontalis, le frontalamide le protège contre les infections fongiques, dans une relation mutualiste entre l’insecte et le streptomycète. Il est prédit que la molécule synthétisée par l’opéron PTM de S. fulvissimus fasse partie de cette famille, puisque l'identité de séquence des acides aminés entre les protéines homologues de l'opéron ftd de la souche SPB78 et l'opéron de S. fulvissimus est assez importante, sans être identique (voir Tableau 6). La PKS/NRPS d'intérêt contient plusieurs domaines (voir Figure 6), dont 4 sont liés à la partie Polycétide synthase et trois à la partie Synthétase de peptides non-ribosomaux, selon une analyse des domaines sur l'application Conserved Domain Search du National Center for Biotechnology Information (NCBI). Deux autres domaines de transport, des domaines ACP, ubiquitaires chez les PKS et les NRPS, sont également présents dans la protéine hybride; un dans chaque moitié.

Tableau 6: Identité et similarité de séquence protéique entre les gènes prédits de l'opéron de S. fulvissimus (à gauche dans la première colonne) et l’opéron de biosynthèse de frontalamide de Streptomyces SPB78 (à droite dans la première colonne). Les alignements ont été réalisés avec l’outil «Lalign» du portail de bio-informatique ExPASY (https://embnet.vital-it.ch/software/LALIGN_form.html)

Identité de séquence Similarité de séquence Gènes alignés (%) (%) FAH | ftdA 65.6 85.1 PKS/NRPS | ftdB 68.0 83.7 FADox1 | ftdC 77.2 91.3 FADox2 | ftdD 81.4 93.2 ZnDEH | ftdE 74.2 87.9 CYP | ftdF 58.6 78.9 PaPPase | N/A N/A N/A

25

Figure 5: Représentations de différents opérons connus servant à la biosynthèse des PTM chez les streptomycètes. Adapté de Blodgett et al. (2010)71.

Figure 6: Domaines de la PKS/NRPS du regroupement de gènes de biosynthèse du PTM de Streptomyces fulvissimus, tel que prédit par le Conserved Domain Search du NCBI (https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi).

26

Les enzymes de décoration de l’opéron PTM Six gènes codant pour des protéines de décoration ont été identifiés dans la région de l’opéron de S. fulvissimus (voir les Figure 2 et Tableau 6). Selon les annotations de la base de données Genbank de NCBI, les fonctions prédites des enzymes de décoration sont: une hydroxylase d'acide gras (à laquelle nous avons attribué le nom FAH), deux oxydoréductases FAD-dépendantes (FADox1 et FADox2), une déshydrogénase liant le zinc (ZnDEH), un cytochrome P450 (CYP) et une protéine au rôle incertain, prédite à l’aide une recherche de similarité de séquence comme étant une phosphoestérase-PA-phosphatase (PaPPase). Cette dernière n'a pas d'homologue connu dans les opérons de frontalamides, et son rôle ou même sa participation dans la biosynthèse du PTM demeurent à démontrer. C'est l'action combinée prédite de ces protéines qui formerait le PTM final, et le projet vise à exprimer l’opéron dans un hôte hétérologue pour déterminer l’activité biologique de la molécule synthétisée, dans la perspective future de déterminer le rôle individuel exact de chaque protéine. Pour des raisons qui seront explicitées plus loin, il n’a pas été possible de faire ces expériences, et le projet a grandement évolué au cours de la maîtrise.

27

Hypothèse et objectifs :

Hypothèse Nous avançons l’hypothèse, à la suite de notre analyse du génome publié de S. fulvissimus1, que cette bactérie possède le matériel génétique nécessaire pour produire une molécule bioactive potentiellement antimicrobienne faisant partie de la famille des Polycyclic Tetramate Macrolactams (PTM). Cette molécule est à ce jour non caractérisée. Afin de vérifier cette hypothèse, nous proposons de tester la production de molécule(s) antimicrobiennes(s) à la fois chez l’hôte natif et suite au transfert de cet opéron chez la souche hôte Escherichia coli BAP1, qui a été optimisée pour ce type de transfert77. Ceci permettrait la synthèse de la molécule naturelle en condition de culture de laboratoire et, plus tard, permettrait la caractérisation du rôle de chaque protéine de la voie de biosynthèse.

Objectifs de recherche Les objectifs du projet de recherche sont : (1) tester la production de molécule(s) bioactive(s) par S. fulvissimus, (2) d’isoler les gènes de S. fulvissimus qui servent à la biosynthèse de la molécule de type PTM, puis de (3) les transférer chez l’hôte Escherichia coli BAP1 pour enfin (4) évaluer le potentiel bioactif de cette molécule, et valider la nature de celle-ci.

Notes sur les stratégies de réalisation du projet Comme il sera explicité dans ce mémoire, la stratégie de réalisation du projet a évolué au cours de cette maîtrise et quatre grandes stratégies ont été employées. Ces stratégies seront présentées en ordre chronologique. Elles varient grandement par leur nature mais elles visaient toutes l’atteinte des objectifs de recherche décrits ci-haut, exception faite de la dernière. La dernière stratégie a été déployée au cours d’une réorientation majeure du projet de maîtrise, tel qu’il sera expliqué dans les prochaines sections. Les stratégies sont décrites en quelques mots ci-dessous afin de faciliter la lecture du chapitre 2 : Matériel et Méthodes.

Clonage par amplification PCR La première stratégie de réalisation du projet était de faire l’amplification des gènes par PCR à partir d’ADNg de S. fulvissimus. L’opéron complet aurait été amplifié avec des amorces spécifiques à chaque gène, puis transféré sur un plasmide avant d’être transformé dans E. coli pour l’expression.

28

Synthèse chimique des gènes Les gènes de l’opéron ont été synthétisés chimiquement en blocs de 2000 paires de bases. Les extrémités de chaque bloc d’ADN étaient adaptées pour un protocole d’assemblage isotherme de type Gibson86. Les blocs étaient conçus pour s’assembler sur deux plasmides, l’un qui aurait contenu le gène complet codant pour la PKS/NRPS de l’opéron, tandis que l’autre aurait contenu les gènes codant pour les protéines de décoration. Cela devait faciliter l’étude subséquente de la PKS/NRPS et des protéines de décoration, ainsi que l’assemblage isotherme en tant que tel. Les plasmides auraient alors été transférés dans Escherichia coli BAP1 pour l’étude de la production du PTM. L’expression des gènes insérés aux plasmides aurait été inductible artificiellement, et les gènes contenus sur les plasmides auraient également pu être intégrés au chromosome bactérien. Les codons des blocs d’ADN synthétique étaient optimisés pour leur expression dans Escherichia coli.

Construction et criblage d’une banque d’ADN génomique L’ADNg de S. fulvissimus a été extrait puis utilisé pour la construction d’une librairie génomique basée sur le fosmide pCC1FOS et encapsidé dans le bactériophage . Cette librairie génomique pourrait ensuite être transfectée dans n’importe quelle souche d’Escherichia coli sensible au phage . Le ou les fosmide(s) contenant l’opéron de biosynthèse du PTM aurai(en)t ensuite pu être détecté(s) par PCR ou encore par criblage de l’ADN par colorimétrie, via des sondes marquées à la digoxigénine.

Analyses génomiques Vers la fin du projet, les résultats obtenus suggéraient fortement qu’il y avait une problématique au niveau de la souche de S. fulvissimus utilisée comme source de matériel génétique pour ce projet et son génome de référence. Ceci a empêché la réalisation du projet tel que prévu et décrit. Cela a été confirmé par le séquençage complet de la souche S. fulvissimus ATCC 27431 / DSM 40593 avec la technologie Illumina, qui a révélé que la séquence du génome ne correspond pas à celle du génome publié pour la souche S. fulvissimus DSM 40953M1. Tout au long de ce mémoire, un M en exposant est ajouté à Streptomyces fulvissimus DSM 40593 lorsque l’on réfère spécifiquement à la bactérie dont le génome a été publié. La dernière partie du mémoire décrit donc l’analyse des séquences génomiques, sous forme de contigs, que nous avons obtenues pour la souche ATCC 27431/DSM 40593.

29

Chapitre 1 : Matériel et méthodes

1.1 Solutions

Quelques solutions spécifiques aux protocoles décrits dans le chapitre Matériel et méthodes sont répertoriées dans le Tableau 7. Une brève description de leur utilisation est incluse dans ce tableau. Les solutions ont été stérilisées par filtration ou autoclavage lorsque cela était requis. Plusieurs autres solutions ont été utilisées dans ce projet, mais elles étaient soit fournies dans des trousses, soit implicites (par exemple, NaCl 5 M) et ne sont donc pas répertoriées dans ce tableau.

Tableau 7: Solutions utilisées au cours du projet, avec leur composition et leur usage

Nom du produit ou de Composition Usage la solution

-Eau distillée Digestion de la paroi bactérienne Solution de lysozymes -Lysozymes (50 mg/ml) de peptidoglycane

-Eau distillée Dégradation des protéines dans Solution de protéinase -Protéinase K (20 mg/ml) les extraits bruts microbiens

-NaCl (75 mM) Resuspension du culot bactérien Tampon SET -EDTA pH 8.0 (25 mM) lors de l’extraction d’ADNg -Tris pH 7.5 (20 mM) (Section 1.6)

-Tris pH 7.5 (10 mM) Tampon TE 10 : 1 Resuspension d’ADN -EDTA (1 mM) -NaCl (3 M) Lavages pour l’hybridation d’ADN Tampon SSC (20x) -Sodium citrate (300 mM) (Section 1.12)

30

1.2 Souches de microorganismes

Les souches bactériennes et de levure utilisées pour ce projet sont indiquées au Tableau 8 à la page suivante. Leurs caractéristiques intéressantes ou notables sont indiquées dans la colonne «Particularités». L’usage qui a été fait de ces souches dans le contexte du mémoire est également indiqué. Notez que nous avons utilisé la souche S. fulvissimus ATCC 27431 commandée chez l’ATCC. Cette souche est équivalente à la souche DSM 40593 selon les informations rendues disponibles sur le site de la DSMZe, et c’est aussi pourquoi nous référons à cette souche comme S. fulvissimus ATCC 27431 / DSM 40593 dans ce mémoire.

e https://www.dsmz.de/catalogues/details/culture/DSM- 40593.html?tx_dsmzresources_pi5%5BreturnPid%5D=304 31

Tableau 8: Microorganismes utilisés, avec leurs particularités et leur usage au cours du projet

Nom Particularités Usage

Possède un opéron codant Bactérie d’intérêt du projet de maîtrise. S. fulvissimus potentiellement pour des Nous avons commandé la souche de ATCC 27431 / gènes de biosynthèse d’une l’ATCC. Elle est équivalente à la souche DSM 40593 molécule de type PTM DSM 40593 de la DSMZ. Peut répliquer les plasmides Clonage et maintien sous forme possédant l’origine de plasmidique des plasmides pOSIP-TT et E. coli EC100D pir+ réplication R6K. Celle-ci est pOSIP-KH (sans intégration présente chez les plasmides chromosomique) de la suite pOSIP87.

Sensible au phage λ; possède Transfection de la librairie génomique de le gène trfA requis pour la S. fulvissimus basée sur le fosmide E. coli EPI300-T1R réplication inductible des pCC1FOS. Criblage de la librairie fosmides pCC1FOS génomique. Contient le gène codant pour

la phosphopanthétéinyl Transfert hétérologue de l’opéron du PTM transférase de B. subtilis. étudié. Transfection prévue de la librairie E. coli BAP1 Permet l’activation post- génomique de S. fulvissimus pour le traductionnelle des criblage fonctionnel. PKS/NRPS77. Sensible au phage λ. Souche parentale de la Test de production d’antimicrobien par S. E. coli BW25113 collection Keio88 fulvissimus ATCC 27431. Souche parentale de levure. S. cerevisiae Test de production d’antimicrobien par S. Auxotrophies HULK (His, Ura, BY4741a fulvissimus ATCC 27431. Leu, Lys). *La souche de S. cerevisiae a été gracieusement fournie par le professeur Yves Bourbonnais, U. Laval.

32

1.3 Culture des microorganismes

La souche S. fulvissimus ATCC 27431 / DSM 40593 a été reçue sous forme lyophilisée. Elle a été mise en culture en milieu YMB (voir Tableau 9) tel que recommandé par l’ATCC. Elle a été conservée sous forme de mycélium congelé à -80°C dans un milieu contenant 20% de glycérol ou sous forme de suspension de spores préparées selon le protocole du livre Practical Streptomyces Genetics89 et conservées à -20°C89.

Tableau 9: Milieux de culture avec leur composition et leur usage.

Nom Composition par litre Usage 10 g de NaCl Culture de E. coli pour les LB Miller 10 g de tryptone manipulations en biologie 5 g d’extrait de levure moléculaire90.

3 g d’extrait de levure Milieu de culture recommandé 3 g d’extrait de malt pour S. fulvissimus par YMB (Yeast Malt Broth) 10 g de dextrose l’ATCC. 5 g de peptone animale (peptic Culture de S. cerevisiae. digest of animal tissue)

17 g de peptone de caséine 2.5 de phosphate de potassium dibasique Culture de S. cerevisiae. TSB (Tryptic soy broth) 2.5 g de glucose Culture de S. fulvissimus 2.5 g de NaCl 3.0 g de peptone de soya 10 g d’extrait de levure YPD (Yeast-extract peptone Culture de S. cerevisiae. 20 g de dextrose dextrose) Culture de S. fulvissimus 20 g de peptone (ou tryptone) 5 g d’extrait de levure 20 g de tryptone Milieu ajouté immédiatement 0.58 g de NaCl après l’électroporation des Milieu SOC 0.19 g de KCl cellules compétentes lors de la

2.4 g de MgSO4 transformation des 20 mM de solution de glucose constructions plasmidiques90. filtrée (ajoutée après l’autoclavage) Pour les milieux gélosés, 15 g / L d’agar a été ajouté avant d’autoclaver les milieux.

La croissance de S. fulvissimus a été effectuée à 30°C, tandis que celle d’Escherichia coli a été effectuée, à 37°C. Pour la croissance en milieux liquides, les cultures étaient agitées à une vitesse constante, de 180 à 200 tours par minutes.

33

1.3.1 Isolation des spores de la souche ATCC 27431 / DSM 40593 Selon l’ATCC, il est possible de conserver le mycélium ou les spores de S. fulvissimus pour la congélation. Le mycélium est simplement centrifugé depuis une culture liquide, transféré dans du glycérol pour une concentration finale de 20% de celui-ci, puis conservé à -80°C. En raison de la tendance du mycélium à former des agrégats, ce qui pourrait nuire à la cryogénisation viable de celui-ci, nous avons également cru bon de générer des stocks de spores. Les spores étaient récoltées en déposant de l’eau stérile sur un tapis bactérien de S. fulvissimus porté à maturité (10 à 12 jours, visible par l’apparition du mycélium aérien blanchâtre). Un cure-pipe stérile était alors frotté contre le tapis pour décrocher les spores du mycélium, et l’eau était par la suite récupérée dans un tube stérile. Cette eau était réutilisée si les spores de plusieurs tapis bactériens étaient récoltées simultanément. À la fin de la récolte, le cure-pipe était agité dans l’eau pour relâcher les spores qui s’y seraient collées, puis le tout était aliquoté dans des microtubes, contenant du glycérol à 20% en concentration finale. Les tubes de spores étaient alors conservés dans des boîtes à -20°C.

1.3.2 Production d’antimicrobiens par la souche ATCC 27431 / DSM 40593 Selon notre analyse du génome publié pour la souche de S. fulvissimus, nous prédisions que cette souche avait la capacité de produire au moins une molécule antimicrobienne (le PTM prédit dont nous avions identifié l’opéron). L’observation de la production de cette molécule était l’un des premiers objectifs de ce projet. Nous utilisions un protocole simple : une culture de S. fulvissimus était cultivée à partir de gouttes de solution de spores déposées sur la gélose. Lorsque la coloration jaune apparaissait sur les colonies formées, un tapis bactérien du microorganisme testé était étalé sur la même gélose à partir d’une culture liquide. La croissance du microorganisme testé était alors observée autour des colonies de streptomycètes afin de détecter la présence – ou non – d’une zone d’inhibition.

34

1.4 Vecteurs

Quatre vecteurs – trois plasmides et un fosmide – ont été utilisés pour ce projet. Ils sont répertoriés au tableau 10.

Tableau 10: Liste des différents vecteurs avec leurs particularités

Nom Gènes (résistance ou autre) Utilisation Plasmide utilisé pour le clonage des pASK-IBA5+ Amp (ampicilline) gènes de biosynthèse PTM91. Plasmide utilisé pour le clonage des gènes codant les enzymes de décoration pOSIP-TT Tet (tétracycline) de la voie de biosynthèse du PTM. Permet l’intégration de l’insert dans le génome bactérien87. Plasmide utilisé pour le clonage des gènes codant la PKS/NRPS de la voie de pOSIP-KH Kan (kanamycine) synthèse du PTM. Permet l’intégration de l’insert dans le génome bactérien87. Fosmide utilisé pour la construction de la pCC1FOS Chl (chloramphénicol) banque d’ADN génomique92.

1.5 Amorces PCR

Les amorces PCR utilisées soit pour le clonage, la validation des constructions plasmidiques ou pour le séquençage d’ADN de type Sanger sont indiquées dans les Tableaux 11, 12 et 13 aux pages suivantes. Elles ont été synthétisées par la compagnie IDT et reçues sous forme lyophilisée. Elles ont été remises en solution avec de l’eau de qualité biomoléculaire (de la compagnie Invitrogen) et conservées à -20°C.

35

Tableau 11: Amorces pour l'amplification PCR des gènes de Streptomyces fulvissimus. Les noms ont été déterminés en fonction de leur position (L pour Lower, U pour Upper), du nom de la bactérie (sf, pour Streptomyces fulvissimus) ainsi que la protéine codée par le gène qu’elles permettent d’amplifier.

Nom Séquence 5’ → 3’ Utilisation

L-sf-FAH TGATGAGGTCTCATATCTCAGCCGGTCCCCGGTCC Amorce «Lower» du gène de l’hydroxylase d’acide gras

U-sf-FAH TTATCTGGTCTCAGCGCCGACGAGTGCGAACGGTCC Amorce «Upper» du gène de l’hydroxylase d’acide gras

L-sf-FADdox1 TGATGAGGTCTCATATCTCATGAACTGGTGTCCTCCCG Amorce «Lower» du gène de l’oxydoréductase FAD-dépendante 1

U-sf-FADdox1 TTATCTGGTCTCAGCGCCGCGGATGACACCCGCAC Amorce «Upper» du gène de l’oxydoréductase FAD-dépendante 1

L-sf-FADdox2 TGATGAGGTCTCATATCTCATGTGCTCTTCCCTGAC Amorce «Lower» du gène de l’oxydoréductase FAD-dépendante 2

U-sf-FADdox2 TTATCTGGTCTCAGCGCCACCGACAGGACCAGTC Amorce «Upper» du gène de l’oxydoréductase FAD-dépendante 2

L-sf-ZnDEH TGATGAGGTCTCATATCTCAGAGCGCGACCAG Amorce «Lower» du gène de la déhydrogénase liant le zinc

U-sf-ZnDEH TTATCTGGTCTCAGCGCCAAGATCGAGAAATGGGTGG Amorce «Upper» du gène de la déhydrogénase liant le zinc

L-sf-P450 TGATGAGGTCTCATATCCTACCAGCTCACATGGAGCC Amorce «Lower» du gène du cytochrome P450

U-sf-P450 TTATCTGGTCTCAGCGCCACCACCACCGATCCCAC Amorce «Upper» du gène du cytochrome P450

L-sf-PPaPase TGATGAGGTCTCATATCTCACCCGTCGGCGGGCAG Amorce «Lower» du gène de la phosphoestérase-PA-phosphatase

U-sf-PPAPase TTATCTGGTCTCAGCGCCCCCGCACCCACCATGACG Amorce «Upper» du gène de la phosphoestérase-PA-phosphatase

36

Tableau 12: Amorces pour l'amplification PCR des gBlocks intermédiaires (voir la Section 1.9.2). Le nom des amorces a été choisi pour inclure leur vecteur-cible (pOSIP-KH ou -TT), les numéros des gBlocks ciblés (G1 à G5) et leur direction (Forward ou Reverse).

Nom Séquence 5’ → 3’ Fonction

TT_G1G2F CCGGGCCCATGGCTC Validation de l’assemblage isotherme des gBlocks G1 et G2 pour pOSIP-TT

TT_G1G2R GCGGAACTGCACGTTGATCG Validation de l’assemblage isotherme des gBlocks G1 et G2 pour pOSIP-TT

TT_G3G4F CTGACTGGAATCCGCCATGC Validation de l’assemblage isotherme des gBlocks G3 et G4 pour pOSIP-TT

TT/KH_G3G4/G5R GCCTGTCAGTTTAGGTTAGGC Validation de la jonction des assemblages aux plasmides KH et TT

KH_G1G2F TTGGGGATCGGAATTCGAG Validation de l’assemblage isotherme des gBlocks G1 et G2 pour pOSIP-KH

KH_G1G2R CGCCACGATCAAGATCGG Validation de l’assemblage isotherme des gBlocks G1 et G2 pour pOSIP-KH

KH_G3G4G5F CTGGAACGGCTCTTCG Validation de l’assemblage isotherme des gBlocks G3, G4 et G5 pour pOSIP-TT

Tableau 13: Amorces utilisées pour le séquençage avec la méthode Sanger. L’amorce T7_Prom était déjà en possession du service de séquençage de l'IBIS. La séquence de la seconde amorce est tirée du manuel de la trousse d’Epicentre92. Les amorces de séquençage de l’ARN 16S servaient également à l’amplifier.

Nom Séquence 5’ → 3’ Fonction T7_Prom TAATACGACTCACTATAGGG Amorce «Forward» de séquençage de l’insert des fosmides pCC1FOS FosSeq_R CTCGTATGTTGTGTGGAATTGTGAGC Amorce «Reverse» de séquençage de l’insert des fosmides pCC1FOS Upper-Sf TTTGATCCTGGCTCAGGACG Amorce de séquençage de l’ARN 16S de S. fulvissimus ATCC 27431 Upper-Sfb CGTGCTTAACACATGCAAGTCG Amorce de séquençage de l’ARN 16S de S. fulvissimus ATCC 27431 Lower-Sf TACGGCTACCTTGTTACGACTTC Amorce de séquençage de l’ARN 16S de S. fulvissimus ATCC 27431 Lower-Sfb GGCGGTGTGTACAAGGC Amorce de séquençage de l’ARN 16S de S. fulvissimus ATCC 27431

37

1.6 Isolement d’ADNg de S. fulvissimus

1.6.1 Méthode du Livre «Practical Streptomyces Genetics» Les streptomycètes possèdent des caractéristiques physiologiques rendant les protocoles standards d’extraction de l’ADN génomique (ADNg) moins efficaces; leur rigidité et leur tendance à former des agrégats mycéliens en solution rendent la lyse par ébullition inefficace, par exemple, pour les protocoles de colony PCR. Afin d’obtenir l’ADNg qui servirait de base pour les différentes manipulations de ce projet, un protocole spécialisé basé sur le principe de Salting out a été adapté depuis le manuel Practical Streptomyces Genetics89.

L’extraction débutait par la centrifugation à 5000 g pendant 10 minutes d’une culture de 30 ml jugée suffisamment dense de S. fulvissimus. La densité des cultures de streptomycètes est notoirement difficile à évaluer en raison de l’agrégation des cellules (la culture ne devient pas uniformément trouble). Le milieu de culture utilisé était du YMB supplémenté de 0.5 % de glycine. La glycine était ajoutée pour aider l’activité du lysozyme, dont un volume de 50 µL (1 mg) était ajouté après la resuspension du culot bactérien dans 2.5 ml de tampon SET. Le lysozyme dégrade la paroi de peptidoglycane de Streptomyces, ce qui facilite l’action des autres produits subséquemment utilisés pour lyser les bactéries et récupérer l’ADNg. Après une incubation pendant 10 minutes à 37°C, la solution était centrifugée pour se débarrasser de potentielles exonucléases membranaires libérées lors de la digestion partielle à cette étape (elles restent en suspension dans le surnageant). Le surnageant était jeté, puis les cellules étaient resuspendues dans 2.5 ml de tampon SET, et 50 µL (1 mg) de lysozyme étaient ajoutés à nouveau. L’incubation à 37°C était poursuivie cette fois une heure pour compléter la digestion. 70 µL (1.4 mg) d’une solution de protéinase K et 300 µL d’une solution de SDS 10 % étaient ajoutés au tube, et le tout était mélangé délicatement par inversion, afin d’éviter de briser l’ADNg. La solution était incubée à 55°C pendant 2 heures, avec une inversion à toutes les 15 minutes.

Après la lyse bactérienne, le contenu du tube était transféré dans un tube en verre étanche et 2 ml d’une solution de 5 M de NaCl étaient ajoutés. La solution était mélangée par inversion puis immergée dans un bain-marie à 37 °C pendant 2 minutes. Un volume de 5 ml de chloroforme était ensuite ajouté au mélange. Le tube était agité doucement sur une plaque agitatrice angulaire, ce qui, selon le protocole original, devait générer une solution homogène et blanche/laiteuse. À partir de l’obtention de cette phase, il aurait fallu compter

38

30 minutes d’agitation continue. À défaut d’avoir une plaque agitatrice angulaire, comme c’était le cas ici, le protocole d’origine recommandait d’émuler l’agitation angulaire à la main, puisqu’une plaque agitatrice horizontale parviendrait difficilement à générer une phase homogène89.

Une fois l’incubation avec agitation terminée, le tube était centrifugé 15 minutes à 4500 g, après quoi l’équivalent de 0.6 volume d’isopropanol pur était ajouté. En mélangeant le contenu du tube par inversion, l’ADN précipitait visiblement et devenait facilement récupérable en utilisant une pipette pasteur préalablement recourbée à l’aide d’une flamme nue. Un rinçage puis un nettoyage standard avec de l’éthanol 70% était ensuite réalisé. L’ADN était séché à l’air, puis resuspendu dans du tampon TE 10 : 1. Les protocoles de dosage et d’utilisation de cet ADN sont décrits dans les prochaines sections. Avant la mise à l’échelle, il a été possible de récupérer environ 6.1 mg d’ADNg à l’aide de cette méthode.

1.6.2 Mise à l’échelle de la méthode pour la construction de la banque d’ADNg Pour la construction d’une librairie génomique, une plus grande quantité d’ADN a dû être obtenue (avec les pertes prévues à chaque étape de manipulation, nous avions prédit qu’environ 5 fois plus d’ADN serait nécessaire; voir la Section 1.11). Un protocole de mise à l’échelle a donc été développé à cette fin en ajustant le protocole de la section précédente. Une culture dense de streptomycète, d’un volume de 300 ml a été utilisée pour le protocole. Tous les volumes utilisés à la section précédente ont conséquemment été augmentés d’un facteur 10, et les temps d’incubation ont été légèrement augmentés pour compenser le délai dans l’atteinte des températures internes de réaction. Cette méthode ajustée a permis d’extraire et de purifier près de 30 mg d’ADNg.

39

1.7 Amplification d’ADN par PCR

L’amplification PCR de l’ADN de S. fulvissimus et des gBlocks a été réalisée de plusieurs façons. Des protocoles de Colony PCR ont été testés de même que l’ajout d’additifs chimiques pour les hauts contenus génomiques en bases G+C. Les PCR réalisés sur l’ADNg de S. fulvissimus suivaient une procédure standard à partir de l’ADNg dilué à une concentration utilisable.

1.7.1 Amplification par Colony PCR OneTaq Les premiers essais d’amplification PCR étaient basés sur un protocole classique de Colony PCR et réalisés à l’aide de la polymérase OneTaq (de la compagnie New England Biolabs). À l’aide d’un cure-dent stérile, une colonie de streptomycète ayant poussé sur un milieu de culture solide était grattée légèrement, puis le cure-dent était vigoureusement agité dans un microtube contenant 25 µL de l’eau de qualité biomoléculaire (Invitrogen). Le tube était alors refermé puis plongé dans de l’eau bouillante pendant 2 minutes. Le tube était ensuite brièvement centrifugé, puis 1 µL de la solution étaient utilisé comme matrice d’ADN dans des essais PCR subséquents (voir Tableau 14). Occasionnellement (ou lorsque les tests d’amplification étaient réalisés sur E. coli plutôt que S. fulvissimus), la colonie prélevée était directement ajoutée au tube d’essai PCR sans être préalablement bouillie, et la première période d’incubation à température élevée du protocole PCR (voir Tableau 15) était alors allongée de deux minutes. Nous avons éventuellement décidé d’utiliser des additifs permettant d’améliorer l’amplification d’ADN en considérant le haut contenu en bases G+C de S. fulvissimus. Nous avons testé l’ajout de sulfoxyde de diméthyle et de formamide (5 % vol/vol), puis de solutions fournies avec les préparations commerciales de polymérases, tel le GC Enhancer (New England Biolabs).

1.7.2 Amplification avec la polymérase Q5 Selon les conseils du Dr Brian Boyle de la plateforme de séquençage de l’IBIS, nous avons aussi utilisé la polymérase Q5 réputée plus fidèle et robuste que la OneTaqf. Des additifs analogues à ceux décrits précédemment étaient alors utilisés pour l’amplification de l’ADN de Streptomyces, et plus tard pour l’amplification des gBlocks. Le Tableau 14 ci-dessous résume la composition des solutions utilisées lors des PCR alors que le Tableau 15 résume les conditions d’amplification.

fDr Brian Boyle, communication personnelle 40

Tableau 14: Contenu des mélanges réactionnels typiquement utilisés pour les amplifications PCR. Les volumes réactionnels étaient toujours complétés à 50 µL avec de l'eau de qualité biomoléculaire.

Polymérase utilisée OneTaq, 0.5 µL Q5, 0.5 µL Utilisation Amplification de l’ADN de Amplification de l’ADNg Streptomyces fulvissimus extrait de Streptomyces par Colony PCR fulvissimus et amplification des gBlocks Tampon utilisé OneTaq Buffer 5X, 10 µL Q5 buffer 5X, 10 µL dNTPs (10 mM) 1 µL 1 µL Amorces F, 10 µM 1 µL 2.5 µL Amorces R, 10 µM 1 µL 2.5 µL Matrice d’ADN Environ 500 ng (ou colonie Environ 500 ng (variable directement) selon les dosages, pour les gBlocks) GC Enhancer 5X 10 µL 10 µL

Tableau 15: Protocole d'amplification PCR typique selon les ADN polymérases utilisées.

Polymérase OneTaq Polymérase Q5 Répétitions Température Durée Répétitions Température Durée (°C) (sec) (°C) (sec) Dénaturation 1 94 30 1 98 30 initiale Dénaturation 29 94 15 34 98 10 Appariement 29 Variable* 45 34 Variable* 30 Élongation 29 68 60 à 34 72 60 à 180 180 Extension 1 68 300 1 72 120 finale

*La température d'appariement était déterminée selon les prédictions du logiciel Clone Manager pour chaque paire d’amorces, et la température était alors ajustée à chaque amplification.

1.8 Analyse et dosage des ADNs

La pureté et la quantité d’ADN, plasmidique ou génomique, ont été analysées à l’aide d’un Nanodrop et sur gel (voir la Section 1.8.1). La spécificité de l’amplification et la taille de l’ADN amplifié ont été évaluées par migration sur gel d’agarose (Section 1.8.2).

41

1.8.1 Dosage sur gel et par NanoDrop Le dosage d’ADN avec le NanoDrop 2000 (de la compagnie ThermoFisher Scientific) est une méthode simple, rapide et efficace pour évaluer la concentration et la pureté d’ADN dans une solution donnée. L’appareil ainsi que le logiciel qui l’accompagne permettent de mesurer des ratios d’absorbances (260/280 nm et 260/230 nm) de la solution d’ADN, pour évaluer sa pureté et sa concentration en mg/ml. Le Nanodrop est un spectrophotomètre miniature qui requiert seulement quelques microlitres de solution pour prendre les mesures. Cela est particulièrement utile lorsqu’on travaille avec un produit PCR, par exemple, qui contient beaucoup d’ADN dans un faible volume. Le dosage des ADNs a été fait selon les instructions locales dans le laboratoire du professeur Christian Landry à l’IBIS.

Le dosage sur gel, bien que moins précis, est tout de même une bonne façon d’estimer la quantité d’ADN après migration sur un gel d’agarose, en comparant l’intensité de la fluorescence par rapport à celle de standards de poids moléculaire. Les ADNs étaient traités avec le EZ-Vision (de la compagnie VWR Life Sciences) au moment du dépôt sur gel. Le transilluminateur utilisé pour visualiser les ADNs par fluorescence est un Bio-Rad Gel Doc XR+. Les marqueurs de poids moléculaires étaient le 1 kb DNA ladder de NEB. Pour analyser les fragments d’ADNg de plus grande taille, nous avons utilisé un marqueur moléculaire étendu, le Quick-load 1kb extend DNA ladder de NEB, dont les plus grands fragments étaient respectivement de 15, 20 et 48.5 kb.

1.8.2 Séparation de l’ADN sur gel d’agarose La migration des ADNs par électrophorèse sur gel d’agarose est une méthode qui a fait ses preuves pour l’analyse de l’homogénéité et de la taille des ADN. Selon la densité du gel, qui varie généralement de 0.5% à 2.0% d’agarose, une résolution efficace allant de 50 jusqu’à 30 000 paires de bases peut être obtenue93. Les acides nucléiques provenant d’amplifications PCR, ou d’assemblages isothermes, étaient déposés sur des gels d’agarose à 0.8% préparé avec du tampon TAE et migrés pendant une heure à 60 volts, tandis que les plus gros fragments d’ADN provenant de l’extraction d’ADN génomique étaient déposés sur des gels de 1.2% et migrés pendant une nuit complète à 35 volts, selon les recommandations du protocole de création de banques génomiques92. Bien que ceci puisse apparaître contre-intuitif, la plus forte concentration du gel, couplée à une plus longue migration à voltage plus bas, permettait une meilleure résolution des bandes d’ADN de large taille migrées, ce qui facilitait leur excision manuelle subséquente.

42

Les acides nucléiques étaient, au début de cette maîtrise, visualisés à l’aide d’un transilluminateur UV et de EZ-vision, une molécule fluorescente liant l’ADN et l’ARN. L’avantage d’utiliser le EZ-vision plutôt que le bromure d’éthidium est qu’il est non-toxique. Tel qu’il sera montré dans la Section 1.2.3, nous avons détecté un problème avec ce colorant pour les ADNs de S. fulvissimus et nous avons alors cessé son utilisation pour ce projet. Les ADNs ont par la suite été colorés à l’aide de bromure d’éthidium, de façon standard90.

1.9 Clonage d’ADN

1.9.1 Clonage de fragments PCR La stratégie initiale de clonage des gènes de l’opéron de biosynthèse du PTM de S. fulvissimus était de les obtenir directement de la bactérie avec un protocole de Colony PCR. Les amorces PCR utilisées à cette fin avaient été conçues afin de générer des bouts digestibles par BsaI, ce qui les rendrait compatibles avec le plasmide pASK-IBA5+, également linéarisé par la même enzyme de restriction. Les protocoles utilisés pour amplifier les fragments PCR ont été décrits à la Section 1.7. Les fragments PCR obtenus ont été purifié avec la trousse Monarch PCR & DNA cleanup Kit de NEB après l’amplification ou encore après excision sur gel d’agarose Low melting point (LMP) avec un tampon de dissolution de gel d’agarose fourni dans la trousse Monarch DNA Gel Extraction Kit de NEB.

1.9.2 Assemblage isotherme de type Gibson via l’utilisation de gBlocks L’assemblage isotherme de type Gibson est une méthode employée couramment pour la construction de molécules d’ADN contiguës via l’action combinée d’une exonucléase 5’, d’une ADN polymérase et d’une ligase. Le protocole d’assemblage isotherme que nous utilisions était celui fourni dans la trousse de NEB, NEBuilder Hi-Fi DNA Assembly Cloning Kit94, une trousse dite «optimisée» par NEB et basée sur la publication originale de Gibson et al86. Des ADN double-brin dont les extrémités d’ADN présentaient une séquence mutuellement complémentaire – en 3’ du fragments en amont, et en 5’ du fragment en aval (voir la Figure 7 ci-dessous) – ont été utilisés dans un protocole d’assemblage isotherme. Les parties complémentaires seront dites «compatibles» pour illustrer leur capacité à se lier l’une à l’autre lorsqu’elles sont sous forme d’ADN simple-brin. La réaction d’assemblage débute lorsque l’exonucléase 5’ dégrade les extrémités 5’ des blocs doubles-brins, libérant ainsi la partie 3’ compatible de leur séquence. L’ADN polymérase remplit ensuite le vide

43

laissé par l’activité de l’exonucléase. Il ne reste alors qu’une brèche entre l’ADN des deux blocs, que la ligase répare alors pour former un seul bloc double-brin.

Figure 7: Schéma de la stratégie d'assemblage reconstruisant l’opéron de biosynthèse du PTM prédit via des gBlocks par un assemblage isotherme de type Gibson dans des deux plasmides. Les gBlocks assemblés sur le vecteur pOSIP-TT contiendraient tous les gènes codant pour les enzymes de décoration de l’opéron, tandis que les gBlocks assemblés sur le plasmide pOSIP-KH contiendraient l’unique gène codant pour la PKS/NRPS hybride de l’opéron. Les couleurs aux extrémités des gBlocks représentent respectivement le fragment avec lequel elles sont compatibles.

1.9.2.1 Conception des gBlocks et des constructions plasmidiques L’ADN que nous avons utilisé pour l’approche d’assemblage Gibson à partir de fragments d’ADN de ~2000 pb a été synthétisé sous forme de gBlocks par la compagnie IDT. L’assemblage dont nous avions besoin était aux limites supérieures de ce qu’il était recommandé de tenter à l’aide de la trousse Hi-Fi DNA Assembly Cloning Kit de NEB, si bien que nous avons préparé deux assemblages de 5 et 4 gBlocks respectivement afin de maximiser nos chances de succès. Les premiers 5 gBlocks contenaient chacun une partie de l’ADN codant pour la PKS/NRPS hybride, tandis que les 4 autres contenaient globalement l’ADN des 6 gènes codant pour les protéines de décoration de l’opéron (nous avons appelé cette construction «TE» pour Tailoring Enzymes). Un exemple de la séquence d’un gBlock est présentée à l’Annexe I. Les gBlocks consécutifs possédaient des séquences chevauchantes compatibles d’en moyenne 40 paires de bases, et étaient d’une longueur totale d’environ 2000 paires de bases. Les gBlocks aux extrémités des assemblages tentés contenaient quant à eux des séquences de compatibilité avec leur vecteur d’accueil, auxquels ils seraient liés via la même technique d’assemblage isotherme. Chaque groupe de gBlocks serait inséré sur un vecteur de la famille des plasmides pOSIP. Cette famille de

44

plasmides permet notamment l’intégration génomique chez l’hôte E. coli87. Cette intégration est rendue possible grâce à l’activation thermodépendante d’une intégrase dont le gène est présent sur le vecteur. L’intégrase, activée à 37°C, cible une région spécifique du chromosome bactérien. Nous avons choisi deux plasmides différents, pOSIP-KH et pOSIP- TT, pour nos constructions. Pour KH et TT, les cibles chromosomiques sont les sites d’attachement des bactériophages HK022 et P21, respectivement. Afin de linéariser les vecteurs pOSIP-KH et TT pour l’insertion des gBlocks et à la fois retirer le gène de la toxine ccdB qu’ils contiennent (une toxine utile lorsque l’objectif est l’insertion chromosomique directe, ce qui n’était pas notre cas), nous avons effectué une digestion des vecteurs avec les enzymes de restriction XhoI et BamH1 (voir la carte plasmidique ci-dessous, Figure 9). La toxine ccdB sert à éliminer les transformant qui ne réalisent pas l’intégration chromosomique de l’insert.

45

Figure 8: Carte plasmidique du vecteur pOSIP-TT . La digestion enzymatique réalisée avec BamH1 (position 22) et Xho1 (position 1152) excise le gène de la toxine ccdB, rendant la construction finale non-toxique pour E. coli.

46

1.9.2.2 Optimisation du contenu nucléotidique des gBlocks pour E. coli Comme les gènes allaient être insérés dans E. coli, la dégénérescence du code génétique a été utilisée pour réduire la différence de biais dans l’utilisation des codons entre le microorganisme-cible (E. coli) et celui d’origine (S. fulvissimus). À cette fin, nous avons utilisé une application fournie par IDT lors de la commande des gBlocks : le Codon Optimization Toolg. Il est à noter que le contenu génomique en G+C (% GC) de E. coli (50.8%) diffère grandement de celui de S. fulvissimus (71.5%), ce qui suggère de grandes différences dans le biais d’utilisation du code génétique. Cette manipulation supplémentaire a permis de faire passer le contenu en bases G+C des gènes transférés de 73% à 58.9%, une diminution notable de 14.1 points de pourcentage.

1.9.3 Transformation bactérienne Le protocole utilisé pour la transformation bactérienne était le protocole d’électroporation fourni avec l’appareil Bio-Rad Gene Pulser.

1.9.3.1 Les cellules électrocompétentes Un protocole typique de genèse de cellules électrocompétentes était utilisé pour ce projet90. L’efficacité de transformation des cellules générées a été testée en transformant des quantités connues du plasmide pET-3A, qui contient un gène de résistance à l’ampicilline, et en étalant les cellules sur des pétris contenant du milieu solide LB-ampicilline.

1.9.3.2 Protocole d’électroporation et analyse d’efficacité de transformation des cellules électrocompétentes Les cellules électrocompétentes étaient d’abord décongelées sur glace, après quoi 1 µL de solution de plasmide (environ 1-2 ng au total) était ajoutés. Le tout était transféré dans une cuvette d’électroporation à usage unique (Bio-Rad), la cuvette était placée dans l’électroporateur, et un pulse à un voltage de 1.8 kilovolts était envoyé. 1 ml de milieu SOC était rapidement ajouté, puis la solution était transférée dans un tube Eppendorf, pour enfin être incubée avec agitation constante à 37°C (ou 30°C, pour les plasmides de la famille pOSIP; voir la Section 1.10) pendant 1 heure. 100 µl de la solution incubée était alors étalé sur un milieu solide contenant un ou plusieurs antibiotiques appropriés. Typiquement, nos cellules compétentes possédaient une efficacité légèrement supérieure à 1 x 107 unités formatrices de colonies par millilitre (UFC/ml).

g https://www.idtdna.com/CodonOpt 47

1.9.4 Analyse des clones La sélection des clones d’intérêts était effectuée à la suite de trois étapes : la sélection sur milieu solide contenant l’antibiotique approprié au plasmide utilisé, l’isolement du plasmide et l’amplification PCR de l’insert. Après la sélection sur milieu solide, les transformants étaient cultivés dans des tubes stériles de 15 ml contenant 1 ml de milieu de culture liquide. Les plasmides étaient extraits le lendemain et purifiés à l’aide de la trousse Monarch Plasmid Miniprep Kit de NEB et dosés à l’aide d’un Nanodrop. Une amplification PCR était ensuite réalisée afin de valider la présence de l’insert plasmidique désiré et de sa taille. L’amplification de l’ADN étaient confirmée par migration sur un gel TAE 0.8%.

1.10 Clonintegration

Tel que mentionné précédemment, nous avons utilisé la suite pOSIP de plasmides pour les constructions de gBlocks afin de permettre l’intégration génomique dans E. coli EC100D pir+ (et éventuellement dans E. coli BAP1, pour l’analyse fonctionnelle) des gènes de biosynthèse du PTM. Pour maintenir les plasmides sous formes circulaire, les cultures transformées avec un plasmide de la suite pOSIP étaient d’abord cultivées exclusivement à 30°C pour éviter que l’intégrase thermodépendante présente sur les plasmides ne s’active, comme elle le fait normalement à 37°C87. Ainsi, ceci nous aurait permis d’extraire les constructions dans les plasmides pOSIP pour les analyser avant de déclencher l’intégration, au besoin, en augmentant la température de culture des cellules transformées.

1.11 Construction de la banque d’ADNg

La trousse «CopyControl Fosmid Library Production Kit with pCC1FOS Vector» de la compagnie Epicentre92 a été utilisée pour la construction de la banque d’ADN génomique de S. fulvissimus ATCC 27431 / DSM 40593. L’ADN génomique a été isolé selon le protocole décrit à la Section 1.6. Le protocole fourni par Epicentre couvre tout le processus de création de banque d’ADN génomique jusqu’au criblage. La procédure globale débute par la réparation des extrémités de l’ADN extrait de l’organisme d’intérêt afin de rendre l’ADNg utilisable pour la construction des fosmides avec le vecteur pCC1FOS (Annexe II). À cet effet, l’enzyme End-Repair était ajoutée avec de l’ATP et un mélange de nucléotides. Le mélange était incubé à température pièce pendant 45 minutes, puis le tout était transféré à 70 degrés Celsius pour arrêter la réaction. Ceci générait des fragments d’ADNg double- brin avec des bouts francs dont les extrémités 5’ étaient phosphorylées.

48

Après cette étape, on procédait à la sélection des ADNg selon leur taille lors d’une migration sur gel d’agarose de l’ADN. Un gel contenant 1.2% d’agarose était chargé avec l’ADNg réparé de S. fulvissimus et migré à 35 volts pendant toute une nuit. Afin de s’assurer de la taille appropriée de l’ADNg choisi (30 – 40Kb), un ADN-contrôle de 42 kb provenant de la trousse d’épicentre était également utilisé et migré parallèlement à l’ADNg. Ensuite, pour éviter la contamination au bromure d’éthidium de l’ADN désiré, les extrémités des puits extérieurs du gel étaient découpées, et seulement ces fragments de gels étaient alors colorés au bromure d’éthidium. En mesurant la position de l’ADN de la bonne taille sur un transilluminateur, il était possible de sélectionner la bande à découper sur le gel ne contenant pas de bromure d’éthidium pour récupérer les ADNs de tailles allant de 30 Kb à 40 Kb. La Figure 9 montre le principe de cette procédure (en anglais).

Figure 9: Schéma-résumé de la technique de coloration au bromure d'éthidium. L'ADN repéré de chaque côté du gel permet de déterminer la largeur de la bande d'agarose à découper dans le reste du gel. Tiré du manuel de la trousse d'Epicentre91

L’étape suivante était alors la libération et la purification de l’ADNg de 30-40 kb pour son utilisation. La trousse d’Epicentre recommandait l’utilisation d’une gélase pour libérer l’ADN92, mais en raison de l’important volume de notre bande d’agaroseh, nous avons adapté le protocole pour une extraction par électroélution, selon un protocole proposé par Brady et al. en 200758. À cette fin, la bande de gel découpée était mise dans un tube à dialyse refermé hermétiquement. En mettant le tube à dialyse dans un bassin

h Il aurait été difficile d’incuber la réaction en raison du haut volume réactionnel requis, et cela aurait consommé pratiquement toute la gélase fournie dans la trousse d’Epicentre 49

d’électrophorèse et avec une migration de 8 heures à 100 Volts, l’ADNg était élué dans le tube dialyse et y restait séquestré. Il était par la suite concentré par centrifugation à l’aide de tubes contenant une membrane d’ultrafiltration (MWCO 10 kDa) et lavé deux fois avec du tampon TE 10:1. À l’atteinte d’un volume approximatif de 250 µl, le tout était transféré dans un microtube. Les parois du tube d’ultracentrifugation étaient ensuite rincées avec 250 µl de tampon TE (10 :1) pour récupérer l’ADN qui s’y serait encore trouvé. La concentration de l’ADNg ainsi sélectionné ainsi que sa qualité ont ensuite été évaluées par migration sur gel et dosage au Nanodrop.

La quantité d’ADNg nécessaire pour la couverture du génome étudié était calculée à l’aide de l’équation décrite dans les instructions de la trousse d’Epicentre (Équation 1).

푁 = ln(1 − 푃)/ln⁡(1 − 푓)

Équation 1 : Nombre (N) de clones nécessaires pour qu’un gène d’intérêt soit retrouvé avec une probabilité P dans une librairie génomique possédant des inserts de taille relative f par rapport au génome complet de l’organisme étudié (taille relative : taille moyenne des inserts divisée par la taille du génome complet de la bactérie étudiée)

Le nombre de clones nécessaires à l’étude d’un génome donné dépend largement de la taille des inserts générés et de la taille du génome en tant que tel. En utilisant l’équation 1, nous avons pu déterminer le nombre de clones requis pour obtenir une couverture satisfaisante du génome de S. fulvissimus par rapport à l’efficacité de l’infection des phages. Pour les besoins de notre projet, nous avions calculé que pour obtenir une probabilité de 99% de retrouver un gène d’intérêt dans des inserts d’une taille moyenne de 42 kb, il faudrait environ 864 clones, ce qui donnait une couverture d’environ 4.6 fois le génome publié1.

Le protocole de base indique que la quantité désirée d’ADN devait être ajoutée à 6 µl d’une solution d’enzyme de ligation et de fosmides pCC1FOS linéaires, dans un volume maximal de 10 µl. Dans notre cas, puisqu’une grande quantité de clones était nécessaire pour obtenir une couverture satisfaisante du génome, le volume de la réaction de ligation des fosmides était ajusté de façon proportionnelle. Le vecteur linéaire était ajouté dans un ratio molaire 10 : 1 par rapport à l’ADNg, avec de l’ATP, un tampon de réaction de ligation et une ligase. Le tout était incubé pendant 4h à température pièce. Finalement, la réaction était inactivée par chauffage à 70 °C pendant 10 minutes.

L’encapsidation des fosmides se faisait en ajoutant 2 fois 25 µl de particules virales à une réaction standard de ligation (ou au volume mis à l’échelle selon la quantité d’ADN utilisé à l’étape précédente). Les particules virales étaient dégelées sur glace, et l’ADN était ajouté

50

à la moitié du volume desdites particules. Après une incubation de deux heures à 30°C , la seconde partie de solution de particules virales était ajoutée et l’incubation était poursuivie. Le volume final était ajusté à 1 ml par réaction à l’aide d’un tampon de dilution de phages et 25 µl de chloroforme était ajouté pour la conservation des phages à 4°C. La réaction était également réalisée en parallèle avec un fosmide-contrôle de la trousse d’Epicentre.

Afin d’évaluer le titre des particules de phages générées, une dilution en série (10-1, 10-2 et 10-3) des phages-contrôle et des phages de la banque était effectuée dans le tampon de dilution de phages. Une culture de E. coli EPI-300-T1R était amenée à une D. O. à 600 nm allant de 0.8 à 1.0. Ensuite, 10 µl de chaque dilution et de la solution-mère des phages étaient ajoutés à 90 µl de culture bactérienne. Le tout était ensuite incubé pendant 1 heure à 37°C, puis étalé sur du milieu LB solide + chloramphénicol (12.5 µg/ml). Les pétris étaient incubés à 37 °C toute la nuit, et le décompte des unités formatrices de colonies (UFC)i était réalisé le lendemain. La quantité d’UFC/ml de la solution de bactéries infectées était finalement établie.

Pour obtenir la banque en tant que tel chez E. coli, une quantité de phages appropriée était déterminée pour le volume de culture bactérienne utilisé. La culture bactérienne infectée était incubée à 37 °C pendant une heure, puis du glycérol était ajoutée à la culture jusqu’à une concentration finale de 20%. Plusieurs tubes, contenant chacun l’équivalent de 1100 UFC (environ 6 fois la couverture du génome, ou 1.3 fois la couverture recommandée par l’équation 1), étaient alors cryogénisés dans l’azote liquide puis conservés à -80°C.

1.12 Criblage de la banque d’ADNg

Le contenu d’un tube de la banque (tel que généré à la Section 1.11) était d’abord décongelé sur glace puis étalé sur plusieurs pétris contenant du milieu LB-chloramphénicol, selon la quantité de clones attendus pour obtenir un maximum approximatif de 125 clones par plat de pétri. Après une incubation à 30°C pendant une nuit (pour éviter une trop grande croissance des colonies, ce qui créerait potentiellement un chevauchement entre certaines colonies), chaque colonie était repiquée à la main à l’aide d’un cure-dent stérile et stockée individuellement dans un puits d’une plaque à 96 puits stérile contenant du LB- chloramphénicol liquide. Le fait d’avoir séparé chaque clone de la librairie génomique dans

i Le fosmide-contrôle contient un gène de résistance au chloramphénicol; en comptant le nombre d’UFC poussant sur une pétri de LB+chloramphénicol après l’ajout d’un volume de culture connu, on peut évaluer l’efficacité de l’infection par les phages. 51

des puits individuels visait à faciliter le criblage de la librairie par hybridation de colonies (voir Section 1.12.3). Les plaques étaient alors incubées à 37 °C pendant 24h, puis transvidées dans des plaques stériles résistantes à la congélation. Ces plaques contenaient du glycérol stérile pour une concentration finale de 20%. Ces plaques étaient ensuite scellées à l’aide de papier d’aluminium autocollant stérile, puis stockées à -80°C. Ce sont ces plaques qui ont été utilisées à la Section 1.12.3.

1.12.1 Stratégie de criblage pour la détection de l’opéron de biosynthèse du PTM de Streptomyces fulvissimus Tel que montré à la Figure 2, l’opéron de biosynthèse du PTM que nous cherchions à isoler est constitué de 7 gènes consécutifs, commençant en amont par le gène prédit pour coder pour une hydroxylase d’acide gras (FAH), et terminé en aval par un gène prédit pour coder une protéine de type phosphoestérase-PA-Phosphatase (PaPPase). La stratégie pour détecter les gènes dans la librairie génomique se basait donc sur cette information, et serait réalisée en deux temps. Premièrement, une sonde marquée à la digoxigénine serait générée et utilisée pour cribler la librairie pour le gène de la FAH. La sonde serait utilisée pour cribler la totalité d’une librairie une première fois, avec le processus détaillé aux Sections 1.12.2 à 1.12.4. Les résultats positifs, donc les fosmides qui contiendraient le gène de la FAH, serait repiqués puis recriblés de la même façon avec une sonde qui se lierait au gène de la PaPPase, en aval du regroupement. On assumerait enfin que les clones positifs pour les deux sondes contiendraient la totalité des gènes sur leur fosmide, et ils seraient par la suite séquencés pour valider le résultat. L’absence de résultats positifs déterminants pour le premier criblage utilisant cette stratégie a mené au séquençage de type Sanger de plusieurs fosmides, et au changement de la nature-même de ce projet de maîtrise (ces résultats seront abordés à la Section 2.4).

1.12.2 Obtention et dosage de la sonde La sonde utilisée pour le criblage a été obtenue à l’aide de la trousse «DIG DNA Labeling and Detection Kit» de la compagnie Roche95 et d’un gBlock synthétisé à cet effet par la compagnie IDT. Le gBlock contenait les 500 paires de bases en 5’ du gène de la protéine FAH de l’opéron (séquence du gène de FAH natif, sans optimisation de codon).

Le gBlock était d’abord dénaturé par ébullition pendant 2 minutes afin d’être utilisé pour générer les sondes. À cette fin, nous avons utilisé la polymérase Klenow fournie dans la trousse de Roche. La polymérase Klenow est une polymérase d’ADN qui ne possède pas de capacité de correction de séquence nucléotidique, et qui possède la capacité d’intégrer

52

des nucléotides spéciaux ou modifiés. En utilisant la mixture de nucléotides de la trousse de Roche, l’enzyme Klenow a généré la sonde correspondant à une partie du gène FAH dans laquelle ont été incorporés aléatoirement des nucléotides dUTP marqués à la digoxigénine (environ un à tous les 20 à 25 nucléotides).

L’ADN dénaturé était incubé avec l’enzyme, les nucléotides et le tampon de réaction à 37°C pendant 20h, puis la réaction était arrêtée en ajoutant une solution d’EDTA et en chauffant à 65°C pendant 10 minutes. Selon le manuel de la trousse, la longueur d’une sonde varie entre 200 et 500 paires de bases, mais peut aller jusqu’à 1000 pb (lorsque l’ADN-source le permet). Étant donné que la sonde et l’ADN cible partagent la même séquence, une forte liaison de la sonde aux fosmides était donc globalement attendue.

La sonde était ensuite dosée à l’aide d’une méthode de détection directe. Elle était d’abord diluée séquentiellement puis déposée sur une membrane de nylon positivement chargée (de la compagnie Amersham Pharmacia Biotech). Un standard d’ADN à une concentration définie était également appliqué à titre comparatif. La membrane était exposée aux ultraviolets pendant 5 minutes afin de réaliser la réticulation de l’ADN à la membrane. La membrane était ensuite successivement immergée et agitée dans plusieurs solutions : en ordre, un tampon d’acide maléique, qui prépare la membrane; une solution de blocage, qui occupe les espaces non-spécifiques auxquels les anticorps pourraient autrement se lier et enfin une solution d’anticorps anti-Digoxigénine (anti-DIG) couplés à la phosphatase alcaline qui était utilisée pour aller se lier aux sondes. La membrane était ensuite lavée deux fois par immersion et agitation pendant 15 minutes de solution de lavage, puis transférée dans un tampon de détection, qui préparait la membrane pour la solution de substrat chromogène permettant la détection colorimétrique via l’action de la phosphatase alcaline. Elle était alors incubée dans le noir, et périodiquement dévoilée pour constater le développement de la coloration. La réaction de coloration était arrêtée par le rinçage avec du tampon TE (10 :1) lorsque la couleur était jugée suffisamment visible. Une coloration mauve foncé révélait les ADNs et le rendement de la réaction de synthèse de la sonde pouvait alors être comparé au standard d’ADN marqué déposé sur la membrane.

1.12.3 Hybridation des colonies de E.coli contenant la librairie d’ADN génomique Pour le criblage colorimétrique de la banque d’ADNg, il a fallu développer un protocole basé sur celui nommé «Colony hybridization protocol» du manuel Molecular cloning de Sambrook et al90. Le protocole de la trousse de Roche décrivait l’hybridation et le criblage d’ADN

53

directement migré dans un gel d’agarose, mais cela se prêtait moins bien au criblage d’une banque d’ADN génomique complète. La méthode du livre Molecular Cloning que nous avons ajustée expliquait les principes du criblage d’ADN de colonies présentes sur des plats de pétris. Elle a été mise à l’échelle pour le criblage à partir de clones transférés depuis des plaques à 96 puits sur des «omnitrays» (plats rectangulaires creux de la même taille que les plaques à 96 puits) contenant un milieu solide de culture avec chloramphénicol. Le repiquage était fait depuis les plaques à 96 puits à l’aide d’un peigne à 96 dents adapté pour ce type de manipulations. Le peigne était stérilisé à l’alcool et à la flamme avant et après chaque utilisation. À l’aide d’un support spécialisé pour le peigne, il était possible de déposer le peigne 4 fois consécutivement sur chaque omnitray, à partir de 4 plaques différentes (voir la Figure 10). Ceci nous permettait de cribler 384 clones par membrane utilisée, ce qui augmentait grandement la vitesse du criblage et réduisait aussi la quantité de produits nécessaires à l’hybridation et à la détection. Cette méthode permettait donc de cribler 1152 clones (donc plus que la taille approximative moyenne de nos librairies génomiques) avec 3 omnitrays plutôt que 12, et réduisait nos besoins en sondes moléculaires, en solutions d’hybridation et en substrat chromogène, en plus de réduire la quantité de manipulations nécessaires pour tout le criblage.

Figure 10: Schéma d'une inoculation typique d'un de nos omnitrays. Les colonies en haut à gauche de chaque tétrade provenaient toutes de la plaque à 96 puits «A», celles en haut à droite provenaient de la plaque «B», et ainsi de suite.

Les omnitrays inoculés étaient incubés toute une nuit à 30°C pour obtenir de petites colonies. Après la croissance, des membranes de nylon chargées positivement (Amersham Pharmacia Biotech) et stériles étaient déposées sur les omnitrays pour les «imprimer» avec

54

les colonies. Chaque membrane était ensuite déposée successivement sur 4 papiers buvards imprégnés respectivement d’une solution de (1) 10% SDS, (2) de 0.5 M de NaOH et de 1.5 M de NaCl, (3) de 0.5 M de Tris-Cl pH 7.5 et de 1.5 M de NaCl et enfin (4) de tampon SSC 2X90. Les membranes étaient laissées respectivement 3, 5, 5 et 5 minutes sur chacun des 4 buvards respectifs avant d’être séchées. Ces étapes permettaient successivement de lyser les bactéries, de dénaturer l’ADN et de le neutraliser. 5 ng de la sonde colorimétrique générée à la Section 1.12.1 étaient ensuite déposés sur chaque membrane, comme contrôle positif de détection. L’étape qui suivait était la réticulation de l’ADN à la membrane de nylon via une exposition aux UV dans un transilluminateur pendant 5 minutes.

1.12.4 Criblage des membranes hybridées avec les sondes marquées à la digoxigénine La sonde pour détection colorimétrique obtenue à la Section 1.12.1 a été utilisée avec les membranes préparées à la Section 1.12.2 afin de détecter le gène de la FAH des colonies. Le principe de ce criblage est que la sonde marquée à la digoxigénine devrait se lier au gène codant la FAH et permettre la détection de clones le possédant. Une fois le gène détecté dans un ou plusieurs clones, le fosmide pourrait ensuite en être extrait et il serait séquencé. Le processus est résumé ci-dessous, adapté du protocole de la trousse pour les particularités de notre méthode. La température utilisée pour l’hybridation était déterminée selon une formule fournie dans la trousse de Roche (voir l’équation 2); elle dépend de la longueur de la sonde et de son contenu en bases G+C.

Équation 2 : Équation pour trouver la température d'hybridation optimale (Topt) pour l'hybridation des sondes. Tiré du manuel de la trousse de Roche96.

La première étape du criblage, la préhybridation, était réalisée en immergeant pendant 30 minutes les membranes dans une solution d’hybridation (DIG easy Hyb, de Roche) préchauffée à une température de 55°C (la Topt suggérait une étendue de température allant de 53 à 58°C).

Les sondes marquées à la digoxigénine-dUTP étaient dénaturées par ébullition pendant 5 minutes. Les sondes, concentrées à environ 25 ng/ml, étaient ensuite ajoutées dans une

55

autre solution d’hybridation chauffée à 55°C. La quantité de sondes à utiliser était calculée selon une proportion de 3.5 ml de solution de sondes par 100 cm2 de membrane à cribler.

Les membranes étaient ensuite incubées toute la nuit en gardant la température stable autour de 55°C et avec agitation douce, après quoi la solution contenant les sondes était récupéréej. Les membranes étaient alors lavées 2 fois avec du tampon SSC 2X auquel on avait ajouté 0.1% de SDS. Elles étaient agitées pendant 5 minutes à chaque fois, à la température ambiante. Ceci permettait de retirer les sondes faiblement ou incorrectement liées. Deux lavages plus sélectifs étaient ensuite réalisés avec du tampon SSC 0.5X et 0.1% de SDS, préchauffé à 55°C. Les membranes étaient agitées 15 minutes à chaque fois à cette température, et cela permettait de retirer les sondes liées de façon non-spécifique.

Les membranes ainsi lavées étaient ensuite incubées dans une suite de solutions permettant la liaison spécifique des anticorps aux sondes sur la membrane, tel que décrit lors du dosage des sondes à la Section 1.12.1. Les résultats étaient alors comparés en intensité au signal du contrôle positif déposé sur chaque membrane. Les résultats de cette stratégie sont présentés à la Section 2.4). Plusieurs fosmides sélectionnés ont par la suite été séquencés.

1.13 Séquençage (Sanger et Illumina)

1.13.1 Séquençage Sanger (Technologie 454) Les extrémités des inserts d’ADN de 15 fosmides purifiés avec la trousse Monarch Plasmid Miniprep Kit ont été séquencés par la méthode Sanger50 avec les amorces présentées au Tableau 13 à la plateforme de séquençage de l’IBIS. La qualité des séquences obtenues a été vérifiée avec le logiciel Chromas lite (de la compagnie Technelysium), puis les séquences ont été comparées à celle du génome publié pour S. fulvissimus DSM 40593M1 à l’aide du Basic Local Alignment Search Tool (BLAST) du NCBI.

1.13.2 Séquençage de nouvelle génération (Illumina) Une partie de l’ADNg préparé à la Section 1.6 a été remis à la plateforme de séquençage de l’IBIS, où le personnel s’est occupé de la fabrication de la librairie en vue du séquençage par la technologie Illumina. Les séquences ont ensuite été assemblées par le Dr Brian Boyle à la plateforme de séquençage. Il nous les a remises sous forme d’un fichier FASTA

j Elles peuvent être utilisées plusieurs fois si elles sont congelées entre chaque utilisation. Elles doivent alors être dénaturée par chauffage à 68°C pendant 10 minutes plutôt que par ébullition pendant 5 minutes. 56

contenant 225 contigs de tailles allant de 1 380 617 jusqu’à 600 paires de bases, en ordre décroissant. Les analyses génomiques ont été effectuées à partir de ce fichier. Nous désirions comparer les similarités de séquences avec nos propres séquences obtenues avec la méthode Sanger ainsi qu’avec la séquence du génome publié pour la souche S. fulvissimus DSM 40593M1 et aussi utiliser certains logiciels d’annotations et de prédictions génomiques pour analyser nos contigs.

1.14 Analyse génomiques

1.14.1 Analyses de similarité de séquences La suite logicielle CloneManager (de la compagnie SciEd Central) a été utilisée pour l’analyse de similarité de séquences à partir d’un ordinateur local. Nous avons notamment confirmé, avec ce logiciel (et par d’autres méthodes, voir Annexe III), que l’on pouvait détecter la présence des séquences des ADNs clonés dans les fosmides (obtenues par la méthode Sanger) dans les séquences des contigs (reçus du séquençage de nouvelle génération).

1.14.2 Annotation des contigs avec Prokka et RAST Les outils Prokka 1.12 (outil d’annotation rapide de génome96) et RAST 2.0 (Rapid Annotation using Subsystem Technology97) ont été utilisés pour l’annotation rapide des contigs de S. fulvissimus ATCC 27431 / DSM 40593. Prokka a été installé sur un ordinateur opérant le système d’exploitation Linux pour une analyse locale, tandis que RAST est un outil web.

1.14.2.1 Création d’une librairie locale de génomes de streptomycètes pour l’annotation des contigs avec Prokka 1.12 Prokka présentait plusieurs options intéressantes pour nos analyses. L’une d’entre elles a justifié son utilisation dans le cadre de ce projet de recherche, soit la possibilité d’utiliser une base de données personnalisée comme référence lors de l’annotation de contigs. Afin d’éviter des prédictions de gènes qui seraient basées sur des séquences éloignées de celles des streptomycètes, la base de données génomique a été limitée au genre Streptomyces à l’aide d’une version adaptée de la fonction makeblastdb du NCBI. À cette fin, un script personnalisé a été bâti pour automatiquement télécharger et indexer la totalité des génomes contenant des informations génétiques liées aux streptomycètes sur la base de données Genbank du NCBI. Outre la recherche de similarité entre deux ou plusieurs de nos séquences, Prokka s’est aussi avéré très utile pour la recherche de gènes particuliers dans

57

les 225 contigs du génome de S. fulvissimus ATCC 27431 / DSM 40593. Il a donc été facile de repérer les séquences des gènes codant l’ARN 16S parmi les contigs issus du séquençage de nouvelle génération. Ces résultats sont présentés à la Section 2.5.

Prokka ne possède malheureusement pas d’interface à proprement parler (il est utilisable via des lignes de commandes seulement, et génère des fichiers en texte peu formatté); ses fonctions sont donc plus limitées lorsque l’objectif est d’obtenir une vision d’ensemble du génome annoté. Bien que les résultats des deux outils d’annotation (Prokka et RAST) aient été examinés, les résultats de la Section 2.5 sont surtout issus du logiciel RAST, puisqu’il présente l’avantage de regrouper les ORFs en sous-systèmes (comme les grandes catégories de voies métaboliques ou de types de métabolites, telles que la respiration ou la résistance aux antibiotiques) et que l’interface web permet d’examiner facilement les ORFS qui sont les plus proches homologues ou encore adjacents aux ORFs d’intérêt. Les recherches de gènes spécifiques à l’aide de mots clés (P450, NRPS et autres) ont été réalisées avec les fichiers annotés par Prokka d’abord de même qu’avec RAST, par la suite.

58

Chapitre 2 : Résultats

2.1 La souche S. fulvissimus ATCC 27431 / DSM 40593

2.1.1 Croissance en milieu gélosé Tel que déjà établi dans l’introduction, S. fulvissimus est une bactérie aérobie saprophyte à Gram positif. Selon l’ATCC (d’où provient la souche ATCC 27431) et la DSMZ (d’où provient la souche équivalente DSM 40593), cette bactérie forme un mycélium qui peut être jaune ou orangé, selon le milieu de culture utilisé, et qui forme des spores aériennes blanches. C’est effectivement ce que nous avons observé en milieu de croissance YMB, qui est le milieu de culture recommandé par l’ATCC. La bactérie produit un mycélium jaune pâle qui devient souvent (mais pas sytématiquement) orangé avec le temps, ainsi que des spores blanches qui apparaissaient après environ une dizaine de jours (voir la Figure 11). L’apparence de la bactérie que nous avons fait croître en milieu YMB correspond donc à celle attendue, ce qui a également été corrélé avec la description de S. fulvissimus dans le manuel Bergey’s Manual of Systematic Bacteriology98. Dans certains milieux, le mycélium peut aussi être rouge, ce que nous avons également été en mesure d’observer (non- montré)99. En milieu liquide avec agitation constante, les streptomycètes semblent pousser plus rapidement, mais forment des agrégats beiges individuels de 2 à 6 mm de diamètre. La densité optique de la solution liquide ne commence à changer qu’après plusieurs jours de culture, après que le milieu ne soit visiblement devenu «saturé» en agrégats. Nous assumons que ce qui est ensuite observé est la croissance d’un mycélium à partir des agrégats. Ce mycélium était ensuite extrait et conservé directement à -20°C dans une concentration finale de 20% de glycérol. La croissance des streptomycètes était plus rapide à partir de mycélium congelé ou directement extrait d’une culture liquide (elle est visible le lendemain de l’inoculation du milieu solide) que des spores (la croissance est alors observable au site de l’inoculation après 3 ou 4 jours).

Figure 11 : La croissance de S. fulvissimus ATCC 27431 en milieu gélosé. À gauche, on voit la coloration jaune qui est typique des jeunes colonies. On voit au centre la coloration orangée/rougeâtre du mycélium qui apparaît souvent peu avant la sporulation. À droite, on voit les spores blanchâtres qui apparaissent sur les colonies matures.

59

2.1.2 Production de molécule(s) antibactérienne(s) ou antifongique(s) Il n’y a pas de synthèse de molécule inhibitrice rapportée pour la souche ATCC 27431 / DSM 40593 en date de 201899,100. Ceci étant dit, comme il avait été annoncé dans l’introduction, nous avions repéré dans le génome publié pour cette bactérie un opéron participant potentiellement à la synthèse d’une molécule antimicrobienne, faisant possiblement partie de la famille des frontalamides1. Nous avons donc entrepris de tester la synthèse potentielle de molécule(s) inhibant la croissance de microorganismes en milieu gélosé. Ainsi, tel que décrit à la Section 1.3.2, nous avons étalé des cultures de E. coli BW25113 et de la levure S. cerevisiae BY4741a (voir le Tableau 8) à des milieux gélosés où l’on avait fait croitre au préalable S. fulvissimus ATCC 27431 / DSM 40593. On voit que la croissance d’une souche sauvage de E. coli (BW25113) n’a pas été affectée par la présence du streptomycète (Figure 12 à gauche). L’inhibition de la croissance d’une levure (S. cerevisiae BY 4741a) a toutefois été clairement observée en milieu de culture YPD (Figure 12 à droite)

Figure 12: Résultats des tests d’inhibition de la croissance de E. coli (gauche) et de S. cerevisiae (droite) en proximité de S. fulvissimus cultivée à partir de spores.

Afin de limiter les facteurs pouvant faire varier l’observation de l’inhibition, nous avons pris certaines mesures pour raffiner notre protocole : nous avons observé que la croissance est beaucoup plus rapide à partir du mycélium que des spores. Nous avons donc changé la culture de départ sur nos géloses pour du mycélium, ce qui accélérait l’apparition de colonies de S. fulvissimus matures et limitait le séchage excessif des pétris. L’inhibition de la levure, S. cerevisiae (Fig. 12), révèle le potentiel de la souche ATCC 27431 / DSM 40593 à synthétiser un ou plusieurs métabolites pouvant inhiber un autre microorganisme. Ces observations nous ont initialement poussés à croire que nous avions observé l’effet

60

biologique de la molécule d’intérêt initial de ce projet, c’est-à-dire un PTM potentiellement de la famille des frontalamides.

L’observation d’inhibition de la croissance d’un microorganisme est cohérente avec ce qui a été rapporté pour de nombreux autres streptomycètes mieux connus, notamment Streptomyces coelicolor, un producteur notable de plusieurs antibiotiques dont l’undecylprodigiosine et l’actinorhodine101, et Streptomyces avermitilis102102 qui produit notamment l’ivermectine102,103.

2.2 Clonage des gènes de la voie de synthèse PTM par amplification PCR

2.2.1 Amplification des gènes pour clonage dans pASK-IBA5+ Les premiers essais d’amplification des gènes de la voie de synthèse du PTM ont été réalisés par la méthode de Colony PCR. Les résultats se sont avérés négatifs, possiblement parce que les colonies de S. fulvissimus sont denses et sèches, et donc difficiles à lyser à la chaleur selon les protocoles classiques. C’est pourquoi nous avons décidé d’extraire et de purifier l’ADNg de S. fulvissimus pour les amplifications PCR. Les amorces utilisées sont mentionnées au Tableau 11. Devant les échecs initiaux d’amplification par PCR à partir d’ADNg (résultats non-montrés), plusieurs conditions ont été testées : l’ajout d’additifs, comme le DMSO 5% (vol/vol) et le formamide 5% (vol/vol), ainsi que les additifs fournis avec les polymérases commerciales (par exemple, le GC Enhancer fourni avec la polymérase One Taq). Nous avons également tenté l’optimisation de la température d’appariement des amorces en utilisant un gradient de température, puis avons vérifié les dNTPs par une amplification contrôle, avons changé de polymérase (de la One-Taq à la Q5 de NEB), avons réalisé une amplification contrôle avec des amorces et des ADNs que l’on avait déjà utilisés en laboratoire. Nous sommes même allés jusqu’à ajouter de l’ADNg de S. fulvissimus à nos mélanges réactionnels contrôles pour vérifier la présence d’un éventuel inhibiteur dans la solution d’ADNg. Les contrôles ont permis de valider la qualité des solutions tampons, des dNTPs et des polymérases; malgré cela, aucune amplification des gènes de la voie de synthèse du PTM n’a été obtenue.

Les ADNs à fort contenu en bases G+C sont notoirement plus difficiles à amplifier104. Le fort contenu GC de S. fulvissimus, 71.5% selon le génome publié1, aurait donc pu avoir contribué à cet échec. Des résultats qui n’étaient alors pas encore obtenus à ce moment nous ont cependant montré par la suite qu’il était, en fait, impossible d’amplifier ces gènes précis de l’ADN de la souche ATCC 27431 / DSM 40593 : il y a vraisemblablement un

61

problème d’identification du génome rapporté pour la souche DSM 40593M. Ce problème, indépendant des amplifications PCR décrites dans cette section, invalide l’approche utilisée par amplification d’ADN (voir la Section 2.4.4). Nous avons alors, au moment où ces expériences étaient réalisées, changé d’approche devant les échecs répétés d’amplification PCR, et avons plutôt utilisé une approche basée sur la synthèse et l’assemblage d’ADNs synthétiques (voir Section 2.3).

2.2.2 Isolement d’ADN génomique L’isolement d’ADNg que nous avons réalisé en adaptant un protocole du livre Practical Streptomyces Genetics89 a permis d’obtenir 6.1 mg d’ADNg purifié. L’analyse en gel d’agarose révèle qu’il est de poids moléculaire supérieur à 10 000 pb (Figure 13). La taille ne pouvait être précisément déterminée à l’aide du marqueur alors couramment utilisé dans notre laboratoire, le 1kb ladder de New England Biolabs.

Figure 13: Migration sur gel d’agarose de quatre dilutions de l'ADNg extrait pour une analyse qualitative de celui-ci. Le plus haut marqueur de poids moléculaire a une taille de 10 000 paires de bases. Notez que les bandes diagonales observables sur le gel sont des égratignures ou des taches sur la vitre du transilluminateur. Ceci a été confirmé par la prise d’une photo sans gel dans le transilluminateur (non-montré).

Afin d’avoir des mesures plus précises de la taille de l’ADNg extrait, le marqueur de poids moléculaire que nous avons ensuite utilisé à cette fin était le 1kb Extended DNA ladder, qui possède trois bandes supplémentaires à 15 000, 20 000 et 48 500 pb. Un gel utilisant ce marqueur est visible à la Figure 17, à la Section 2.4.2.2.

62

2.2.3 Problème technique avec le EZ-Vision Un autre problème connexe auquel nous avons fait face était lié à la solution de chargement et de coloration de notre ADN. Cela a initialement été perçu comme étant la cause des échecs observés d’amplification d’ADN. Nous avons cru intéressant d’inclure cette courte section dans ce mémoire pour rapporter un problème technique lié à la visualisation de l’ADN avec un colorant fluorescent, le EZ-Vision. De façon reproductible, nous avons constaté que ce colorant fluorescent non-toxique, ne permettait pas de visualiser l’ADN de S. fulvissimus, natif ou amplifié, alors que le marqueur de poids moléculaire, lui, était parfaitement visible. Cette étrange observation pourrait avoir empêché la détection d’ADN potentiellement amplifié par PCR à la section précédente. De plus, comme le même colorant a été utilisé pour la détection de l’ADN lors de l’assemblage isotherme de type Gibson (décrit à la Section 2.3), le même phénomène aurait pu se produire.

A B

Figure 14: Test de coloration de l'ADN migré sur un gel : Le gel de gauche (A) présente des dilutions du résultat d'une extraction d'ADNg de S. fulvissimus, chargée et colorée avec le EZ-Vision. Après la première photo prise sur le transilluminateur, le même gel a ensuite été trempé dans une solution de bromure d’éthidium, puis une nouvelle photo (B) a été prise sur le même transilluminateur. Le marqueur de droite n’était pas coloré avec du EZ-Vision. Les «smears» visibles sur les gels sont dues à une trop forte concentration de l’ADN migré; cela avait faussement été cru nécessaire à la suite de l’absence d’ADN visible sur un gel précédent coloré uniquement au EZ-Vision.

La Figure 14 montre la différence entre la coloration au EZ-Vision et au bromure d’éthidium pour un même gel. On voit clairement les bandes d’ADNg apparaître à la Figure 14B pour un gel coloré au bromure d’éthidium, tandis qu’on devine à peine leur présence à la Figure

63

14A pour le même gel dont les échantillons d’ ADNg contenaient du EZ-Vision. Notez que le marqueur de poids moléculaire de droite n’apparaît qu’à la Figure 14B puisque du EZ- Vision n’avait pas été ajouté à cet ADN. Il apparait donc que le bromure d’éthidium est un meilleur moyen que le EZ-Vison pour détecter l’ADN de S. fulvissimus. Ce test de détection a été réalisé à la suite d’une extraction d’ADNg depuis un grand volume d’une culture de S. fulvissimus, selon notre protocole d’extraction d’ADNg mis à l’échelle. Malgré la quantité importante d’ADN généré, nous n’avions pu l’observer sur gel une première fois. Nous avions conséquemment préparé ce test. Les résultats ont pu être reproduits plusieurs fois par la suite (non-montré). Bien que nous n’ayons pas trouvé la cause de cette absence de coloration (le EZ-Vision était utilisé dans le laboratoire depuis longtemps et sans problème, et la compagnie VWR ne rapporte aucune contre-indication de ce genre pour ce produit), nous avons tout de même pris la décision de colorer systématiquement tous nos gels d’agarose au bromure d’éthidium après cette découverte.

2.3 Assemblage isotherme de type Gibson d’ADNs synthétiques

2.3.1 Les ADNs synthétiques sous forme de gBlocks de 2 000 pb Le design des ADN synthétiques sous forme de fragments d’ADN de 2 000 pb a été planifié de telle sorte que leur assemblage permettrait de les intégrer et de les cloner dans deux plasmides. Un plasmide, pOSIP-TT, contiendrait les gènes codant les enzymes de modification (TE, pour Tailoring Enzymes) et l’autre, pOSIP-KH, l’imposant gène codant pour la PKS-NRPS (voir Figure 8). Chaque séquence de gBlock chevauche celle des fragments voisins, soit le plasmide-hôte ou le gBlock adjacent, par au moins 40 pb afin de permettre leur assemblage entre eux et avec les plasmides de destination, selon les recommandation des protocoles d’assemblage isotherme de NEB105. Il est à noter que les séquences de chevauchement étaient même environ deux fois supérieures à ce que le protocole recommandait minimalement94.

2.3.2 L’assemblage en une étape des ADNs synthétiques Nous avons d’abord tenté l’assemblage en une seule étape par la méthode de Gibson en utilisant les 4 ou 5 fragments et les plasmides de destination (voir la Figure 7). Par cette approche, nous n’avons obtenu aucune colonie à la suite de la transformation dans E. coli EC100D pir+ des mélanges assemblés, bien que des études antérieures du laboratoire ont montré qu’une approche similaire pour l’assemblage d’un fragment d’ADN dans un plasmide ait fonctionné. L’analyse par amplification PCR à l’aide d’amorces situées en amont et en

64

aval de chaque jonction des assemblages n’a pas non plus permis d’obtenir des évidences de l’assemblage de certains fragments. Selon le manuel de la trousse de NEB, l’assemblage de plusieurs fragments est moins efficace que l’assemblage de seulement deux fragments, et l’efficacité de l’assemblage diminue au fur et à mesure que le nombre de fragments augmente105. Nous avons donc émis l’hypothèse qu’une stratégie d’assemblage séquentiel, qui contiendrait moins de fragments à chaque étape, serait plus efficace.

2.3.3 L’assemblage séquentiel des ADNs synthétiques L’assemblage séquentiel implique d’abord d’assembler des fragments deux à deux, puis d’assembler ces fragments intermédiaires pour générer les assemblages complets. Le schéma illustrant cette stratégie pour cloner les gènes codant pour les enzymes de décoration dans le vecteur pOSIP-TT est présenté à la Figure 14. Cela impliquait d’assembler d’abord les fragments G1_TE avec G2_TE, et G3_TE avec G4_TE, pour ensuite assembler ces deux fragments intermédiaires (nommés respectivement G1G2_TE et G3G4_TE) avec le plasmide. Une stratégie similaire était prévue pour cloner les gènes codant la PKS-NRPS (G1_PKS à G5-PKS) dans le vecteur pOSIP-KH (non-montré). Dans le cas de l’assemblage de pOSIP-KH::PKS/NRPS, un assemblage des gBlocks G1_PKS et G2_PKS a été fait en parallèle à une tentative d’assemblage de G3_PKS, G4_PKS et G5_PKS. Confronté à la réalité d’une quantité plus faible que prévue d’ADN reçu de la part de IDT pour le gBlock G3_PKS, nous avons décidé de l’amplifier individuellement avant le premier assemblage, et que l’assemblage partiel tenté impliquait donc G4_PKS et G5_PKS seulement. Il est à noter qu’afin d’obtenir des quantités utilisables de gBlocks dits «intermédiaires» (c’est-à-dire les gBlock contigus de 4000 pbs formés des deux gBlocks initiaux), les gBlocks intermédiaires étaient amplifiés à l’aide d’une polymérase à haute- fidélité, la polymérase Q5 de NEB. Le taux d’erreur d’amplification de la Q5 est très bas (inférieur à une erreur par 4.4 x 107 paires de bases copiéesk). Nous ne nous attendions donc pas nécessairement à une grande variation de la séquence amplifiée par rapport aux gBlocks initiaux une fois l’assemblage complété. Afin de nous assurer que la construction finale serait fidèle, nous avions prévu séquencer les plasmides obtenus afin de détecter toute irrégularité dans la séquence, et de la corriger par PCR au besoin.

k https://international.neb.com/tools-and-resources/selection-charts/dna-polymerase-selection-chart (repéré en janvier 2019) 65

Figure 15: Schéma de la stratégie d'assemblage séquentiel pour le plasmide pOSIP-TT:TE avec les deux gBlocks appelés «gBlocks intermédiaires», G1G2_TE et G3G4_TE. Les gBlocks intermédiaires étaient assemblés séparément, amplifié par PCR et le gBlock intermédiaire était utilisé pour un second assemblage avec les deux fragments et le vecteur linéaire.

Cette deuxième approche n’a pas permis d’obtenir les clones désirés, mais l’amplification PCR à l’aide d’amorces situées de part et d’autre de jonctions entre certains gBlocks intermédiaires a permis de détecter l’assemblage de certains fragments. Un exemple de cette observation est montré à la Figure 16-A. Des bandes d’ADN de la taille attendue (4 kb) ont été détectées pour l’assemblage G4G5_PKS/NRPS, bien que d’autres bandes non- spécifiques étaient également présentes. Cette problématique est demeurée bien que nous ayons réalisé des variations de la température d’appariement afin d’optimiser les conditions d’amplification PCR. Ce problème de spécificité a été également observé pour l’assemblage G3_TE et G4_TE, qui est montré à la Figure 16-B, malgré un gradient de température utilisé pour l’appariement des amorces, qui va de 60 à 68°C (l’application Tm Calculatorl de NEB recommandait une température de 64°C). Ceci a compliqué la procédure pour l’assemblage séquentiel des différents fragments d’ADN. Les ADNs d’un premier assemblage devaient être sélectionnés puis purifiés sur gel avant de passer à une étape subséquente; il fallait donc exciser le bon amplicon sur un gel d’agarose Low Melting Point (qu’on pouvait ensuite dégrader avec une gélase pour purifier l’ADN sans sélectionner les autres bandes) ou accepter la présence d’amplifications non-spécifiques dans l’amplicon, et assumer que

l https://tmcalculator.neb.com/#!/main 66

seule une construction fonctionnelle pourrait finalement être détectée (les amplifications non-spécifiques ou partielles ne pourraient pas servir à refermer un assemblage ou un plasmide). Cette dernière option était seulement utilisée lorsque deux bandes similaires et potentiellement correctes étaient présentes en proximité l’une de l’autre sur un même gel. Cela compliquait également le dosage des gBlocks subséquemment utilisés dans le mélange réactionnel. Aucune de ces options n’a généré de construction viable. Le Tableau 16 résume les résultats de cette stratégie d’assemblage et indique les gBlocks intermédiaires assemblés avec succès.

T utilisée (°C) m

Figure 16: Exemples d’amplifications d’assemblages partiels de deux gBlocks. En A, on voit le résultat imparfait de l’amplification du block G3_PKS/NRPS (à 2 kb) dans le puits du centre, tandis que l’amplification de l’assemblage et l’amplification de G4G5_PKS/NRPS (à environ 3.6 kb) semble avoir été plus nette dans le puits de droite. En B, on voit que malgré le gradient de température utilisé pour l’appariement des amorces, l’amplification de G3G4_TE ne semble pas avoir généré de bande spécifique, bien que celle attendue (à 4 kb) soit tout de même présente. Le second puits en B est un autre essai d’amplification de G3PKS n’ayant pas généré de bande spécifique.

En résumé, l’assemblage G3G4_TE a été réussi, mais pas l’assemblage G1G2_TE, ce qui n’a donc pas permis un assemblage fonctionnel du plasmide pOSIP-TT::TE. Pour le gène de la PKS/NRPS, seuls les assemblages partiels de G1G2_PKS/NRPS et G4G5_PKS/NRPS ont été réussis, sans toutefois être capable d’associer le gBlock G3_PKS/NRPS à l’un ou l’autre de ces blocs intermédiaires. Les fragments intermédiaires que nous avions générés ont été utilisés de concert avec les fragments individuels des

67

gBlocks que nous n’arrivions pas à assembler afin de tenter de compléter l’assemblage dans les plasmides de destination. Par exemple, pour le gène de la PKS/NRPS, nous avons tenté l’assemblage total en ajoutant le gBlock G3_PKS-NRPS aux deux blocs intermédiaires, mais sans succès. Nous n’avons pas détecté de fragments plus grands que les blocs doubles générés avec cette stratégie.

Tableau 16 : Résumé des assemblages tentés et détectés pour la stratégie d’assemblage séquentiel

Assemblage Assemblage intermédiaire tenté Notes détecté? Bande de plus de 2 kb a été Non détectée, mais G1G2_TE pas de la taille attendue (4 kb) Bandes non- spécifiques Oui présentes (et G3G4_TE exclues) Bandes non- spécifiques Oui présentes (et G1G2_PKS exclues) Amplification Oui spécifique non- G4G5_PKS problématique Aucun fragment de plus de 4 kb Non n’a pu être G3G4G5_PKS amplifié

2.3.4 Les approches de clonage directement dans E. coli Nous avons soupçonné que le maintien de grands fragments d’ADN sous forme de plasmide et/ou l’amplification de grands fragments d’ADNs, surtout de fort contenu en bases G+C, pouvait être difficile. Pour enfin tenter de pallier à ce problème, nous avons tenté la sélection directe des mélanges assemblés via la transformation directe des mélanges assemblés dans la souche E. coli EC100D pir+, qui, rappelons-le, permet le maintien des plasmides

68

pOSIP sous leur forme de plasmide. Les clones désirés n’ont cependant pas été obtenus par cette approche. Bien que 15 colonies aient été obtenues – 13 pour la construction pOSIP-KH::PKS/NRPS et 2 pour pOSIP-TT::TE – les amplifications PCR n’ont pas permis de vérifier la présence des gBlocks. Des tentatives d’extraction de plasmides de ces colonies n’ont pas non plus généré de résultats encourageants en ce sens non plus.

Nous avons ensuite tenté la méthode Clonintegration, qui permet l’intégration directe dans le génome sans passer par l’isolement du plasmide87. Cette méthode utilisée dans notre laboratoire permet d’intégrer aisément des ADNs clonés avec les vecteurs pOSIP. Nous avions émis l’hypothèse qu’une des causes potentielles de l’échec de notre assemblage était la stabilité de la construction finale : si la construction plasmidique était instable, cette méthode pourrait nous permettre d’éviter d’avoir à passer par une forme plasmidique maintenue sur une longue période et ainsi, nous l’espérions, favoriser l’obtention de nos assemblages. Pour l’assemblage de G1_PKS-NRPS à G5_PKS-NRPS dans E. coli BAP1, nous avons obtenu 3 colonies, dont une à partir de laquelle nous avons pu amplifier 3 des gBlocks intégrés. Nous n’avons cependant pas été en mesure de confirmer la présence de l’ensemble des 5 gBlocks. De plus, l’isolement de l’ADN génomique de ce clone n’a pas permis de confirmer l’intégration des gBlocks dans le chromosome bactérien au site d’insertion (la cible du phage HK022), contrairement à ce qui était attendu87.

Nous en sommes donc arrivés à la conclusion que l’assemblage d’ADNs de très fort contenu en bases G+C, surtout lorsque plusieurs fragments sont impliqués, est difficile par la méthode Gibson. Nos résultats montrent que l’on peut assembler deux fragments de 2 000 pb, mais qu’il n’a pas été possible d’assembler plusieurs fragments intermédiaires de plus de 4 000 pb pour obtenir de très grands fragments et les intégrer à un plasmide. La publication originale de Gibson et al, qui annonçait la possibilité d’assembler des construction de plus de 500 000 paires de bases, utilisait des chevauchements beaucoup plus longs que les nôtres (environ 450 paires de bases86), ce qui s’éloigne grandement des recommandations de NEB : le manuel de la trousse suggérait un minimum de 20 paires de bases, et au plus 50 paires de bases105. Cette différence entre les tailles de séquences de chevauchement pourrait expliquer une partie de nos résultats. Les résultats de cette méthode étant peu encourageants pour la complétion du projet à moyen terme, et nous avons décidé de tenter une troisième stratégie. Nous avons alors convenu, après discussion, d’isoler les gènes de l’opéron de biosynthèse via une méthode bien établie soit: le criblage d’une librairie génomique qui serait construite avec de l’ADNg de S. fulvissimus.

69

2.4 Banque d’ADN génomique et le séquençage par la méthode Sanger

La dernière approche utilisée pour obtenir l’opéron de la voie de synthèse du PTM a été le clonage d’ADNg dans une banque de fosmides puis le criblage de cette banque pour trouver un clone qui en contiendrait tous les gènes. Un fosmide est un vecteur de type cosmide, mais basé sur le plasmide F; il n’y a donc, en temps normal, qu’une seule copie du fosmide par clone, ce qui permet une grande stabilité de la construction. Le fosmide est transfecté dans E. coli via le phage λ, ce qui permet le clonage efficace de grands fragments d’ADN (entre 35 et 42 kilobases). Le fosmide pCC1FOS possède également l’origine de réplication OriV, qui permet sa réplication jusqu’à l’obtention d’environ 50 copies par cellule lorsque le produit du gène trfA est présent92. Dans notre stratégie, le vecteur pCC1FOS serait donc lié à des fragments de l’ADNg de S. fulvissimus ATCC 27431 / DSM 40593. Après la construction de la banque de phages, l’infection d’une souche de E. coli sensible à ce phage a permis de maintenir la banque sous forme de fosmides circulaires, chaque colonie formée contenant alors un fosmide unique. La souche fournie à cette fin par Epicentre, E. coli EPI300-T1R, a été utilisé pour la transfection initiale et le criblage génomique. Cette souche possède notamment le gène trfA, mentionné précédemment, sous le contrôle d’un promoteur inductible. Ceci permet la réplication des fosmides d’intérêt dans un clone en particulier lorsque désiré. La souche E. coli BAP1, elle aussi sensible au phage λ, aurait été utilisée pour un criblage fonctionnel de la librairie. Ceci n’a pas été réalisé pour des raisons qui deviendront évidentes dans les prochaines sections.

2.4.1 Isolement de l’ADNg pour construction de la banque Le protocole de mise à l’échelle du protocole d’isolement d’ADN du livre Practical Streptomyces Genetics a été mis au point afin d’obtenir suffisamment d’ADN génomique de S. fulvissimus pour la construction de la banque. Près de 30 mg d’ADNg pur a été obtenu de cette façon et resuspendu dans du tampon TE 10 : 1. La qualité de l’ADNg purifié est notamment visible à la Figure 14.

Bien que seulement environ 1 mg d’ADNg aurait été suffisant pour construire une librairie génomique telle que celle que nous avons généré, nous nous attendions à devoir ajuster et optimiser le protocole final, en plus de nous attendre à des pertes notables lors de la sélection d’ADN sur gel. L’excédent de cet ADNg a été conservé à 4°C et a également servi comme ADN-source pour le séquençage de nouvelle génération (Section 2.5).

70

2.4.2 Construction de la banque 2.4.2.1 Efficacité d’infection des phages et nombre de clones générés L’efficacité d’infection des phages empaquetés avec un fosmide ayant comme insert l’ADN génomique de S. fulvissimus a été évaluée par rapport aux phages empaquetés avec un fosmide-contrôle fourni dans la trousse d’Epicentre92. Le phage-contrôle avait une efficacité d’infection de 2.69 x 107 CFU/ml, tandis que les phages que nous avons générés avec l’ADNg de S. fulvissimus possédaient une efficacité d’infection de 5.37 x 104 CFU/ml – une diminution d’efficacité d’un facteur 500. Nous expliquons cette diminution notable de l’efficacité d’infection par la qualité potentiellement moindre de l’ADN que nous avons purifié et extrait sur gel : nous utilisions des méthodes que nous avions nous-mêmes adaptées à notre contexte et elles en étaient à leur première itération (nous n’avons pas eu à répliquer l’extraction d’ADNg mise à l’échelle, l’électroélution d’ADN ou la purification de l’ADNg dans le cadre de cette maîtrise). Certains ajustements ou modifications à ces méthodes pour des projets futurs pourraient aider à réduire cette diminution d’efficacité.

La banque a été construite selon les instructions fournies dans la trousse, exception faite de la sélection sur gel des fragments d’ADN de bonne taille (38 à 42 kb) dont la procédure modifiée a été décrite à la Section 1.11. La banque a été conservée sous forme de bactéries infectées, une des méthodes recommandées par la trousse d’Epicentre92. Au total, nous estimons qu’entre 30 000 et 36 000 clones bactériens ont été obtenus, ce qui offre une couverture totale de 152 à 182 fois le génome de S. fulvissimus DSM 40593M1, en supposant des inserts de taille moyenne de 40-42 kb. La banque a été séparée en 30 microtubes contenant chacun environ 1100 clones. 29 de ces tubes ont été cryogénisés dans l’azote liquide puis conservés à -80°C. Une quantité suffisante de phages complets pour recréer une librairie génomique complète (initialement destinée à l’infection de la souche E coli BAP1) est aussi conservée à -80°C, dans une solution de dilution de phage additionnée glycérol à 20% de concentration finale. Un des 30 tubes de bactéries infectées a servi à la suite de nos expériences.

71

2.4.2.2 Vérification de la taille des inserts de deux fosmides générés Selon la liste des sites de restrictions du fosmide pCC1FOS fournie dans la trousse, nous avons décidé d’analyser le patron de digestion par l’enzyme de restriction ScaI à partir des fosmides provenant de deux clones. L’enzyme ScaI ne coupe qu’une seule fois dans la séquence du fosmide lui-même92. Son site de restriction est AGT|ACT, ce qui nous laissait croire qu’elle couperait également assez rarement dans le génome de S. fulvissimus, qui est composé à 71.5% de bases G+C. Les fragments à analyser seraient donc théoriquement assez larges et peu nombreux, rendant l’estimation de la taille des inserts des fosmides relativement aisée. Les résultats de cette digestion sont présentés à la Figure 17, ci- dessous.

Figure 17 : Résultat de la digestion de deux fosmides (1 et 2) et d’un fosmide-contrôle (+) par l’enzyme ScaI. Bien que le dosage du fosmide-contrôle ait été sous-évalué, le résultat est tout de même suffisamment visible pour être analysé.

Après l’addition de la taille estimée de chaque fragment (Puits + (contrôle) : une seule bande à environ 48 kb; puits 1 : ≈ 6 kb + ≈ 19 kb + ≈ 23 kb pour un total d’environ 48 kb ; puits 2 : ≈ 15 kb + ≈ 31 kb pour un total d’environ 46 kb) on a conclu que la taille des inserts pour ces fosmides est située entre 38 et 42 kb, tel qu’il était attendu pour la librairie génomique (en tenant compte du vecteur pCC1FOS, qui lui-même a une longueur de 8.1 kb). Cette vérification était un contrôle supplémentaire à l’obtention de clones eux-mêmes à partir de fosmides empaquetés dans des phages. En effet, on peut normalement assumer que la construction, pour être fonctionnelle, contient un insert d’ADN dans l’intervalle de tailles requises pour obtenir un fosmide empaquetable et viable.

72

2.4.3 Criblage La banque a été criblée en imprimant chaque colonie sur une membrane de nylon positivement chargée, puis en l’hybridant avec une sonde marquée à la digoxigénine correspondant à une partie du gène de la FAH (les 500 premiers nucléotides du premier gène en amont de l’opéron de biosynthèse du PTM). La sonde, une fois hybridée, était mise en contact avec un anticorps anti-DIG couplé à la phosphatase alcaline. L’activité de la phosphatase alcaline sur un substrat chromogène permettait de détecter visuellement les endroits où les anticorps s’étaient liés. 15 clones de signal positif ont été détectés sur les 3 membranes que nous avons criblées. L’une d’entre elles est montrée ci-dessous, à la Figure 18. Les clones repérés par criblage étaient ensuite cultivés en présence de la solution d’induction de la réplication des fosmides, puis isolés pour un séquençage de type Sanger.

Figure 18 : Membrane criblée avec une sonde marquée à la digoxigénine après la coloration. Les emplacements des positifs potentiels sont encerclés en rouge (8 clones repiqués sur cette membrane). Le contrôle positif (5 ng de sonde directement réticulée à la membrane) se situe en haut à gauche. Il est à noter que la différence d’intensité du signal entre le contrôle, apparaissant bien plus foncé sur la Figure 18, et les signaux des clones que nous avions alors identifiés comme étant positifs ne nous apparaissait pas nécessairement anormale. Nous raisonnions que le contrôle contenait vraisemblablement un bien plus grand nombre de copies de la sonde que les colonies lysées sur la membrane.

2.4.4 Séquençage Sanger de 15 clones Le séquençage Sanger de 15 clones issus de la banque d’ADNg a été réalisé à la plateforme de séquençage de l’IBIS à partir des amorces de séquençage suggérées par la trousse d’Epicentre. Les extrémités des inserts étaient séquencées afin de pouvoir estimer la position des séquences obtenues vis-à-vis du génome de référence pour S. fulvissimus

73

DSM 40593M, et ainsi déduire la séquence insérée dans le fosmide. Nous avons fait séquencer chaque clone repiqué avec les deux amorces de séquençage prévues à cet effet.

Les résultats obtenus pour 16 séquencesm (sur un total de 30, soit 15 clones séquencés avec deux amorces chacun) ont ensuite été manuellement inspectés et nettoyés (retrait des sections de séquences qui étaient ambigües ou de faible qualité, correction des incertitudes de séquence, etc.). Nous avons ensuite utilisé les séquences résultantes pour une recherche de similarité de séquences par rapport au génome de S. fulvissimus DSM 40593M publié1. Cette recherche a été infructueuse (non-montré), ce qui indiquait de façon très surprenante que ces séquences n’étaient pas retrouvées dans le génome de la souche S. fulvissimus DSM 40593M. La recherche dans la banque de données du NCBI a cependant permis de déterminer que 15 des séquences obtenues s’alignent, avec un pourcentage d’identité élevé, avec les séquences d’un autre streptomycète (S. alboflavus MDJK44) récemment publié; ces résultats sont présentés au Tableau 17. L’autre séquence s’aligne assez fortement avec un autre streptomycète, Streptomyces malaysiensis DSM 4137.

Il est à noter que lorsque nous avons initialement obtenu ces résultats, en 2017, les espèces identifiées avec les meilleurs scores variaient plus. Un nouveau génome pour la bactérie S. alboflavus MDJK44, publié par Wang et al en 2018, semble contenir plusieurs gènes apparentés à la souche S. fulvissimus ATCC 27431 / DSM 40593 et c’est pourquoi des analyses comparatives sont incluses dans ce mémoire106.

Étonnamment, donc, les premières analyses de séquences indiquaient que l’ADN génomique cloné dans notre librairie génomique ne correspond pas à celui attendu pour la souche S. fulvissimus DSM40593M et serait similaire au génome de S. alboflavus MDJK44. Devant ce résultat pour le moins déroutant, nous avons décidé d’entreprendre le séquençage complet du génome de la souche ATCC 27431 / DSM 40593 afin de mieux comprendre la situation (ces résultats sont présentés à la Section 2.5). À ce point, nous soupçonnions une confusion au niveau des souches : nous pensions que la souche ATCC 27431, avec laquelle nous travaillions, ne correspondrait pas à la souche DSM 40593, celle pour qui le génome a été séquencé. Nous verrons, en fait, que ce n’est pas le cas. Ces deux souches possèdent des ARNs 16S de séquences identiques et sont, selon toute vraisemblance, équivalentes.

m 14 séquences reçues étaient soit trop courtes ou de qualité trop variable et ont été rejetées 74

Tableau 17 : Résultats de l'alignement des séquences Sanger obtenues pour les clones sélectionnés. Les alignements ont été réalisés avec l'outil BLAST du NCBI. Les séquences de faible qualité ou trop courtes n’ont pas été inclues.

Longueur de la Nom du Amorce Streptomycète aligné Identité de Couverture de la séquence alignée clone* utilisée (meilleur score) séquence (%) séquence (%) (bases)

IX-41 FosSeq-R 469 S. alboflavus MDJK44 92,03 82

V-25 FosSeq-R 699 S. alboflavus MDJK44 97,22 87

V-25 T7_Prom 830 S. alboflavus MDJK44 93,49 95

S. Malaysiensis VI-26 FosSeq-R 659 78,37 81 DSM4137

VI-26 T7_Prom 317 S. alboflavus MDJK44 98,42 100

VII-3 FosSeq-R 736 S. alboflavus MDJK44 97,53 88

VII-3 T7_Prom 804 S. alboflavus MDJK44 94,35 99

VII-15 FosSeq-R 415 S. alboflavus MDJK44 97,56 100

VII-25 FosSeq-R 722 S. alboflavus MDJK44 99,05 87

VII-25 T7_Prom 781 S. alboflavus MDJK44 98,46 99

VII-61 FosSeq-R 804 S. alboflavus MDJK44 95,67 94

VII-61 T7_Prom 750 S. alboflavus MDJK44 98,13 100

VII-72 FosSeq-R 474 S. alboflavus MDJK44 97,18 67

VII-72 T7_Prom 795 S. alboflavus MDJK44 97,34 99

XI-40 FosSeq-R 665 S. alboflavus MDJK44 96,71 86

XI-40 T7_Prom 583 S. alboflavus MDJK44 96,4 100

*Les clones que nous avons sélectionnés étaient nommés en fonction des plaques à 96 puits d’où ils provenaient ainsi que de leur position dans cette plaque. En ordre, les clones sont nommés selon le numéro de la plaque à 96 puits d’origine d’où ils provenaient (en chiffres romains) et le numéro du puits, de 1 à 96 où ils étaient (en chiffres arabes).

75

2.5 Le séquençage du génome de S. fulvissimus ATCC 27431 / DSM 40593 2.5.1 Analyse du contenu en gènes des contigs obtenus Tel qu’annoncé à la section précédente, puisque les séquences des clones séquencés de la banque d’ADN génomique ne correspondaient pas aux séquences attendues selon le génome publié de S. fulvissimus DSM 40593M, nous avons entrepris le séquençage de l’ADN génomique de S. fulvissimus ATCC 27431 / DSM 40593 par la technologie Illumina à la plateforme d’analyses génomiques de l’IBIS (à l’Université Laval). L’assemblage a permis d’obtenir une construction de génome de 9 577 249 pb, arrangé en 225 contigs (voir le résumé des statistiques du séquençage dans la deuxième colonne du Tableau 19). Les statistiques du génome publié pour S. fulvissimus DSM 40593M sont aussi montrées à titre comparatif. Le génome de DSM 40593M est complètement assemblé en un seul contig de 7.9 Mb. Le génome de S. fulvissimus ATCC 27431 / DSM 40593 apparait 22 % plus grand que celui de DSM 40593M. Il contient également 21% plus d’ORFs codant des protéines (8197 ORFs prédits pour notre génome, comparé aux 6784 ORFs présents sur le génome de Myronovski et al1). Le pourcentage en bases G+C est cependant très similaire pour les deux génomes (72,2% en moyenne pour nos contigs, tandis que le génome de référence en possède 71,5%).

Comme le génome obtenu pour la souche ATCC 27431 / DSM 40593 n’a jamais été publié auparavant, nous avons analysé le contenu en gène en vue de la préparation d’une publication. Nous avons commencé l’analyse des contigs par la recherche de gènes et l’annotation des séquences par rapport à des gènes similaires dont la fonction est connue. Plusieurs logiciels étaient disponibles à cet effet. Nous avons utilisé Prokka 1.1296 et RAST 2.097 pour effectuer cette première étape d’analyse.

Les scripts générés pour utiliser Prokka ont permis une annotation des contigs en se basant uniquement sur des gènes de streptomycètes récupérés dans Genbank. L’annotation réalisée avec Prokka a notamment permis d’identifier l’ARN 16S pour les analyses de la Section 2.5.2. Ces analyses ont été complétées et comparées avec celles de l’outil RAST, qui a l’avantage de posséder une interface web facile d’utilisation, d’être connecté à diverses banques de données pour l’annotation en plus de regrouper les ORFs annotés en sous- systèmes lorsqu’il le peut. Ces sous-systèmes correspondent à des grandes catégories de voies métaboliques ou de métabolites (respiration, transport membranaire, etc.). Ceci permet d’identifier rapidement des gènes d’intérêt. De plus, on peut aisément explorer les

76

gènes similaires chez d’autres organismes et le contexte génomique (notamment vérifier si les gènes adjacents sont conservés ou non); c’est la raison pour laquelle nous l’avons principalement utilisé pour générer les autres résultats de la Section 2.5.2.

L’une des premières recherches que nous avons réalisées sur les contigs annotés (autant avec RAST que Prokka) était de valider la présence ou l’absence de l’opéron PTM qui fait l’objet de ce projet de maîtrise. Il s’est avéré que malgré plusieurs recherches par mots-clés dans Prokka et une inspection minutieuse des gènes sur l’interface de RAST, aucun opéron ou regroupement de gènes codant potentiellement un PTM n’a été trouvé. Les séquences Sanger obtenues des 15 clones issus de la banque d’ADN génomique sont cependant bien retrouvées dans nos contigs (voir Annexe III), alors que ces mêmes séquences ne sont pas retrouvées dans le génome de référence publié pour S. fulvissimus DSM 40593M (voir Section 2.4).

2.5.2 Analyses de la séquence du gène codant l’ARN 16S des contigs de S. fulvissimus ATCC27431 / DSM 40593 Il semble y avoir plusieurs copies du gène codant l’ARNs 16S dans le génome de la souche ATCC 27431 / DSM 40593, tout comme dans le génome de DSM 40593M, qui contient 6 copies identiques de 1461 pb. Le nombre exact de copies de l’ARN 16S de la souche ATCC 27431 / DSM 40593 dans nos contigs reste cependant incertain, puisque toutes nos copies identifiées sont partielles, sauf une qui semble complète (les tailles des copies que nous avons identifiées varient de 196 à 1513 pb). La séquence de l’ARN 16S de pleine longueur (1513 pb sur le contig 62, qui fait 1544 pb au total) partage seulement 96 % d’identité avec celle du génome de DSM 40593M (voir Figure 19). Le pourcentage d’identité est cependant de 100% sur 1502 pb lorsqu’on la compare à la séquence presque complète du gène codant l’ARN 16S de la souche DSM 40593 (numéro d’accession LM999765.1), qui a été déposée par la DSMZ elle-même (voir Figure 20).

77

1303692.50.r 1 gagtttgatcctggctcaggacgaacgctggcggcgtgcttaacacatgcaagtcgaacg :1-7905758 104416 gagtttgatcctggctcaggacgaacgctggcggcgtgcttaacacatgcaagtcgaacg

1303692.50.r 61 atgaagcccttcggggtggattagtggcgaacgggtgagtaacacgtgggcaatctgccc :1-7905758 104410 atgaagcctttcggggtggattagtggcgaacgggtgagtaacacgtgggcaatctgccc

1303692.50.r 121 tgcactctgggacaagccctggaaacggggtctaataccggataacaccccctctcgcat :1-7905758 104404 ttcactctgggacaagccctggaaacggggtctaataccggataacactctgtcctgcat

1303692.50.r 181 gggagggggttgaaagctccggcggtgcaggatgagcccgcggcctatcagcttgttggt :1-7905758 104398 gggacggggttaaaagctccggcggtgaaggatgagcccgcggcctatcagcttgttggt

1303692.50.r 241 gaggtagtggctcaccaaggcgacgacgggtagccggcctgagagggcgaccggccacac :1-7905758 104392 ggggtaatggcctaccaaggcgacgacgggtagccggcctgagagggcgaccggccacac

1303692.50.r 301 tgggactgagacacggcccagactcctacgggaggcagcagtggggaatattgcacaatg :1-7905758 104386 tgggactgagacacggcccagactcctacgggaggcagcagtggggaatattgcacaatg

1303692.50.r 361 ggcgaaagcctgatgcagcgacgccgcgtgagggatgacggccttcgggttgtaaacctc :1-7905758 104380 ggcgaaagcctgatgcagcgacgccgcgtgagggatgacggccttcgggttgtaaacctc

1303692.50.r 421 tttcagcagggaagaagcgaaagtgacggtacctgcagaagaagcgccggctaactacgt :1-7905758 104374 tttcagcagggaagaagcgaaagtgacggtacctgcagaagaagcgccggctaactacgt

1303692.50.r 481 gccagcagccgcggtaatacgtagggcgcaagcgttgtccggaattattgggcgtaaaga :1-7905758 104368 gccagcagccgcggtaatacgtagggcgcaagcgttgtccggaattattgggcgtaaaga

1303692.50.r 541 gctcgtaggcggcttgtcacgtcggttgtgaaagcccggggcttaaccccgggtctgcag :1-7905758 104362 gctcgtaggcggcttgtcacgtcggatgtgaaagcccggggcttaaccccgggtctgcat

1303692.50.r 601 tcgatacgggcaggctagagttcggtaggggagatcggaattcctggtgtagcggtgaaa :1-7905758 104356 tcgatacgggctagctagagtgtggtaggggagatcggaattcctggtgtagcggtgaaa

1303692.50.r 661 tgcgcagatatcaggaggaacaccggtggcgaaggcggatctctgggccgatactgacgc :1-7905758 104350 tgcgcagatatcaggaggaacaccggtggcgaaggcggatctctgggccattactgacgc

1303692.50.r 721 tgaggagcgaaagcgtggggagcgaacaggattagataccctggtagtccacgccgtaaa :1-7905758 104344 tgaggagcgaaagcgtggggagcgaacaggattagataccctggtagtccacgccgtaaa

1303692.50.r 781 cggtgggcactaggtgtgggcaacattccacgttgtccgtgccgcagctaacgcattaag :1-7905758 104338 cgttgggaactaggtgttggcgacattccacgtcgtcggtgccgcagctaacgcattaag

1303692.50.r 841 tgccccgcctggggagtacggccgcaaggctaaaactcaaaggaattgacgggggcccgc :1-7905758 104332 ttccccgcctggggagtacggccgcaaggctaaaactcaaaggaattgacgggggcccgc

1303692.50.r 901 acaagcggcggagcatgtggcttaattcgacgcaacgcgaagaaccttaccaaggcttga :1-7905758 104326 acaagcagcggagcatgtggcttaattcgacgcaacgcgaagaaccttaccaaggcttga

1303692.50.r 961 catacaccggaaacggccagagatggtcgcccccttgtggtcggtgtacaggtggtgcat :1-7905758 104320 catataccggaaagcatcagagatggtgccccccttgtggtcggtatacaggtggtgcat

1303692.50.r 1021 ggctgtcgtcagctcgtgtcgtgagatgttgggttaagtcccgcaacgagcgcaaccctt :1-7905758 104314 ggctgtcgtcagctcgtgtcgtgagatgttgggttaagtcccgcaacgagcgcaaccctt

1303692.50.r 1081 gtcccgtgttgccagcaagcccttcggggtgttggggactcacgggagaccgccggggtc :1-7905758 104308 gttctgtgttgccagcatgcccttcggggtgatggggactcacaggagactgccggggtc

1303692.50.r 1141 aactcggaggaaggtggggacgacgtcaagtcatcatgccccttatgtcttgggctgcac :1-7905758 104302 aactcggaggaaggtggggacgacgtcaagtcatcatgccccttatgtcttgggctgcac

1303692.50.r 1201 acgtgctacaatggccggtacaatgagctgcgataccgcgaggtggagcgaatctcaaaa :1-7905758 104296 acgtgctacaatggccggtacaatgagctgcgatgccgcgaggcggagcgaatctcaaaa

1303692.50.r 1261 agccggtctcagttcggattggggtctgcaactcgaccccatgaagtcggagtcgctagt :1-7905758 104290 agccggtctcagttcggattggggtctgcaactcgaccccatgaagtcggagttgctagt

1303692.50.r 1321 aatcgcagatcagcattgctgcggtgaatacgttcccgggccttgtacacaccgcccgtc :1-7905758 104284 aatcgcagatcagcattgctgcggtgaatacgttcccgggccttgtacacaccgcccgtc

1303692.50.r 1381 acgtcacgaaagtcggtaacacccgaagccggtggcccaaccccttgtgggagggagctg :1-7905758 104278 acgtcacgaaagtcggtaacacccgaagccggtggcccaaccccttgtgggagggagctg

1303692.50.r 1441 tcgaaggtgggactggcgattgggacgaagtcgtaacaaggtagccgtaccggaaggtgc :1-7905758 104272 tcgaaggtgggactggcgattgggacgaagtcgtaacaaggtagccgtaccggaaggtgc

1303692.50.r 1501 ggctggatcacctcctt :1-7905758 104266 ggctggatcacctcctt Figure 19 : Alignement de séquence entre le gène de l'ARN 16S dans notre contig 62 (1303692.50.r , au-dessus) et le génome de référence de S. fulvissimus DSM 40593M (1-79057583, au-dessous). Le pourcentage d’identité, surligné en vert pour une identité positive, est de 96%. 78

1303692.50.r 12 tggctcaggacgaacgctggcggcgtgcttaacacatgcaagtcgaacgatgaagccctt LM999765.1 ( 1 tggctcaggacgaacgctggcggcgtgcttaacacatgcaagtcgaacgatgaagccctt

1303692.50.r 72 cggggtggattagtggcgaacgggtgagtaacacgtgggcaatctgccctgcactctggg LM999765.1 ( 61 cggggtggattagtggcgaacgggtgagtaacacgtgggcaatctgccctgcactctggg

1303692.50.r 132 acaagccctggaaacggggtctaataccggataacaccccctctcgcatgggagggggtt LM999765.1 ( 121 acaagccctggaaacggggtctaataccggataacaccccctctcgcatgggagggggtt

1303692.50.r 192 gaaagctccggcggtgcaggatgagcccgcggcctatcagcttgttggtgaggtagtggc LM999765.1 ( 181 gaaagctccggcggtgcaggatgagcccgcggcctatcagcttgttggtgaggtagtggc

1303692.50.r 252 tcaccaaggcgacgacgggtagccggcctgagagggcgaccggccacactgggactgaga LM999765.1 ( 241 tcaccaaggcgacgacgggtagccggcctgagagggcgaccggccacactgggactgaga

1303692.50.r 312 cacggcccagactcctacgggaggcagcagtggggaatattgcacaatgggcgaaagcct LM999765.1 ( 301 cacggcccagactcctacgggaggcagcagtggggaatattgcacaatgggcgaaagcct

1303692.50.r 372 gatgcagcgacgccgcgtgagggatgacggccttcgggttgtaaacctctttcagcaggg LM999765.1 ( 361 gatgcagcgacgccgcgtgagggatgacggccttcgggttgtaaacctctttcagcaggg

1303692.50.r 432 aagaagcgaaagtgacggtacctgcagaagaagcgccggctaactacgtgccagcagccg LM999765.1 ( 421 aagaagcgaaagtgacggtacctgcagaagaagcgccggctaactacgtgccagcagccg

1303692.50.r 492 cggtaatacgtagggcgcaagcgttgtccggaattattgggcgtaaagagctcgtaggcg LM999765.1 ( 481 cggtaatacgtagggcgcaagcgttgtccggaattattgggcgtaaagagctcgtaggcg

1303692.50.r 552 gcttgtcacgtcggttgtgaaagcccggggcttaaccccgggtctgcagtcgatacgggc LM999765.1 ( 541 gcttgtcacgtcggttgtgaaagcccggggcttaaccccgggtctgcagtcgatacgggc

1303692.50.r 612 aggctagagttcggtaggggagatcggaattcctggtgtagcggtgaaatgcgcagatat LM999765.1 ( 601 aggctagagttcggtaggggagatcggaattcctggtgtagcggtgaaatgcgcagatat

1303692.50.r 672 caggaggaacaccggtggcgaaggcggatctctgggccgatactgacgctgaggagcgaa LM999765.1 ( 661 caggaggaacaccggtggcgaaggcggatctctgggccgatactgacgctgaggagcgaa

1303692.50.r 732 agcgtggggagcgaacaggattagataccctggtagtccacgccgtaaacggtgggcact LM999765.1 ( 721 agcgtggggagcgaacaggattagataccctggtagtccacgccgtaaacggtgggcact

1303692.50.r 792 aggtgtgggcaacattccacgttgtccgtgccgcagctaacgcattaagtgccccgcctg LM999765.1 ( 781 aggtgtgggcaacattccacgttgtccgtgccgcagctaacgcattaagtgccccgcctg

1303692.50.r 852 gggagtacggccgcaaggctaaaactcaaaggaattgacgggggcccgcacaagcggcgg LM999765.1 ( 841 gggagtacggccgcaaggctaaaactcaaaggaattgacgggggcccgcacaagcggcgg

1303692.50.r 912 agcatgtggcttaattcgacgcaacgcgaagaaccttaccaaggcttgacatacaccgga LM999765.1 ( 901 agcatgtggcttaattcgacgcaacgcgaagaaccttaccaaggcttgacatacaccgga

1303692.50.r 972 aacggccagagatggtcgcccccttgtggtcggtgtacaggtggtgcatggctgtcgtca LM999765.1 ( 961 aacggccagagatggtcgcccccttgtggtcggtgtacaggtggtgcatggctgtcgtca

1303692.50.r 1032 gctcgtgtcgtgagatgttgggttaagtcccgcaacgagcgcaacccttgtcccgtgttg LM999765.1 ( 1021 gctcgtgtcgtgagatgttgggttaagtcccgcaacgagcgcaacccttgtcccgtgttg

1303692.50.r 1092 ccagcaagcccttcggggtgttggggactcacgggagaccgccggggtcaactcggagga LM999765.1 ( 1081 ccagcaagcccttcggggtgttggggactcacgggagaccgccggggtcaactcggagga

1303692.50.r 1152 aggtggggacgacgtcaagtcatcatgccccttatgtcttgggctgcacacgtgctacaa LM999765.1 ( 1141 aggtggggacgacgtcaagtcatcatgccccttatgtcttgggctgcacacgtgctacaa

1303692.50.r 1212 tggccggtacaatgagctgcgataccgcgaggtggagcgaatctcaaaaagccggtctca LM999765.1 ( 1201 tggccggtacaatgagctgcgataccgcgaggtggagcgaatctcaaaaagccggtctca

1303692.50.r 1272 gttcggattggggtctgcaactcgaccccatgaagtcggagtcgctagtaatcgcagatc LM999765.1 ( 1261 gttcggattggggtctgcaactcgaccccatgaagtcggagtcgctagtaatcgcagatc

1303692.50.r 1332 agcattgctgcggtgaatacgttcccgggccttgtacacaccgcccgtcacgtcacgaaa LM999765.1 ( 1321 agcattgctgcggtgaatacgttcccgggccttgtacacaccgcccgtcacgtcacgaaa

1303692.50.r 1392 gtcggtaacacccgaagccggtggcccaaccccttgtgggagggagctgtcgaaggtggg LM999765.1 ( 1381 gtcggtaacacccgaagccggtggcccaaccccttgtgggagggagctgtcgaaggtggg

1303692.50.r 1452 actggcgattgggacgaagtcgtaacaaggtagccgtaccggaaggtgcggctggatcac LM999765.1 ( 1441 actggcgattgggacgaagtcgtaacaaggtagccgtaccggaaggtgcggctggatcac

1303692.50.r 1512 ct LM999765.1 ( 1501 ct Figure 20 : Alignement de séquences du gène de l'ARN 16S de notre contig 62 (1303692.50.r, au-dessus) et de la séquence partielle de l'ARN 16S pour la souche DSM 40593, publiée par la DSMZ (LM99765.1, au- dessous). Le pourcentage d’identité, surligné en vert pour une identité positive, est de 100%.

79

On constate donc que c’est la séquence de l’ARN 16S du génome de DSM 40593M publié par Myronovski et al1 qui diffère de celle de l’ARN 16S publié par la DSMZ pour cette souche. Celle du contig 62 de nos séquences pour la souche ATCC 27431 / DSM 40593, est quant à elle, est identique à celle de la DSMZ (Voir le résumé au Tableau 18). Ainsi, alors que l’on croyait initialement qu’il ait pu y avoir confusion au niveau de l’identification des souches entre l’ATCC et la DSMZ, et que les souches ATCC 27431 et DSM 40593 n’étaient pas équivalentes, il semble que ce soit plutôt le génome publié par Myronovski et al1 qui ne corresponde pas à celui la souche DSM 40593.

Pour nous assurer de la validité de ces analyses de séquences, nous avons fait le design de paires d’amorces (voir Tableau 13) pour amplifier par PCR le gène de l’ARN 16S depuis l’ADNg de S. fulvissimus ATCC 27431 / DSM 40593 (à partir de l’ADN isolé dans notre laboratoire depuis la souche reçue de l’ATCC) et de celui de S. fulvissimus DSM 40593 (commandé et reçu sous forme lyophilisée directement de la DSMZ). Le séquençage de ces amplicons a confirmé que les deux séquences sont identiques (non montré). Ce résultat a donc éliminé cette incertitude et confirmé donc que les souches ATCC 27431 et DSM 40593 sont équivalentes. Il semblerait donc que le génome de référence publié par Myronovski et al1 soit incorrectement associé à la souche DSM 40593.

Notre séquençage de la souche ATCC 27431 / DSM 40593, rapporté sous forme de 225 contigs, correspond à un génome qui n’a jamais été publié. Nous avons donc fait des analyses génomiques exploratoires à la fin de ce projet de maîtrise.

Pendant la rédaction de ce mémoire, un nouveau génome a été rapporté par l’équipe chinoise de Chengqiang Wang106. C’est avec ce génome que nos contigs s’alignent avec les scores les plus élevés (voir le Tableau 17). Les statistiques de ce génome, selon RAST, ont donc été incluses pour faciliter la comparaison au Tableau 19. Le gène de l’ARN 16S de notre contig 62 s’aligne à 99% d’identité sur l’ensemble de la séquence avec celui publié pour Streptomyces alboflavus MDJK44 (Numéro d’accession : CP021748.1), Cette forte similarité de séquences n’est pas passée inaperçue aux auteurs de la publication : dans un arbre phylogénétique qu’ils ont construit, la souche MDJK44 est très près de S. fulvissimus DSM 40593, selon la séquence de l’ARN 16S publiée par la DSMZ elle-même106. Les résultats de Wang et al, et les nôtres, montrent que la souche S. fulvissimus ATCC 27431 / DSM 40593 est une proche cousine de la souche S. alboflavus MDJK44.

80

Nos analyses ont aussi révélé que la séquence de l’ARN 16S du génome publié par Myronovski pour la souche DSM 40593M est, en fait, identique à un nucléotide près à celle d’une autre souche de S. fulvissimus : DSM 40767 (Numéro d’accession : EU647488.1). Il existe donc, selon nous, une possibilité que le génome séquencé par Myronovski soit celui de la souche DSM 40767 plutôt que de DSM 40593.

Tout au long de ce mémoire, le génome publié pour la souche DMS 40593 a été marqué avec un «M» en exposant. Nous désirions souligner qu’il s’agit du génome publié par l’équipe de Myronovski, et qu’il s’agit probablement du génome d’une autre souche de S. fulvissimus que celui de la souche DSM 40593.

Tableau 18 : Pourcentages d’identité des séquences des ARN 16S de souches de S. fulvissimus et S. alboflavus.

Séquences S. fulvissimus S. fulvissimus S. fulvissimus S. alboflavus S. fulvissimus ARNs 16S ATCC 27431* DSM 40593M** DSM 40593*** MDJK44**** DSM 40767*****

S. fulvissimus 100 % 96 % 100 % 99 % 96 % ATCC27431 S. fulvissimus - 100 % 96 % 96 % 100 % DSM40593M S. fulvissimus - - 100 % 99 % 96 % DSM40593 S. alboflavus - - - 100 % 95 % MDJK44 S. fulvissimus - - - - 100 % DSM40767 *S. fulvissimus ATCC27431 : séquences génomiques de ce mémoire et séquence obtenue par amplification PCR du gène codant l’ARN 16S. **S. fulvissimus DSM40593M : génome publié par Myronovski et al1 (code d’accession GCA_000385945.1) ***S. fulvissimus DSM40593 : séquence 16S déposée par la DSMZ (code d’accession LM999765.1) et séquence obtenue par amplification PCR du gène codant l’ARN 16S (à partir d’ADNg commandé à la DSMZ) ****S. alboflavus MDJK44 : Génome publié par Wang et al. (code d’accession CP021748) *****S. fulvissimus DSM40767 : séquence 16S déposée par la DSMZ (code d’accession EU647488)

81

Tableau 19: Statistiques générales des séquences des génomes de S. fulvissimus ATCC 27431 / DSM 40593, DSM 40593M et S. alboflavus MDJK44.

Statistique S. fulvissimus S. fulvissimus DSM S. alboflavus examinéea ATCC 27431 40593M MDJK44

Taille (pb) 9 577 299 pb 7 905 758 pb 9 622 415 pb Contigs 225 1 1 Contenu en bases GC 72,2 % 71,5 % 72.1%

Taille du plus petit 598 pb 7 905 758 pb 9 622 415 contig

Taille du plus grand 1 380 617 pb 7 905 758 pb 9 622 415 contig

Nombre d’ORFs 8197 7041 9050

1695 (1618 2252 (2150 protéines 2297 (2197 protéines ORFs classés en protéines connues et 102 connues et 100 sous-systèmes RAST connues et 77 hypothétiques) hypothétiques hypothétiques)

7355 (3623 5 645 (2923 protéines 4744 (2318 protéines ORFS non classés en protéines connues et 2 722 connues et 2426 sous-systèmes RAST connues et 3732 hypothétiques) hypothétiques) hypothétiques)

Nombre de sous- systèmes RAST où 446 436 339 des gènes sont classés

Nombre d’ARNs (ARNt 91 90 86 et ARNr) Nombre de copies des Indéterminé 6 6 ARNs 5S, 16S et 23S a-Statistiques déterminées avec l’outil bio-informatique RAST97.

82

2.5.3 Les contigs annotés de S. fulvissimus ATCC 27431 / DSM 40593 L’analyse du contenu en gène avec l’outil bio-informatique RAST a permis d’assigner 2252 ORFs (32 %) associés à 446 sous-systèmes qui correspondent à des voies métaboliques données ou à des classes de métabolites (voir la Figure 21). La majorité de ces ORFs correspondent à des protéines connues (2 150 ORFs) mais 102 de ceux-ci correspondent à des protéines dites hypothétiques ou non-identifiées. Des ORFS non-assignés à un sous- système (5 645 ORFs au total), sont distribués à peu près également entre des protéines connues (2 923) et hypothétiques (2 722). Le sous-système «résistance aux antibiotiques» révèle la présence de gènes de bêta-lactamases (résistance aux bêta-lactames comme la pénicilline) et de résistance à la tétracycline et aux fluoroquinolones. Puisque les bactéries qui synthétisent des antibiotiques doivent elles-mêmes être résistantes à ces molécules, la présence de ces gènes soulève la possibilité de la présence de ces voies de biosynthèse dans le génome. Les autres gènes entourant ces gènes de résistance sur nos contigs ne semblent toutefois pas faire partie d’un opéron de biosynthèse, il est donc difficile d’estimer si les gènes de résistance repérés font partie de voies de biosynthèse plus grandes ou non. Lorsque nous avons inspecté le sous-système «métabolisme secondaire», nous avons appris que S. fulvissimus ATCC 27431 / DSM 40593 contient des gènes connus de la voie de synthèse des lanthionines (acides aminés non-protéinogènes) et des auxines, qui sont des hormones essentielles à la croissance des plantes. La production d’auxine serait cohérente avec la recherche actuelle dans le domaine agroindustriel, qui rapporte que les streptomycètes sont parfois des promoteurs de croissance chez les plantes106,107.

Figure 21 : Schéma montrant l’appartenance des ORFs annotés dans les contigs de S. fulvissimus ATCC 27431 à des sous- systèmes selon l’outil d’annotation RAST. Figure tirée du site web lors de l’analyse des contigs (http://rast.nmpdr.org/rast.cgi).

83

Les mêmes résistances aux antibiotiques, de même que certaines voies de synthèse de métabolites secondaires que nous avons identifiées dans nos contigs, sont aussi retrouvées dans le génome de S. fulvissimus DSM 40593M. Ce dernier contient cependant de plus des gènes de synthèse de peptides non-ribosomaux de type TOMM (thiazole –oxazole-modified microcin) qui sont des composés naturels complexes dont certains possèdent notamment des propriétés antimicrobiennes108.

Dans le but d’identifier d’autres voies potentielles de synthèse de métabolites et d’en apprendre davantage à leur sujet, l’analyse a été complétée par une recherche des contigs annotés avec des noms d’enzymes fréquemment retrouves dans de telles voies de biosynthèse (PKS, P450, SDR et autres). De plus, dans l’interface web de l’outil RAST, il est facile d’examiner les gènes adjacents pour déterminer si des gènes potentiels de voies de biosynthèse seraient présents et s’ils sont conservés chez les autres espèces contenant les plus proches homologues du gène examiné. Cela a notamment permis d’identifier 30 protéines prédites de type P450, 24 de type déshydrogénases/oxydoréductases à courte chaine (SDR), 4 polycétide synthases (PKS) et 13 synthétases de peptides non-ribosomaux (NRPS). Nous n’avons pas, à ce jour, identifié de PKS/NRPS hybride dans nos contigs.

L’analyse de gènes de voies de biosynthèse étant relativement limitée avec logiciels Prokka et RAST, nous avons poursuivi nos analyses à l’aide des logiciels antiSMASH 3.0109,110 et PRISM111 couramment utilisés à cet effet. Ce sont notamment ceux qui ont été utilisés pour l’analyse de génomes rapportés par Myronovski et al1 et Wang et al106. Ces résultats, non- montrés dans ce mémoire, serviront à la préparation d’une publication basée sur l’analyse du génome. Les résultats préliminaires montrent que la souche ATCC27431 / DSM 40593, sans être identique, est très proches de la souche S. alboflavus MDJK44 et partage avec celle-ci plusieurs des 29 voies de biosynthèse potentielles identifiées par Wang et al. à l’aide d’antiSMASH109,110. S. fulvissimus ATCC 27431 / DSM40593 contient cependant plusieurs autres voies de biosynthèse potentielles qui lui sont propres. Pour la majorité des voies de biosynthèse identifiées par Wang et al. ainsi que celles trouvées par nos analyses, la molécule synthétisée ne peut être prédite puisque les gènes ne sont pas suffisamment conservés. Il reste donc énormément de recherches à effectuer pour associer les voies de biosynthèse potentielles aux molécules qu’elles synthétisent.

84

Chapitre 3 : Discussion

Comme la lecture de ce mémoire le révèle, ce projet de maîtrise a grandement évolué au fil de sa réalisation, et nous avons déployé plusieurs stratégies successives afin d’isoler des gènes servant potentiellement à la biosynthèse d’une molécule bioactive prédite comme faisant partie de la famille des Polycyclic Tetramate Macrolactams. Chaque stratégie individuelle utilisée pour le clonage et l’expression des gènes de l’opéron codant le PTM avait été rationnellement déployée selon les connaissances scientifiques et les protocoles établis pour atteindre les objectifs de recherche de départ : l’isolation des gènes par PCR aurait permis le transfert hétérologue rapide et abordable de l’opéron; la synthèse chimique d’ADN et la construction des plasmides par assemblage isotherme de type Gibson auraient permis l’optimisation du contenu génique pour l’adapter au biais d’utilisation du code génétique du microorganisme hôte; enfin, la création d’une librairie génomique aurait permis, au coût de manipulations plus laborieuses mais fiables et éprouvées, de cloner les gènes codant le PTM que nous cherchions. Les analyses génomiques que nous avons réalisées en fin de maîtrise nous ont cependant montré de façon flagrante la raison de l’échec de deux de ces stratégies de clonage de l’opéron de biosynthèse du PTM. Bien que difficile par moments, ce projet qui devait initialement être de nature plutôt biochimique et de biologie moléculaire a permis d’explorer d’autres aspects touchant la biologie synthétique, la microbiologie, la génomique et la bio-informatique, ce qui, à la fin, agrandit le champ d’expertise acquis au cours de ces études de maîtrise.

Dans cette discussion, il sera question de poser un regard critique sur chacune de ces stratégies de clonage et sur leurs résultats, et de faire un retour sur la fin inattendue de ce projet de maîtrise. Les perspectives de réutilisation et d’adaptation des méthodes développées dans le cadre de ce projet seront également établies.

3.1 L’approche par construction plasmidique basée sur une extraction PCR des gènes prédits de l’opéron de biosynthèse du PTM

L’approche par amplification PCR est en principe simple et a logiquement été la première déployée pour atteindre les objectifs de recherche de départ; c’est une technologie éprouvée. Nous nous attendions à de potentielles difficultés d’amplifications, notamment liées au contenu élevé en bases G+C de S. fulvissimus, mais l’absence complète d’amplification demeurait surprenante. Cette situation s’est répétée en plusieurs essais, malgré l’utilisation de différents protocoles spécifiques aux amplifications difficiles et à haut

85

contenu en bases G+C. Nos résultats issus du séquençage génomique de la souche S.fulvissimus ATCC 27431 / DSM 40593 ont montré que la cause de ces échecs est l’absence complète des gènes codant le PTM que nous recherchions dans le génome de la souche.

Les protocoles d’optimisation d’amplification PCR développés (l’ajout d’additifs, l’utilisation de gradients de températures, la réalisation de contrôles sur les différentes composantes des tests PCR, etc.) demeurent cependant valides, et pourraient servir de point de départ pour résoudre les problèmes liés à une future amplification difficile. Il serait intéressant de retenter ces extractions PCR à partir de la souche réellement utilisée par Myronovski et al1, qu’il faudrait cependant se procurer auprès de son équipe directement. Le regroupement de gènes de biosynthèse du PTM que nous cherchions, à notre connaissance, n’a toujours pas été étudié par un autre laboratoire; tous les protocoles d’extraction PCR et de digestions enzymatiques nécessaires à la construction d’un plasmide fonctionnel sont déjà en place, et pourraient être utilisés directement après l’obtention de la souche en question. Un protocole d’extraction PCR de gènes d’intérêt sur la souche ATCC 27431 / DSM 40593 serait également rapidement adaptable à partir des protocoles développés pour la souche DSM 40593M. Les analyses génomiques (en cours) montreront lesquels de ces gènes présentent le potentiel le plus intéressant pour notre laboratoire.

3.2 L’approche par construction plasmidique basée sur un assemblage isotherme de type Gibson avec des blocs d’ADN synthétique

La synthèse chimique de l’ADN et l’assemblage de fragments par la méthode isotherme de Gibson constituent une approche récente essentielle aux avancées en ingénierie métabolique et en biologie synthétique112,113. Cette stratégie a été déployée après avoir épuisé les possibilités de tests et optimisation pour l’amplification PCR des gènes. L’assemblage isotherme de type Gibson, rapporté pour la première fois en 2009, est déjà fréquemment utilisé en sciences biologiques et, selon la littérature, a déjà permis l’assemblage d’ADNs contigus de très grande taille (allant même de 300 kilobases jusqu’à plus de 500 kilobases)86. Notre stratégie consistait à séparer le gène codant la PKS/NRPS hybride des autres gènes de l’opéron de biosynthèse du PTM afin de limiter la taille de l’ADN à assembler et à cloner. Bien que très intéressante, cette stratégie comporte des défis qui ont pu contribuer à l’échec de l’assemblage et du clonage des gènes codant le PTM. Les causes imputées à cet échec sont notamment la complexité de l’assemblage de plusieurs fragments, la taille importante des gBlocks assemblés et aussi la taille possiblement trop

86

faible des séquences chevauchantes permettant l’association des gBlocks entre eux par l’assemblage Gibson. Tel que mentionné dans la section résultats (voir la Section 2.3), nous pensons que l’efficacité d’assemblage aurait pu être augmentée si nous nous étions inspirés de la publication originale de Gibson et al86 plutôt que du manuel de la trousse pour le design de séquences compatibles plus longues aux extrémités des gBlocks. Malgré quelques succès d’assemblages de gBlocks intermédiaires, les efforts d’optimisation qui auraient été requis pour terminer les deux assemblages finaux, et le temps difficile à estimer pour le faire, ont fait que nous avons jugé préférable de changer de stratégie en fin du projet de maîtrise.

Si cette stratégie avait fonctionné, cela aurait établi un premier protocole standardisé dans notre laboratoire pour tout transfert hétérologue de gènes provenant de bactéries non- cultivables et / ou au contenu génomique (ou biais d’utilisation du code génétique) fortement différent de la souche-hôte désirée. La possibilité d’optimiser les séquences des gènes en fonction du biais d’utilisation des codons de l’organisme-hôte était innovante et constituait, en quelque sorte, une approche s’approchant de la métagénomique synthétiquen qui serait transposable pour l’étude de n’importe quel opéron à des coûts raisonnables. La technologie de synthèse chimique évolue très rapidement, et les coûts de synthèse de gènes diminuent au fur et à mesure que l’offre augmente et devient plus compétitive113. Il est possible que la synthèse chimique complète d’un opéron optimisé devienne monnaie courante dans les projets de transferts hétérologues futurs, et notre laboratoire aura alors déjà acquis une certaine expérience dans ce domaine.

3.3 L’approche par le criblage génétique d’une librairie génomique de l’ADN de S. fulvissimus ATCC 27431 / DSM 40593

Le criblage de librairies génomiques est une façon établie et robuste de trouver des gènes ou opérons d’intérêt115–118. La taille d’une librairie est ajustable selon l’ampleur de la couverture génomique désirée, et la méthode utilisant la transfection de cosmides / fosmides par des bactériophages est fiable et efficace92. Une librairie génomique contient nécessairement une grande diversité de séquences, et une stratégie de criblage précise et efficace est donc nécessaire afin d’identifier les gènes et voies métaboliques recherchés.

n La métagénomique synthétique, terme récent dans la littérature scientifique, est (traduction libre de l’auteur) : «L’extraction de séquences d’intérêt existant déjà dans les bases de données génomiques et métagénomiques, suivie de la synthèse chimique desdites séquences» [pour leur étude subséquente]114. 87

En principe, avec une sonde spécifique, le criblage d’une banque génomique est une méthode fiable et, globalement, cette stratégie aurait dû mener à la détection des gènes codant le PTM. Selon notre ADN-source, la sonde générée devrait posséder une taille variant de 200 à 500 nucléotides. Elle possédait une séquence unique située en amont du gène en position 5’ dans l’opéron de biosynthèse du PTM (le gène codant la FAH prédite). Eussions-nous trouvé des clones réellement positifs avec cette sonde, nous aurions procédé à un second criblage de ceux-ci avec une autre sonde située en aval du gène en position 3’ dans l’opéron (celui de la PaPPase). Ce faisant, nous aurions fortement diminué la probabilité de détecter de faux-positifs ou de détecter un opéron partiel. Idéalement, seuls les clones contenant le regroupement de gènes complet auraient été sélectionnés. La membrane de la Figure 18 montre la différence de signal entre un signal réellement positif (contrôle) et celle des «signaux positifs» pour certains clones de la banque. Les contrôles positifs montraient un signal beaucoup plus intense que ceux des clones. Puisque cette différence importante de signal aurait pu s’expliquer en tout ou en partie par la quantité spécifique de la séquence cible, nous avons décidé de sélectionner les clones ayant la plus forte coloration afin de vérifier, par séquençage, s’ils contenaient des gènes de l’opéron PTM. Puisque les clones séquencés ne contenaient pas ces gènes, on a pu conclure que ces signaux étaient de faux positifs. Il est possible qu’un lavage encore plus sélectif des membranes aurait permis de réduire ces signaux de faible intensité.

Malgré ces résultats initialement décevants, les fosmides qui ont été séquencés n’ont pas été isolés en vain : ce sont eux qui nous ont permis de constater l’incohérence entre les séquences Sanger obtenues et celles du génome publié pour la souche DSM 40593M. Par le fait même, ce sont eux qui nous ont permis de générer des résultats intéressants avec des analyses bio-informatiques. L’absence de clones ayant des gènes codant pour le PTM ainsi que l’absence de séquences correspondantes à celles du génome publié étaient donc des résultats en soi. C’est alors grâce à la création de cette librairie génomique que nous avons pu continuer le projet et arriver à expliquer certains de nos résultats précédents, le tout formant une histoire que nous espérons cohérente.

Dans un contexte plus général, notons que les protocoles développés pour la création et le criblage d’une banque génomique pourraient aussi, à quelques ajustements simples près, servir dans un projet de métagénomique débuté directement à partir d’un échantillon d’ADNe (isolé à partir d’échantillons de sol, par exemple) ou n’importe quel échantillon contenant de l’ADN58. En quelques jours seulement, une librairie génomique complète

88

pourrait être générée, et le criblage génomique (ou même fonctionnel, en ajustant légèrement le processus115) de celle-ci pourrait être réalisé en moins d’une semaine par une ou deux personnes, selon la quantité de clones à cribler. Le projet de maîtrise n’ayant utilisé qu’une partie des produits fournis dans les trousses d’Epicentre92 et de Roche95, plusieurs projets de ce type seraient toujours réalisables avec les protocoles développés dans cette maîtrise.

Comme il vient d’être rappelé, une banque génomique peut être criblée de façon fonctionnelle. Une des suites possibles au projet concerne un tel criblage en utilisant la souche E. coli BAP1 pour détecter la ou les molécules produite(s) par S. fulvissimus ATCC 27431 / DSM 40593 qui ont inhibé la croissance de la levure S. cerevisiae. Un criblage de la sorte permettrait potentiellement d’identifier les gènes de la voie de biosynthèse responsable de cette activité. Un tel effort est souhaitable dans le contexte où, tel qu’expliqué précédemment, dans la majorité des cas, la molécule synthétisée par les voies de biosynthèses identifiées par nos analyses ne peut être prédite. De plus, tel que décrit à la Section 2.5.3, nous avons été en mesure d’identifier 4 PKS prédites et 13 NRPS prédites dans nos contigs, ce qui semble confirmer que E. coli BAP1 serait toujours l’hôte préférable pour le criblage fonctionnel de la librairie génomique. La souche BAP1 est, rappelons-le, sensible au phage λ. Ceci permettrait la transfection rapide de la librairie génomique présentement conservée à -80°C sous forme de phages empaquetés.

3.4 Les analyses génomiques et bio-informatiques

Les quelques analyses génomiques et bio-informatiques de base que nous avons réalisées et présentées dans ce mémoire révèlent que les séquences de la souche ATCC 27431 / DSM 40593 diffèrent de celles rapportées pour la souche DSM 40593M (et, dans un moindre degré, de celles rapportées pour S. alboflavus MDJK44), ce qui permet d’appuyer la conclusion que nous sommes les premiers à avoir séquencé le génome de cette souche. A 96% d’identité pour le gène codant pour l’ARN 16S, les séquences des souches ATCC 27431 / DSM 40593 et du génome DSM 40593M présentent un pourcentage d’identité inférieur aux 98-99% considérés comme valeurs seuils pour l’appartenance de bactéries à la même espèce, et se rapprochent du seuil de 95% d’identité pour l’appartenance à un même genre bactérien119. Cette observation est conséquente avec l’absence des séquences issues du séquençage Sanger des fosmides de la souche ATCC 27431 / DSM 40593 dans le génome de DSM40593M. Globalement, ces résultats suggèrent que ces deux

89

souches de S. fulvissimus sont, en fait, assez éloignées l’une de l’autre. À 99% d’identité cependant, les ARNs 16S des souches S. fulvissimus ATCC 27431 / DSM 40593 et S. alboflavus MDJK44 suggèrent qu’elles correspondraient bien à deux souches de la même espèce.

Nos analyses montrent de plus que, malgré l’absence des gènes codant le PTM d’intérêt initial de cette maitrise, la souche S. fulvissimus ATCC27431 / DSM 40593 possède un grand nombre de voies de biosynthèse prédites, dont plusieurs sont partagées avec la souche S. alboflavus MDJK44, et dont la nature des molécules et leur activité biologique n’ont pas encore été évaluées. Ces éléments justifient l’analyse bio-informatique plus poussée de ces voies de biosynthèse en vue d’en faire une publication (en préparation).

Notre laboratoire n’avait pas d’expérience en interprétation de données génomiques avant ce projet de maîtrise. L’expérience que nous avons acquise serait sans doute transposable à d’autres projets impliquant la génomique. Notre expérience avec le logiciel Prokka montre qu’il a ses forces, comme la possibilité d’annoter un génome brut à partir d’une base de données personnalisée, mais le logiciel RAST nous est globalement apparu comme plus performant pour la recherche de gènes d’intérêt ou de voies de synthèse. Pour la recherche de voies de synthèse de petites molécules, antibiotiques ou autres, l’utilisation de logiciels spécialisés tel qu’antiSMASH est cependant nécessaire, et permet notamment d’obtenir une liste de voies potentielles et les types d’enzymes de biosynthèse impliquées. Ces résultats essentiels servent de base aux études subséquentes visant à caractériser aux niveaux fonctionnel et biochimique ces voies de biosynthèse.

90

Conclusion Cette maîtrise avait pour but de cloner les gènes d’un streptomycète menant potentiellement à la biosynthèse d’une molécule bioactive prédite comme faisant partie de la famille des Polycyclic Tetramate Macrolactams. Une suite d’obstacles rencontrés au fil du déploiement de nos trois stratégies nous a enfin mené au séquençage du génome de la souche ATCC 27431 / DSM 40593. Nos analyses bio-informatiques ont permis de valider que la souche S. fulvissimus ATCC 27431 / DSM 40593 n’a pas été associée au bon génome publié. Nos analyses suggèrent que le génome associé, celui de S. fulvissimus DSM 40593 publié Myronovski et al1 pourrait plutôt être celui de la souche S. fulvissimus DSM 40767.

Nous avons observé que la souche ATCC 27431 / DSM 40593 possède de nombreuses voies de biosynthèse, comme la plupart des streptomycètes, mais elles n’ont pas encore été étudiées en profondeur. Elle semble être une proche cousine de la souche S. alboflavus MDJK44, qui est rapportée comme étant une bactérie possédant une activité antifongique naturelle et bénéficiant la croissance des plantes106. Puisque nous avons observé que S. fulvissimus ATCC 27431 / DSM 40593 possède également une activité antifongique, il serait intéressant d’étudier le potentiel agronomique de cette souche.

Dans l’ensemble, ce projet de maîtrise nous aura permis de développer plusieurs approches et protocoles réutilisables pour de futurs projets (notamment la construction de librairies génomiques) et d’acquérir une expertise en analyses génomiques et bio-informatiques.

Ce mémoire met également en lumière qu’il ne faut pas prendre pour acquis que l’information des bases de données, qui est essentielle à la progression des sciences biologiques, est systématiquement valide et qu’elle ne contient pas d’erreur!

91

Bibliographie

1. Myronovskyi, M., Tokovenko, B., Manderscheid, N., Petzke, L. & Luzhetskyy, A. Complete genome sequence of Streptomyces fulvissimus. Journal of Biotechnology 168, 117–118 (2013). 2. Fleming, A. On the Antibacterial Action of Cultures of a Penicillium, with Special Reference to their Use in the Isolation of B. influenzæ. British Journal of Experimental Pathology 10, 226– 236 (1929). 3. Jouanna, J. & Allies, N. WINE AND MEDICINE IN ANCIENT GREECE. in Greek Medicine from Hippocrates to Galen 173–194 (Brill, 2012). 4. Rosenblatt-Farrell, N. The Landscape of Antibiotic Resistance. Environmental Health Perspectives 117, A244–A250 (2009). 5. Abraham, E. P. & Chain, E. An Enzyme from able to Destroy Penicillin. Nature 146, 837 (1940). 6. Ochiai, K., Yamanaka, T., Kimura, K. & Sawada, O. Inheritance of drug resistance (and its transfer) between Shigella strains and between Shigella and E. coli strains (in Japanese). Hihon Iji Shimpor 1861, 34 (1959). 7. Davies, J. Where have All the Antibiotics Gone? Canadian Journal of Infectious Diseases & Medical Microbiology 17, 287–290 (2006). 8. Jukes, T. H. & Williams, W. L. Nutritional Effects of Antibiotics. Pharmacological Reviews 5, 381–420 (1953). 9. Gaskins, H. R., Collier, C. T. & Anderson, D. B. Antibiotics as Growth Promotants: mode of Action. Animal Biotechnology 13, 29–42 (2002). 10. Manyi-Loh, C., Mamphweli, S., Meyer, E. & Okoh, A. Antibiotic Use in Agriculture and Its Consequential Resistance in Environmental Sources: Potential Public Health Implications. Molecules 23, 795 (2018). 11. Antimicrobial resistance. World Health Organization Available at: http://www.who.int/news- room/fact-sheets/detail/antimicrobial-resistance. (Accessed: 23rd May 2018) 12. Center for Disease Dynamics, Economics & Policy. The state of the World’s Antibiotics 2015. 84 (Center for Disease Dynamics, Economics & Policy, 2015). 13. Schäberle, T. F. & Hack, I. M. Overcoming the current deadlock in antibiotic research. Trends in Microbiology 22, 165–167 (2014). 14. Frieden, T. Antibiotic resistance threats. CDC 22–50 (2013). doi:CS239559-B 15. Masarikova, M. et al. Salmonella enterica resistant to antimicrobials in wastewater effluents and black-headed gulls in the Czech Republic, 2012. Science of The Total Environment 542, 102–107 (2016). 16. Magiorakos, a et al. Bacteria : an International Expert Proposal for Interim Standard Definitions for Acquired Resistance. Microbiology 18, 268–281 (2011). 17. Drug Resistance: Worse, And Still A Lot To Learn – Phenomena: Germination. Available at: http://phenomena.nationalgeographic.com/2015/11/16/amr-weeks/. (Accessed: 19th November 2015) 18. Antibiotic resistance: World on cusp of ‘post-antibiotic era’ - BBC News. Available at: http://www.bbc.com/news/health- 34857015?ocid=socialflow_facebook&ns_mchannel=social&ns_campaign=bbcnews&ns_sou rce=facebook. (Accessed: 19th November 2015) 19. Four Core Actions to Fight Resistance. Center for Disease Control and Prevention Available at: https://www.cdc.gov/drugresistance/pdf/4-2013-508.pdf. (Accessed: 23rd May 2018)

92

20. Gallagher, J. Analysis: Antibiotic apocalypse. BBC News (2015). 21. Golkar, Z., Bagasra, O. & Pace, D. G. Bacteriophage therapy: a potential solution for the antibiotic resistance crisis. The Journal of Infection in Developing Countries 8, 129–136 (2014). 22. World Health Organization. Antimicrobial Resistance - Global Surveillance Report. Available at: http://apps.who.int/iris/bitstream/handle/10665/112647/WHO_HSE_PED_AIP_2014.2_eng. pdf?sequence=1. (Accessed: 18th July 2018) 23. Munita, J. M. & Arias, C. A. Mechanisms of Antibiotic Resistance. Microbiol Spectr 4, (2016). 24. Davies, J. & Davies, D. Origins and Evolution of Antibiotic Resistance. Microbiology and Molecular Biology Reviews 74, 417–433 (2010). 25. Davies, J. Antibiotic discovery: then and now. Microbiology Society (2012). Available at: https://microbiologysociety.org/publication/past-issues/antimicrobials/article/antibiotic- discovery-then-and-now-antimicrobials.html. (Accessed: 5th February 2019) 26. Conly, J. & Johnston, B. Where are all the new antibiotics? The new antibiotic paradox. Canadian Journal of Infectious Diseases & Medical Microbiology 16, 159–160 (2005). 27. Okano, A., Isley, N. A. & Boger, D. L. Peripheral modifications of [Ψ[CH2NH]Tpg4]vancomycin with added synergistic mechanisms of action provide durable and potent antibiotics. Proceedings of the National Academy of Sciences of the United States of America 114, E5052–E5061 (2017). 28. Aminov, R. I. A Brief History of the Antibiotic Era: Lessons Learned and Challenges for the Future. Frontiers in Microbiology 1, 134 (2010). 29. Urem, M., Swiatek-Polatynska, M. A., Rigali, S. & van Wezel, G. P. Intertwining nutrient- sensory networks and the control of antibiotic production in Streptomyces. Molecular Microbiology 102, 183–195 (2016). 30. Luo, Y. et al. Activation and characterization of a cryptic polycyclic tetramate macrolactam biosynthetic gene cluster. Nature communications 4, 2894 (2013). 31. Saha, S. et al. Activation and characterization of a cryptic gene cluster reveals a cyclization cascade for polycyclic tetramate macrolactams. Chemical Science 8, 1607–1612 (2017). 32. Ross, A. C., Gulland, L. E. S., Dorrestein, P. C. & Moore, B. S. Targeted Capture and Heterologous Expression of the Pseudoalteromonas Alterochromide Gene Cluster in Escherichia coli Represents a Promising Natural Product Exploratory Platform. ACS synthetic biology 4, 414–20 (2015). 33. Zhang, H., Wang, Y., Wu, J., Skalina, K. & Pfeifer, B. A. Complete biosynthesis of erythromycin A and designed analogs using E. coli as a heterologous host. Chemistry and Biology 17, 1232– 1240 (2010). 34. Liu, J., Zhu, X., Seipke, R. F. & Zhang, W. Biosynthesis of Antimycins with a Reconstituted 3- Formamidosalicylate Pharmacophore in Escherichia coli. ACS synthetic biology 4, 559-565 (2015). doi:10.1021/sb5003136 35. Antosch, J., Schaefers, F. & Gulder, T. a M. Heterologous reconstitution of ikarugamycin biosynthesis in E. coli. Angewandte Chemie - International Edition 53, 3011–3014 (2014). 36. Luo, Y., Cobb, R. E. & Zhao, H. Recent advances in natural product discovery. Current Opinion in Biotechnology 30, 230–237 (2014). 37. Levy, S. E. & Myers, R. M. Advancements in Next-Generation Sequencing. Annual Review of Genomics and Human Genetics 17, 95–115 (2016). 38. National Center for Biotechnology Information. GenBank and WGS Statistics. Available at: https://www-ncbi-nlm-nih-gov.acces.bibl.ulaval.ca/genbank/statistics/. (Accessed: 18th July 2018)

93

39. Zhang, H., Boghigian, B. A., Armando, J. & Pfeifer, B. A. Methods and options for the heterologous production of complex natural products. Natural Product Reports 28, 125–151 (2011). 40. Pace, N. R., Stahl, D. A., Lane, D. J. & Olsen, G. J. The Analysis of Natural Microbial Populations by Ribosomal RNA Sequences. in Advances in Microbial Ecology 1–55 (Springer, Boston, MA, 1986). doi:10.1007/978-1-4757-0611-6_1 41. Handelsman, J., Rondon, M. R., Brady, S. F., Clardy, J. & Goodman, R. M. Molecular biological access to the chemistry of unknown soil microbes: a new frontier for natural products. Chemistry & Biology 5, R245–R249 (1998). 42. Lepage, P. et al. A metagenomic insight into our gut’s microbiome. Gut 62, 146–158 (2013). 43. Armstrong, Z. et al. Metagenomics reveals functional synergy and novel polysaccharide utilization loci in the Castor canadensis fecal microbiome. The ISME Journal 1 (2018). doi:10.1038/s41396-018-0215-9 44. Martín, H. G. et al. Metagenomic analysis of two enhanced biological phosphorus removal (EBPR) sludge communities. Nature Biotechnology 24, 1263–1269 (2006). 45. Gilbert, J. A. & Dupont, C. L. Microbial Metagenomics: Beyond the Genome. Annual Review of Marine Science 3, 347–371 (2011). 46. Stewart, E. J. Growing Unculturable Bacteria. J. Bacteriol. 194, 4151–4160 (2012). 47. Berini, F., Casciello, C., Marcone, G. L. & Marinelli, F. Metagenomics: novel enzymes from non-culturable microbes. FEMS Microbiology Letters 364, fnx211 (2017). 48. Hugenholtz, P., Goebel, B. M. & Pace, N. R. Impact of Culture-Independent Studies on the Emerging Phylogenetic View of Bacterial Diversity. Journal of Bacteriology 180, 4765–4774 (1998). 49. Eisen, J. A. Environmental Shotgun Sequencing: Its Potential and Challenges for Studying the Hidden World of Microbes. PLoS Biology 5, e82 (2007). 50. Sanger, F., Nicklen, S. & Coulson, A. R. DNA sequencing with chain-terminating inhibitors. Proceedings of the National Academy of Sciences of the United States of America 74, 5463– 5467 (1977). 51. Oulas, A. et al. Metagenomics: Tools and Insights for Analyzing Next-Generation Sequencing Data Derived from Biodiversity Studies. Bioinform Biol Insights 9, 75–88 (2015). 52. Petrosino, J. F., Highlander, S., Luna, R. A., Gibbs, R. A. & Versalovic, J. Metagenomic pyrosequencing and microbial identification. Clin. Chem. 55, 856–866 (2009). 53. Venter, J. C. et al. Environmental Genome Shotgun Sequencing of the Sargasso Sea. Science 304, 66–74 (2004). 54. Metagenomics versus Moore’s law. Nature Methods 6, 623 (2009). 55. Garibyan, L. & Avashia, N. Research Techniques Made Simple: Polymerase Chain Reaction (PCR). J Invest Dermatol 133, e6 (2013). 56. GeneArt Gene Synthesis - Invitrogen. Available at: https://www.thermofisher.com/ca/en/home/life-science/cloning/gene-synthesis/geneart- gene-synthesis.html. (Accessed: 23rd July 2018) 57. Lynn, D. J., Singer, G. A. C. & Hickey, D. A. Synonymous codon usage is subject to selection in thermophilic bacteria. Nucleic Acids Res 30, 4272–4277 (2002). 58. Brady, S. F. Construction of soil environmental DNA cosmid libraries and screening for clones that produce biologically active small molecules. Nature Protocols 2, 1297–1305 (2007). 59. Sanger, F. et al. Nucleotide sequence of bacteriophage phi X174 DNA. Nature 265, 687–695 (1977). 60. Bovee, D. et al. Closing gaps in the human genome with fosmid resources generated from multiple individuals. Nature Genetics 40, 96–101 (2008).

94

61. Lam, K. N. & Charles, T. C. Strong spurious transcription likely contributes to DNA insert bias in typical metagenomic clone libraries. Microbiome 3, 22 (2015). 62. Binnie, C., Cossar, J. D. & Stewart, D. I. Heterologous biopharmaceutical protein expression in Streptomyces. Trends in Biotechnology 15, 315–320 (1997). 63. Distler, J. et al. Gene cluster for streptomycin biosynthesis in Streptomyces griseus: nucleotide sequence of three genes and analysis of transcriptional activity. Nucleic Acids Research 15, 8041–8056 (1987). 64. DARKEN, M. A., BERENSON, H. & SHIRK, R. J. Production of Tetracycline by Streptomyces aureofaciens in Synthetic Media. Applied Microbiology 8, 46-51 (1959) 65. AKAGAWA, H., OKANISHI, M. & UMEZAWA, H. A Plasmid Involved in Chloramphenicol Production in Streptomyces venezuelae: Evidence from Genetic Mapping. Microbiology 90, 336–346 (1975). 66. Watve, M. G., Tickoo, R., Jog, M. M. & Bhole, B. D. How many antibiotics are produced by the genus Streptomyces? Archives of Microbiology 176, 386–390 (2001). 67. Williamson, N. R., Fineran, P. C., Leeper, F. J. & Salmond, G. P. C. The biosynthesis and regulation of bacterial prodiginines. Nature Reviews Microbiology 4, 887–899 (2006). 68. Jaitzig, J., Li, J., Süssmuth, R. D. & Neubauer, P. Reconstituted biosynthesis of the nonribosomal macrolactone antibiotic valinomycin in Escherichia coli. ACS Synthetic Biology 3, 432–438 (2014). 69. Jensen, H. L. ACTINOMYCETES IN DANISH SOILS. Soil Science 30, 59 (1930). 70. American Society for Microbiology, Bergey, D. H. (David H. & Breed, R. S. (Robert S. Bergey’s manual of determinative bacteriology. (Baltimore, Williams & Wilkins Co., 1957). 71. Blodgett, J. A. V et al. Common biosynthetic origins for polycyclic tetramate macrolactams from phylogenetically diverse bacteria. Proceedings of the National Academy of Sciences 107, 11692–11697 (2010). 72. Wang, H., Fewer, D. P., Holm, L., Rouhiainen, L. & Sivonen, K. Atlas of nonribosomal peptide and polyketide biosynthetic pathways reveals common occurrence of nonmodular enzymes. Proceedings of the National Academy of Sciences 111, 9259–9264 (2014). 73. Jomon, K., Kuroda, Y., Ajisaka, M. & Heiichi, S. A new Antibiotic, Ikarugamycin. The Journal of Antibiotics 25, 271–280 (1972). 74. Tsai, S.-C. (Sheryl). The Structural Enzymology of Iterative Aromatic Polyketide Synthases: A Critical Comparison with Fatty Acid Synthases. Annual Review of Biochemistry 87, 503–531 (2018). 75. Khosla, C., Gokhale, R. S., Jacobsen, J. R. & Cane, D. E. Tolerance and Specificity of Polyketide Synthases. Annual Review of Biochemistry 68, 219–253 (1999). 76. Zhang, H., Wang, Y., Wu, J., Skalina, K. & Pfeifer, B. A. Complete biosynthesis of erythromycin A and designed analogs using E. coli as a heterologous host. Chemistry and Biology 17, 1232– 1240 (2010). 77. Pfeifer, B. a, Admiraal, S. J., Gramajo, H., Cane, D. E. & Khosla, C. Biosynthesis of complex polyketides in a metabolically engineered strain of E. coli. Science (New York, N.Y.) 291, 1790–1792 (2001). 78. Bizukojc, M. & Ledakowicz, S. Bioprocess Engineering Aspects of the Cultivation of a Lovastatin Producer Aspergillus terreus. in Filaments in Bioprocesses 133–170 (Springer, Cham, 2015). doi:10.1007/10_2014_302 79. Fraser, W. M. Amphotericin as a Topical Antifungal Antibiotic: A Clinical Trial. A.M.A. Archives of Dermatology 80, 436 (1959). 80. Zhang, B. et al. Improvement of amphotericin B production by a newly isolated Streptomyces nodosus mutant. Biotechnology and Applied Biochemistry 65, 188–194

95

81. Ku, J., Mirmira, R. G., Liu, L. & Santi, D. V. Expression of a functional non-ribosomal peptide synthetase module in Escherichia coli by coexpression with a phosphopantetheinyl transferase. Chemistry & Biology 4, 203–207 (1997). 82. Levine, D. P. Vancomycin: A History. Clinical Infectious Diseases 42, S5–S12 (2006). 83. Bushley, K. E. et al. The Genome of Tolypocladium inflatum: Evolution, Organization, and Expression of the Cyclosporin Biosynthetic Gene Cluster. PLoS Genetics 9, e1003496 (2013). 84. Kamal Ahmadi, M., Fawaz, S., Jones, C. H., Zhang, G. & Pfeifer, B. a. Total Biosynthesis and Diverse Applications for the Nonribosomal Peptide-Polyketide Siderophore Yersiniabactin. Applied and Environmental Microbiology 81, 5290-5298 (2015). 85. Yun, C.-S., Motoyama, T. & Osada, H. Biosynthesis of the mycotoxin tenuazonic acid by a fungal NRPS–PKS hybrid enzyme. Nature Communications 6, 8758 (2015). 86. Gibson, D. G. et al. Enzymatic assembly of DNA molecules up to several hundred kilobases. Nature Methods 6, 343–345 (2009). 87. St-Pierre, F. et al. One-step cloning and chromosomal integration of DNA. ACS Synthetic Biology 2, 537–541 (2013). 88. Baba, T. et al. Construction of Escherichia coli K-12 in-frame, single-gene knockout mutants: the Keio collection. Molecular Systems Biology 2, 2006.0008 (2006). 89. Kieser, T., Bibb, M. J., Buttner, M. J., Chater, K. F. & Hopwood, D. A. Practical Streptomyces Genetics. (John Innes Foundation, 2000). 90. Sambrook, J. Molecular cloning : a laboratory manual. (Third edition. Cold Spring Harbor, N.Y. : Cold Spring Harbor Laboratory Press, [2001] ©2001, 2001). 91. IBA Life Sciences. Data Sheet : pASK-IBA5plus. (2012). 92. Epicentre. CopyControl TM Fosmid Library Production Kit with pCC1FOS TM Vector CopyControl TM HTP Fosmid Library Production Kit with pCC2FOS TM Vector. 1–28 (2010). doi:CCFOSS110 93. Promega. What percentage agarose is needed to sufficiently resolve my DNA sample. Available at: https://www.promega.ca/resources/pubhub/enotes/what-percentage-agarose- is-needed-to-sufficiently-resolve-my-dna-sample/. (Accessed: 8th August 2018) 94. New England Biolabs. NEBuilder HiFi DNA Assembly Reaction Protocol | NEB. Available at: https://www.neb.ca/neb_protocols.php?p=protocols/2014/11/26/nebuilder-hifi-dna- assembly-reaction-protocol. (Accessed: 21st December 2018) 95. Roche Applied Science. DIG DNA Labeling and Detection Kit. (2004). 96. Seemann, T. Prokka: rapid prokaryotic genome annotation. Bioinformatics 30, 2068–2069 (2014). 97. Aziz, R. K. et al. The RAST Server: rapid annotations using subsystems technology. BMC Genomics 9, 75 (2008). 98. Bergey’s Manual of Systematic Bacteriology: Volume 5: The . (Springer-Verlag, 2012). 99. Reimer, L. C. et al. Streptomyces fulvissimus (Jensen 1930) Waksman and Henrici 1948. (2018). doi:10.13145/bacdive15206.20180622.3 100. ATCC. Streptomyces fulvissimus (Jensen) Waksman and Henrici ATCC ® 27431. Available at: https://www.atcc.org/products/all/27431.aspx#generalinformation. (Accessed: 15th January 2019) 101. Bentley, S. D. et al. Complete genome sequence of the model actinomycete Streptomyces coelicolor A3(2). Nature 417, 141–147 (2002). 102. Ikeda, H. et al. Complete genome sequence and comparative analysis of the industrial microorganism Streptomyces avermitilis. Nature Biotechnology 21, 526–531 (2003).

96

103. Barka, E. A. et al. , Physiology, and Natural Products of Actinobacteria. Microbiology and Molecular Biology Review 80, 1–43 (2015). 104. Sarkar, G. et al. Enhanced amplification of GC-rich DNA with two organic reagents. BioTechniques 18, 1199–1216 (1990). 105. New England Biolabs. NEBuilder® HiFi DNA Assembly Master Mix/NEBuilder HiFi DNA Assembly Cloning Kit Instruction Manual. (2017). 106. Wang, C. et al. Screening and Whole-Genome Sequencing of Two Streptomyces Species from the Rhizosphere Soil of Peony Reveal Their Characteristics as Plant Growth-Promoting Rhizobacteria. BioMed Research International 2018, 1–11 (2018). 107. Vurukonda, S. S. K. P., Giovanardi, D. & Stefani, E. Plant Growth Promoting and Biocontrol Activity of Streptomyces spp. as Endophytes. International journal of Molecular Sciences 19, pii: E952 (2018). 108. Melby, J. O., Nard, N. J. & Mitchell, D. A. Thiazole/oxazole-modified microcins: complex natural products from ribosomal templates. Current Opinion in Chemical Biology 15, 369–378 (2011). 109. Medema, M. H. et al. antiSMASH: rapid identification, annotation and analysis of secondary metabolite biosynthesis gene clusters in bacterial and fungal genome sequences. Nucleic Acids Research 39, W339–W346 (2011). 110. Weber, T. et al. antiSMASH 3.0-a comprehensive resource for the genome mining of biosynthetic gene clusters. Nucleic Acids Research. 43, W237-243 (2015). 111. Skinnider, M. A. et al. Genomes to natural products PRediction Informatics for Secondary Metabolomes (PRISM). Nucleic Acids Research 43, 9645–9662 (2015). 112. Choi, K. R. et al. Systems Metabolic Engineering Strategies: Integrating Systems and Synthetic Biology with Metabolic Engineering. Trends in Biotechnology 37, 817-837 (2019). doi:10.1016/j.tibtech.2019.01.003 113. Hughes, R. A. & Ellington, A. D. Synthetic DNA Synthesis and Assembly: Putting the Synthetic in Synthetic Biology. Cold Spring Harb Perspect Biol 9, a023812 (2017). 114. Culligan, E. P., Sleator, R. D., Marchesi, J. R. & Hill, C. Metagenomics and novel gene discovery. Virulence 5, 399–412 (2014). 115. Feng, Z., Kallifidas, D. & Brady, S. F. Functional analysis of environmental DNA-derived type II polyketide synthases reveals structurally diverse secondary metabolites. Proceedings of the National Academy of Sciences of the United States of America 108, 12629–12634 (2011). 116. Kim, C. G., Fujiyama, A. & Saitou, N. Construction of a gorilla fosmid library and its PCR screening system. Genomics 82, 571–574 (2003). 117. Lam, K. N., Cheng, J., Engel, K., Neufeld, J. D. & Charles, T. C. Current and future resources for functional metagenomics. Frontiers in Microbiology 6, 1–8 (2015). 118. Liu, C., Liu, X., Lei, L., Guan, H. & Cai, Y. Fosmid library construction and screening for the maize mutant gene Vestigial glume 1. The Crop Journal 4, 55–60 (2016). 119. Yarza, P. et al. Uniting the classification of cultured and uncultured bacteria and archaea using 16S rRNA gene sequences. Nature Reviews Microbiology 12, 635–645 (2014).

97

Annexes

Annexe I : Séquence typique d’un gBlock; l’exemple du gBlock G4_TE CAGTTGTATGCGGCGGACGCCCCGCCGCTCTCAGACGTTCCTGACCTGGTCAACAATCCTG ACCTGATGTTCAATCAAGATGGGCCGGATCATTTACGGTTACGTCGCACGCTTCGTCGGGC CTTTACCCCACGTGCCGTGGCGCGTTGGCGTCCCTGGATCGCGGCGATCGTGGAGCAATTA CTCGACCGTCTGGAAGGTCGTTCAGGCCCGGTCGACGTGGTTGAAGAATTTACTCTGCCGC TTCCTGTGGCCGTCATTAGCCGGCTGATGGGTCTTGATGATTCTGCGCGTGATCGTATGCG GCACTGGTCCGAACACGCTTTCAGCGACGGGAGCCATAGTGGTGAAGAGGTCGAAAGTGTC CTGAAGGAATTTAGTGCTTTTGGTGCGGAGCTGCTGGCGGAACGGCGTCGTGATCCGGGCG ACGATCTGATTAGTTCTCTGGTACGGGCAGCTGATGAGGAAGGCGGTTTACCCGAGGCGCA GCTGGTAAGCCTGGTGTGCGGGCTCGTTGTGGGCGGTCATGATAGCACCATGACCATGCTG GGTAATGCCCTGCTGTTTTTGCTGGGCGATCGTCCGGAAAGCTGGCCACGCATCGGTGCCG ATGGTGAAGCGGCGGGACGCGTTGCTGATCGCCTGATCCATCTCATTCCGCTGGGTGACGA CCGTGGCACGGCGCGTCACGCGTCAACGGATGTAGAGGTTGGTGGCGTTACAATCCCCGCC GGTGCGGTTGTGTTAGCCGATTGCGGTGCGGCGAACCGTGACCCTGAAGTGTTCCCCCGTC ATACCTTGGACGATCTTTTCGCGCCCCTGGAGGCGCCGACCCTGTCATTTGGCGCGGGGGC

GCATTATTGTCTGGGTGCGTGGTTGGCCCGCACGGAACTGCAGATCGCCCTGCATCGCTTG GCGGCCCGCTTCCCTGGCCTGCACTTATCCGAACCACCGGATTCAGTGGTTTGGCGTACGG GCACTACGTCACGCAGTCCCCGCCGTCTCCACGTCTCCTGGTGAGCTAACCGAACTAAGGA GCCATCTTAGATGCCGGCCCCAACCATGACCCCACAGCCCGATGGCCCTCGCGCCCGCCGT GCGGATCGGCGTTTCGGTATTCGCCTGTTGGCTGCGGTGGCCGCGGCCGCAGCGGCTGCGA TCCCCTTCGCATTGCTGCTGCTGCTTGTTGAAGCCTCCTGGCCTCCGCTGCGCCGCATTGA CGCCGGAGCCGCACGGCGTCTGCATGGTATCGCTTTAGAACACCCTGCCTGGACCGGCACA TTGCGCGTGTTATCAGACTGGGTATGGGATCCGGCCACCCTCCGCATTGCGGTCGCACTGC TGACTTTATGGTTACTCCATCGCCGTGCATGGCGCTTGGCCGCGTGGGCGGCGGTGACCGC

GACCGGCGGTGCCTTGACCGGTGTCCTGGTAAAGGTCGTAGTGGAACGTGCGCGTCCGTCC TTAGAAGACCCAGTCGCGCAAGCGCCGGGGTATAGCTTCCCATCAGGCCATGCGATGACAG CTACCACCTCGTTTGCTGTGTTGCTGTTAGTATTATTGCCGATGGTCCCGCGTGCCTGGCG CGCACTGTGCTGGGCAGTGGCGGTAGTCTCCGTACTGGGTGTGGGCTTTACTCGTATTGCC CTCGGCGTGCATTGGTTTTCAGATGTTATCGGTGGCTGGCTGCTGGGTGCAGCCGTAGTTG TTTTGACCGGCTGGGCGTTCGAGGCATGGCGCACCGACGCGGGCCGTCGTCGTTCGGATGT TACGGAAGGTCTTGAACCGGAATTAACCGATGAAGATCCAGAATCACCTGCCCCAGCGCGT

CCGTTACCGGCGGATGGCTAATCGAGATGCATGGCGCCTAACCTAAACTGACAG Figure 22 : Séquence du gBlock G4_TE, d'une taille de 2000 pb. Ceci est une version manuellement détaillée de la séquence du gBlock G4_TE, qui a été synthétisé par la compagnie IDT. En cyan, en 5’, se trouve la séquence de compatibilité avec le gBlock précédent dans l’assemblage, soit G3_TE. Le gène de la déshydrogénase liant le zinc commençait sur le gBlock G3_TE, et se termine sur le bloc G4_TE au premier codon stop (surligné en rouge). En rose se trouvent des séquences d’espacement entre ce gène et le suivant, celui de la PaPPase. Le site de liaison du ribosome est surligné en jaune. Le gène de la PaPPase commence au codon start, surligné en vert, et se termine au deuxième codon stop, surligné en rouge. En 3’, surligné en turquoise, se trouve la séquence de compatibilité avec le vecteur pOSIP-TT, qui contient également un terminateur.

98

Annexe II : Carte du fosmide pCC1FOS

Figure 23 : Carte du fosmide pCC1FOS. Noter que tous les sites de restrictions ne sont pas inclus dans cette carte. Tiré de la trousse de Epicentre91.

Le fosmide pCC1FOS permet l’insertion de fragments d’ADN de 35 à 42 kb. L’enzyme de restriction ScaI, que nous avons utilisée pour notre digestion enzymatique de deux fosmides afin de contrôler la taille de ceux-ci, coupe une seule fois dans la séquence native du vecteur. Ceci est visible sur la carte ci-dessus, à la position 805.

99

Annexe III : Alignement de nos séquences Sanger de fosmides avec les contigs de Streptomyces fulvissimus ATCC 27431 / DSM 40593 obtenus par la méthode Illumina

Tableau 19 : Statistiques d'alignement entre nos séquences de fosmides et nos contigs

Nom Amorce Longueur de Numéro du Identité de Couverture du utilisée la séquence contig aligné séquence de la clone alignée avec le meilleur (%) séquence (bases) score (%) IX-41 FosSeq-R 469 11 95,12 82

V-25 FosSeq-R 699 1 99,84 87

V-25 T7_Prom 830 1 96,9 94

VI-26 FosSeq-R 659 20 100 85

VI-26 T7_Prom 317 5 100 100

VII-3 FosSeq-R 736 1 99,85 88

VII-3 T7_Prom 804 6 99,63 99

VII-15 FosSeq-R 415 22 99,52 100

VII-25 FosSeq-R 722 1 100 87

VII-25 T7_Prom 781 1 99,87 99

VII-61 FosSeq-R 804 4 99,61 94

VII-61 T7_Prom 750 4 99,87 100

VII-72 FosSeq-R 474 9 99,74 82

VII-72 T7_Prom 795 9 100 99

XI-40 FosSeq-R 665 9 99,65 86

XI-40 T7_Prom 583 9 99,66 100

XI-41 FosSeq-R 587 12 99,66 100

XII-32 FosSeq-R 934 12 99,01 97

XII-32 T7_Prom 218 1 99,54 100

*Les légères différences entre nos séquences Sanger et nos contigs sont dues à des incertitudes de séquençage Sanger ou à une perte de qualité de la séquence vers la fin du read Sanger dans les régions riches en bases G+C répétées Les séquences ont été alignées avec l’option d’aligner deux séquences l’une avec l’autre de l’outil BLAST du NCBI : (https://www.ncbi.nlm.nih.gov/BLAST/).

100