UFR Sciences de la Vie, Laboratoire INSERM U869, 146, rue Léo Saignat. 146, rue Léo Saignat. 33076 Bordeaux Cedex 33076 Bordeaux Cedex

Thèse de Doctorat de l’Université Bordeaux II – Victor Segalen

Ecole doctorale des Sciences de la Vie et de la Santé Option : Microbiologie

Etude de petits ARN régulateurs chez Helicobacter pylori

Présentée et soutenue publiquement

Le 14 Décembre 2010,

Par Jérémy Reignier Né le 11 Février 1984, au Creusot

Membres du Jury

Mr. Christophe Cullin, Professeur des Universités (CNRS, Bordeaux) Président

Mme. Hilde de Reuse, Directeur de Recherche (Institut Pasteur, Paris) Rapporteur

Mr. Francis Repoila, Chargé de Recherche (INRA, Paris) Rapporteur

Mr. Pablo Radicella, Directeur de Recherche (CEA, Paris) Examinateur

Mr. Philippe Lehours, Maitre de conférences (INSERM, Bordeaux) Examinateur

Mr. Fabien Darfeuille, Chargé de Recherche (INSERM Bordeaux) Directeur de Thèse

1

Remerciements

Je tiens à remercier le Professeur Christophe Cullin pour avoir accepté de présider mon jury de thèse. J’exprime également mes sincères remerciements envers le Docteur Hilde de Reuse et le Docteur Francis Repoila, qui ont accepté de corriger mon travail de thèse. Je remercie aussi le Docteur Pablo Radicella et le le Docteur Philippe Lehours, qui ont aimablement accepté de participer à mon jury de thèse.

Je remercie le Docteur Fabien Darfeuille, mon directeur de thèse, pour sa disponibilité, le soutien constant qu’il m’a apporté tout au long de ces trois années et auprès duquel j’ai beaucoup appris. Je le remercie aussi pour la patience dont il a parfois dû faire preuve (il faut bien l’avouer !). Sa passion pour les sciences, son honnêteté et son éloquence sur une large variété de sujets resteront pour moi d’excellents souvenirs.

Je remercie également le Docteur Jean-Jacques Toulmé pour m’avoir accueilli et permis de réaliser ce travail au sein de son unité, le laboratoire INSERM U869.

Je remercie les groupes du Professeur Jôrg Vogel et du Professeur Peter Stadler, pour la collaboration que nous avons entretenue tout au long de ces trois années et pour nous avoir accueilli plusieurs fois dans la belle cité berlinoise. Je tiens à adresser également un grand merci à toute l’équipe de l’ « Unité postulante de pathogénèse de Helicobacter » dirigée par le Docteur Hilde de Reuse, pour sa grande expertise d’Helicobacter pylori, qu’elle a aimablement et régulièrement partagée avec notre équipe.

Je tiens à remercier toutes les personnes de l’unité INSERM U869 qui ont apporté leur aide précieuse à la réalisation de mon projet de thèse : Merci Sandrine pour ta bonne humeur et ton expertise en biologie moléculaire. Merci Hélène, pour ton soutien et ton implication dans le projet. Merci pour ton dynamisme et tes éclats de rire. Merci aux docteurs Cathy Staedel et Isabelle Iost pour leur gentillesse et leur regard critique sur le projet. Merci au « très bientôt Docteur» Cédric Belair, pour ses conseils techniques. Merci au Docteur Jaydip Gosh, pour les nombreuses discussions que nous avons échangées, sur tous les sujets, et qui ont permis de m’enrichir autant sur le plan scientifique que culturel Merci à toutes les stagiaires qui ont participé au projet : Merci à Claire et Jessica (désormais thésardes, bravo les filles), Merci à Valérie à l’accent québécois si charmant et merci à Madline, sérieuse et toujours motivée.

Merci à tous les membres de l’équipe chimie de l’unité INSERM U869 : Bernard, Laurent, Arnaud, Alex, Isabelle et Phlippe, grâce à qui j’ai pu parfois détérerrer de lointains souvenirs de chimie. Je remercie tout particulièrement Nathalie, qui m’a apporté son aide à plusieurs reprises et Salim, pour sa jovialité toujours contagieuse, son humanité, et sa culture qu’il aime à partager.

2

Un grand merci aussi à mes collègues de bureau ou de paillasse, présents ou passés, Ahissan, Khalid, Amit, Guilhem, Emilie, Laurent, Christophe, pour les bons moments passés ensemble.

Je remercie également Kati pour son soutien administratif. Et je n’oublie pas Jacques et Sonia, pour leur gentillesse et leur humour, qui ont maintes fois animés les couloirs du laboratoire. Merci aussi à Jacques pour avoir élargi mes connaissances sur les champignons, sur un plan toutefois plus gastronomique que microbiologique.

Enfin, j’adresse les plus sincères remerciements à tous mes proches, qui m’ont aimé, aidé et soutenu tout au long de cette aventure. Je remercie tout particulièrement mon frère Valentin, mes grands parents, Laura, et bien entendu mes parents Maria et Jean-François, à qui je dédie cette thèse.

3

Table des matières

Abréviations ...... 7 Organismes ...... 8 Liste des illustrations ...... 9 Liste des tableaux ...... 11 Chapitre 1 : Les ARN régulateurs bactériens ...... 13 1. Introduction ...... 13 2. Caractéristiques et modes d’action ...... 16 2.1. Mécanisme antisens ...... 17 2.2. Inhibition de la traduction ...... 19 2.3. Activation de la traduction ...... 21 2.4. Action sur la stabilité des ARNm ...... 22 2.5. Les petits ARN ciblant les protéines régulatrices ...... 23 2.6. Facteurs influençant la régulation par les petits ARN ...... 26 2.7. Conclusion ...... 30 3. Implication des petits ARN bactériens dans la virulence et l’adaptation à l’hôte ...... 31 3.1. Introduction ...... 31 3.2. Réponse aux stress ...... 32 3.3. Contrôle de l’expression des gènes de virulence ...... 34 3.4. Quorum-sensing ...... 37 4. Les sRNA codés en cis au sein des systèmes toxines/antitoxines de type I ...... 38 4.1. Introduction ...... 38 4.2. Découverte et distribution des cassettes TA de type I ...... 40 4.3. Régulation ...... 42 4.1. Propriétés des toxines ...... 45 4.2. Fonctions biologiques ...... 46 5. Méthodes d’identification des petits ARN régulateurs ...... 50 5.1. Prédiction bio-informatique ...... 51 5.2. Les analyses globales : Microarray et Hfq-coimmunoprécipitation ...... 53 5.3. La RNomique (clonage shotgun) ...... 54 5.4. L’ère du séquençage haut-débit ...... 55 Chapitre 2 : Helicobacter pylori ...... 57 1. Introduction ...... 57

4

2. Facteurs bactériens impliqués dans la pathogénèse de l’infection à H. pylori ...... 58 2.1. Colonisation de la niche gastrique ...... 60 2.2. Facteurs de pathogénicité ...... 62 3. Le génome de la bactérie ...... 65 3.1. Diversité du génome ...... 67 3.2. Mécanismes impliqués dans la diversité génétique d’H. pylori ...... 71 4. Régulation de l’expression des gènes chez Helicobacter pylori ...... 73 4.1. ARN polymérase et promoteurs...... 73 4.2. Facteurs de transcription...... 75 4.3. Métabolisme des ARN et régulation post-transcriptionnelle ...... 77 Chapitre 3 : Objectifs de la thèse ...... 81 Chapitre 1 : Identification de petits ARN régulateurs chez H. pylori par séquençage haut-débit du transcriptome ...... 83 1. Introduction ...... 83 2. Stratégie expérimentale ...... 83 2.1. Banques d’ARN totaux ...... 83 2.1. Enrichissement en transcrits primaires ...... 85 2.2. Principe du pyroséquençage 454...... 87 3. Résultats ...... 88 3.1. Séquençage haut-débit : Traitement des données et identification de TSS ...... 88 3.2. Aspects quantitatifs de la méthode de séquençage du transcriptome d’H. pylori...... 91 3.3. Identification de sRNA candidats...... 92 3.4. Recherche de courtes ORF potentiellement codées par des sRNA ...... 97 3.5. Validation expérimentale de l’expression des sRNA candidats ...... 97 3.6. Validation du phénomène de transcription antisens sur l’ensemble du génome...... 99 3.7. “The primary transcriptome of the human pathogen Helicobacter pylori” (Article) ...... 101 4. Discussion ...... 102 Chapitre 2 : Etude de la première famille de cassettes toxine-antitoxine identifiée chez H. pylori ...... 106 1. Introduction ...... 106 2. Matériel et méthode ...... 107 2.1. Bactéries et conditions de cultures ...... 107 2.2. Liste des oligonucléotides ...... 107 2.3. Inactivation des cassettes A1 et A3 chez la souche d’H.pylori 26695 ...... 108 2.4. Extraction des ARN et Northern Blot ...... 109 2.5. Construction des ARN aapA1 et IsoA1 mutés dans les boucles ...... 109 2.6. Transcription in vitro et marquage des ARN ...... 110 2.7. Analyse de la structure des ARN aapA et IsoA par digestions enzymatique et chimique. ... 110

5

2.8. Traduction in vitro ...... 111 2.9. Tentative de clonage de la cassette aapA1 dans pILL2150...... 111 3. Résultats ...... 112 3.1. Identification de cassettes génomiques codant pour des ARNm courts associés à un ARN antisens...... 112 3.1. Expression des ARNm aapA1-A6 et des sRNA IsoA1-A6, in vivo...... 116 3.2. Traduction in vitro ...... 119 3.3. Etude de la conservation et des caractéristiques des peptides ...... 120 3.4. Régulation de la traduction par les ARN antisens IsoA ...... 123 3.5. Tentative de surexpression du peptide A1 in vivo...... 125 3.6. Etude la fonction des cassettes ...... 126 3.7. Association des cassettes avec des systèmes de restriction-modification ...... 128 3.8. Mécanisme de régulation ...... 132 3.9. Spécificité d’interaction entre un Iso et son ARN correspondant ...... 135 3.10. Kissing complex ...... 137 4. Discussion ...... 144 Perspectives ...... 150 Conclusion générale ...... 153 Annexe I ...... 156 Bibliographie ...... 157 Résumé/Abstract ...... 174

6

Abréviations

3’ ou 5’UTR : 3’ ou 5’ untranslated region aapA : Antisense-associated peptide family A ADN : Acide désoxyribonucléique ADNg : ADN génomique ARN : Acide ribonucléique ARNm : ARN messager ARNr : ARN ribosomique ARNt : ARN de transfert sRNA: small RNA cag PAI : Ilot de pathogénicité cag cag : Cytotoxin associated genes CagA : Cytotoxin associated gene A DMEM : Dulbecco’s modified Eagle Medium IsoA : RNA Inhibitor of Small ORF family A LPS : Lipopolysacharide MALT : Mucosa-associated lymphoid tissue MIC RNA: Messenger Interfering Complementary RNA MOI : Multiplicity of Infection miARN: micro-ARN nt : nucléotide OMP : outer membrane protein ORF : Open Reading Frame pb : paire de bases PCR : Polymerase chain reaction SD : séquence Shine Dalgarno SST4 : Système de sécrétion de type IV SVF : Sérum de Veau Fœtal TIR : Transcription start site TSS : Transcription start site VacA : Vacuolating toxin

7

Organismes

Agrobacterium tumefaciens

Bacillus subtilis

Borrelia burgdorferi

Campylobacter jejuni

Escherichia coli

Erwinia carotovora

Helicobacter pylori

Legionella pneumophila

Listeria monocytogenes

Mycobacterium tuberculosis

Pseudomonas aeruginosa

Salmonella enterica serovar Typhimurium

Shigella flexneri

Staphylococcus aureus

Streptococcus pyogenes

Vibrio anguillarum

Vibrio cholerae

8

Liste des illustrations

Figure 1 : Structures secondaires de quelques sRNA présents chez E. coli ...... 16 Figure 2 : Définition des sRNA codés en cis ...... 17 Figure 3 : Appariement de bases entre le sRNA MicF et l’ARNm ompF ...... 18 Figure 4 : Inhibition de l’initiation de la traduction des ARNm par les sRNA antisens ciblant la région TIR20 Figure 5 : Activation de la traduction de l’ARNm rpoS par le sRNA DsrA ...... 22 Figure 6 : Structure secondaire prédite de CsrB ...... 24 Figure 7 : Comparaison des structures de l’ARN 6S chez E. coli et d’un promoteur bactérien ouvert...... 25 Figure 8 : La protéine chaperonne Hfq...... 27 Figure 9 : Structure et mécanisme d’interaction de CopA/CopT ...... 29 Figure 10 : Contrôle des protéines de la membrane externe par les sRNA chez Salmonella...... 34 Figure 11 : Structure secondaire du RNAIII, chez S. aureus et domaines impliqués dans la régulation des gènes de virulence...... 35 Figure 12 : Organisation génomique et mécanisme d’action des modules toxine-antitoxine chromosomiques chez les bactéries ...... 39 Figure 13 : Localisation des cassettes toxine-antitoxine ...... 41 Figure 14 : Modèle de trois types d’inhibition de la traduction des toxines par des sRNA antitoxines. .... 44 Figure 15 : Alignement des séquences en acides aminés des toxines LdR et TpxA, issues de différents génomes bactériens, et les cinq membres de la famille Ibs chez E. coli ...... 45 Figure 16 : Modèle de fonctionnement de la cassette TisB-IstR-1...... 48 Figure 17 : Critères de prédiction de sRNA par bio-informatique ...... 53 Figure 18 : Micrographie d’une cellule d’H. pylori, observée par microscopie électronique à balayage. .. 57 Figure 19 : Marquage de Steiner sur des coupes de muqueuses gastriques saines ou infectées par H. pylori ...... 59 Figure 20 : Evolutions pathologiques de l’infection à H. pylori...... 60 Figure 21 : Principaux facteurs de colonisation d’H. pylori...... 62 Figure 22 : Effet des principaux facteurs de pathogénicité d’H. pylori sur la physiologie des cellules épithéliales gastriques ...... 64 Figure 24: Conservation des COG1923 et COG1530 correspondant à la protéine Hfq et RNase E ...... 78 Figure 25 : Protéines du métabolisme des ARN conservés chez H. pylori ...... 79 Figure 26 : Préparation des banques d’ARN totaux...... 84 Figure 27 : Enrichissement en transcrits primaires par traitement avec l’enzyme TEX...... 85 Figure 28 : Génération des banques d’ADN complémentaires à partir de ARN enrichies en transcrits primaires...... 86 Figure 29 : Principe général du séquençage 454...... 87 Figure 30 : Profil d’alignement des séquences d’ADNc complémentaires au gène HP0224 ...... 89 Figure 31 : Profil d’alignement des séquences lues correspondant à trois nouveaux transcrits, annotés comme petits ARN régulateurs candidats ...... 93 Figure 32 : Validation du phénomène de transcription antisens observé chez H. pylori. Ces graphiques indiquent la couverture des TSS primaires (A), de sRNA (B) ou antisens (C) pour une banque d’ADNc générée en présence d’ACTD (en ordonnées) en fonction de la couverture de ces TSS dans une banque contrôle non traitée (en abscisses)...... 100 Figure 33 : Reproductibilité du profil transcriptomique généré par séquençage haut-débit ...... 103

9

Figure 34 : Petits ARNm codants (aap) associés à des sRNA antisens (iso)...... 112 Figure 35 : Distribution des ARNm des différentes familles d’ARNm aapA à D sur le génome de la souche H. pylori 26695. Les séquences des cassettes aapA1 à A6 (trait orange), aapB (trait rouge), aapC1 et C2 (trait bleu), et aapD (trait vert) ont été alignées, par BLAST, sur le génome de la souche H. pylori 26695 et visualisés par le programme CGView ( ...... 113 Les zones de plasticité (PZ1 et PZ2) et l’ilot de pathogénicité cag (CagPAI) sont indiqués par des crochets. Les séquences de l’origine de réplication (ori) et des ARNr ont également été alignées par BLAST...... 113 Figure 36 : Alignement ClustalW des cassettes A1 à A6...... 115 Figure 37 : Expression des ARN aapA et IsoA...... 117 Figure 38 : Séquence d’insertion IS605 en aval de la cassette aapA4...... 118 Figure 39 : Traduction in vitro des ARNm aapA...... 119 Figure 40 : Conservation de la séquence des peptides aapA chez H. pylori...... 121 Figure 41 : « Wheel-diagram » de l’hélice-α prédite pour les peptides aapA1-A7 de la souche d’H. pylori 26695 ...... 122 Figure 42 : Tests de traduction in vitro des ARNm aapA1 et aapA3 en présence des sRNA IsoA1 à A6 ... 124 Figure 43 : Tests de sensibilité au métronidazole et à la ciprofloxacine ...... 128 Figure 44 : Conservation des gènes aux loci des cassettes de la famille A ...... 129 Figure 45 : Structure secondaire prédite des sRNA IsoA...... 132 Figure 46 : Analyse de la structure des IsoA1, A5 et A7 par digestion enzymatique et chimique...... 133 Figure 47 : Analyse de la structure de aapA1 par digestion enzymatique et chimique ...... 134 Figure 49 : Conservation de la structure des ARN IsoA et aapA ...... 138 Figure 51 : Empreinte de l’interaction d’IsoA1 sur aapA1 en présence de néomycine ...... 140 Figure 52 : Empreinte de l’interaction de aapA1 sur IsoA1 en présence de néomycine ...... 141 Figure 54 : Interaction entre les ARN IsoA/aapA WT ou mutés ...... 143 Figure 55 : Perspectives sur l’aspect mécanistique de l’interaction entre les sRNA IsoA et les ARNm aapA...... 152

10

Liste des tableaux

Tableau 1 : Liste de petits ARN régulateurs caractérisés chez E. coli...... 15 Tableau 2 : Liste non-exhaustive de sRNA impliqués dans le contrôle de la virulence ...... 31 Tableau 3 : Exemple de cassettes toxines-antitoxines dont l’expression a été confirmée in vivo...... 39 Tableau 4 : Distribution des cassettes toxine-antitoxine identifiée chez E. coli, au sein de différents génomes bactériens...... 42 Tableau 5 : Les diverses techniques d’identification de sRNA qui seront débattues dans cette section. .. 51 Tableau 6 : Caractéristiques des 8 génomes séquencés et annotés d’Helicobacter pylori utilisés dans ce travail de thèse ...... 66 Tableau 7 : Facteurs sigma chez E. coli et conservation chez H. pylori...... 74 Tableau 8 : Distributions des séquences lues en fonction de leur annotation...... 91 Tableau 9 : Exemple de petits ARN régulateurs candidats identifiés par séquençage du transcriptome d’H. pylori ...... 95 Tableau 10 : Exemples de sRNA candidats vérifiés expérimentalement par Northern blot ...... 98 Tableau 11 : Identification de sRNA par séquençage haut-débit du transcriptome, ...... 105 Tableau 12 : Liste de tous les ARNm aapA à D identifiés dans le génome de la souche 26695...... 114 Tableau 13 : Mutations systématiques de la séquence peptidique A1 dans les clones d’E. coli transformés avec les plasmides pILL2150 portant une cassette aapA1/IsoA1 WT ou mutée sur le promoteur d’IsoA1 (ΔIsoA1)...... 126

11

Partie I : Données bibliographiques et objectifs

12

Chapitre 1 : Les ARN régulateurs bactériens

1. Introduction

Les génomes bactériens contiennent généralement des milliers de gènes codant pour autant de protéines différentes. Selon le dogme de la biologie moléculaire, l’expression de ces gènes nécessite une première étape de transcription au cours de laquelle l’information génétique contenue sur l’ADN est transcrite en ARN messager (ARNm). Ces molécules d’ARNm sont ensuite traduites par les ribosomes en protéines lors de l’étape de traduction.

Certaines protéines, dites « de ménage » sont requises tout au long du cycle de la division bactérienne, tandis que d’autres n’interviennent qu’en réponse à des conditions particulières de croissance. Alors que les protéines de ménage doivent être exprimées à un niveau constant dans la bactérie, les autres protéines peuvent être sujettes à des diminutions ou hausses de leur expression en fonction des besoins de la bactérie. Afin de réguler l’expression de ces protéines, les bactéries disposent de divers systèmes de régulation intervenant au niveau des grandes étapes de l’expression des gènes. Il existe ainsi des régulations transcriptionnelles qui modulent le taux de transcription des gènes en ARN. Les régulations post-transriptionnelles interviennent quand à elle sur la molécule d’ARNm néo-synthétisée, pour en modifier son état et/ou sa disponibilité pour les ribosomes. Enfin, il existe des régulations post- traductionnelles qui s’appliquent aux protéines.

Pendant de nombreuses années, la communauté scientifique a pensé que les ARN avaient pour seul rôle de servir de support intermédiaire de l’information génétique (ARNm) et d’assurer la synthèse protéique via les ARN ribosomiques (ARNr) et les ARN de transferts (ARNt). La fonction de régulation de l’expression des gènes était alors exclusivement attribuée à des protéines dites régulatrices, telles que les activateurs ou répresseurs de transcription par exemple.

Cependant, dès les années 1980, deux équipes rapportent le rôle d’un petit ARN dans la régulation de la réplication de plasmides (Stougaard et al., 1981; Tomizawa and Itoh, 1981), confirmant une hypothèse de Jacob et Monod (Jacob and Monod, 1961) qui avançaient que l’expression des gènes chez les bactéries pourrait être assurée par des ARN, en parallèle de l’activité des protéines régulatrices (Wagner and Darfeuille, 2006).

Au cours des années suivantes, un nombre croissant de petits ARN régulateurs a été mis en évidence, ces derniers étant impliqués dans des phénomènes de régulation du nombre de copies de plasmide ou dans la maintenance de ces plasmides dans les bactéries hôtes (Brantl, 2002). Ces ARN régulateurs qui

13 présentaient la caractéristique d’être de petite taille (<150 nt) et ne contenant pas de cadre ouvert de lecture conservé ont été regroupés dans la classe des petits ARN non codants (ARNnc appelés par la suite sRNA chez les bactéries, pour « small RNA ») pour les différencier des ARNm. Face à ce constat, la communauté scientifique s’est interrogée sur une possible implication de ces petits ARN dans la régulation des gènes codés sur les chromosomes bactériens. En fait la découverte du premier cas de petit ARN d’origine chromosomique fut découvert fortuitement par Mizuno et al., en 1984. Ces derniers ont observé qu’un fragment particulier d’ADN génomique cloné dans un plasmide multi-copies et introduit chez (E. coli) avait pour conséquence d’inhiber l’expression d’une protéine de la membrane externe, OmpF (Mizuno et al., 1984). L’analyse de ce fragment d’ADN leur a révélé qu’il codait pour un petit ARN non-codant possédant quelques dizaines de bases complémentaires à l’ARNm OmpF ; et que la répression de la synthèse d’OmpF était liée à l’hybridation de ce sRNA, appelé MicF (pour « mRNA-interferring complementary RNA ») sur l’ARNm (Andersen et al., 1989; Mizuno et al., 1984). Dès lors et pendant une quinzaine d’années, seuls quelques rares exemples de petits ARN d’origine chromosomiques sont venus étoffer cette nouvelle classe de régulateurs suggérant que ces ARN antisens jouaient un rôle assez mineur dans la régulation de l’expression des gènes bactériens.

Il a fallu attendre 2001 et la publication de trois travaux majeurs pour entrevoir la réelle importance de ces molécules dans la régulation de l’expression des gènes chez les bactéries (Argaman et al., 2001; Rivas et al., 2001; Wassarman et al., 2001). Ces travaux, s’appuyant sur des approches bioinformatiques de comparaison de génome, rapportent en effet la découverte d’une soixantaine de nouveaux sRNA codés sur le génome d’E. coli. Ces découvertes étaient en fait la conséquence directe du séquençage complet des génomes et notamment de celui d’E. coli. Depuis, le développement de nouvelles techniques d’identification des petits ARN à grande échelle a permis la découverte de centaines de ces molécules codées sur les génomes bactériens, qui représentent 3 à 5% du nombre total de gènes annotés quelles que soient les espèces étudiées (Roland et al., 2010).

Parallèlement, des travaux de caractérisation fonctionnelle de ces petits ARN ont révélé leur implication dans de très nombreux processus physiologiques bactériens, comme par exemple le métabolisme du carbone, l’homéostasie des métaux, la virulence, le quorum-sensing et surtout la coordination des réponses aux stress environnementaux (Tableau 1) (Repoila and Darfeuille, 2009; Vogel and Papenfort, 2006; Waters and Storz, 2009). A l’instar des miARN eucaryotes, la très grande majorité de ces sRNA bactériens sont des régulateurs post-transcriptionnels qui ciblent les ARNm, par complémentarité de bases selon un mécanisme dit « antisens ». Selon les cas, l’hybridation d’un sRNA sur un ARNm cible a pour conséquence l’inhibition ou l’activation de la traduction de cet ARNm et/ou une altération de sa stabilité. Outre la vaste classe des sRNA antisens il existe une seconde classe, plus restreinte, de sRNA qui ciblent directement des protéines régulatrices pour en moduler l’activité.

14

Dans ce chapitre nous évoquerons les mécanismes d’action de ces différentes classes de sRNA, leurs implications dans la physiologie bactérienne, ainsi que les méthodes d’identification des sRNA bactériens.

Tableau 1 : Liste de petits ARN régulateurs caractérisés chez E. coli. Taille Régu- Nom Cible Rôle/fonction régulée Références (nt) lation sRNA ciblant des protéines Contrôle de la transcription en phase 6S RNA 183 Facteur σ70 (-) (Wassarman and Storz, stationnaire 2000)

(Liu et al., 1997; Weilbacher CsrB-C 360/245 CsrA (-) Métabolisme du carbone et virulence et al., 2003) sRNA ciblant des ARNm

(Faubladier and Bouche, DicF 56 ftsZ (-) Cycle de division 1994; Weilbacher et al., 2003)

csgD (-) Adhésion et formation de biofilm (Holmqvist et al., 2010)

OmrA/OmrB 83/88 ompT/cirA/ (-) Remodelage de la membrane externe (Guillier and Gottesman, fecA 2006)

MicA/MicC/ 78/109/ ompA/ompC/ Réponse au stress de la membrane (Udekwu et al., 2005)/(Chen (-) et al., 2004)/(Mizuno et al., MicF 93 ompF externe 1984)

ompC Réponse au stress de la membrane RybB 80 (-) (Johansen et al., 2006) ompF externe

rpoS (-) OxyS 110 Réponse au stress oxydatif (Altuvia et al., 1997) fhlA (-)

GadY 105 gadX (+) Réponse au stress acide (Opdyke et al., 2004)

IstR-1 140 tisB (-) Réponse SOS (Vogel et al., 2004)

rpoS (+) Réponse au stress thermique (Majdalani et al., 1998) DsrA 85 (Sledjeski and Gottesman, hns (-) Régulation synthèse de la capsule 1995)

RprA 106 rpoS (+) Réponse au choc osmotique (Majdalani et al., 2002)

GcvB 206 oppA (-) Transport de peptides (Pulvermacher et al., 2009) dppA (-)

RdlD 64 ldrD (-) Toxicité (Kawano et al., 2002)

(Vanderpool and Gottesman, SgrS 227 ptsG (-) Métabolisme des sucres 2004)

Spot 42 109 galK (-) Métabolisme des sucres (Moller et al., 2002)

(Masse et al., 2005; Vecerek sodB (-) Métabolisme du fer et al., 2003) RyhB 90 (Masse and Gottesman, sdhD (-) Métabolisme du fer 2002)

15

2. Caractéristiques et modes d’action

A ce jour, la littérature rapporte la caractérisation de plus d’un tiers des 90 sRNA identifiés chez E. coli, auxquels s’ajoutent des travaux réalisés dans de nombreux autres organismes, par exemple Salmonella enterica serovar Typhimurium (Vogel, 2009), Pseudomanas aeruginosa (Vasil, 2007), Lysteria monocytogenes (Nielsen et al., 2010), Vibrio cholerae (Lenz et al., 2004), ou Staphylococcus aureus (Chabelskaya et al., 2010). Ces travaux de caractérisation des petits ARN ont permis de définir les caractéristiques principales et les différents modes d’action des sRNA bactériens. Les sRNA, dont la taille varie approximativement de 40 à 400 nucléotides, sont transcrits à partir de leur propre promoteur, jusqu’à un terminateur rho-indépendant, en règle générale. Du point de vue de leur structure secondaire, les sRNA possèdent généralement une proportion importante de bases complémentaires impliqués dans des interactions intra-moléculaires, permettant à la séquence ribonucléotidique primaire de se replier sur elle-même pour former des structures secondaires de type tige-boucle (Figure 1). L’activité régulatrice de ces sRNA dans la cellule dépend principalement de leur niveau d’expression, de leur structure secondaire et de leur stabilité (Gottesman, 2005).

Figure 1 : Structures secondaires de quelques sRNA présents chez E. coli. Cette figure est une illustration très schématique du repliement secondaire adopté par une molécule d’ARN monocaténaire (trait noir) qui permet la formation de région double brin (tige) alternée de régions simple brin (dont des boucles apicales ou internes « bulge ») d’après (Unoson, 2010).

16

2.1. Mécanisme antisens

La très grande majorité des sRNA caractérisés à ce jour agissent sur les ARNm par un mécanisme dit de type « antisens ». Ce mécanisme met en jeu un appariemment de bases de type Watson-Crick (A:T ; G:C) ou non canoniques (G:U) entre des régions simple brin antiparallèles portées par le sRNA et l’ARNm (Repoila and Darfeuille, 2009; Waters and Storz, 2009). De cette association sRNA/ARNm (antisens/sens) résulte alors la formation d’un duplex bimoléculaire qui conduit à une modification de l’efficacité de traduction et/ou de la stabilité de l’ARNm correspondant.

Les gènes codant pour les sRNA antisens sont localisés (i) soit dans des régions intergéniques, autrement dit les régions présentes entre les cadres ouverts de lectures (= ORF, pour « open reading frame »), (ii) soit sur le brin opposé à une ORF. Dans ce dernier cas, la cible de l’ARN antisens est généralement l’ARNm de l’ORF codé sur le brin directement opposé, et par conséquent ces petits ARN antisens sont qualifiés de sRNA codés en « cis » de leur cible. Les sRNA d’origine intergénique agissent quant à eux sur des ARNm cibles transcrits depuis des loci génomiques distants du gène du sRNA. Dans ce cas, nous parlons de sRNA codés en « trans » (Figure 2) (Waters and Storz, 2009). Même si en théorie un même sARN peut à la fois cibler un ARNm en cis et un ou plusieurs ARNm en trans, aucun cas n’avait été rapporté à ce jour, à l’exception de la publication récente de Udekwu et al., 2010.

Figure 2 : Définition des sRNA codés en cis (A) ou en trans (B) en fonction de leur localisation par rapport à une ORF.

17

Les premières techniques d’identification de sRNA mises en oeuvre ne permettaient pas la détection des sRNA codés en cis, qui n’a été envisagée et rendue possible que très récemment. Ainsi une grande partie des sRNA étudiés et caractérisés à ce jour concerne des sRNA codés en trans. Ces derniers ne possèdent que de courtes séquences de complémentarité avec leur ARNm cible. L’interaction entre les deux partenaires s’étend ainsi sur une vingtaine de paires de bases, incluant la paire non-canonique G:U (Repoila and Darfeuille, 2009). Ces courtes régions d’interaction permettent une reconnaissance spécifique et rapide entre les deux partenaires et sont suffisamment stables pour tolérer des mésappariements ponctuels ou étendus.

Le duplex imparfait formé par le sRNA MicF (le premier sRNA chromosomique identifié) et sa cible, l’ARNm de la protéine OmpF, est un exemple typique de ce type d’interaction. La région d’appariement de MicF s’étend sur 25 bases dans la région 5’ non-traduite de l’ARNm ompF (Figure 3) (Delihas and Forst, 2001). Cependant, la séquence d’interaction de MicF n’est que partiellement complémentaire à l’ARNm ompF, la formation du duplex tolèrant plusieurs bases non-appariées, dont une boucle de 6 nucléotides.

Figure 3 : Appariement de bases entre le sRNA MicF et l’ARNm ompF, recouvrant la séquence Shine Dalgarno (cadre jaune) et le codon « start » (cadre vert). Les bases non-appariées sont marquées d’un point noir.

Au sein des zones de complémentarité entre un sRNA et un ARNm, on a pu parfois constater que seules quelques bases étaient absolument nécessaires à l’activité inhibitrice du sRNA. C’est le cas du sRNA SgrS, qui cible l’ARNm pstG. L’hybridation entre les deux ARN se fait sur des portions de 5, 8 et 4 paires de bases complémentaires espacées par 1 ou 2 mésappariements. Et parmi ces 17 bases hybridées, seulement 6 sont déterminantes pour la fixation et l’activité de sRNA SgrS sur sa cible (Kawamoto et al., 2006).

18

Cette capacité à tolérer des mésappariemments au sein même des zones d’interaction explique en partie le fait que certains sRNA possèdent de multiples ARNm cibles, et qu’inversement certains ARNm sont ciblés par plusieurs sARN (Papenfort and Vogel, 2009).

2.2. Inhibition de la traduction

Chez les procaryotes, la traduction des ARNm en protéines est assurée par le ribosome, composé d’une petite sous-unité 30S (contenant l’ARNr 16S) et d’une grande sous-unité 50S (contenant les ARNr 23S et 5S). Les ARNm portent une séquence codante, définie par un codon d’initiation (AUG mais aussi GUG et plus rarement UUG) et un codon stop (il existe trois codons possibles, UAA, UAG et UGA). Outre quelques exceptions, cette séquence codante est encadrée par une région 5’ non traduite (5’UTR) et une région 3’ non traduite (3’UTR). L’initiation de la traduction est assurée par la petite sous-unité 30S qui se fixe sur l’ARNm au niveau d’une région appelée « Shine and Dalgarno » (SD) ou « ribosome binding site » (RBS), située à une dizaine de bases en amont du codon d’initiation. La fixation de la sous-unité 30S au niveau de la séquence SD est médiée par un appariemment de bases complémentaires entre l’ARN 16S et un court motif nucléotidique présent sur l’ARNm comportant 4 à 9 nucléotides consécutifs, AGGAGGUAA (Shine and Dalgarno, 1974). Une fois que la sous-unité 30S est fixée sur l’ARNm, elle permet le recrutement et le positionnement de la grande sous-unité 50S de telle sorte que le site A du ribosome (le site d’entrée des tRNA chargés) se trouve au niveau du codon d’initiation. Le ribosome ainsi assemblé recouvre physiquement une portion de l’ARNm, désignée sous le terme de région d’initiation de la traduction (TIR, pour « translation initiation region ») et qui correspond à une séquence de 40 nucléotides répartis de part et d’autre du codon d’initiation de la traduction (Figure 4A). Cette région TIR doit être structurellement accessible pour que le ribosome puisse se fixer et que la traduction puisse être initiée, l’élément déterminant étant avant tout l’accessibilité à la séquence SD (Marintchev and Wagner, 2004).

La très grande majorité des sRNA cible cette région TIR, souvent au niveau de la séquence SD. Celle-ci, engagée dans un duplex avec le sRNA n’est plus accessible à la reconnaissance par la sous-unité 30S, qui par conséquent ne peut initier la traduction, conduisant à une inhibition de l’expression de la protéine codée par l’ARNm correspondant (Figure 4A et 4B) (Repoila and Darfeuille, 2009; Waters and Storz, 2009).

Outre ce mécanisme général d’inhibition de la traduction, quelques sRNA inhibiteurs interviennent à d’autres niveaux que la région TIR. C’est le cas du sRNA GcvB, chez Salmonella, qui inhibe la traduction de plusieurs ARNm cibles en se liant à une séquence riche en bases C/A parfois localisée jusqu’à 50

19 nucléotides en amont du codon d’initiation (Sharma et al., 2007). Toujours chez Salmonella le sRNA RybB inhibe la traduction de l’ARNm ompN en s’hybridant à l’intérieur de la séquence codante, au niveau des nucléotides +5 à +11 à partir du codon d’initiation (Bouvier et al., 2008).

Figure 4 : Inhibition de l’initiation de la traduction des ARNm par les sRNA antisens ciblant la région TIR (« translation initiation region »). A. En absence de sRNA, la reconnaissance de la séquence Shine- Dalgarno (SD) portée sur l’ARNm permet la fixation du ribosome au niveau de la région TIR, puis l’initiation de la traduction. L’hybridation d’un sRNA dans cette région empêche la fixation du ribosome qui ne peut donc plus initier la traduction. B. Structure des sRNA antisens codés en trans OxyS et RyhB et séquences d’appariements des bases avec leurs ARNm cibles respectifs, sodB et fhlA d’après (Gottesman, 2004). Les séquences en rouge sur la structure et le schéma d’appariement correspondent aux bases du sRNA complémentaires à l’ARNm. La séquence SD (cadre jaune) et le codon « start » (cadre vert) sont indiqués.

20

2.3. Activation de la traduction

Bien que l’inhibition de la traduction soit le mode d’action principal des sRNA, il existe plusieurs exemples de sRNA antisens dont la fixation sur leurs ARNm cibles induit une activation de la traduction.

Dans ces cas, les ARNm cibles possèdent généralement dans leur région 5’UTR, une séquence antisens à leur propre région TIR. L’hybridation de ces deux séquences complémentaires forme une structure secondaire de type tige-boucle, qui piège une partie ou l’ensemble de la TIR dans un contexte d’ARN doube-brin. Ce repliement empêche la reconnaissance de la séquence SD par le ribosome. Cet ARNm est ensuite soit rapidement dégradé (car il n’est plus protégé par la présence de ribosomes), soit il peut être traduit de manière très faible et s’accumuler dans le cytoplasme sous une forme « silencieuse ». C’est le cas de l’ARNm rpoS chez E. coli, dont la région TIR est piégée dans une épingle à cheveux s’étendant sur une centaine de nucléotides autour de la région de fixation du ribosome. Cette structure ne permet qu’une traduction basale très faible de l’ARNm rpoS. Cependant, lorsque la bactérie est exposée à de basses températures, la traduction de l’ARNm rpoS est activée par un sRNA antisens nommé DsrA (Majdalani et al., 1998; Sledjeski and Gottesman, 1995). La région 5’ de DsrA est complémentaire à la séquence qui piège la région TIR dans la structure en épingle à cheveux. L’interaction entre DsrA et rpoS permet l’ouverture de cette structure et la libération de la séquence SD, qui peut alors être utilisée par le ribosome pour initier la traduction (Figure 5). La séquence inhibitrice de rpoS est également ciblée par un autre sRNA activateur, nommé ArcZ, selon un mécanisme analogue à DsrA (Mandin and Gottesman, 2010).

RNAIII est un autre cas de sRNA activateur, découvert chez S. aureus. Ce sRNA cible la structure secondaire inhibitrice qui piège le RBS de l’ARNm hla codant pour l’-hémolysine. Des études de leur structure secondaire in vitro démontrent l’existence d’une séquence anti-SD sur l’ARNm hla, localisée à 150 nt en amont du codon d’initiation, et qui piège la séquence SD dans une structure double brin (Morfeldt et al., 1995). En se liant par complémentarité de base à cette région anti-SD, RNAIII empêche la formation de la structure inhibitrice, laissant ainsi le RBS dans une portion simple brin pouvant être reconnue par le ribosome.

21

Figure 5 : Activation de la traduction de l’ARNm rpoS par le sRNA DsrA. En condition native l’ARNm rpoS adopte une structure secondaire piègeant le RBS (boîte jaune) et le codon « start » (boîte verte), et inhibant la traduction. L’hybridation de DsrA sur la région piègeant le RBS permet de libérer ce dernier, qui devient accessible à la reconnaissance par le ribosome. D’après (Gottesman, 2004)

2.4. Action sur la stabilité des ARNm

L’action d’un sRNA sur un ARNm cible entraîne souvent une diminution du niveau d’expression de l’ARNm (Aiba, 2007; Wagner, 2009). Lorsqu’un ARNm est activement traduit le chargement et la marche constante de nombreux ribosomes le long de sa séquence créent un encombrement stérique qui protège l’ARNm contre l’action des endoribonucléases impliquées dans la dégradation et le recyclage des ARN, notamment la RNase E et la RNase III (Deana and Belasco, 2005; Iost and Dreyfus, 1995). L’inhibition du recrutement des ribosomes par la fixation de sRNA au niveau de la séquence SD conduirait à un dénudement de l’ARNm, devenant ainsi vulnérable à la dégradation. La question que l’on peut se poser est de savoir si c’est cette dégradation de l’ARNm, ou bien la simple inhibition de l’initiation de la traduction, qui prédomine dans le mécanisme de répression induit par le sRNA. Morita et al., en utilisant des souches d’E. coli déficientes pour la RNase E, sont parvenus à découpler le processus de dégradation et d’inhibition de la traduction de l’ARNm ptsG par le sRNA SgrS (Morita et al., 2006). Leurs résultats démontrent que la répression de l’expression de la protéine codée par l’ARNm ptsG peut se produire en absence de toute dégradation, indiquant que dans ce cas, l’inhibition de la traduction est l’élément déterminant dans la régulation, et que la dégradation n’est qu’une conséquence secondaire.

D’autres duplex sRNA inhibiteurs/ARNm, tels que IstR-1/tisB chez E. coli ou RNA III/spa chez S. aureus, sont quant à eux ciblés et dégradés par la RNase III, qui a une affinité pour les séquences d’ARN double

22 brin. Fait intéressant, l’action inhibitrice de ces sRNA est amplifiée in vivo par la RNase III (Huntzinger et al., 2005; Vogel et al., 2004). La dégradation concomittante du sRNA avec l’ARNm cible a également été observée dans d’autres cas de figure (Masse et al., 2003), ce qui suggère que les sRNA ne sont pas recyclés et donc qu’ils sont consommés, dans des proportions stoeochiométriques, lors de l’interaction avec leur cible. Cela suggère également que l’activité régulatrice des sRNA nécessite un renouvellement constant des transcrits. Parallèlement, l’arrêt de la transcription d’un gène codant pour un sRNA provoquerait une diminution rapide du taux de ce sRNA cytoplasmique, et donc une levée rapide de la régulation sur les cibles. Ce mode d’action particulier explique sans doute l’omniprésence des sRNA dans la régulation des réponses aux stress, qui nécessite un contrôle précis et rapide de l’expression des gènes d’acclimatation.

Un cas particulier concerne le sRNA MicC chez Salmonella enterica serotype Typhimurium. Ce sRNA inhibe l’expression de la protéine OmpD en ciblant la région codante de l’ARNm ompD. La formation du duplex est cependant trop distante par rapport à la région TIR pour inhiber l’initiation de la traduction. Dans ce cas, la fixation de MicC sur ompD induit une forte activité de dégradation de ces deux ARN par la Rnase E, qui conduit à une chute de la concentration de l’ARNm ompD, facteur limitant la traduction de la protéine (Pfeiffer et al., 2009). Le mécanisme permettant la dégradation par la RNaseE sans que l’initiation de la traduction soit affectée reste à élucider.

2.5. Les petits ARN ciblant les protéines régulatrices

A côté de la vaste classe des sRNA antisens, la littérature ne rapporte que trois cas de sRNA qui ciblent directement des protéines régulatrices, pour en altérer l’activité et par conséquent l’expression des gènes sous le contrôle de ces protéines.

Les sRNA CsrB et CsrC, chez E. coli, modulent l’activité de CsrA (Liu et al., 1997; Weilbacher et al., 2003), une protéine liant l’ARN et qui est notamment impliquée dans la régulation du métabolisme du carbone. La protéine CsrA, sous forme dimérique, lie des motifs GGA dans la région 5’UTR des ARNm ciblés, affectant la stabilité et la traduction de ces ARNm (Liu et al., 1995). Les sRNA CsrB et CsrC contiennent tous deux de nombreux motifs GGA (de 13 à 22), spécifiques à CsrA, dont la plupart sont présentés dans des boucles (Liu et al., 1997) (Figure 6). Ainsi lorsque le niveau de transcrits CsrB et C augmente dans la cellule, il s’ensuit une séquestration de CsrA sur les motifs GGA de ces deux sRNA. Dans le cytoplasme de la bactérie, le taux de CsrA non-lié est alors fortement diminué, limitant ses probabilités de fixation sur la région 5’-UTR des ARNm ciblés.

23

Figure 6 : Structure secondaire prédite de CsrB. Les motifs potentiels de liaison à la protéine CsrA présentés dans des boucles sont figurés en rouge, ceux présents dans des régions simple-brin interstitielles en vert. D’après (Liu et al., 1997).

Un autre membre notoire de cette classe est l’ARN 6S, qui mesure 184 nucléotides de long chez E. coli. Cet ARN, abondamment exprimé a été découvert dès les années 1970 par des expériences de purification des ARN abondants d’E.coli. Il a fallu cependant attendre plus de trente ans pour que la fonction de ce petit ARN soit mise en évidence par Wassarman et Storz. Au cours de leurs travaux pour identifier des partenaires de l’ARN 6S, ce groupe a observé la présence de ce petit ARN au sein d’une fraction cellulaire précise, contenant entre autres les sous unités α, β et β’ de l’ARN polymérase (Wassarman and Storz, 2000). Lors de ce travail les auteurs ont ensuite confirmé cette interaction en réalisant la co-immunoprécipitation de l’ARN 6S avec l’ARN polymérase, puis plus précisément avec l’holoenzyme associé au facteur σ70. L’analyse de l’expression de l’ARN 6S au cours de la croissance bactérienne a montré qu’il passait de 1000 à 10000 copies par cellule entre la phase exponentielle et la phase stationnaire de croissance ; information intéressante lorsque l’on considère que le facteur σ70 assure la transcription de la majorité des gènes en phase de croissance mais que son activité, mais pas sa concentration, diminue au cours de la phase stationnaire (Jishage et al., 1996). Une recherche par bioinformatique basée sur une conservation de la séquence et de la structure a permis de découvrir plus d’une centaine d’homologues de l’ARN 6S dans diverses espèces bactériennes excepté dans la famille des epsilon protéobactéries (Barrick et al., 2005). L’alignement des séquences

24 ainsi que des expériences d’empreintes sur gels ont permis de mettre en évidence que l’ARN 6S est capable d’adopter un repliement particulier permettant de mimer un promoteur bactérien ouvert, présentant une boucle interne d’une quinzaine de nucléotides simple brin enserrée entre deux longues tiges d’ARN double brin (Figure 7)(Barrick et al., 2005; Wassarman and Saecker, 2006). D’après des études structurales, une partie de l’ARN polymérase-σ70 liée à un promoteur bactérien se positionne au niveau d’une « bulle de transcription », formée par l’ouverture des brins d’ADN aux positions -11 à +2 autour du site d’initiation de la transcription (TSS), qui sera le premier nucléotide à être transcrit (Murakami et al., 2002). Cette portion d’ADN de 13 nucléotides simples brins et recouverts par l’ARN polymérase serait donc mimée par la boucle interne de l’ARN 6S (Figure 7).

Figure 7 : Comparaison des structures de l’ARN 6S chez E. coli et d’un promoteur bactérien ouvert. Les boîtes -35 et -10 (surlignées en bleu) sont reconnues par le facteur σ70 et définissent le positionnement de l’ARN polymérase sur le promoteur (cadre bleu). L’ARN polymérase interagit notamment avec les séquences simples brins s’étendant sur 13 nt et formant la « bulle de transcription ». Le positionnement spatial de l’ARN polymérase sur le promoteur définit le site d’initiation de la transcription (TSS) (flèche noire). La séquence matrice utilisée par l’ARN polymérase, pour synthétiser la molécule d’ARN, est surlignée en jaune. A l’instar d’un promoteur bactérien ouvert, la boucle interne de l’ARN 6S présente une séquence simple brin de 13 nt. Dans cette boucle, le brin opposé sert de matrice pour la transcription des pRNA. La matrice des pRNA est surlignée en rouge. D’après (Wassarman and Saecker, 2006)

25

En 2006, Wassarman et Saecker apportent un argument à cette hypothèse de mimétisme : en réalisant l’incubation in vitro de l’ARN 6S avec l’ARN polymérase, ils parviennent à détecter la synthèse de petits transcrits d’une dizaine de nucléotides de long (appelés pRNA). La séquence de ces pRNA correspond à celle de l’ARN 6S, qui aurait donc servi de promoteur et de matrice à leur transcription (Figure 7) (Wassarman and Saecker, 2006). Ces derniers résultats ont donc suggéré que l’ARN 6S pourrait piéger l’ARN polymérase chargée avec le facteur σ70 en mimant la structure d’un promoteur bactérien pour permettre le recyclage de l’ARN polymérase lors de l’entrée en phase stationnaire. Trotochaud et Wassarman ont remarqué que souvent les promoteurs sensibles à l’ARN 6S présentent une région -10 (Trotochaud and Wassarman, 2004), ce qui porterait à une centaine le nombre de promoteurs d’E. coli sensibles à l’ARN 6S.

2.6. Facteurs influençant la régulation par les petits ARN

2.6.1. La protéine chaperonne Hfq

Parmi les facteurs associés aux sRNA, la protéine Hfq (Host factor protein q ou HF-1) semble occuper une place prédominante. Cette protéine, capable de lier l’ARN, est conservée dans la moitié des bactéries séquencées (gram positives et négatives confondues) (Valentin-Hansen et al., 2004). D’un point de vue structural, la protéine Hfq est considérée comme un homologue des protéines eucaryotes de type Sm, impliquées dans l’épissage et la dégradation des ARNm (Donahue and Jarrell, 2002; He and Parker, 2000). Hfq s’assemble en un homohexamère, avec une forme en anneau, ayant une affinité pour des séquences ARN riches en adénosine et uracile précédées d’une structure secondaire en tige-boucle (Figure 8A) (Moll et al., 2003b).

In vivo, la protéine Hfq est présente en très grand nombre de copie (10 000 molécules par cellule). Elle est également très souvent retrouvée en interaction avec de nombreux sRNA (Sittka et al., 2008). De fait elle apparaît comme un facteur très important dans les régulations ARN (Brennan and Link, 2007) et sa délétion chez plusieurs bactéries affecte un très grand nombre de gènes. En interagissant avec les ARNm ou les sRNA, elle favorise leur stabilité (Brennan and Link, 2007; Rasmussen et al., 2005) et elle permet également de faciliter et favoriser l’hybridation entre un sRNA codé en trans et sa cible (Rajkowitsch and Schroeder, 2007; Udekwu et al., 2005). Enfin cette protéine peut lier la RNase E et participe à son recrutement au niveau des duplex ARNm/sRNA hybridés, favorisant ainsi la dégradation couplée des ARNm et des sRNA (Figure 8B) (Morita et al., 2005).

26

Figure 8 : La protéine chaperonne Hfq. A. Visualisation dans l’espace de l’homohexamère Hfq d’après (Mikulecky et al., 2004). Les différentes sous-unités sont numérotées de I à VI, les acides aminés figurés en vert et rouge sont les plus conservés chez plusieurs espèces bactériennes. B. Modèle de la fonction d’Hfq dans la régulation sRNA-dépendante de la traduction, selon (Masse et al., 2003; Morita et al., 2005)

L’une des premières évidences qui a permis de relier Hfq aux petits ARN provient des études réalisées sur OxyS. En effet, il a été montré que Hfq et OxyS peuvent interagir, et que l’interaction entre OxyS et l’ARNm cible rpoS est favorisée en présence de la protéine Hfq (Zhang et al., 2002). Des études plus approfondies et notamment une co-immunoprécipitation des ARN liés à Hfq, chez E. coli, a permis de révéler qu’au moins un tiers des sRNA connus étaient en interaction directe avec Hfq, entérinant son rôle supposé de protéine chaperonne dans les régulations sRNA-dépendantes (Zhang et al., 2003). Par la suite, l’activité stabilisatrice de la protéine sur les appariemments de bases entre des sRNA codés en trans et leurs cibles a été constatée à maintes reprises (Kawamoto et al., 2006; Rasmussen et al., 2005; Valentin-Hansen et al., 2004).

27

2.6.2. Structure secondaire

L’étude des mécanismes d’interaction entre les sRNA et leurs cibles révèlent généralement un rôle prépondérant de la structure secondaire de ces ARN, notamment dans l’initiation de la reconnaissance entre les deux partenaires. En effet sachant que les sARN agissent par un mécanisme de type antisens, ils devraient présenter idéalement les régions d’appariement dans des larges régions simple brins, facilitant la reconnaissance des ARNm cibles. Cependant, les régions simple brin étant les plus sensibles à la dégradation par les nucléases, l’évolution a favorisé la sélection de sRNA adoptant des structures secondaires étendues, qui bénéficient d’une meilleure stabilité. Par conséquent, pour la majorité des sRNA, la proportion des régions simple brin est limitée comparativement à celle des régions structurées, telles que les tiges-boucles (Figure 9). Dans certains cas, les petits ARN ont acquis des motifs et des conformations de structure secondaire capables de promouvoir leur association avec leurs cibles. Nous pouvons citer à titre d’exemple, le cas de CopA qui cible une tige-boucle (nommée CopT) présente dans la région 5’UTR de l’ARNm repA, et qui conduit indirectement à l’inhibition de l’expression de la protéine RepA. Bien que CopA et CopT soient parfaitement complémentaires sur les 90 nt que compte CopA, la formation d’un complexe inhibiteur très stable de type « four way junction » (Figure 9) entre les deux ARN nécessite plusieurs étapes. La première consiste en une interaction rapide et transitoire de type « kissing complex » ou complexe d’embrassement qui fait intervenir six bases complémentaires localisées dans les boucles simple-brin des régions II (CopA) et II’ (CopT) (Persson et al., 1990b). La complémentarité entre les bases situées dans les boucles des deux ARN est déterminante et toute mutation entraînant un mésappariement au niveau de cette région empêche la formation du complexe (Persson et al., 1990a). L’implication d’une poignée de bases seulement dans la reconnaissance initiale entre un sRNA et ses sites d’interaction permettrait de cribler rapidemment les ARNm cibles capables de former un duplex plus étendu, parmi l’ensemble des ARNm cytoplasmiques. Cette notion de cinétique d’hybridation est supportée par la présence d’un motif « U-turn » au niveau de la boucle de CopT (Kolb et al., 2000; Slagter-Jager and Wagner, 2003). Ce motif ARN, présent notamment au niveau des boucles anticodons des ARNt de transferts permet la formation de liaison hydrogènes entre certaines bases de la boucle. Ces liaisons ont pour effet de créer une torsion dans la structure du brin d’ARN situé dans la boucle, permettant ainsi l’exposition au solvant de trois à quatre bases non appariées et facilement accessibles (Ashraf et al., 2000; Dix et al., 1986). En d’autres termes, le motif « U-turn » favorise la présentation des bases pour la reconnaissance d’une cible, améliorant ainsi considérablement les cinétiques d’hybridation entre deux partenaires.

28

Figure 9 : Structure et mécanisme d’interaction de CopA/CopT, d’après (Kolb et al., 2000). A gauche : Structure secondaire des tiges boucles II et II’ de CopA/CopT. La première interaction entre les deux ARN n’implique qu’un nombre limité de bases, situées au sommet des tiges-boucles II et II’ (cadre vert). La reconnaissance entre ces deux boucles est facilitée par la présence d’un motif U-turn (bases cerclées de noir). A droite : L’interaction initiale entre CopA et CopT consiste en un « kissing complex » entre les boucles complémentaires des deux ARN. Cette première étape permet l’extension de l’hybridation entre CopA et CopT en direction de la base de la tige. L’étape finale et inhibtrice consiste en une « four-way junction » qui implique l’empilement de trois hélices inter-moléculaires.

Ce mécanisme d’interaction par « kissing complex » entre des boucles simples brins a également été mis en évidence dans le cas du sRNA petit ARN OxyS, codé en trans par rapport à son ARNm cible fhlA (Altuvia et al., 1998). L’étude de la structure secondaire montre que la région d’interaction des deux ARN est repliée sous la forme de deux tiges-boucles. Sur l’ARNm fhlA la première tige boucle se situe au niveau de la région d’initiation de la traduction (séquence SD et codon d’initiation) et la seconde dans la séquence codante (Argaman and Altuvia, 2000). L’interaction entre OxyS et l’ARNm fhlA débuterait d’abord par des « kissing complexes » conjoints, impliquant les deux boucles de chaque transcrit, afin de former un complexe suffisamment stable pour entrer en compétition avec l’étape d’initiation de la traduction, assurée par le ribosome. Depuis d’autres exemples ont mis en évidence l’existence de complexes boucle-boucle dans la régulation par des ARN

29 antisens. C’est le cas notamment chez S. aureus où RNAIII est capable de cibler l’ARNm du répresseur de toxicité (Rot) en formant un double « kissing complex » (Boisset et al., 2007).

2.7. Conclusion

Les sRNA bactériens représentent une classe abondante et très variée de régulateurs post- transcriptionnels de l’expression des gènes. Mis à part quelques sRNA ciblant des protéines, la très grande majorité de ces sRNA lient des régions complémentaires sur leurs ARNm cibles par un mécanisme dit « antisens », afin de réguler la traduction et/ou la dégradation de l’ARNm. La longueur des séquences complémentaires entre les deux partenaires, leurs structures secondaires, ou la présence conditionnelle de la protéine Hfq, sont autant de facteurs qui conduisent à une reconnaissance et une hybridation stables et rapides du sRNA sur sa cible.

Les fonctions biologiques assurées par ces sRNA sont tout aussi variées que leurs mécanismes d’action. En effet, ces sRNA sont retrouvés dans de très nombreux circuits de régulation, tels que la capture, l’utilisation et le stockage de nutriments, la croissance bactérienne, la réponse aux stress, le quorum- sensing, ou encore la maintenance des plasmides (Repoila and Darfeuille, 2009; Wagner and Darfeuille, 2006; Waters and Storz, 2009). La partie suivante décrit plus précisément les fonctions biologiques de ces sRNA et je m’attarderai essentiellement sur le rôle de sRNA ayant une implication dans des relations de type hôtes-pathogènes.

30

3. Implication des petits ARN bactériens dans la virulence et l’adaptation à l’hôte

3.1. Introduction

La caractérisation de nombreux sRNA indique qu’ils occupent un rôle majeur dans l’adaptation rapide des bactéries aux conditions environnementales, parfois difficiles, qu’elles rencontrent au sein de leurs différentes niches écologiques. Ainsi, les études de sRNA chez des bactéries pathogènes pour l’homme ont démontré un rôle crucial de ces régulateurs dans l’adaptation à la niche humaine, la défense contre le système immunitaire et le contrôle des gènes de virulence (Tableau 2) (Papenfort and Vogel, 2010).

Tableau 2 : Liste non-exhaustive de sRNA impliqués dans le contrôle de la virulence chez plusieurs bactéries pathogènes pour l’Homme.

Taille Espèce sRNA Cible Mode d’action Phénotype/Fonction Ref (nt) sRNA codés en trans

Rot (repressor of Inhibition de la S. aureus RNA III 514 toxins), spa et coa traduction Régulateur global du quorum- (Chevalier et al., 2010; Morfeldt et sensing et de l’expression des al., 1995; Novick et Activation de la gènes de virulence al., 1993) hla (a-hemolysine) traduction

Sbi, facteur Inhibition de la (Chabelskaya et al., SprD 142 d’échappement à la Virulence chez la souris traduction 2010) réponse immunitaire

Régulation de l’expression de (Roberts and Scott, S. pyogenes RivX 220 mga n.d. facteurs de virulence 2007)

Inhibition de la Régulation des modifications (Moon and S. typhimurium MgrR 98 eptB traduction du LPS Gottesman, 2009)

hapR, facteur de Inhibition de la (Hammer and V. cholerae Qrr1-4 100 Contrôle du quorum-sensing Bassler, 2007; Lenz transcription traduction et al., 2004)

Inhibition de la Modulation de la colonisation VrrA 140 ompA (Song et al., 2008) traduction de l’intestin, chez la souris

31

Tableau 2 : Suite.

Taille Espèce sRNA Cible Mode d’action Phénotype/Fonction Ref (nt)

sRNA codés en cis

Antisens probable msgA (macrophage Virulence et survie dans les (Gunn et al., 1995; S. typhimurium IsrC 288 (dégradation Padalon-Brauch et survival gene) macrophages mutelle IsrC/msgA) al., 2008)

Mécanisme Régulation de la biosynthèse desA1 (désaturase des (Arnvig and Young, M. tuberculosis AsDes 110 antisense des lipides (induite lors de la acides gras) 2009) (prediction) colonisation de la souris) sRNA ciblant les protéines

Requis pour la réplication dans Séquestre l’ARNpol les macrophages. ARN polymérase L. pneumophila 6S 182 en mimant un (Faucher et al., 2010) sigma70 promoteur Régule le système de sécrétion de type IV

Séquestration de Régulateurs clés pour la RmsA, régulateur (Rasis and Segal, RsmY,Z 132 RsmA sur plusieurs réplication dans les 2009; Sahr et al., traductionnel motifs de fixation macrophages 2009)

Contrôle le système de Séquestration de (Brencic and Lory, P. aeruginosa RsmY, Z 120 RsmA sécrétion de type IV (impliqué RsmA 2009) dans les infections chroniques)

Régulateurs clés pour la CsrA, régulateur Séquestration de S. typhimurium CsrB, C 300 réplication dans les (Fortune et al., 2006) traductionnel CsrA macrophages

3.2. Réponse aux stress

La membrane externe des bactéries gram-négatives constitue la zone d’interface privilégiée dans le cadre des interactions hôte-pathogène. Les protéines qui sont exprimées à cette membrane externe remplissent différentes tâches telles que la détection de signaux environnementaux, l’importation/exportation de molécules, l’interaction avec les protéines de l’hôte ou la protection de l’intégrité membranaire. Ces protéines de la membrane externe (ou OMP), dont le répertoire est

32 généralement rapidement remanié par les bactéries en fonction des conditions extérieures, comptent parmi les cibles principales de la régulation par les sRNA.

Chez E. coli et les salmonelles, plus d’une dizaine de sRNA sont connus pour contrôler l’expression de différentes OMP, et ces sRNA sont conservés dans d’autre entérobactéries pathogènes (Vogel and Papenfort, 2006). Il a toutefois fallu attendre une dizaine d’année entre la découverte de MicF, le premier sRNA connu ciblant une porine de la membrane externe, et la découverte de MicC, un sRNA capable d’inhiber la synthèse de la porine OmpC en s’hybridant au niveau de la région TIR de l’ARNm (Chen et al., 2004).

La découverte de MicC fut rapidement suivie par celle de MicA, un autre sRNA qui cible l’ARNm codant pour la porine ompA, inhibant la fixation du ribosome et favorisant la dégradation en phase stationnaire (Rasmussen et al., 2005; Udekwu et al., 2005).

D’autres sRNA, appelés OmrA et OmrB, identifiés par des approches de génomique, ont été par la suite caractérisés comme ayant un rôle dans la modulation de la composition en protéines dans la membrane externe (Guillier and Gottesman, 2006). En effet, ces sRNA possèdent plusieurs ARNm cibles codant tous pour des OMP (OmpT, CirA, FecA, et FepA) dont ils inhibent la traduction. Guillier et Gottesman démontrent également que la transcription de ces deux sRNA est sous le contrôle du régulateur protéique OmpR, lui-même activé par la protéine membranaire EnvZ, qui est une histidine kinase capable de percevoir les variations d’osmolarité du milieu extérieur. Par ailleurs, le système EnvZ-OmpR contrôle également la transcription des sRNA MicC et MicF (Chen et al., 2004; Coyer et al., 1990).

Un autre régulateur connu pour contrôler la transcription d’un certain nombre de sRNA est le facteur σE, notamment impliqué dans la réponse aux stress de la membrane externe. Plusieurs groupes rapportent ainsi que les sRNA MicA et RybB modulent la synthèse de nombreuses OMP, chez E. coli et S. Typhimurium, en réponse à des stress de la membrane externe, et que cette réponse est médiée par le facteur σE (Figure 10) (Papenfort et al., 2006; Rhodius et al., 2006; Udekwu and Wagner, 2007).

D’autres composants de la membrane externe, les lipopolysaccharides (LPS) représentent la première barrière de défense contre les molécules antimicrobiennes cationiques sécrétées par les cellules immunitaires humaines. Une des possibilités pour échapper à la réponse immunitaire consiste, pour les bactéries, à modifier la nature chimique des LPS, processus au cours duquel le système à deux composant PhoP/Q joue un rôle déterminant. Ce système, dans des conditions de carence en cations divalents, va réguler de nombreux gènes impliqués dans la synthèse du LPS, et un sRNA, MgrR. Ce sRNA est un modulateur, par un mécanisme antisens, de l’expression d’une enzyme EptB qui est impliquée dans les modifications du LPS (Moon and Gottesman, 2009).

33

Figure 10 : Contrôle des protéines de la membrane externe par les sRNA chez Salmonella. Les sRNA RybB et MicA (cercles orange) contrôlent l’expression de nombreuses porines (cercles bleu). L’expression de ces deux sRNA est sous le contrôle du facteur σE. Les sRNA MicF et MicC sont quand à eux sous le contrôle du régulateur OmpR. D’après (Vogel, 2009).

Les sRNA interviennent à tous les niveaux des cascades de régulation, certains se trouvent à la fin du processus de régulation et agissent directement sur la traduction des protéines effectrices, d’autres au contraire interviennent beaucoup plus en amont, en régulant des facteurs de transcription allant jusqu’aux facteurs σ de l’ARN polymérase. C’est le cas de DsrA et RrpA deux sRNA qui activent la synthèse de σS, le facteur σ principal des réponses aux stress, également requis dans le contrôle de la virulence chez E. coli et S. Typhimurium (Papenfort et al., 2009; Soper et al., 2010).

3.3. Contrôle de l’expression des gènes de virulence

Les évènements de régulation touchant les facteurs de transcription permettent généralement aux bactéries de sauter d’un état physiologique à un autre, en remaniant rapidement leur arsenal de gènes d’adaptation pour répondre à une condition environnementale spécifique. Certains sRNA sont au coeur de ce processus, comme RNA III chez S. aureus, qui contrôle au cours de la croissance les niveaux d’expression de deux facteurs de transcription aux effets antagonistes que sont AgrA et Rot (repressor of toxins) (Boisset et al., 2007).

Le sRNA RNAIII de S. aureus ne contrôle pas seulement rot, le régulateur transcriptionnel des gènes de virulence. RNAIII agit également directement, par un mécanisme antisens, sur les ARNm de plusieurs

34 protéines impliquées dans la virulence, telles que spa et coa, codant respectivement pour une protéine d’adhésion aux cellules humaines et une coagulase du plasma sanguin. De plus, le gène RNAIII promeut l’expression de l’hémolysine A en se liant à la région 3’ de l’ARNm et empêchant la formation d’une structure secondaire inhibitrice au sein de l’ARNm (Figure 11) (Morfeldt et al., 1995).

Figure 11 : Structure secondaire du RNAIII, chez S. aureus et domaines impliqués dans la régulation des gènes de virulence. Le domaine d’activation de l’ARNm hla (codant pour l’hémolysineA) est figuré en vert, tandis que le domaine d’inhibition de la traduction (en rose) cible le TIR de divers ARNm dont rot et coa.

Toujours chez S. aureus, un sRNA codé dans un ilot de pathogénicité, et appelé SprD, inhibe par un mécanisme antisens l’expression de l’ARNm codant pour la protéine Sbi, impliquée dans l’échappement au système immunitaire. La régulation de Sbi par SprD est déterminante pour la survie et le caractère pathogène de S. aureus dans un modèle d’infection murin (Chabelskaya et al., 2010).

Chez Streptococcus pyogenes, deux gènes forment un opéron dont le transcrit comporte deux éléments : le facteur de transcription RivR et une région non-codante RivX, qui semble excisée au niveau post- transcriptionnel pour former un sRNA régulateur à part entière. L’absence de RivR et de RivX altère de manière identique le niveau d’expression de nombreux gènes dont le régulateur transcriptionnel Mga qui assure un contrôle direct de la transcription des gènes de virulence. Cette réduction de l’expression des gènes de virulence en absence de RivR/X est restaurée à un niveau identique par une complémentation soit de RivR, soit de RivX, démontrant le caractère redondant de ces deux régulations, l’une exercée par une protéine et l’autre par un sRNA (Roberts and Scott, 2007).

Les exemples cités ci-dessus concernent des sRNA codés en trans de leurs cibles. Les études portant sur des sRNA codés en cis, et leur implication démontrée dans la virulence sont plus rares. Chez Shigella

35 flexneri, il existe un sRNA codé en cis (RnaG) qui intervient dans la régulation d’une protéine de la membrane externe IcsA , nécessaire à l’invasion des cellules hôtes et à la dissémination (Giangrossi et al., 2010). A l’image de quelques autres sRNA codés en cis, tel que RNA β chez Vibrio anguillarum (Stork et al., 2007), RnaG exerce son activité inhibitrice non pas au niveau de la traduction, mais au niveau de la transcription. Il s’agit en fait d’un atténuateur transcriptionnel qui en se liant à l’ARNm en cours de transcription va favoriser l’apparition d’un terminateur de transcription alternatif.

Il y a chez M. tuberculosis et S. Typhimurium plusieurs sRNA codés en cis dont l’orientation et la localisation sur le génome convergent avec celles de gènes de virulence. Par exemple, le sRNA IsrC chez S. Typhimurium est codé en antisens de la région 3’ d’un gène associé à la virulence, appelé msgA (Padalon-Brauch et al., 2008).

Un cas à part parmi les sRNA codés en cis, généralement de courtes tailles, est le sRNA AmgR, qui fait 1200 nucléotides de long et qui est parfaitement complémentaire au gène codé en vis-à-vis, à savoir mtgC, un gène requis pour l’homéostasie des ions Mg2+ et la virulence chez S. enterica Typhimurium. Le gène mtgC est transcrit sur un ARNm polycistronique MtgCBR et l’hybridation subséquente de AmgR conduit à la dégradation spécifique de MtgC (Lee and Groisman, 2010).

En ce qui concerne l’ARN 6S de E. coli détaillé dans un paragraphe précédent, il s’avère que son homologue chez Legionella pneumophila est un régulateur essentiel pour le relargage de protéines effectrices via le système de sécrétion de type IV et pour la réplication dans des macrophages humains (Faucher et al., 2010).

A l’origine considérée comme spécialisée dans la réponse aux carences en carbone et la synthèse de glycogène, la protéine CsrA/RsmA est désormais reconnue comme un régulateur post-transcriptionnel majeur, impliqué dans une grande variété de régulations, y compris la virulence. Ainsi, chez P. aeruginosa la protéine RmsA (qui est régulée par les sRNA RsmY, Z, via un mécanisme de séquestration) contrôle l’expression de 10 % des gènes et joue un rôle déterminant dans l’infection du tractus respiratoire dans un modèle murin. (Burrowes et al., 2006; Mulcahy et al., 2008; Pessi et al., 2001). Parmi ces gènes régulés figurent plusieurs facteurs de virulence, dont le système de sécrétion de type VI, jouant un rôle très important dans les infections chroniques par P. aeruginosa (Brencic and Lory, 2009).

36

3.4. Quorum-sensing

Le quorum sensing désigne l’ensemble des processus de communication entre bactéries et comprend ainsi la production et sécrétion des molécules messagères, ainsi que la détection de ces molécules, aboutissant via la transduction du signal à une activation de facteurs de transcription.

Les molécules messagères, qui sont communément appelées des « auto-inducers », ou AI, voient généralement leur concentration extracellulaire augmentée en fonction de la densité bactérienne, déclenchant des signaux qui aboutissent à une ré-orientation de la physiologie bactérienne.

Ainsi, en cas de forte concentration bactérienne, des signaux induits par les AI vont conduire les bactéries à s’organiser en biofilm, à développer leur compétence pour intégrer du matériel génétique ou bien à entrer dans une phase de sporulation ou de virulence. Comme dans tous les réseaux de régulation bactériens, le quorum-sensing n’échappe pas au contrôle par les sRNA. Le système le mieux étudié à ce jour est celui de la bactérie Vibrio cholerae dans lequel quatre sRNA redondants, appelés Qrr1 à 4, sont impliqués.

Les sRNA Qrr sont exprimés de manière AI-dépendante lorsque la concentration en bactérie est faible. Dans cette condition, ils répriment au niveau post-transcriptionnel l’expression de HapR, le facteur de transcription majeur dans la régulation du quorum-sensing. Par conséquent, les gènes dont l’expression est dépendante de HapR sont réprimés ; c’est notamment le cas des gènes du système de sécrétion de type III (Lenz et al., 2004). Par ailleurs, la régulation par les Qrr est strictement dépendante de leur concentration cytoplasmique, concentration elle-même très finement régulée par deux boucles de rétro-contrôle impliquant HapR et LuxO, un autre régulateur protéique du quorum-sensing. Fait intéressant, lorsque le gène codant pour l’un des Qrr est supprimé - affectant ainsi la concentration cytoplasmique globale des Qrr - le niveau d’expression des autres Qrr est augmenté afin de compenser le dosage global des Qrr dans les bactéries (Svenningsen et al., 2009; Tu et al., 2010). En parallèle, les Qrr fonctionnent également comme des activateurs de la synthèse de Vca0939, une protéine à domaine GGDEF impliquée dans la synthèse de di-GMP-cyclique et ayant un rôle dans la virulence et la formation de biofilm (Cotter and Stibitz, 2007; Hammer and Bassler, 2007).

37

4. Les sRNA codés en cis au sein des systèmes toxines/antitoxines de type I

4.1. Introduction

La majorité des sRNA codés en cis et connus à ce jour, et quelques rares sRNA codés en trans, inhibent l’expression d’une catégorie particulière de gènes, codant pour des peptides de courte taille (<60 acides aminés), généralement hydrophobes et toxiques pour la bactérie (Fozo et al., 2008a). Ces modules d’expression comprenant un ARNm codant pour la toxine et un sRNA répresseur, tous deux transcrits à partir d’un même locus génomique, sont qualifiés de systèmes toxines-antitoxines (TA) de type I (Hayes, 2003).

Ces cassettes toxines-antitoxines de type I sont caractérisées par le fait que l’antitoxine soit un sRNA, et diffèrent ainsi des cassettes toxine-antitoxine de type II où le rôle de l’antitoxine est assuré par une protéine. Ce sont d’ailleurs les cassettes toxine-antitoxine de type II qui ont été le mieux étudiées et caractérisées. L’antitoxine, qui est labile, se fixe à la toxine, stable, inhibant ainsi son activité. Si le gène codant pour l’antitoxine n’est plus exprimé (perte de la cassette, répression), cette dernière est rapidement dégradée, et la toxine est libérée, conduisant à la mort ou à l’arrêt réversible de la croissance bactérienne (Figure 12). Les cassettes TA de type I fonctionnent généralement sur un principe identique, le sRNA étant moins stable que l’ARNm codant pour la toxine (Fozo et al., 2008a)

Dans le cas où ces cassettes (type I ou II) sont présentes sur un plasmide, et qu’une bactérie fille perd le plasmide suite à une division, les gènes du module TA sont perdus et l’antitoxine ne peut plus être néo- synthétisée. L’expression subséquente de la toxine entraîne la mort de la bactérie ayant perdu le plasmide (Hayes, 2003). Cette fonction de maintenance de plasmides, exercée par les cassettes TA plasmidiques leur a valu également le nom de modules d’addiction. Chez Erwinia carotovora un nouveau type de cassette a été découvert récemment qui est un intermédiaire entre les cassettes de type I et II (Fineran et al., 2009). Ce nouveau module appelé de type III est impliqué dans la mort cellulaire des bactéries infectées par un phage, limitant ainsi la réplication de dernier. Dans ce cas la toxine est une protéine et l’antitoxine est un ARN présentant un motif de 36 nucléotides répété cinq fois. De plus l’organisation génomique présente l’antitoxine ARN ToxI en amont du gène de la toxine ToxN et non en sens inverse sur le brin opposé comme dans le cas des cassettes de type I. L’ARN ToxI ne présente pas de région complémentaire avec sa cible et n’agit donc pas par un mécanisme de type antisense.

En ce qui concerne les cassettes toxine-antitoxine codées sur les chromosomes bactériens, bien que de nombreux systèmes aient été découverts, leurs rôles restent pour la plupart mal compris (Tableau 3).

38

Figure 12 : Organisation génomique et mécanisme d’action des modules toxine-antitoxine chromosomiques chez les bactéries. A gauche : une représentation schématique des cassettes de type II où l’antitoxine et la toxine sont des protéines, codées par des gènes en tandem. L’interaction des deux partenaires conduit à un complexe inactif. Une fois l’antitoxine dégradée en réponse à un signal, la toxine est libérée et peut causer soit la mort cellulaire soit l’arrêt de croissance. A droite : Illustration de la cassette de type I où cette fois-ci la toxine est un peptide et l’antitoxine un ARN antisens. Les deux sont codés sur un brin différent en antisense l’un par rapport à l’autre. Le mécanisme d’action des toxines ainsi que de leur expression est moins bien connu. Dans le cas des plasmides, en absence de production de l’antitoxine, le peptide toxique induit la mort cellulaire par interaction avec la membrane interne en induisant une dépolarisation de cette membrane ainsi qu’une perméabilisation de la cellule (perte d’ATP).

Type II TA module Type I TA module

toxin antitoxin

Antitoxin sRNA 5’ 3’ Toxin mRNA 5’ 3’ 5’ 3’ 5’ 3’

Toxic peptide

OM IM

Tableau 3 : Exemple de cassettes toxines-antitoxines dont l’expression a été confirmée in vivo. * : ces ARN sont codés en trans et ne sont retrouvés qu’en une seule copie sur le génome.

Plasmide ou Taille de la Taille du sRNA Toxine Antitoxine Fonction Ref. organisme toxine (aa) (nt) Systèmes TA plasmidiques (Gerdes et al., R1 Hok Sok 50 67 Maintenance du plasmide 1986b) (Nielsen et al., F SrnB SrnC 49 63 Maintenance du plasmide 1991) (Nielsen et al., R483 PndA PndB 50 66 Maintenance du plasmide 1991) (Greenfield et al., pAD1 RNA I RNA II 33 66 Maintenance du plasmide 2000)

39

Tableau 3 : Suite.

Plasmide ou Taille de la Taille du sRNA Toxine Antitoxine Fonction Ref. organisme toxine (aa) (nt)

Systèmes TA chromosomiques (Pedersen and E. coli Hok Sok 50 65 Inconnue Gerdes, 1999) (Kawano et al., E. coli Ldr Rdl 35 60 Inconnue 2002) (Fozo et al., E. coli Ibs Sib 19 110 Inconnue 2008b) (Fozo et al., E. coli ShoB OhsC* 26 60 Inconnue 2008b) (Vogel et al., E. coli TisB IstR-1* 29 75 Réponse SOS 2004) (Silvaggi et al., B. subtilis RatA TxpA 59 222 Inconnue 2005)

4.2. Découverte et distribution des cassettes TA de type I

Le système Hok-Sok fut le premier à avoir été découvert chez E. coli suite à l’observation qu’un locus plasmidique bien précis conférait une stabilisation du plasmide dans les bactéries (Gerdes et al., 1985). Par la suite, une caractérisation plus approfondie a permis de montrer que le premier gène (Hok) codait pour un peptide, hydrophobe et capable de tuer les bactéries et que l’autre gène, Sok, codait pour un sRNA antisens inhibant la toxicité associée à Hok (Gerdes et al., 1986b; Gerdes et al., 1990). Par la suite des homologues de ce système ont été identifés, à savoir les paires SrnB-SrnC et PndA-PndB, codées sur le plasmide F et R483 respectivement (Akimoto and Ohnishi, 1982; Ohnishi et al., 1977). Ces deux systèmes ont été caractérisés par l’observation (après une exposition des bactéries à la rifampicine) de dommages à la membrane, un influx de RNase I périplasmique, une dégradation des ARN cytoplasmiques et finalement la mort des bactéries (Nielsen et al., 1991).

Enfin le système RNA I-RNA II, codés sur le plasmide pAD1, a été le premier exemple de tels systèmes chez les bactéries gram-positives, en l’occurrence chez Enterococcus faecalis, toujours sur la base d’un module d’addiction impliqué dans la maintenance plasmidique.

Ce n’est qu’une décennie plus tard que les premiers travaux rapportent l’existence de systèmes TA codés sur les chromosomes bactériens. Les premiers systèmes TA découverts sur le chromosome de E. coli (Pedersen and Gerdes, 1999), puis d’autres bactéries gram-négatives (Faridani et al., 2006), sont des homologues du système Hok-sok plasmidique. Fait intéressant, ces systèmes Hok-Sok sont généralement

40 présents en multi-copies sur le chromosome, et chez la souche E. coli K12 toutes ces copies sont mutées, contrairement aux autres souches (Figure 13) (Pedersen and Gerdes, 1999).

Figure 13 : Localisation des cassettes toxine-antitoxine de de type I (rouge) et de type II sur le génome d’E. coli (Hayes, 2003). L’astérisque désigne des modules qui auraient perdu toute activité.

Deux autres systèmes ont été initialement identifiés comme des séquences répétées sur le génome. Qualifiées de longues séquences répétées directes (LDR), chaque répétition fait 530 nucléotides de long et code pour une toxine de 35 acides aminés, nommée Ldr, et une antitoxine ARN nommé Rdl (Kawano et al., 2002). Cette séquence LDR est répétée trois fois en tandem, plus une quatrième fois à un autre locus génomique. Ces LDR sont retrouvées dans les bactéries phylogénétiquement proches d’E. coli, avec un nombre variable de répétitions en fonction des souches (Faridani et al., 2006).

A l’instar des LDR, d’autres cassettes TA font partie de séquences répétées, telles que la famille Ibs-Sib, dont le nombre de répétitions varie par exemple de 7, dans certaines souches d’E. coli, à 3 chez S. Typhimurium (Fozo et al., 2008b). La toxine Ibs codée par ces systèmes est composée d’une vingtaine d’acides aminés seulement.

D’autres cassettes existent encore, telles que les systèmes OhsC-ShoB (Fozo et al., 2008b), découverts chez E. coli ou bien le système TpxA-RatA chez B. subtilis (Silvaggi et al., 2005). Enfin, il existe chez E. coli et les bactéries proches encore deux dernières cassettes TA qui sont TisB-IstR-1 (Argaman et al., 2001) et

41

SymE-SymR (Kawano et al., 2007). La particularité de ces deux cassettes concerne leur niveau d’expression, qui est induit au cours de la réponse SOS, contrairement aux autres cassettes dont l’expression semble constitutive (Kawano et al., 2007; Vogel et al., 2004). Enfin dans un travail récent, Fozo et al. ont identifié des homologues de plusieurs systèmes toxines-antitoxines de type I dans de nombreux génomes bactériens, en utilisant une méthode de prédiction bio-informatique comprenant de nombreux critères tels que la présence d’acides aminés chargés positivement dans la région C-terminale, ou la possibilité de former une hélice-a transmembranaire (Fozo et al., 2010).

Tableau 4 : Distribution des cassettes toxine-antitoxine identifiée chez E. coli, au sein de différents génomes bactériens. Nombre d’homologues sur le chromosome Genre Hok-Sok Ibs-Sib TisB-IstR-1 LdrD-RdlD

Escherichia 4-15 3-7 1 2-7

Shigella 7-12 3-6 1 5-10

Salmonella 0 3 1 2

Yersinia 1 0 0 0

Vibrio 1 0 0 0

Helicobacter 0 0 0 0

4.3. Régulation

Le sRNA-antitoxine SymR est transcrit face à l’ARNm codant pour la toxine SymE, au niveau de la TIR, englobant le RBS et le codon d’initiation. Les deux ARN partagent une complémentarité sur toute la longueur de SymR, soit 77 nucléotides, formant un duplex inhibiteur de la traduction. (Kawano et al., 2007). Une mutation abolissant le promoteur de SymR conduit à i) une sur-expression de la toxine, de sept fois supérieure à la souche sauvage et ii) un taux d’ARNm SymE trois fois supérieur, suggérant un rôle du sRNA SymR au niveau de l’inhibition de traduction, mais également dans la dégradation de l’ARNm SymE (Figure 14) (Kawano et al., 2007).

42

La régulation de la cassette TA Ibs-Sib se déroule sans doute sur un principe similaire. En effet, le sRNA Sib recouvre la TIR et l’ARNm Ibs ne peut être détecté qu’après inactivation du promoteur de l’antisens, suggèrant que la formation du duplex Ibs-Sib entraîne une dégradation des deux partenaires (Fozo et al., 2008b).

En termes de mécanisme d’interaction, la cassette Hok-Sok est la mieux documentée. Dans ce cas, le simple modèle d’inhibition de la traduction par blocage du site de fixation du RBS de l’ARNm codant pour la toxine ne peut plus s’appliquer. En effet le sRNA Sok n’est pas directement complémentaire à la TIR de la séquence codant pour Hok. En fait, l’ARNm codant pour Hok comporte une autre séquence codante, appelée Mok, qui débute en amont de Hok, qui chevauche quasi-entièrement Hok, et qui possède sa propre TIR. (Thisted and Gerdes, 1992). La traduction de Hok est dépendante de l’initiation de la traduction au niveau de la séquence Mok. Et c’est précisément à ce niveau que le sRNA Sok s’hybride par complémentarité de bases (Thisted and Gerdes, 1992). Par ailleurs, le duplex formé est soumis à la dégradation par la RNase III, assurant une élimination rapide des ARNm Hok en présence de l’antitoxine (Figure 14) (Gerdes et al., 1992).

Le cas Hok-Sok a également été étudié en termes d’interaction entre les deux partenaires ARN. L’hybridation du sRNA Sok sur l’ARNm Hok semble se dérouler en deux étapes. Il y a tout d’abord une reconnaissance entre l’extrémité 5’ du sRNA, simple brin, et sept bases accessibles dans une boucle de l’ARNm Hok. Cette interaction initiale effectuée, l’hybridation s’étend aux bases localisées dans les tiges permettant la formation d’un duplex étendu, capable d’inhiber l’initiation de la traduction (Franch et al., 1999).

Le sRNA antisens IstR-1, qui réprime l’expression de la toxine TisB, diffère des autres sRNA antitoxines par le fait qu’il soit codé en trans de sa cible. Le gène de IstR-1 se trouve en amont du gène de TisB, dans une orientation divergeante (Vogel et al., 2004). Au niveau du gène IstR-1, deux promoteurs sont présents, pour un seul terminateur, conduisant à la transcription de deux ARNs chevauchant, un long IstR-2 et un court IstR-1. L’ARNm TisB quant à lui comprend une seconde et courte séquence codante (TisA) dans sa région 5’.

Le sRNA IstR-1 a une complémentarité de 21 nucléotides avec la région 5’NTR de l’ARNm TisAB, loin en amont du site TIR de la séquence codante de TisB. L’interaction entre les deux ARN conduit toutefois à une inhibition de l’expression de la toxine et à une dégradation RNaseIII-dépendante du duplex (Vogel et al., 2004). D’un point de vue structurel, la région d’initiation de la traduction de TisB est piégée dans une structure secondaire, la rendant naturellement inaccessible au ribosome (Darfeuille et al., 2007). Cependant, 80 nucléotides en amont du codon d’initiation de TisB, il existe une séquence simple brin

43 servant de site d’entrée pour les ribosomes. Ce site d’entrée, nécessaire à la traduction de TisB, correspond à la région ciblée par IstR-1 (Figure 14).

Figure 14 : Modèle de trois types d’inhibition de la traduction des toxines par des sRNA antitoxines.

44

4.1. Propriétés des toxines

A l’exception de symE, l’ensemble des toxines présentes dans les cassettes de type I sont des peptides de courte taille (16 à 50 acides aminés) avec une région très hydrophobe, prédite comme étant un domaine transmembranaire replié en hélice alpha. Outre ce domaine transmembranaire potentiel, la très grande majorité de ces peptides possèdent des acides aminés chargés, souvent localisés aux extrémités N- ou C- terminales, la partie médiane de la molécule étant plutôt composée d’acides aminés hydrophobes (Figure 15). Un motif observé de façon récurrente chez ces peptides est la présence d’un ou plusieurs acides aminés chargés positivement dans les quatre dernières positions de la partie C-terminale.

Figure 15 : Alignement des séquences en acides aminés des toxines LdR et TpxA, issues de différents génomes bactériens, et les cinq membres de la famille Ibs chez E. coli. Les acides aminés chargés positivement sont en rouge, et ceux chargés négativement sont en bleu. Les acides aminés en vert sont invariablement conservés. Le segment hydrophobe prédit (TMPRed program) pour former une hélice- est surligné en gris. D’après (Fozo et al., 2010).

Peu d’informations expérimentales sont disponibles quand à la localisation cellulaire de ces peptides, principalement en raison du fait qu’il est difficile de générer des anticorps contre ces peptides natifs. Seulement une étude, basée sur la détection de la toxine TisB marquée avec trois épitopes FLAG, démontre la localisation de la toxine au niveau de la membrane interne, chez E. coli (Unoson and Wagner, 2008).

45

En revanche, de nombreux travaux démontrent une dépolarisation et un endommagement de la membrane, lorsque les toxines sont exprimées. Dès 1986, Gerdes et al. observent qu’une surexpression de la toxine Hok, localisée à la membrane, réduit rapidemment la différence de potentiel membranaire (Gerdes et al., 1986a). La même année, une étude démontre elle aussi l’implication des toxines PndA et SrnB dans la perméabilité membranaire (Ono et al., 1986).

Plus récemment, Fozo et al. ont étudié la dépolarisation membranaire en réponse à une induction des toxines IbsC et ShoB. Pour ce faire, ils ont analysé par cytométrie en flux la capacité des bactéries (exprimant ou non les toxines) à incorporer du DiBAC4(3), une sonde fluorescente anionique qui peut traverser les membranes dépolarisées. Seulement 5 minutes après l’induction de l’expression des toxines IbsC et ShoB, ils détectent respectivement 50% et 98% de cellules marquées au DiBAC4(3), démontrant un effet drastique de ces toxines sur la polarité membranaire (Fozo et al., 2008b).

Autre point intéressant, dans le système IbsC-SibC, l’inactivation du sRNA répresseur SibC entraîne une augmentation du taux de l’ARNm pspABCDE (Fozo et al., 2008b). Cet ARNm code notamment pour la protéine pspA, (pour « phage shock protein A ») qui est impliquée dans le maintien du potentiel membranaire (Kobayashi et al., 2007).

Le mécanisme précis par lequel les toxines déstabiliseraient les membranes n’a pas été étudié. Cependant, la nature hydrophobe et cationique de ces toxines n’est pas sans rappeler d’autres molécules affines pour les membranes, à savoir les peptides antimicrobiens cationiques, sécrétés entre autres par les cellules immunitaires humaines, et dont le mode d’action consiste en une polymérisation de ces peptides à la membrane des bactéries, conduisant à la formation de pores non-sélectifs (Bechinger and Lohner, 2006; Henriques et al., 2006).

4.2. Fonctions biologiques

4.2.1. Le système TisB-IstR-1 : Implication dans la réponse SOS et la persistence

Les fonctions biologiques des cassettes toxines-antitoxines sont pour la plupart mal comprises. Dans la majorité de ces systèmes, l’ARNm codant pour la toxine et le sRNA inhibiteur sont exprimés de façon constitutive, et d’éventuelles variations d’expression, en fonction des conditions physiologiques ne sont pas rapportées. Seules TisB et SymE diffèrent sur ce point, leur expression étant induite lors de la réponse SOS, une voie de régulation mise en place pour répondre à des cassures sur l’ADN génomique (Kawano et al., 2007; Vogel et al., 2004).

46

La transcription de l’ARNm de la toxine TisB est sous le contrôle du répresseur LexA, en condition normale de croissance. Cependant la répression n’est pas totale, et quelques ARNm TisB sont produits, le sRNA IstR-1 empêcherait la traduction de ces transcrits. Dans le cadre de la réponse SOS, l’inhibition LexA (le répresseur LexA est clivé par RecA) dépendante est levée et l’ARNm TisB est massivement transcrit, IstR-1 n’est alors plus capable d’inhiber tous les ARNm, pour une simple raison de stoechiométrie (Figure 16).

L’expression de TisB semblerait alors promouvoir une réduction importante (mais réversible) de la croissance bactérienne, avec un arrêt de la réplication, de la transcription et de la traduction, associés à une dégradation générale des ARN et un désassemblage des ribosomes. Ces effets seraient notamment liés à la perméabilisation de la membrane plasmique par TisB, qui entraîne une fuite de l’ATP cytoplasmique dans le milieu extérieur (Unoson and Wagner, 2008). Les bactéries ainsi placées en état de stase disposeraient alors du temps nécessaire pour réparer leur ADN génomique avant de ré-intégrer leur cycle de division.

Très récemment, TisB a été impliqué dans la formation de cellules persistantes, chez E. coli (Dorr et al., 2010). Les bactéries dites persistantes, ou en dormance, sont des bactéries viables mais ayant stoppé leur processus de croissance. L’apparition de ce type de cellules bactériennes persistantes est favorisée dans des conditions de stress, carence en nutriments, dommage à l’ADN, quorum-sensing.

La croissance et l’activité physiologique étant fortement diminuées dans une cellule persistante, ces dernières sont tolérantes aux antibiotiques ciblant la machinerie de traduction ou le peptidoglycane par exemple. Une fois les conditions extérieures redevenues favorables, ces cellules persistantes sont capables de reprendre leur cycle de division et de repeupler la niche, cette nouvelle population physiologiquement active étant donc sensible aux antibiotiques, mis à part quelques nouvelles cellules entrées en persistance de façon stochastique.

Dans le cas de TisB, Dörr T. et al., démontrent que des bactéries étant mutées pour TisB ont un sévère déficit dans leur capacité à générer des cellules persistantes suite à un traitement à la ciprofloxacine, un antibiotique causant des dommages à l’ADN (Dorr et al., 2010). Ils montrent également qu’une sur- expression de TisB, avant un traitement par divers antibiotiques, augmente de façon importante le pourcentage de bactéries persistantes, et donc tolérantes à ces traitements.

47

Figure 16 : Modèle de fonctionnement de la cassette TisB-IstR-1. En absence de réponse SOS, la transcription de l’ARNm TisAB est réprimée par le répresseur LexA, cependant, dû à quelques fuites, des ARNm TisAB sont transcrits. L’expression constitutive de l’antitoxine IstR-1 assure la répression immédiate de ces ARNm non-désirés.

En cas de réponse SOS, le promoteur de TisAB n’est plus réprimé et permet la transcription massive d’ARNm TisAB, alors en excès par rapport à IstR-1. L’antitoxine, qui agit dans un rapport stoechiométrique de 1 pour 1, ne peut inhiber tous les ARNm TisAB. La toxine TisB est produite, et elle gagne la membrane plasmique pour provoquer un arrêt de la croissance, pendant la phase de réparation de l’ADN.

48

4.2.2. Les théories des élements génétiques « égoïstes » et de la maintenance du génome

Pour les autres cassettes de type I chromosomiques, leurs rôles possibles dans la physiologie bactérienne ne sont pas ou peu connus. Mais de nombreuses hypothèses ont été formulées. Nous en évoquerons ici quelques unes.

La première hypothèse reprend le principe de maintenance d’informations génétiques à l’image des cassettes TA plasmidiques. Dans les génomes bactériens, il existe de nombreux éléments génétiques mobiles (transposons, intégrons), et des régions acquises par transfert horizontal. Ces régions comportent souvent des gènes non-essentiels, mais apportant un avantage sélectif décisif dans certaines conditions environnementales. De nombreux gènes codant pour des protéines de la membrane externe, ou de résistance aux antibiotiques appartiennent à ces catégories de gènes échangés par les bactéries. Certaines cassettes chromosomiques, si elles appartiennent à ces éléments mobiles, pourraient ainsi permettre leur maintenance dans leur génome d’accueil, tuant les bactéries qui perdraient cette région, à l’image des modules d’addiction plasmidiques. Le génome de Vibrio cholerae code pas moins de 13 cassettes TA de type II, et toutes sont localisées dans le super-intégron du chromosome II (Pandey and Gerdes, 2005). Parmi elles, deux cassettes appelées HigB1/A1 et HigB2/A2, lorsqu’elles sont expérimentalement placées sur un plasmide-test permettent une maintenance accrue de ce dernier au sein d’une population d’E. coli (Christensen-Dalsgaard and Gerdes, 2006).

Une seconde hypothèse reprend encore l’idée de la maintenance d’informations génétiques, mais cette fois-ci, les cassettes TA chromosomiques auraient un comportement égoïste, n’assurant que leur propre maintien (Magnuson, 2007). En effet, puisque la plupart ont une expression constitutive (Fozo et al., 2008b; Kawano et al., 2002), la perte de la cassette entrainerait systématiquement l’expression de la toxine et la mort de la bactérie. Ces cassettes se comporteraient donc à l’image de certains systèmes de restriction-modification qui une fois acquis ne peuvent être perdus et se répliquent de manière « virale » dans les génomes bactériens. La présence de cassettes répétées parfois plus d’une dizaine de fois dans certains génomes bactériens, avec à chaque fois des gènes amont et aval différents, supporterait cette hypothèse d’insertion de cassettes TA mobiles assurant leur propre maintenance mais n’apportant aucun bénéfice pour la bactérie hôte (Van Melderen and Saavedra De Bast, 2009). Il est important de noter que la suppression expérimentale des cassettes Ibs-Sib, Ohs-Sho et Ldr-Rdl du génome d’E. coli est possible et que les mutants ne présentent aucune altération de phénotype dans les conditions observées (Fozo et al., 2008b; Kawano et al., 2002).

49

Enfin, une dernière hypothèse suppose que certaines cassettes chromosomiques (dans la mesure où elles possèderaient des homologues plasmidiques) serviraient de modules « d’anti-addiction » : en cas de perte du plasmide, l’ARNm d’origine plasmidique codant pour la toxine serait pris en charge par le sRNA antitoxine codé sur le génome (Van Melderen and Saavedra De Bast, 2009). Cependant, à ce jour très peu de cassettes TA possèdent des homologues plasmidiques identifiés, et cette hypothèse est donc restreinte à un très faible nombre de ces systèmes.

5. Méthodes d’identification des petits ARN régulateurs

Les premiers sRNA ont été découverts expérimentalement, parfois de façon fortuite, lors des travaux de génétiques réalisés chez E. coli. Lors de travaux sur le gène OmpC, placé dans un plasmide puis transformé chez E. coli, les auteurs ont observé que l’expression du plasmide provoquait une répression de OmpF. Ils ont pu démontrer que la diminution d’expression de OmpF était lié au sRNA MicF, qui partage un promoteur bi-directionnel avec OmpC. D’autres, tels que l’ARN 6S doivent leur découverte à l’abondance de leurs transcrits (10 000 copies/cellule en phase stationnaire chez E. coli pour l’ARN 6S).

Les sRNA ne portant pas de séquences codantes, et ayant des caractéristiques variées, les méthodes bio- informatiques classiques s’avèrent inadaptées à la prédiction des gènes de sRNA et il a fallu attendre les années 2000 pour voir apparaître des algorithmes permettant l’identification des sRNA sur des critères bien spécifiques tels que la localisation génomique, la structure ou la conservation inter-espèce. Se sont ensuite développées les méthodes d’analyse globale, telles que les micro-arrays, des co- immunoprécipitations avec Hfq (Tableau 5). Enfin, ces dernières années, l’apparition de techniques de séquençage haut-débit a permis le séquençage des transcriptomes bactériens, une méthode qui permet d’obtenir, sans a priori ou pré-sélection, la séquence de tous les sRNA potentiellemnt exprimés chez la bactérie, à un temps t.

50

Tableau 5 : Les diverses techniques d’identification de sRNA qui seront débattues dans cette section. Premiers Stratégie Avantages/Inconvénients travaux

Constitution rapide d’une liste sRNA candidats. Permet une étude comparative (+) Prédictions bio- avec d’autres génomes bactériens 2001 informatiques Requiert un génome séquencé, et une connaissance des caractéristiques (-) générales des sRNA, pour concevoir les algorithmes de prédiction. Donne en une étape expérimentale le profil de transcription de nombreux sRNA. (+) Permet la comparaison rapide du niveau d’expression des sRNA dans différentes Microarray / 2001 / conditions de croissance. Pas besoin de générer des cDNA, quantitatif Tiling-array 2009 Nécessité de créer des puces spécifiques, ciblant également les régions (-) intergéniques et/ou les brins antisens des ORF. Coûteux. Faux-postifis parfois nombreux.

(+) Indique l’interaction avec des protéines, suggérant des candidats fonctionnels. Hfq-co- 2003 Nécessite interaction suffisante entre le sRNA et la protéine lors de la immunoprécipitation (-) purification. Détecte seulement certaines classes de sRNA Détection de tous les sRNA exprimés, sans a priori, dans une fourchette de taille (+) RNomic (clonage donnée. Distinction des transcrits primaires et processés 2003 shotgun) Séquençage coûteux. Travail lourd. Problème de fidélité lors de l’étape de (-) rétrotranscription. Rendement massif. Permet comparaison entre différentes conditions de Séquençage haut- (+) croissance. Aspect qualitatif et quantitatif. Vision globale de l’organisation débit du 2008 transcriptionnelle. transcriptome (-) Nécessite un important traitement informatique des données. Coûteux.

5.1. Prédiction bio-informatique

A partir de l’identification fortuite de quelques sRNA, une liste des caractéristiques communes a pu être formulée : - Les gènes codant pour ces sRNA sont présents dans les régions intergéniques, entre deux ORF annotées. - Le signal de terminaison de la transcription de ces gènes est dû à un terminateur rho- indépendant, qui sur l’ADN prend la forme d’une séquence inversée répétée suivie d’une succession de plusieurs T, formant une tige/boucle stable sur la molécule d’ARN transcrite. - Ces sRNA possèdent une structure secondaire riche, composée de nombreuses tiges/boucles.

51

- Les gènes codant pour les sRNA trouvés chez E. coli sont généralement bien conservés chez les espèces Salmonella et Klebsiella.

Ces caractéristiques ont été à la base de stratégies de prédictions bio-informatiques menées par plusieurs groupes dont les travaux ont été publiés en 2001, (Argaman et al., 2001; Rivas et al., 2001; Wassarman et al., 2001). Le groupe de S. Gottesman, rapporte une méthode d’identification de sRNA basée sur l’analyse de la conservation des séquences intergéniques de E. coli, comparées par la méthode BLAST, à une banque de génome bactériens. L’équipe a ensuite procédé à la prédiction de promoteurs et terminateurs de transcription rho-indépendants potentiels, parmi les régions intergéniques présentant un fort degré de conservation sur une séquence d’au moins 80 nt. Les données issues de cette méthode bio-informatique, couplées à une analyse par microarray d’ARN potentiellement exprimés à partir de ces régions intergéniques a permis de sélectionner une soixantaine de sRNA candidats. Enfin une confirmation de l’expression et de la taille de ces transcrits, par Northern blot, a permis au final de découvrir 17 nouveau sRNA potentiels chez E. coli, la plupart d’entre eux étant capables d’interagir avec la protéine Hfq. Des approches relativement similaires ont été réalisées par Argaman et al., la même année. Cependant, les algorithmes de prédiction étant sensiblement différents, les candidats identifiés par chacune de ces équipes ne se recoupent que rarement. La figure 17 montre les principaux critères de détection utilisés par les méthodes bio-informatiques Toujours à la même époque, une dernière équipe a employé une méthode de prédiction se basant sur un autre critère des sRNA : l’importance de la structure secondaire (Rivas et al., 2001). Ils ont ainsi différencié, parmi des régions intergéniques conservées, celles qui présentaient des mutations aléatoires, des mutations séquentielles (tous les 3 nucléotides) caractérisant des régions codantes, et des mutations dites compensatoires, autrement dit, des mutations qui ne modifient pas la structure secondaire de l’ARN, si la région est transcrite. Par exemple, si dans une tige la base G d’une paire G-C mute en A, la complémentarité n’est plus respectée et peut entrainer une déstabilisation de la tige et donc une modification de la structure secondaire. Une mutation compensatoire du C en T permet de restaurer cette complémentarité et l’intégrité de la tige. Ces mutations compensatoires sont donc d’excellents indicateurs de l’importance fonctionnelle d’une structure secondaire donnée. L’ensemble de ces travaux d’identification ont permis de découvrir une cinquantaine de sRNA chez E. coli.

52

Figure 17 : Critères de prédiction de sRNA par bio-informatique. Les principales études bio-informatiques se sont concentrées sur les régions intergéniques (IGR) présentes entre deux ORF annotées. Les algorithmes ont été conçus pour détecter au sein de ces IGR des motifs promoteurs et des terminateurs rho-indépendants (formant une structure en tige-boucle), espacés par 40 à 400 nt en moyenne.

Ces dernières années, l’augmentation du nombre de génomes bactériens séquencés et le perfectionnement des algorithmes de prédiction (par conservation de séquences, structure ou motifs) ont largement contribué à la découverte de petits ARN régulateurs candidats, avec toutefois l’incovénient de générer beaucoup de faux-positifs (parfois plus de 50% des candidats) (Livny and Waldor, 2007; Marchais et al., 2009).

5.2. Les analyses globales : Microarray et Hfq-coimmunoprécipitation

L’analyse par microarray a été la méthode la plus utilisée pour les études de transcriptome, et a permis la découverte de nombreux sRNA. Deux types de microarray ont été utilisés. Les premiers sont à « petite échelle », ils possèdent des sondes ADN permettant de détecter des transcrits correspondant à des régions pré-définies du génome (région intergénique, sRNA connus, brin antisens aux mRNA, etc). La seconde génération, appelée « tiling array » comporte des centaines de milliers de sondes différentes recouvrant l’ensemble du génome bactérien, sur le brin positif et négatif.

La première génération de microarray a notamment été utilisée par le groupe de S. Gottesman en 2001 en complément de leur prédiction bioinformatique (Wassarman et al., 2001). En 2002, Tjaden et al., publient les résultats d’un microarray à plus grande échelle, conçu pour détecter la transcription sur le brin positif de chaque gène annoté, et sur les deux brins dans les régions intergéniques. Ces travaux réalisés sur des ARN totaux extraits d’E. coli cultivée dans 13 conditions de culture différentes ont permis

53 de détecter 19 des 34 sRNA déjà vérifiés expérimentalement, et en ont découvert ou confirmé 9 autres (Tjaden et al., 2002).

Les « tiling arrays » ont ensuite été ensuite utilisés pour la découverte globale de sRNA dans des espèces bactériennes variées telles que Caulobacter crescentus (Landt et al., 2008), les cyanobactéries marines du genre Prochlorococcus (Steglich et al., 2008), et les pathogènes Lysteria monocytogenes (Toledo- Arana et al., 2009) et Mycobacterium leprae (Akama et al., 2010). Chez ces deux dernières espèces, l’analyse de transciptome par microarray réalisée sur des bactéries en conditions d’infection a permis de détecter la surexpression de certains sRNA, certains étant requis pour l’établissement de l’infection. Par ailleurs, l’étude réalisée chez Listeria a permis de doubler la taille du répertoire des sRNA connus chez cet organisme, qui est désormais d’environ 50 sRNA (Toledo-Arana et al., 2009).

Des techniques de co-immunoprécipitation des sRNA avec des protéines ont également été utilisées pour tenter de pêcher des sRNA, sans a priori de séquences. La protéine Hfq a été l’appât le plus utilisé pour la découverte de sRNA par co-immunoprécipitation. En effet, presque la moitié des sRNA identifiés chez E. coli et Salmonella nécessiteraient une association avec Hfq pour exercer leurs fonctions régulatrices sur les ARNm cibles (Brennan and Link, 2007).Dans une étude chez E. coli, l’incubation d’extraits cellulaires avec anticorps polyclonaux anti-Hfq, suivi d’un « tiling array » sur les ARN ayant co- immunoprécipité avec Hfq (Zhang et al., 2003). Parmi les 46 sRNA connus à l’époque, 15 ont été détectés après la co-immunoprécipitation avec Hfq. Ils ont également obtenu des signaux de transcription correspondant à 20 régions intergéniques différentes, pouvant représenter autant de nouveaux sRNA potientels, mais leur expression n’a pu être confirmée par Northen blot que pour 5 d’entre d’eux. La co-immunoprécipitation de sRNA par Hfq, suivi d’une étape d’identification des sRNA associés à la protéine par séquençage direct ou microarray a permis l’identification de sRNA dans divers organismes tels Listeria (Christiansen et al., 2006) ou Pseudomonas aeruginosa (Sonnleitner et al., 2008).

5.3. La RNomique (clonage shotgun)

En 2003 et 2005, deux groupes ont utilisé une technique de clonage shotgun d’ARN pour identifier de nouveaux sRNA chez E. coli (Kawano et al., 2005; Vogel et al., 2003). Le principe consiste à générer des banques d’ADN complémentaires, à partir d’ARN totaux bactériens enrichis pour une certaine taille (50 à 500 nt pour Vogel et al., et 30 à 65 nt pour Kawano et al.).

54

Dans le travail de J. Vogel, ces cDNA sont ensuite clonés dans des plasmides, puis séquencés, après une étape de sélection des clones comportant des ARN connus et abondants (ARNr et ARNt). Ainsi, sur 10 000 clones générés, seuls 3000 ont été retenus pour l’étape d’identification par séquençage. Parmi les clones sélectionnés et séquencés, 78% correspondent à des ARNm connus, 5% à des séquences antisens des ARNm, non caractérisées à l’époque, et 17% de séquences correspondent à des transcrits issus des régions intergéniques. Outre la confirmation d’une vingtaine de sRNA, sur les 55 auparavant prédits par bio-informatique, la RNomic a permis de découvrir de nouveaux sRNA issus des régions intergéniques mais également localisés au niveau des régions 5’ et 3’ non traduite des ARNm, régions qui avaient été exclues des autres études d’identification de sRNA.

Un autre avantage de cette méthode est qu’elle permet d’identifier des sRNA sans a priori quant à leurs caractéristiques structurelles ou fonctionnelles, et leurs conservations dans d’autres organismes. Le seul pré-réquis étant que ces RNA doivent être exprimés (certains ne le sont que dans certains conditions de culture), et que leur niveau d’expression soit suffisant pour qu’ils aient une chance d’être représentés au sein des banques de clones. Pour pallier à cet inconvénient, J. Vogel avait par exemple réalisé trois banques différentes, générées à différentes étapes de la croissance (Vogel et al., 2003). Cependant certains sRNA, dont l’expression dépend d’une condition de stress, tels que OxyS, sont passés complètement inaperçus dans cette approche.

5.4. L’ère du séquençage haut-débit

Des analyses de transcriptome à grande échelle chez les procaryotes ont été réalisées via deux approches principales, les « tiling arrays » cités précédemment et le séquençage d’ARN totaux ou « RNA- seq » (Passalacqua et al., 2009; Wurtzel et al., 2010). La méthode de RNA-seq a été rendue possible par l’apparition des nouvelles techniques de séquençage haut-débit telles que le pyroséquençage 454 de Roche, l’lllumina genome analyzer et les plateformes SOLiD de Applied Biosystems. Ces techniques permettent un séquençage massif, et sensible, de transcriptomes complets (Sorek and Cossart, 2010; Wang et al., 2009).

Le principe de ces méthodes consiste à d’abord extraire les ARN totaux des bactéries, puis à générer des banques d’ADNc par rétrotranscription. Etant donné que les ARN procaryotes ne possèdent pas de queue poly(A), contrairement aux eucaryotes, l’étape de rétrotranscription nécessite des approches alternatives à l’utilisation d’amorces oligo(dT). Plusieurs méthodes ont été mises en place telles que l’utilisation d’amorces hexamériques de séquences aléatoires (Passalacqua et al., 2009), la ligation

55 d’adaptateurs à l’extrémité des ARN (Sittka et al., 2008), ou la polyadénylation artificielle des ARNs (Frias-Lopez et al., 2008).

Par ailleurs, étant donné que les ARNr et les ARNt peuvent représenter jusqu’à 90% des ARNtotaux, il est souhaitable d’éliminer au moins une partie de ces ARN abondants et non-informatifs qui monopoliseraient inutilement 90% du potentiel de séquences fournies par ces techniques de séquençage haut-débit (Sorek and Cossart, 2010). Pour pallier à ce problème certains groupes ont appauvri les ARN totaux en ARNr en les piégeant grâce à des sondes complémentaires des ARNr 16S et 23S couplées à des billes magnétiques (kit Microbexpress chez Ambion) (Passalacqua et al., 2009; Perkins et al., 2009; Yoder- Himes et al., 2009).

Un autre protocole récemment appliqué est basé sur l’observation que la polymérase poly(A) de chez E. coli va préférentiellement polyadényler les ARNm mais pas les ARNr (Amara and Vijaya, 1997; Wendisch et al., 2001). Ainsi, à la suite d’une étape de polyadénylation, les ARN totaux sont rétrotranscrits en utilisant des amorces oligo(dT). Cette approche utilisée dans une étude transcriptomique a permis de réduire la représentation des ARNr à 50% des ARN totaux (Frias-Lopez et al., 2008).

Les ADNc contenus dans la banque peuvent alors être séquencés. Le séquençage haut-débit permet de séquencer simultanément un grand nombre de cDNA différents. Une étape de séquençage fournit en général des centaines de milliers de courtes séquences (de 50 à 300 bp) correspondant à autant de transcrits ARN. La grande force du séquençage haut-débit par rapport au « tiling array » est d’indiquer, en plus de la détection de l’expression, la séquence, à la base près, des ARN exprimés. Il devient alors possible de définir avec une relative précision les bornes 5’ et 3’ de ces ARN, ce qui dans le cas des ARNm nous renseigne sur la région 5’UTR, siège de nombreuses régulations.

En ce qui concerne la découverte de sRNA, l’analyse comparative de transcriptomes par RNA-seq a permis d’identifier chez Burkholderia cenocepacia 13 sRNA impliqués dans l’adaptation de la bactérie entre sa niche écologique et sa niche infectieuse chez l’homme (Yoder-Himes et al., 2009). Chez Salmonella, Perkins et collaborateurs, ont réalisé une approche RNA-seq grâce à laquelle ils ont mis en évidence 55 régions intergéniques pouvant contenir des gènes codant pour des sRNA (Perkins et al., 2009; Sittka et al., 2008).

56

Chapitre 2 : Helicobacter pylori

1. Introduction

Au début des années 80, deux chercheurs australiens, Barry Marshall et Robin Warren, sont parvenus à isoler une bactérie de forme spiralée, à partir de biopsies gastriques prélevées sur des patients souffrant d’ulcères (Marshall and Warren, 1984). Leurs travaux, pour lesquels ils ont obtenu le prix Nobel de Médecine 2005 (Megraud, 2005), ont démontré par la suite que cette bactérie gram-négative, nommée Helicobacter pylori (H. pylori), était l’agent étiologique de plusieurs pathologies gastro-duodénales dont l’ulcère peptique ; que la croyance populaire attribuait au stress, ou à la nourriture épicée.

Figure 18 : Micrographie d’une cellule d’H. pylori, observée par microscopie électronique à balayage. Source : (Mobley et al., 2001)

0.5µm

Sous le microscope, H. pylori apparaît comme un bacille spiralé, mesurant en moyenne 0,5 µm de diamètre sur 5 µm de long, et possédant plusieurs flagelles unipolaires (Figure 18).

Cette bactérie, dont le seul réservoir connu est l’estomac humain, compte parmi les rares organismes à pouvoir survivre durablement dans ce milieu hostile, du fait de son acidité. Elle est actuellement classée dans le groupe des epsilon-protéobactéries aux côtés d’autres espèces retrouvées dans le tractus digestif de différents animaux telles qu’Helicobacter felis (animaux domestiques), Helicobacter acinonychis (grands félins) ou Campylobacter jejuni, un bacille spiralé responsable de pathologies entériques chez les humains, bovins et ovins.

D’un point de vue épidémiologique, H. pylori infecte aujourd’hui de 20 à 90 % de la population mondiale, la prévalence de l’infection dépendant principalement de l’environnement socio-économique, en

57 particulier l’hygiène et la promiscuité (Brown, 2000). Acquise dans la petite enfance, par transmission orale-orale le plus souvent, la bactérie est capable de persister pendant de nombreuses années dans l’estomac de son hôte, en absence de traitement. L’infection instaure un contexte d’inflammation chronique au niveau de la muqueuse gastrique (gastrite), qui reste asymptomatique dans une majorité de cas. Cependant, 10 à 20 % des patients développeront des ulcères (Kuipers et al., 1995) et 3% des cancers gastriques, de type adénocarcinome ou plus rarement de lymphome du MALT (mucosa- associated lymphoid tissue), qu’on estime responsables de 700000 décès par an (Atherton, 2006; Sobhani, 2004; Suerbaum and Josenhans, 2007). Le lymphome du MALT gastrique est une prolifération incontrôlée de lymphocytes B, au niveau de la sous-muqueuse gastrique, en réponse à l’inflammation chronique engendrée par l’infection à H. pylori (Sagaert et al., 2010). La bactérie est présente chez 95% des patients atteints de lymphome du MALT, et une éradication de H. pylori au cours des premiers stades de la maladie entraîne une régression du lymphome dans 80% des cas (Sagaert et al., 2010).

La cohabitation entre H. pylori et le genre Homo sapiens semble être ancestrale. Des études de génomique comparative ont démontré que la dissémination de la bactérie et des humains sur la Terre s’est produite de façon concomitante, il y a 58 000 ans. Le point d’origine de cette dissémination serait l’Afrique subsaharienne, qui était alors le berceau de l’Humanité (Falush et al., 2003; Linz et al., 2007). Le génome de la bactérie, très variable d’une souche à l’autre, reflète ces longues années d’évolution indépendante au sein d’ethnies humaines isolées géographiquement.

2. Facteurs bactériens impliqués dans la pathogénèse de l’infection à H. pylori

Chez une personne infectée, qu’elle soit malade ou porteuse saine, la bactérie est retrouvée à la surface de la muqueuse gastrique, au niveau de l’antre ou du corps de l’estomac. H. pylori se développe principalement de manière extracellulaire, bien que la présence de bactéries en division dans des vacuoles des cellules épithéliales ont déjà été rapportées (Chu et al., 2010). Une partie de la population bactérienne adhère aux cellules épithéliales tandis qu’une autre se situe dans le mucus gastrique (Figure 19). Sur des coupes anatomopathologiques, le tissu gastrique présente systématiquement des signes d’inflammation, caractérisant une gastrite, avec des infiltrats de cellules immunitaires et une sécrétion de chimiokines pro-inflammatoires, dont l’interleukine 8 (IL-8).

58

Figure 19 : Marquage de Steiner sur des coupes de muqueuses gastriques saines ou infectées par H. pylori. Les bactéries, marquées par l’argent, apparaissent sous forme de bacilles incurvées violets à la surface de l’épithélium gastrique. Source : Blaser Lab Group (http://www.med.nyu.edu/medicine/labs/blaserlab)

De la localisation de l’infection dans l’estomac dépendra généralement le type de pathologie qui pourra se développer chez un patient. Si l’infection touche principalement l’antre de l’estomac, elle entraînera une augmentation des sécrétions acides et orientera le patient vers l’ulcère duodénal (Figure 20) (Atherton, 2006). Si l’infection est étendue au corps de l’estomac, il en découlera une réduction des sécrétions acides et une évolution de la maladie vers l’ulcère gastrique et l’adénocarcinome. L’inflammation chronique engendrée par l’infection à H. pylori peut également entrainer l’apparition de lymphomes du MALT (Atherton, 2006). Le pouvoir pathogène de la bactérie réside tant dans sa capacité à coloniser de manière persistante la niche gastrique, que dans l’expression de facteurs de pathogénicité dirigés contre les cellules gastriques humaines.

59

Figure 20 : Evolutions pathologiques de l’infection à H. pylori. La persistance d’H. pylori dans l’estomac entraîne l’apparition d’une gastrique chronique. En fonction de la localisation de l’infection et de facteurs bactériens ou de l’hôte, la maladie peut rester asymptomatique ou évoluer vers des formes plus graves (ulcères et cancers gastriques). L’inflammation chronique engendrée par l’infection à H. pylori peut également conduire à l’apparition de lymphome du MALT. D’après (Portal-Celhay and Perez-Perez, 2006).

2.1. Colonisation de la niche gastrique

2.1.1. L’uréase

Le milieu gastrique est caractérisé par un pH très acide, allant de pH=2 dans la lumière de l’estomac, à pH=6 au niveau des cellules épithéliales gastriques, protégées par une épaisse couche de mucus. Pour lutter contre cette acidité, hostile à la plupart des micro-organismes, Helicobacter pylori possède une enzyme, l’uréase, qui catalyse l’hydrolyse de l’urée en ammoniac, selon la réaction suivante :

NH2-CO-NH2 + H2O  2 NH3 + CO2 L’ammoniac est un accepteur de proton qui va ainsi permettre à la bactérie de tamponner son pH périplasmique (Figure 21B) (Scott et al., 1998; Stingl et al., 2002). L’uréase est une holoenzyme, dont l’activité catalytique dépend de son co-facteur, le nickel (Ha et al., 2001). L’apoenzyme est un dodécamère, composée à part égale des sous-unités UreA et UreB. Les autres protéines associées à l’uréase sont le complexe UreEFGH qui assure l’activation de l’enzyme par l’incorporation d’ions nickel (Ni2+) au site actif, et UreI, qui est un canal membranaire permettant à l’urée extracellulaire de pénétrer dans la bactérie, afin d’être pris en charge par l’uréase (Bury-Mone et al., 2001; Weeks et al., 2000).

60

Plusieurs tests d’infection réalisés sur des modèles animaux, avec des souches mutées pour l’uréase ou les protéines associées démontrent le caractère essentiel de cette protéine dans la colonisation et la persistance de H. pylori dans le milieu gastrique (Eaton and Krakowka, 1994; Skouloubris et al., 1998).

2.1.2. Les flagelles et le chimiotactisme

La colonisation de l’estomac par H. pylori dépend également de sa mobilité, conférée par ses 2 à 6 flagelles unipolaires. Dans des tests d’infection sur un modèle animal (porcelets) Eaton et al. démontrent que des souches non-mobiles, mutées pour les protéines FlaA et FlaB (constituant le filament flagellaire chez H. pylori), ne sont pas capables d’instaurer une colonisation efficace et durable de l’estomac au contraire d’une souche sauvage (Eaton et al., 1996). La souche d’H. pylori 26695, largement étudiée dans la littérature est non-mobile, en raison d’un mutation sur le gène fliP, qui code pour une protéine impliquée dans la biosynthèse des flagelles (Josenhans et al., 2000).

A l’instar de nombreuses espèces bactériennes mobiles, la nage d’H. pylori est orientée par des systèmes chimiotactiles capables de percevoir divers stimuli du milieu extérieur, dont le gradient de pH (Figure 21A). La capacité de la bactérie à se mouvoir en fonction du gradient de pH (ou pH-tactisme) est dépendante d’un récepteur membranaire appelé TlpB, essentiel pour la colonisation de l’estomac dans un modèle murin (Croxen et al., 2006). Le chimiotactisme chez H. pylori serait principalement requis lors des étapes précoces de la colonisation de la niche gastrique. En effet, des études menées sur divers modèles animaux (porcelets, souris et gerbilles) démontrent une capacité de colonisation amoindrie voire abolie selon les études, pour des souches mutées sur des protéines du chimiotactisme, comme par exemple le récepteur TlpB (Croxen et al., 2006; Foynes et al., 2000; McGee et al., 2005; Terry et al., 2005).

Un dernier facteur lié à la mobilité d’H. pylori dans le mucus gastrique est sa forme hélicoïdale, qui favoriserait sa pénétration dans la viscosité du mucus gastrique. Cette forme particulière est façonnée par la structure de sa paroi de peptidoglycane. Récemment, Sycuro et al, ont montré que c’est un relâchement dans la structure du peptidoglycane, assuré par quatre peptidases, qui était à l’origine de cette forme torsadée (Sycuro et al., 2010).

61

2.1.3. Les protéines d’adhésion

L’adhésion aux cellules épithéliales gastriques est un pré-requis pour la colonisation de l’estomac par H. pylori. L’adhésion est assurée par des protéines exprimées sur la membrane externe de la bactérie. Plusieurs de ces protéines sont associées aux souches les plus pathogènes (Zambon et al., 2003). Parmi elles, les adhésines BabA et BabB (blood-group antigen binding adhesions) sont capables de lier les antigènes Lewisb exprimés par les cellules gastriques de l’hôte, permettant un ancrage de la bactérie sur la surface de la muqueuse gastrique (Figure 21C). BabB est indispensable à la colonisation gastrique dans un modèle d’infection in vivo développé chez la souris (Guruge et al., 1998).

Figure 21 : Principaux facteurs de colonisation d’H. pylori. A. La bactérie mue par ses flagelles et guidée par chimiotactisme, fuit la lumière très acide de l’estomac et s’enfonce dans le mucus gastrique (zone bleu clair). B. L’uréase catalyse l’hydrolyse de l’urée en ammoniac, qui permet à la bactérie de tamponner son pH interne. C. Adhésion d’H. pylori sur les cellules épithéliales gastriques, via l’interaction entre les adhésines BabA/B et SabA, et les antigènes Lewisb et Lewisx, exprimés à la surface des cellules.

2.2. Facteurs de pathogénicité

2.2.1. La cytotoxine vacuolisante VacA

La majorité des souches d’H. pylori possèdent un gène vacA fonctionnel qui code pour une cytotoxine de 87 kDa induisant la vacuolisation des cellules épithéliales (Harris et al., 1996; Schmitt and Haas, 1994). Les souches exprimant vacA sont plus fréquemment associées aux patients ayant développé des ulcères et des cancers gastriques (Atherton et al., 1997; Hou et al., 2000). La protéine VacA, assemblée en hexamère, forme des canaux à anions au niveau des endosomes cellulaires. La perturbation de

62 l’homéostasie des endosomes par VacA provoque leur gonflement aboutissant à la vacuolisation des cellules (Iwamoto et al., 1999). VacA perturbe également le fonctionnement de la mitochondrie, et la voie des caspases 3 et 8, participant à l’induction de l’apoptose dans les cellules infectées (Rudi et al., 1998) (Figure 22).

2.2.2. La protéine cagA et le système de sécrétion de type IV

Des études destinées à identifier des marqueurs associés aux formes les plus virulentes de la bactérie ont conduit à l’identification de la protéine CagA (Covacci et al., 1993). Le gène codant pour la protéine cagA est compris dans un ilot génomique, dénommé cag-PAI (cag pathogenicity island) (Censini et al., 1996) comprenant de 27 à 31 gènes. Un groupe de gènes présent dans cet ilot possède d’ailleurs des homologies avec des systèmes de sécrétion de type 4 (T4SS) (Akopyants et al., 1998a), rencontrés chez d’autres bactéries. Ces T4SS se comportent comme des « seringues moléculaires », permettant l’injection de matériel bactérien dans des cellules hôtes eucaryotes. Par exemple, le T4SS de la bactérie Agrobacterium tumefaciens est impliqué dans le transfert d’ADN dans les cellules hôtes végétales (Stachel and Nester, 1986). Ce système est tellement efficace qu’il est utilisé par les biologistes pour transformer une plante comme Arabidopsis thaliana. Chez H. pylori, il a été démontré que le T4SS assurait le transport la protéine cagA depuis la bactérie jusque dans le cytoplasme des cellules gastriques infectées (Odenbreit et al., 2000). La structure de T4SS est composée d’un complexe protéique localisé sur la membrane interne de la bactérie et qui s’étend à travers la couche de peptidoglycane, dans l’espace périplasmique. A partir de ce cœur, la polymérisation de la protéine virB2 forme la seringue protéique. Parmi les protéines composant l’architecture du T4SS, la protéine cagL, localisée le long de la « seringue », possède un motif RGD qui assure l’arrimage du T4SS aux sous-unités B1 de l’intégrine, exprimée à la membrane des cellules gastriques (Kwok et al., 2007).

Une fois injectée dans le cytoplasme des cellules gastriques, cagA est phosphorylé par des tyrosines kinases cellulaires de la famille (Selbach et al., 2002) puis interagit avec différentes protéines régulatrices de l’hôte telles que les src kinases ou la tyrosine phosphatase Csk, impliquées notamment dans les remaniements du cytosquelette et la mobilité des cellules (Selbach et al., 2003) (Figure 22). In vitro, la conséquence de ces perturbations se manifeste par un changement morphologique important d’une lignée gastrique particulière, les cellules AGS, qui adoptent une forme allongée, aussi appelée phénotype « colibri ».

63

Outre la cascade de dérégulation induite par la protéine cagA, le T4SS induit d’autres conséquences, cagA indépendante, sur les cellules gastriques. Ainsi, des travaux ont montré que des fragments de peptidoglycane pouvaient transiter via le T4SS, et être reconnus, dans le cytoplasme des cellules gastriques, par le récepteur NOD1, un récepteur « toll-like » intracellulaire au peptidoglycane (Viala et al., 2004). Cette reconnaissance entraine l’activation de facteur de transcription Nf-KB, à l’origine d’une importante surexpression d’IL-8.

Figure 22 : Effet des principaux facteurs de pathogénicité d’H. pylori sur la physiologie des cellules épithéliales gastriques. Le système de sécrétion de type IV (T4SS) permet l’injection de CagA et de fragments de peptidoglycane (PG) dans la cellule. La reconnaissance du PG par le récepteur cytoplasmique NOD-1 conduit à l’activation du facteur de transcription NF-kB, qui déclenche la surexpression de cytokines pro-inflammatoires. CagA interagit avec plusieurs protéines régulatrices (dont les tyrosine-kinases de la famille src) conduisant à une déstabilisation du cytosquelette d’actine et participe à l’activation de NFkB. La cytotoxine VacA possède un domaine qui permet sa sécrétion dans le milieu extérieur (système de sécrétion autotransporteur de type V). VacA se fixe ensuite à la surface des cellules humaines, dans lesquelles la toxine est internalisée et induit la formation de pores, anion-sélectifs, au niveau des membranes plasmiques de la mitochondrie et des endosomes tardifs.

64

3. Le génome de la bactérie

Une quinzaine d’années s’est écoulée entre l’isolement d’Helicobacter pylori par R. Warren et B. Marshall et la publication du premier génome séquencé de la souche 26695 (Tomb et al., 1997). Cette souche de référence, à l’origine isolée au Royaume-Uni chez un patient souffrant de gastrite chronique, a connu de nombreux passages in vitro et est désormais uniquement adaptée à la culture en laboratoire.

Un an plus tard, Alm et al. publient la séquence d’une souche issue d’un patient souffrant d’ulcères duodénaux, faisant d’H. pylori le premier micro-organisme pour lequel deux génomes issus de souches indépendantes sont disponibles (Alm et al., 1999). Contrairement à la souche 26695, la souche J99 a subi un nombre minimal de passages in vitro. La comparaison de ces deux génomes a apporté de nombreux éclaircissements quant à la structure et l’évolution du génome de la bactérie. Depuis 2006, un grand nombre de génomes, issus de souches originaires de différentes zones géographiques, a été publié. Ainsi, nous disposons à l’heure actuelle d’une quinzaine de génomes, ce qui constitue un support considérable pour étudier l’organisation globale du génome et la conservation des gènes chez H. pylori. Les caractéristiques des génomes utilisés dans ce travail de thèse sont présentées dans le tableau 6.

Le génome de ces différentes souches avoisine 1,6 Mb de long, et code pour 1500 gènes en moyenne, ce qui en fait un génome assez petit comparé aux 4,5 Mb du génome d’E. coli, qui code pour environ 4200 gènes. Par ailleurs, nombre de gènes prédits chez H. pylori semblent être spécifiques à l’espèce. Par exemple, lors du séquençage de la souche B8, 1711 séquences codantes ont été prédites ; cependant l’annotation fonctionnelle de ces gènes (basée sur l’homologie de séquences avec des orthologues caractérisés dans d’autres espèces bactériennes) n’a permis d’en caractériser que 929, soit à peine plus de la moitié (Farnbacher et al., 2010). Le nombre de gènes conservés mais de fonction inconnue s’élève à 496, ce qui laisse un nombre très important (286) de gènes hypothétiques non conservés.

ARN de ménage Alors que chez E. coli et de nombreuses autres bactéries les ARNr 23S, 16S et 5S sont transcrits à partir d’un seul et même opéron, l’organisation des ARNr chez H. pylori est particulière. En effet, seuls les ARNr 23S et 5S sont transcrits en opérons, le gène de l’ARN 16S se trouvant à un locus distant. Chacun de ces gènes est présent en 2 copies sur le génome. Toutefois, chez les souches 26695, B38 et G27 il existe une troisième copie, orpheline, du gène codant l’ARNr 5S, probablement acquise suite à un événement de recombinaison.

65

Tableau 6 : Caractéristiques des 8 génomes séquencés et annotés d’Helicobacter pylori utilisés dans ce travail de thèse, d’après (Farnbacher et al., 2010; Thiberge et al., 2010).

Sont représentés les génomes des souches 26695 (Tomb et al., 1997), J99 (Alm et al., 1999), B8 (Farnbacher et al., 2010), HPAG1 (Oh et al., 2006), P12 (Fischer et al., 2010), B38 (Thiberge et al., 2010), G27 (Baltrus et al., 2009) et shi470 (2008, pas de publication associée, numéro GenBank : CP001072)

Caractéristiques J99 26695 B8 HPAG1 P12 B38 G27 Shi470 du génome

Origine Royaume- Etats-Unis nd Suède Allemagne France Italie Pérou géographique Uni

Souche Gastrite Pathologie Pathologie Ulcère adaptée au Ulcère Lymphome Gastrite atrophique gastroduodé nd associée duodénal modèle duodénal du MALT chronique nale Gerbille

Date de 1999 1997 2010 2006 2008 2010 2008 2008 publication Taille (paires de 1.64Mb 1.67Mb 1.68Mb 1.6Mb 1.67Mb 1,58Mb 1,65 1,6Mb base) (G + C)% 39 39 39 39 39 39 38 38 cagPAI Positif Positif Positif Positif Positif Négatif Positif Positif Cadres ouverts de lecture Nombre de 1 496 1576 1711 1536 1568 1382 1496 1568 prédictions % du génome 90.8 91.0 91,8 91,9 89,7 85 86 88

Nb. de gènes spécifiques à 112 204 293 152 202 16 nd nd chaque souche

ARNr et ARNt

ARNr 23S-5S 2 2(+1) 2 2 2 2(+1) 2+1 2

ARNr 16S 2 2 2 2 2 2 2 2 ARNt 36 36 36 36 36 36 36 36 Séquences d’insertions Type IS606 IS606/IS200 IS606 IS606 IS606 IS609 IS605 IS606 Nombre 6 17/5 1 7 1 20 9 5

66

Les gènes d’autres ARN non-codants de ménage sont également présents sur le génome d’H. pylori, comme par exemple les gènes codant pour l’ARN P (l’ARN catalytique de la RNase P), ou l’ARN SRP (« signal recognition particle »). H. pylori possède également le gène ssrA codant pour le tmRNA, un ARN qui a pour fonction de recycler les ribosomes bloqués sur des ARNm et dont le mécanisme d’action détaillé et le caractère essentiel a récemment été démontré chez H. pylori (Thibonnier et al., 2008). En revanche, de manière surprenante l’ARN 6S n’a pu être retrouvé par homologie de séquence dans le génome d’H. pylori.

Plasmides Pour 50% des souches, le génome comprend également un plasmide, de taille variable (en moyenne 10 kb) (Hofreuter and Haas, 2002). Outre la présence de gènes impliqués dans le transfert plasmidique, ces plasmides contiennent des homologues de gènes retrouvés dans la zone de plasticité chromosomique. Ces plasmides portent également plusieurs motifs répétés, associés à des zones ayant une forte activité de recombinaison, pouvant expliquer un échange de matériel entre le plasmide et le chromosome d’H. pylori (Hofreuter and Haas, 2002). Un de ces plasmides, appelé pHel, a servi de base à la construction de plasmides navettes E. coli-H. pylori, afin de compléter le panel limité des outils de manipulation génétiques disponibles pour cet organisme (Boneca et al., 2008; Carpenter et al., 2007).

3.1. Diversité du génome

La prévalence importante des infections à H. pylori et la diversité des pathologies associées ont amené la communauté scientifique à tenter de « génotyper » les souches, afin d’identifier des profils et des marqueurs génétiques liés aux maladies les plus sévères.

Les premiers génotypes utilisaient les techniques de MLST (multilocus sequence typing) ou de RFLP (restriction fragment length polymorphism). La technique MLST consiste à séquencer un groupe de gènes de ménage définis et à comparer ces séquences entre différents isolats. Les isolats partageant des allèles identiques sont affiliés à un profil génotypique identique. La technique de RFLP quant à elle consiste à digérer le génome avec une ou plusieurs enzymes de restriction, puis à analyser la taille des fragments obtenus sur gel. La taille de ces fragments dépend du nombre de sites de restriction présents sur le génome, sites qui peuvent être mutés ou non d’une souche à l’autre. Les souches ayant un profil de restriction identique sont rattachées à un même génotype.

Chez H. pylori, différentes tentatives de génotypage basées sur ces techniques démontrent l’existence d’un polymorphisme très important entre les différentes souches, y compris au sein d’une même zone

67 géographique. Ainsi, une analyse par RFLP réalisée sur 37 isolats cliniques prélevés en France a fourni 37 génotypes différents (Salaun et al., 1998). Un même résultat a été obtenu dans une seconde étude, au cours de laquelle plusieurs dizaines d’isolats prélevés en Allemagne et au Canada ont été séquencés au niveau des gènes des protéines flagellaires FlaA et FlaB et de la cytotoxine VacA. Chacun des isolats possède un allèle unique (de part sa séquence nucléotidique) au niveau de ces trois gènes (Suerbaum et al., 1998). Il est ainsi très rare que deux gènes orthologues partagent une séquence identique (Evans et al., 1998; Hazell et al., 1997; Suerbaum et al., 1998). Du fait de la redondance du code génétique, la séquence des protéines est cependant mieux conservée : selon la littérature seulement 8 gènes possèdent une séquence nucléotidique identique à 98% entre les souches 26695 et J99, contre 351 protéines partageant une séquence en acides aminés avec 98% d’identité entre les deux souches (Doig et al., 1999).

Les informations fournis par les séquençages des premiers génomes d’H. pylori ont permis de mettre au point des microarray génomiques, pour analyser plus précisément la composition en gènes de différentes souches. Ces travaux ont révélé que 6 à 7 % des gènes étaient souche-spécifiques et que 22% des gènes étaient absents dans au moins une souche (Salama et al., 2000) et que le cœur du génome était composé de 1111 gènes conservés (Gressmann et al., 2005). Le dernier microarray en date, conçu pour détecter 254 gènes variables d’H. pylori, et réalisé sur 120 souches prélevées en France révèle un profil unique pour chacune de ces souches (Thiberge et al., 2010), soulignant la diversité de ces génomes. Toutefois, plusieurs souches exhibent un profil proche, et notamment une sous-population de souches, cag-PAI négatives, issues de patients souffrant de lymphome du MALT.

La plupart des gènes souche-spécifiques identifiés dans ces études correspondent à la classe des OMP, des transposons et des systèmes de restriction-modification (Salama et al., 2000). Ces gènes souche- spécifiques ne sont pas distribués de façon homogène sur le génome : la moitié d’entre eux est localisée dans une « zone de plasticité » (Alm et al., 1999), d’autres se trouvent dans l’ilot de pathogénicité cag, et d’autres sont rassemblés cassettes de deux à sept gènes, suggérant des éléments génétiques acquis par transfert horizontal (Salama et al., 2000).

3.1.1. Les zones de plasticité

L’analyse comparative des deux premiers génomes publiés sur les souches d’H. pylori a révélé la présence d’une large région hypervariable, appelée la zone de plasticité (PZ, « plasticity zone »). Chez la souche 26695, la PZ, qui représente au total 65 kb, a subi une importante recombinaison et se trouve

68 divisée entre deux loci différents sur le génome de la bactérie. Chez la souche J99 en revanche cette région est conservée en un seul bloc, de 45 kb (Alm et al., 1999). L’organisation et les gènes présents dans ces PZ divergent fortement d’une souche à l’autre, et elles contiennent la moitié des gènes souche- spécifiques, comme le montre une analyse par microarray de la conservation des gènes entre différentes souches d’H. pylori (Salama et al., 2000) (Figure 23). La grande majorité de ces gènes souche-spécifiques sont de fonction inconnue, et ne sont retrouvés dans aucun autre organisme dont le génome a été séquencé.

Parmi les gènes auxquels une fonction a été associée il est intéressant de noter la présence (en nombre variable) d’enzymes impliquées dans les remaniements d’ADN tels que des transposases (tnpA/tnpB), une intégrase/recombinase (xerD), ainsi que l’ADN-topoisomérase topA. Kersulyte et al., rapporte également l’insertion, dans la PZ, d’un ensemble de gènes homologues à un système de sécrétion de type IV (Kersulyte et al., 2003). Enfin, le pourcentage de GC dans la zone de plasticité (35%) est inférieur celui du génome complet (39%). L’ensemble de ces données permettent de supposer que la PZ a été acquise par transfert horizontal et qu’elle est le siège de nombreux remaniements génétiques.

Cette zone de plasticité est localisée entre les gènes codant pour les ARNr 23S et 5S en amont, et le gène ftsZ en aval (Alm et al., 1999). De façon surprenante, la souche Shi470, originaire d’un peuple indigène de la jungle péruvienne, possède une PZ de 39 kb dont 85% des séquences codantes présentent des homologies avec des gènes des PZ de la souche 26695 ou J99, d’origine occidentale (Kersulyte et al., 2009). Cependant, chez la souche Shi470, cette zone de plasticité est insérée dans un gène situé (homologue à HP0488) à distance du locus « classique » compris entre les gènes 23S-5S ARNr/ftsZ .

Cette analyse, étendue à une quarantaine de souches issues de la même peuplade que la souche Shi470 rapporte la présence de cette zone de plasticité à divers loci chromosomiques. Quel que soit le locus concerné, les 80 derniers nucléotides de ces zones de plasticité sont conservés, et présentent systématiquement un motif répété de 7 nt, encadré par des séquences inversées répétées (complémentaires) capables de former une structure en « épingle à cheveux (Kersulyte et al., 2009). Ces caractéristiques sont partagées par de nombreux éléments génétiques mobiles (Siguier et al., 2006) et elle suggèrent que la zone de plasticité est un élément mobile possédant des propriétés de transposition, par un mécanisme d’insertion site-spécifique (Kersulyte et al., 2009).

69

Figure 23 : Résultats d’un microarray basé sur le génome de la souche 26695 et testé sur 15 souches non séquencées d’H. pylori. Les gènes de la souche 26695 présents dans les autres souches sont en bleu, les gènes absents sont en jaune.

Chez la souche 26695, une partie de la zone de plasticité a subi une translocation, formant ainsi deux régions hypervariables (PZ1 et PZ2). Certaines souches sont dépourvues de l’ilot de pathogénicité cag (PAI).

Les gènes des PZ1 et 2 ayant une implication dans la mobilité d’éléments génétique sont en rouge, ceux impliqués dans un système de sécrétion sont en violet, et les systèmes de restriction-modification en vert.

Source : (Salama et al., 2000)

3.1.2. Les systèmes de restriction-modification

Il existe de nombreuses familles de systèmes de restriction-modification, présents de façon ubiquitaire dans les génomes bactériens. Un système de restriction-modification est composé de deux gènes, l’un codant pour une enzyme de restriction qui reconnait et coupe des sites séquences-spécifiques sur l’ADN, et l’autre gène codant pour une ADN-méthyltransférase qui reconnaît et méthyle des bases au niveau de ces mêmes sites, prévenant ainsi la coupure par l’enzyme de restriction associée. Ces systèmes permettraient de se protéger contre l’invasion d’ADN étranger dans la bactérie. En effet, si l’ADN étranger est issu d’un organisme ne possédant pas le système de restriction-modification adéquate, les enzymes de restriction codés par le génome de la bactérie receveuse pourront cibler et dégrader leurs sites de reconnaissance alors non méthylés sur l’ADN étranger. Une autre possibilité serait de réguler

70 l’expression de certains gènes par méthylation (régulation épigénétique) comme cela a été observé chez d’autres génomes bactériens (Casadesus and Low, 2006).

Le génome d’H. pylori regorge de divers systèmes de restriction-modification, la plupart d’entre eux étant souche-spécifiques et associés à des régions génomiques fortement variables (Akopyants et al., 1998b; Alm and Trust, 1999). Le génome de la souche 26695 possède une soixantaine de ces systèmes à travers son génome (Tomb et al., 1997), certains étant uniques ou répétés, et d’autres étant incomplets ou mutés. Une étude fonctionnelle portant sur 22 systèmes R-M différents identifiés parmi les génomes de 6 souches d’H. pylori a démontré que la plupart de ces systèmes sont fonctionnels et que leurs sites de reconnaissance sont parfois souche-spécifiques, soulignant une grande diversité de ces systèmes (Xu et al., 2000). La diversité est telle que chaque génome d’H. pylori possèderait un profil de méthylation unique, qui pourrait être à l’origine de régulations épigénétiques souches-spécifiques.

3.2. Mécanismes impliqués dans la diversité génétique d’H. pylori

3.2.1. Réparation de l’ADN et recombinaison homologue

La diversité génétique est créée chez H. pylori par des mutations ponctuelles, des événements d’insertion, de recombinaison ou de suppression, et également par des changements de phases de lecture. La fréquence de ces mutations et du taux de recombinaison chez H. pylori est plus élevée que dans la plupart des autres micro-organismes (Suerbaum et al., 1998; Wang et al., 1999). Contrairement à E. coli, H. pylori est dépourvue d’un système complet mutHLS, impliqué dans la réparation des mésappariements d’ADN acquis pendant la réplication. L’absence d’un tel système pourrait contribuer à l’accumulation importante de mutations ponctuelles (Bjorkholm et al., 2001). Seul subsiste chez H. pylori le gène mutS2, homologue au gène mutS d’E. coli. Une étude fonctionnelle de ce gène chez H. pylori a permis de mettre en évidence son implication dans le contrôle des évenements de recombinaison homologue (Pinto et al., 2005), qui est un autre mécanisme majeur associé à la réparation de l’ADN et à la diversité génétique.

La recombinaison homologue consiste en un échange entre des régions d’ADN chromosomique et des fragments d’ADN extra-chromosomiques. Ce mécanisme permet à la bactérie de combler des séquences manquantes sur son génome, suite à des cassures sur l’ADN, mais également à acquérir de nouvelles séquences d’ADN d’origine exogène, par transformation naturelle. Chez H. pylori, au moins deux complexes enzymatiques impliqués dans l’initiation de la recombinaison homologue ont été identifiés, le

71 complexe RecOR (Marsin et al., 2008) et le complexe AddAB, homologue au système de la bactérie gram- positive B. subtilis (Amundsen et al., 2008). Ces deux systèmes ont été impliqués dans la réparation de l’ADN en réponse à des dommages à l’ADN, et dans la recombinaison intra-chromosomique pour le système RecOR (Amundsen et al., 2009; Marsin et al., 2010). La capacité d’H. pylori à remanier son génome par la recombinaison homologue est un phénomène majeur et essentiel pour la survie de la bactérie dans l’estomac humain (Kraft and Suerbaum, 2005; Wang and Maier, 2008).

3.2.2. Compétence naturelle

La transformation naturelle de la bactérie, par recombinaison homologue entre le génome d’H. pylori et de l’ADN exogène nécessite au préalable un import de cet ADN simple brin dans le cytoplasme de la bactérie. Cette fonction d’importation d’ADN est assurée par un système de sécrétion de type IV, différent de celui codé par le cag-PAI. Ce système comporte deux types de canaux protéiques membranaires, le complexe ComB qui permet l’entrée d’ADN double brin dans le périplasme de la bactérie exogène (à une vitesse 10 fois supérieure à celle du système homologue chez B. subtilis), et le complexe ComEC qui assure le transit jusque dans le cytoplasme (Hofreuter et al., 2001; Stingl et al., 2010). Un bel exemple de la capacité d’H. pylori à importer et intégrer de l’ADN dans son génome a été publié par Israel et al., en 2001. Dans cette étude, 6 isolats d’H. pylori ont été prélevés chez le patient qui avait permis 6 ans plus tôt d’isoler la souche J99 (Israel et al., 2001). La comparaison par « microarray » de ces différents génomes révèle que l’ultrastructure du génome de la souche J99 a été conservée mais que de nombreux gènes présentaient des allèles différents, dont certains ayant des homologies avec ceux de la souche 26695 (unique génome de comparaison à l’époque) suggérant un échange de courts fragments d’ADN entre des souches différentes colonisant un même hôte.

Enfin, ce système de compétence naturelle de la bactérie a été récemment impliqué dans la réponse aux dommages à l’ADN d’H. pylori (Dorer et al., 2010). Habituellement, les bactéries gram-négatives telles qu’E. coli disposent d’une réponse dite SOS lorsque l’ADN génomique est endommagé. Cette réponse implique un arrêt de la division cellulaire et une activation des gènes de réparation de l’ADN. H. pylori, dépourvue de ces gènes, répond d’une manière sensiblement différente et originale. En effet, une exposition de la bactérie à des agents endommageant l’ADN entraîne une induction des gènes favorisant l’import d’ADN exogène dans la cellule (Dorer et al., 2010). Une cellule d’H. pylori déclenchant

72 ce type de réponse utiliserait ainsi l’ADN des bactéries voisines pour réparer son génome via la recombinaison homologue. Ce modèle expliquerait en partie l’importante variabilité génétique propre à H. pylori.

4. Régulation de l’expression des gènes chez Helicobacter pylori

La survie d’H. pylori dans l’environnement gastrique nécessite une régulation constante de l’expression de ses gènes d’adaptation, en réponse aux conditions changeantes du milieu extérieur. A l’instar des autres espèces bactériennes, H. pylori dispose d’une panoplie de protéines impliquées dans la régulation de l’expression de ses gènes et qui interviennent dans des processus importants de la physiologie bactérienne, tels que la résistance à l’acidité ou l’homéostasie des métaux. Nous évoquerons dans cette section les principaux systèmes protéiques intervenant dans la régulation de l’expression des gènes chez H. pylori, en comparaison avec ceux d’autres bactéries gram-négatives.

4.1. ARN polymérase et promoteurs.

Les ARN polymérases sont les enzymes responsables de la transcription de l’ADN en ARN. Elles contiennent quatre sous-unités dont une partie (sous unités a2bb’) forme le cœur de l’ARN polymérase, assurant l’activité catalytique de l’enzyme, autrement dit l’assemblage des ribonucléotides par liaison phosphodiester, afin de synthétiser les molécules d’ARN. Une dernière sous-unité, qui varie d’une ARN polymérase à une autre, au sein d’un même organisme, est le facteur σ. Cette protéine a la capacité de reconnaître et de lier les promoteurs des gènes : des séquences ADN spécifiques présentes dans la partie amont des gènes. Chaque classe de facteur σ reconnait une séquence promotrice différente. Le rôle de ces facteurs est d’assurer le recrutement de l’ARN polymérase au niveau du promoteur, constituant l’étape initiale du processus de transcription. La localisation de l’ARN polymérase au niveau du promoteur définit physiquement le site d’initiation de la transcription ou (TSS), autrement dit, le premier nucléotide à être transcrit, se trouvant une distance de 7 à 10 bases par rapport à la séquence promotrice. Chez les procaryotes, les promoteurs sont définis par deux séquences de reconnaissance pour les facteurs σ, appelées boîte -35 et boîte -10 en fonction de leur localisation par rapport au TSS.

Dans une même cellule, le niveau d’expression des différentes classes de facteurs σ diffère en fonction des conditions rencontrées. Ainsi, la bactérie peut orienter/favoriser la transcription de certaines classes de gènes en fonction de leur type de promoteur.

73

Chez E. coli, il existe 7 facteurs σ différents, chacun assigné à la transcription de gènes spécifiques (Tableau 7).

Tableau 7 : Facteurs sigma chez E. coli et conservation chez H. pylori. Nom du facteur Conservation Nom du gène Processus concerné sigma chez H. pylori

RpoD σ70 Transcription des gènes de ménage (facteur sigma principal) +

RpoN σ54 Réponse à des carences en azote +

RpoS σ38 Phase stationnaire, carence en nutriment -

RpoH σ32 Choc thermique -

RpoF (FliA) σ28 Contrôle flagelles +

RpoE σ24 Stress de la membrane externe -

Le facteur rpoD assure la transcription de la plupart des gènes de ménage, et est généralement exprimé constitutivement pendant la phase de croissance. D’autres tels que rpoH ne sont exprimés que dans certaines conditions, contrôlant l’expression des gènes impliqués dans la réponse à un stress thermique par exemple. Chez H. pylori, des recherches par homologie de séquence ont permis de mettre en évidence seulement 3 facteurs σ : le facteur σ70 (rpoD), le facteur σ28 (fliA) et le facteur σ54 (rpoN) (Alm et al., 1999; Tomb et al., 1997). En revanche, les homologues des facteurs rpoH, rpoS ou rpoE sont absents. Chez de nombreux pathogènes, comme par exemple P. aeruginosa, V. cholerae et Salmonella enterica serovar Typhimurium, l’arrivée en phase de croissance stationnaire déclenche l’expression de certains gènes de virulence, contrôlés par rpoS (Kowarz et al., 1994; Nielsen et al., 2006; Suh et al., 1999). L’absence d’un tel orthologue chez H. pylori suggèrerait que cette bactérie n’atteint jamais ce stade physiologique, ou qu’elle possède un système de régulation rpoS-indépendant, en phase stationnaire. Le facteur σ prédominant chez H. pylori est rpoD, qui reconnaît une séquence promotrice spécifique à H. pylori, composée d’un motif conservé uniquement au niveau de la boîte -10 (Vanet et al., 2000), ce qui la démarque des autres promoteurs rpoD procaryotes, qui possèdent en plus une boîte -35.

74

Les facteurs rpoN et fliA reconnaissent quant à eux les promoteurs des gènes impliqués dans la biosynthèse des flagelles, contrôlant respectivement l’expression des gènes du corps basal, et du filament (Jagannathan et al., 2001; Pereira et al., 2006; Spohn and Scarlato, 1999).

4.2. Facteurs de transcription

Indépendamment des facteurs σ, les bactéries ont développé d’autres facteurs de transcription ayant la propriété de lier l’ADN, sur des séquences spécifiques généralement proches du promoteur, afin d’induire ou d’inhiber la transcription du gène sous-jacent. Les facteurs de transcription dits activateurs, une fois fixés dans la région promotrice du gène, vont favoriser le recrutement de l’ARN polymérase. Les répresseurs, quant à eux, font généralement obstacle à la fixation de l’ARN polymérase sur le promoteur du gène qu’ils répriment.

Chez H. pylori, l’analyse du génome révèle que seulement 32 gènes codent pour des protéines avec une fonction régulatrice potentielle. Parmi eux, seuls 17 sont prédits comme pouvant jouer un rôle dans la régulation de la transcription des gènes. Ces gènes sont 4 fois moins nombreux que chez E. coli, et deux fois moins nombreux que chez H. influenzae, dont la taille du génome est proche de celui d’H. pylori. En ce qui concerne les systèmes à deux-composants, H. pylori ne possède que 4 protéines senseurs et sept régulateurs, soit un tiers de l’ensemble des systèmes identifiés chez E. coli (Tomb et al., 1997). La niche unique colonisée par H. pylori, dépourvue d’autres compétiteurs bactériens, et la petite taille de son génome laisse à penser que nombre de ces régulateurs ont été perdus au cours de l’évolution, en absence de pression de sélection (de Reuse and Bereswill, 2007; Madan Babu et al., 2006).

Les systèmes de régulations de la bactérie, pour la plupart inter-connectés, sont impliqués dans des fonctions physiologiques majeures, telles que la réponse aux stress et à la chaleur, la résistance à l’acidité, via l’uréase et le chimiotactisme, ou encore l’homéostasie des ions.

4.2.1. La réponse aux stress et à la chaleur

Alors que la plupart des bactéries gram-négatives possèdent un facteur σ (σ32) dédié à la transcription des gènes impliqués dans la réponse à un stress thermique, H. pylori a développé un système médié par des facteurs de transcription, comme chez les bactéries à Gram-positif. Ce système consiste en deux répresseurs HspR et HrcA (ayant des homologues chez les Streptomyces spp et chez B. subtilis,

75 respectivement) (Narberhaus, 1999; Schulz and Schumann, 1996; Servant and Mazodier, 2001). Hspr et HrcA répriment la transcription de trois opérons, dont celui codant pour les protéines chaperonnes groESL, impliqué dans la réponse au choc thermique et activé par la présence des protéines mal repliées notamment (Homuth et al., 2000; Spohn et al., 2002).

4.2.2. L’adaptation aux conditions acides

L’adaptation aux conditions acides est un pré-requis décisif pour la colonisation de la niche que représente l’estomac humain. Afin de mieux identifier les gènes impliqués dans ce processus, plusieurs études transcriptomiques par microarray ont été réalisées sur des bactéries cultivées en conditions acides (Bury-Mone et al., 2004; Merrell et al., 2003; Pflock et al., 2006; Wen et al., 2003). Ces études rapportent des variations d’expression pour 100 à 250 gènes, selon les différentes équipes. Ces travaux ont notamment permis de démontrer l’implication directe de régulateurs dans les variations d’expression des gènes à l’acidité, le facteur de transcription NikR et le système à deux-composants ArsRS (Bury-Mone et al., 2004), composé d’un senseur de l’acidité périplasmique ArsS, et d’un régulateur liant l’ADN, ArsR (Dietz et al., 2002; Pflock et al., 2006). NikR est quant à lui un facteur de transcription impliqué notamment dans l’homéostasie du nickel (co-facteur essentiel de l’uréase). Alors que NikR est un régulateur pléiotropique, le système ArsRS semble plus restreint à la réponse à l’acidité, et une étude montre qu’il régule la transcription des principales enzymes de résistance à l’acidité gastrique, l’uréase et les amidases aliphatiques (Pflock et al., 2005).

4.2.3. Les flagelles et le chimiotactisme

La régulation de l’expression des gènes des flagelles et du chimiotactisme chez H. pylori est également complexe et requiert les trois facteurs σ connus ainsi qu’un nombre important de facteurs de transcription (Danielli et al., 2010; Niehus et al., 2004). Le facteur σ80, végétatif, assure la transcription des régulateurs des flagelles (flgR, flgS, rpoN, flhA). Le facteur σ54 (RpoN) transcrit les gènes codant pour les protéines de structure du corps basal et du crochet flagellaires. Enfin, le facteur σ28 (fliA) transcrit les gènes du filament flaA et flaB. Les gènes flgR et flgS , transcrits par RpoN, forment un système à deux-composants et jouent également un rôle dans la transcription d’au moins 5 opérons réunissant des gènes associés à la biosynthèse des flagelles (Brahmachary et al., 2004). Enfin, H. pylori dispose d’un système à deux-composants CheA/CheY, requis pour le chimiotactisme et la colonisation de la souris (Foynes et al., 2000).

76

4.2.4. L’homéostasie des métaux.

Le contrôle de la concentration en ions métalliques chez H. pylori est un mécanisme finement régulé. En effet la bactérie doit assurer une balance entre une trop haute concentration de ces ions qui serait léthale pour la bactérie, et le maintien d’une concentration minimum, absolument requise pour la survie de la bactérie dans l’estomac, en particulier l’ion nickel, qui est le co-facteur de l’uréase.

H. pylori possède deux régulateurs de transcription majeurs, pléiotropiques, associés à l’homéostasie des métaux (de Reuse and Bereswill, 2007). Le premier est le facteur de transcription Fur (ferric uptake regulator), qui est activé en présence d’ions Fe2+. Sous sa forme activée, Fur agit comme un répresseur ou un activateur sur de nombreux gènes, dont ceux impliqués dans le transport du fer (Bereswill et al., 2000; Delany et al., 2001). Un second régulateur majeur chez H. pylori est le répresseur NikR, qui régule, en réponse au nickel, l’expression de gènes codant pour des sous-unités de l’uréase (Delany et al., 2005), et des gènes impliqués dans le transport (NixA) et le stockage du nickel (Hpn) du nickel (Contreras et al., 2003). Plusieurs études de transcriptomique sur des souches d’H. pylori sauvages ou mutées pour NikR et Fur ont révélé que ces deux protéines étaient en fait des régulateurs pléotropiques, intervenant dans de nombreux processus physiologiques, tels que la réponse à l’acidité ou la biosynthèse des flagelles, requis pour la colonisation chez la souris (Bury-Mone et al., 2004; Contreras et al., 2003; Ernst et al., 2005)

4.3. Métabolisme des ARN et régulation post-transcriptionnelle

Chez les procaryotes la modulation de l’expression des gènes, dépend non seulement d’une régulation transcriptionnelle au niveau des promoteurs mais également d’événements de régulation post-transcriptionnelle intervenant sur les ARNm. Comme nous l’avons vu en introduction dans le chapitre 1, chez la plupart des bactéries cette modulation de la traduction et/ou de la stabilité des ARNm est médiée principalement par des sRNA antisens en partenariat avec des facteurs protéiques tels que la protéine Hfq et deux ribonucléases (RNases) majeures, la RNase III et la RNase E. Une caractéristique remarquable du génome d’H. pylori est qu’il ne contient aucun des sARN découverts chez les entérobactéries (ou tout autre bactérie) qui ont été présentées dans le chapitre 1. Une recherche de gènes codant pour des sRNA dans le génome de la bactérie, par homologie de séquence avec des sRNA identifiés chez E. coli n’a donné aucun résultat significatif, si on excepte l’ARNtm et les travaux publiés

77 récemment par le laboratoire du Dr. Hilde de Reuse (Thibonnier et al., 2010; Thibonnier et al., 2008). De plus, le groupe des ε-protéobactéries auquel appartient H. pylori ne possède pas d’homologue des gènes codant pour la protéine Hfq et la RNaseE. Il est d’ailleurs intéressant de noter qu’il existe chez les protéobactéries et les firmicutes une corrélation entre l’absence de la protéine Hfq et de la RNase E dans un même organisme (Figure 24).

Figure 24: Conservation des COG1923 et COG1530 correspondant à la protéine Hfq et RNase E, chez les firmicutes et les protéobactéries. La classification COG (Clusters of Orthologous Groups, voir site web www.ncbi.nlm.nih.gov/COG/) correspond à des groupes de protéines présentant des domaines très conservés dans au moins 3 lignages phylogénétiques (ou phyla) (Tatusov et al., 2003; Tatusov et al., 1997). Les organismes soulignés possèdent la protéine en question, ceux en en gris en sont dépourvus. On peut noter une corrélation entre l’absence de Hfq et RNase E dans plusieurs organismes.

Les ribonucléases sont également impliquées dans la dégradation et le recyclage des ARNm cellulaires. La RNase III est une endoribonucléase ayant une affinité pour les duplex d’ARN double brin, intramoléculaires ou intermoléculaires, comme dans le cas d’interaction entre un sRNA et un ARNm cible (Wagner, 2009). La RNase E quant à elle est une endoribonucléase qui coupe des régions d’ARN simple brin (Ehretsmann et al., 1992) et qui est présente dans un complexe multiprotéique de dégradation de

78 l’ARN, appelé le dégradosome (Figure 25) (Blum et al., 1997). La RNase E et la RNase III, interviennent également dans la dégradation d’ARNm ciblés par des petits ARN antisens, en collaboration avec la protéine Hfq (Aiba, 2007; Moll et al., 2003a; Wagner, 2009). Chez les bactéries de l’ordre des Campylobacterales, auquel appartient H. pylori, seuls les orthologues du gène codant pour la RNase III ont été retrouvés par homologie, alors que la RNase E semble être absente (Fig 24 et 25). Le gène de la protéine Hfq, impliquée dans la stabilisation des interactions entre sRNA et ARNm cible, puis dans le recrutement de la RNase E, est également absente dans tout l’ordre des Campylobacterales.

Figure 25 : Protéines du métabolisme des ARN conservés chez H. pylori, d’après la base de données KEGG Pathway (http://www.genome.jp/kegg/pathway.html). La figure du haut représente la structure simplifiée de la RNase E d’E.coli et ses différents domaines. La figure du bas représente l’organisation structurelle du dégradosome. La partie de droite indique les protéines du dégradosome, ou associées, dans différentes espèces bactériennes. Les protéines conservées chez H. pylori sont en vert.

Un exemple de régulation post-transcriptionnelle chez H. pylori impliquant une fragmentation particulière d’un ARNm polycistronique codant pour les gènes ureIEFGH (associés à l’uréase) et dont la stabilité varie en fonction du pH a été rapporté (Akada et al., 2000), mais l’identification des RNases ainsi que le mode d’action mis en jeu demeurent inconnus.

Les très rares cas de régulation post-transcriptionnelle chez H. pylori évoqués dans la littérature rapportent également la régulation de la traduction de l’ARNm codant pour la protéine flagellaire flA par une protéine liant l’ARN (HP0958) (Douillard et al., 2008) et la régulation post-transcriptionnelle de

79 l’expression de la protéine HP1043, selon un mécanisme non-élucidé (Delany et al., 2002; Muller et al., 2007). Dans ce dernier cas, il semble qu’une tige-boucle présente dans la région 5’UTR de l’ARNm est essentielle pour la régulation. Une dernière particularité concerne la protéine de régulation post- transcriptionelle CsrA. Cette dernière est présente chez H. pylori et joue des rôles majeurs dans la régulation de l’expression de gènes de virulence et d’adaptation (Barnard et al., 2004) ; cependant la bactérie ne possède pas le gène codant pour le sRNA CsrB, qui régule CsrA dans de nombreux autres organismes (Babitzke and Romeo, 2007).

Ces données ont permis de formuler deux hypothèses : soit H. pylori ne possède pas de petits ARN régulateurs ; soit, après des millénaires d’évolution isolée dans la niche gastrique, la bactérie a développé un répertoire unique de sRNA qui reste à identifier. Toutefois, étant donné l’omniprésence des régulations sRNA-dépendantes chez les procaryotes et les conditions changeantes de la niche gastrique, nécessitant une régulation fine et rapide des gènes d’adaptation, il est difficile d’imaginer qu’H. pylori puisse se passer de ce mode de régulation médiée par les sRNA ; d’autant plus qu’elle ne possède qu’un arsenal limité de régulateurs protéiques.

80

Chapitre 3 : Objectifs de la thèse

Au regard de la diversité des stress rencontrés par H. pylori au sein de la niche gastrique, le faible nombre de régulateurs protéiques de l’expression des gènes codés dans le génome de la bactérie laisse penser qu’elle a recours à d’autres types de régulation, et notamment la régulation médiée par les petits ARN régulateurs, ubiquitaires chez les procaryotes.

Cependant, l’exploration de telles régulations est entravée par l’absence d’études rapportant l’existence de sRNA potentiels chez H. pylori.

Le premier objectif de cette thèse consistait donc à identifier des sRNA exprimés par la bactérie. Pour répondre à ce premier point, une méthode d’analyse par séquençage du transcriptome a été mise au point, en collaboration avec les équipes du Dr. Jörg Vogel, basée au « Max Planck Institute » de Berlin et du Pr. Peter F. Stadler, au département de bioinformatique de l’université de Leipzig.

Le second objectif consistait à caractériser des sRNA chez H. pylori, d’un point de vue fonctionnel et mécanistique, afin d’apporter une meilleure compréhension des mécanismes liés à la physiologie, la persistance ou la virulence de la bactérie.

81

Partie II : Résultats

82

Chapitre 1 : Identification de petits ARN régulateurs chez H. pylori par séquençage haut-débit du transcriptome

1. Introduction

Le projet de thèse s’inscrivait initialement dans la poursuite d’une collaboration entre l’équipe du Dr. Fabien Darfeuille (Laboratoire INSERM U869, Bordeaux) et l’équipe du Dr. Jörg Vogel, qui avait initié l’identification de sRNA candidats chez H. pylori par une analyse bio-informatique des régions intergéniques du génome de la souche H. pylori 26695. Cette étude avait abouti à l’identification d’une quinzaine de candidats potentiels, mais pour la majorité d’entre eux (10/16), aucune expression in vivo n’avait été détectée.

A cette même époque, l’émergence des techniques de séquençage haut-débit ont permis d’imaginer de nouvelles méthodes d’identification de sRNA, par séquençage direct des transcriptomes bactériens. Ce projet de thèse s’intègre dans ce travail pionnier qui avait pour premier objectif d’adapter une de ces techniques de séquençage haut-débit, le pyroséquençage 454, à l’analyse du transcriptome d’H. pylori. Dans la première partie de ce chapitre je développerai essentiellement les stratégies et résultats qui ont abouti à la découverte des premiers ARN régulateurs chez H. pylori et qui répondent ainsi au premier objectif de cette thèse. Outre l’identification de petits ARN, la méthode que nous avons développée pour séquencer et analyser le transcriptome de la bactérie a permis d’apporter de nombreux éclaircissements quant à l’organisation transcriptionnelle des gènes, à l’échelle du génome d’H. pylori. La publication associée à ce travail aborde l’ensemble des informations que nous avons pu extraire de l’analyse du transcriptome, et elle figure en deuxième partie de ce chapitre (paragraphe 3.7).

2. Stratégie expérimentale

2.1. Banques d’ARN totaux

Le transcriptome étant un ensemble dynamique dont la composition en espèces d’ARN varie selon la physiologie de la bactérie, nous avons décidé de séquencer le transcriptome d’H. pylori 26695 dans plusieurs conditions de culture ; afin d’avoir une vision plus large de l’expression des ARN et de leur régulation. Nous avons choisi de travailler sur la souche H. pylori 26695, qui était au commencement du projet l’une des trois souches dont le génome était publié, et l’une des souches les plus étudiées.

83

Figure 26 : Préparation des banques d’ARN totaux. Pour les banques ML et AS, les bactéries sont cultivées jusqu’à DO600nm=1.5 (milieu de phase exponentielle) dans un milieu liquide de type BHI. Après avoir estimé le volume d’HCl 3.7% nécessaire pour abaisser le pH d’une culture contrôle à pH 5.2, ce volume d’HCl ou d’H2O est ajouté à la culture AS ou ML respectivement. Les bactéries sont ensuite ré-incubées à 37°C, en microaérobie, pendant 30’. Pour les co-infections, les bactéries sont cultivées 48h sur boîtes avant d’être prélevées et inoculées à une MOI (multiplicity of infection, rapport bactéries/cellules) de 240. Pour la flasque contrôle (sans cellules) l’innoculum ajouté est équivalent à celui qui a été injecté dans la flasque contenant les cellules AGS. Après l’extraction, chaque banque est divisée en deux lots, l’un subissant un traitement par l’enzyme TEX (+) et l’autre non (-).

La réponse d’H. pylori contre l’acidité gastrique étant un élément important dans la physiologie de la bactérie, nous avons souhaité comparer le transcriptome d’H. pylori en condition de pH acide ou neutre. Nous avons ainsi généré une banque d’ARN totaux issus de bactéries cultivées jusqu’en phase exponentielle à pH7, puis ensuite incubées 30 min à pH=5.2, pour mimer un stress acide (banque AS, pour « Acid Stress »). Une seconde banque, intitulée ML (pour Mid-Log phase) a été réalisée, à partir de bactéries cultivées dans les mêmes conditions que la banque AS, hormis le stress acide (Figure 26). Enfin, nous avons construit trois banques d’ARN totaux issus d’expériences de co-infection sur des cellules humaines, afin de pouvoir détecter d’éventuels transcrits qui ne seraient exprimés que dans le

84 contexte d’une interaction hôte-pathogène. Ces trois banques ont été constituées à partir de co- infection sur des cellules AGS, d’origine épithéliale gastrique (banque AGS), des cellules Huh7, d’origine hépatique (banque Huh7), ou dans le milieu de culture cellulaire seul, en guise de contrôle (banque PL).

2.1. Enrichissement en transcrits primaires

Comme décrit dans l’introduction (Paragraphe 5.4), le contenu en ARN total d’une bactérie est composé à 90% d’ARNr et d’ARNt, ainsi que des fragments ARN issus de la dégradation ou la maturation des transcrits primaires. Un transcrit primaire correspond à la séquence directement issue de la transcription du gène, avant toute étape de maturation ou de dégradation. Connaître la séquence d’un transcrit primaire permet de définir précisément les bornes du gène correspondant sur le génome. Ainsi, dans une optique d’identification de nouveaux gènes, les informations qui peuvent être fournies par les transcrits primaires s’avèrent précieuses. Le travail présenté dans l’article 1 décrit une méthode d’enrichissement des ARNtotaux en transcrits primaires, réalisée en amont de la génération des ADNc. Cette méthode se base sur la différence qui existe entre les extrémités 5’ des transcrits primaires, qui sont caractérisés par une extrémité 5’-triphosphate (5’PPP), et celles des fragments d’ARN dégradés ou des ARNr et ARNt, qui possèdent une extrémité 5’-monophospate (5’P). Les ARN totaux sont en fait soumis à une digestion par l’enzyme TEX (Terminator 5’P Dependent Exonuclease), qui est une exonucléase dégradant spécifiquement les ARN ayant une extrémité 5’P, tels que les fragments matures ou dégradés de l’ARN 23S (Figure 27).

Figure 27 : Enrichissement en transcrits primaires par traitement avec l’enzyme TEX. A. L’enzyme TEX dégrade spécifiquement les fragments d’ARN dégradés ou maturés, qui sont caractérisés par une extrémité 5’ monophosphate. B. Détection par northern blot de fragments de l’ARN 23S sur des ARN totaux d’H. pylori non traités (-) ou traités (+) avec l’enzyme TEX.

85

Après cette étape d’enrichissement en transcrits primaires la synthèse de banques d’ADNc (enrichies ou non-enrichies) a été confiée à la société Vertis Biotechnology (Munich). Le protocole employé est similaire à celui qui a précédemment été utilisé pour la génération de banques de miARN, excepté l’étape de fractionnement des ARN en fonction de leur taille qui n’a pas été fait dans le cas des ARN totaux de H. pylori. La Figure 28 reprend les principales étapes de la synthèse des banques (détails dans la partie « supplementary methods » de l’article, disponible en annexe I). Les ARN sont traités avec l’enzyme TAP (Tobacco Acid Phosphastase) qui permet l’excision de deux phosphates au niveau des extrémités 5’PPP des transcrits primaires. Cette excision génère une extrémité 5’P, nécessaire pour la ligation d’un oligonucléotide ARN (adaptateur) en 5’. Les ARN sont ensuite poly-adénylés en 3 ‘ pour permettre l’amorçage de la rétrotranscription avec des oligo (dT).

Figure 28 : Génération des banques d’ADN complémentaires à partir de ARN enrichies en transcrits primaires.

86

2.2. Principe du pyroséquençage 454.

La technique de séquençage haut débit développée par la compagnie « 454 Life sciences » permet de séquencer simultanément plusieurs millions de fragments d’ADN indépendants (Margulies et al., 2005).

Le principe de cette technique, adapté au séquençage d’un transcriptome bactérien, est résumé sur la figure 29. La première étape consiste à générer une banque d’ADNc à partir d’une extraction d’ARN total bactérien. Les ADNc complémentaires sont ensuite placés en présence de billes portant une séquence complémentaire aux adaptateurs. Les complexes billes-ADNC sont formés à une dilution telle qu’une bille ne fixe qu’un seul fragment d’ADNc. Chaque complexe est ensuite isolé dans des goutelettes de mix PCR en émulsion dans l’huile, contenant des amorces complémentaires aux adaptateurs.

Figure 29 : Principe général du séquençage 454.

87

A l’issu de l’amplification par PCR, les billes, recouvertes des fragments d’ADNc clonés, sont ensuite isolées dans des plaques contenant plusieurs millions de micro-puits de 75 pL chacun, un volume ne permettant d’accueillir qu’une seule bille par puits. Le séquençage est ensuite réalisé sur un séquenceur FLX (Roche). Dans chaque puits est ajouté un mix réactionnel comprenant entre autres un seul des 4 dNTP (ATP, TTP, GTP ou CTP), une amorce adaptateur-spécifique, une luciférase avec son substrat, la luciférine, et une ADN polymérase. Cette dernière enzyme catalyse l’incorporation du dNTP en 3’ de l’amorce, si le brin matrice porte la base complémentaire. L’incorporation du dNTP entraîne la libération de pyrophosphate inorganique (PPi), qui est utilisé par la luciférase pour catalyser la conversion de luciférine en oxyluciférine, s’accompagnant d’une libération de photons. C’est cette émission de photons qui est détectée (individuellement pour chaque puits) par le séquenceur, ce dernier réalisant ainsi des cycles de séquençage sucessifs avec chacun des quatre dNTP. La longueur des séquences lues est généralement limitée 350 nucléotides au maximum.

3. Résultats

3.1. Séquençage haut-débit : Traitement des données et identification de TSS

Le séquençage haut-débit des différentes banques a permis de fournir les séquences d’environ 400000 ADNc par banque, ce qui représente un total de 3,7 millions d’ADNc séquencés (d’une longueur comprise entre 10 à 375 nucléotides).

La première phase nécessaire à l’interprétation des données était l’alignement de chacune de ces séquences sur le génome de la souche d’H. pylori 26695. Le traitement de cette importante masse de données a nécessité des compétences en bio-informatique apportées par l’équipe du Pr. P. Stadler et notamment les travaux conjoints des premier et deuxième auteurs de ce travail, Cynthia Sharma et Steve Hoffmann (Tatusov et al., 2003).

Les outils informatiques « UCSC Genome Browser », créé par le « Genome Bioinformatics Group » de l’Université de Californie, Santa Cruz (Kent et al., 2002), et « Integrated Genome Browser » développé par Affymetrix ont été utilisés pour représenter graphiquement les séquences lues et positionnées sur le génome de la bactérie. L’exemple présenté dans la Figure 30, réalisée grâce au programme « UCSC genome browser », montre l’alignement des séquences lues correspondant à la région gène HP0224, pour les banques ML+ et ML- (pH7, avec ou sans traitement par la TEX).

Dans la banque non traitée, les séquences d’ADNc complémentaires à un même gène sont distribuées tout au long de la séquence de celui-ci (Figure 30), mettant en évidence une zone d’activité

88 transcriptionnelle au niveau de ce gène, qui s’étend sur quelques dizaines de nucléotides de part et d’autre de la séquence codante précédemment annotée (Tomb et al., 1997). En revanche, dans la banque enrichie en transcrits primaires nous observons une sélection positive de séquences d’ADNc correspondant à la région 5’ de ce gène (Figure 5 et Figure 1c de l’article). Ces séquences d’ADNc, bien que de longueurs variables, débutent en 5’ au niveau d’un même nucléotide, qui représente le site d’initiation de la transcription (TSS). L’annotation du TSS permet intrinsèquement de déduire la séquence promotrice en amont, et la séquence 5’UTR qui s’étend jusqu’au codon d’initiation (Figure 30).

Figure 30 : Profil d’alignement des séquences d’ADNc complémentaires au gène HP0224, visualisé sur l’UCSC Genome Browser. La séquence codante du gène HP0224 est symbolisée par une barre bleue, les numéros au dessus indiquant la position sur le génome de la bactérie, en nombre de nucléotides. Seules les séquences d’ADNc lues pour les banques ML-/ML+ sont représentées. Chaque séquence lue est représentée par une ligne violette, en fonction de sa taille et de son alignement par rapport à la séquence d’HP0224. Les lignes vertes représentent de séquences courtes (<20nt) dont l’alignement est incertain. Sur le profil des séquences de la banque ML+, la flèche rouge la position du site d’initiation de la transcription (TSS). Le bandeau inférieur de la figure représente la séquence nucléotidique du promoteur et de la région 5’UTR du HP0224 après positionnement du TSS.

89

Selon ce principe, nous (Cynthia Sharma, Fabien Darfeuille, Joerg Vogel et moi-même) avons manuellement annoté les TSS pour l’ensemble des zones d’activité transcriptionnelle qui présentaient au niveau de leurs régions 5’, une accumulation de séquences dans les banques enrichies par rapport aux banques non-enrichies. Cette étape d’annotation a permis d’identifier 1907 TSS distribués sur l’ensemble du génome de la bactérie, que nous avons classés en cinq catégories en fonction de leur localisation par rapport aux gènes annotés (Figure 2 de l’article). Nous distinguons ainsi :

- Les TSS primaires, de 0 à 500 nucléotides en amont du codon d’initiation d’une ORF annotée ou de l’extrémité 5’ mature d’ARN non-codants (ex : tRNA), et dans la même orientation. - Les TSS secondaires, associés au même gène qu’un TSS primaire, mais avec un nombre de séquences lues plus faible. - Les TSS internes, présents à l’intérieur des bornes 5’ et 3’ d’un gène annoté, et dans la même orientation. - Les TSS antisens, situés sur le brin opposé à l’intérieur jusqu’à 100 nt autour d’un gène annoté. - Les TSS orphelins, ne répondant à aucun des critères précédents car trop éloignés d’un gène annoté.

Globalement, 717 sur 812 TSS primaires et 106 sur 119 TSS secondaires ont été attribués à 717 ORF sur les 1576 annotées dans le génome de la souche HP 26695, confirmant et complétant ainsi la cinquantaine de TSS précédemment identifiés dans la littérature (voir article, supplementary table 14). Le positionnement de ces TSS par rapport au codon d’initiation de l’ORF associée permet de définir les régions promotrices et la séquence 5’UTR pour chacun des 717 ARNm couverts dans cette étude. Les 95/812 TSS primaires et 13/119 TSS secondaires restants correspondent à de nouveaux gènes, qui n’avaient pas été annotés ou aux ARN de ménage tels que les ARNr et ARNt, le gène de la RNase P, ou encore le tmRNA, récemment identifié chez H. pylori (Thibonnier et al., 2008)

Une autre donnée frappante dans ces résultats est l’importante proportion de TSS antisens aux ORF. En effet, parmi les 812 TSS primaires annotés, 27% (216/812) se trouvent également être des TSS antisens, autrement dit le TSS est localisé sur le brin opposé à un autre gène annoté. Les autres TSS qui peuvent

être associés à la catégorie antisens (~600) représentent en majorité des zones d’activité transcriptionnelle de faible intensité (peu de séquences lues) générant des transcrits de courtes tailles, non-codants, sur le brin opposé à une ORF et jusqu’à 100 nt en amont ou en aval.

90

3.2. Aspects quantitatifs de la méthode de séquençage du transcriptome d’H. pylori.

L’analyse de la distribution des séquences lues révèle que pour la banque ML non-enrichie, 60% des ARN séquencés correspondent aux ARNr 23S et 16S. De façon surprenante, la proportion de ces ARNr dans les autres banques non traitées est nettement inférieure, 30 % en moyenne (Tableau 8). Cela se traduit par une proportion plus faible d’ARNm séquencés dans la banque ML- (11%) comparativement à la banque AS-(40%) et les banques de co-infection avec des cellules gastriques (10-20%).

Dans les banques enrichies nous remarquons que le traitement TEX a effectivement permis de réduire la proportion d’ARNr 23S et 16S lus de moitié, en moyenne. Cependant, cette diminution se fait au profit d’un enrichissement en ARNt important.

Ces différences de représentation des ARN de ménage entre les banques rendent difficiles la normalisation du nombre de séquences lues pour chaque gène, en fonction d’un rapporteur invariable. Pour pallier à ce problème, nous avons normalisé la couverture de chaque TSS primaire (autrement dit, leur nombre de séquences lues) par rapport au nombre total de séquences générées dans chacune des banques enrichies en transcrits primaires (ML+/AS+/PL+/AGS+/Huh7+). Par comparaison des couvertures normalisées des TSS de la banque ML+ avec celles des banques de stress, nous avons dressé une liste de gènes sous- ou sur-régulés au moins 1,5 fois, donnant une information semi-quantitative de la variation d’expression de ces gènes en fonction des conditions de culture.

Tableau 8 : Distribution des séquences lues en fonction de leur annotation. Le nombre de séquences lues <12 nt, de séquences sans correspondance sur le génome d’H. pylori, ou associées à des gènes annotés (sens, antisens, intergénique, ARNm, ARN de ménage), ainsi que le nombre total de séquences lues sont présentés pour chacune des 10 bibliothèques dRNA-seq qui ont été construites.

91

3.3. Identification de sRNA candidats.

3.3.1. Méthode d’annotation

L’ensemble des TSS qui n’ont pas été classés comme étant primaires ou secondaires des 717 ORF ont été examinés individuellement pour rechercher de potentiels ARN régulateurs candidats.

L’annotation manuelle de ces ARN régulateurs candidats a été réalisée en fonction de plusieurs critères :

- La taille de la séquence recouverte par les ADNc séquencés, depuis le TSS jusqu’à l’extrémité 3’. - Une couverture de cette séquence dans au moins deux conditions de culture. - Un enrichissement des séquences en 5’ pour les banques traitées avec l’enzyme TEX. - La localisation par rapport aux ORF et TSS adjacents (intergénique, antisens, sens).

La Figure 31 présente les profils de l’alignement des séquences d’ADNc au niveau de deux loci génomiques : la région codant pour les protéines ribosomales rplU et rpmA, et la région intergénique entre le gène omp21, codant pour une protéine de surface, et l’ORF HP0914, annotée « protéine hypothétique ». Pour la paire de gènes rplU/rpmA, nous observons sur le brin positif une couverture en ADNc ininterrompue entre les deux ORF, confirmant la transcription en opéron de ces deux gènes, à l’instar de leurs homologues chez E. coli (Kitakawa et al., 1979). Ce point est renforcé par l’observation des banques enrichies, qui révèle la présence d’un TSS unique, commun aux deux gènes, situé une quarantaine de base en amont du codon d’initiation de la séquence codée par rplU. Sur le brin opposé à cet opéron, nous avons séquencé de nombreux ADNc correspondant à un transcrit primaire d’une taille de 75 nucléotides en moyenne. Ce transcrit nommé HPnc1200 est complémentaire à l’extrémité 3’ de la séquence codée par rplU, et a été ainsi annoté comme petit ARN antisens candidat. Un ARN antisens qui cible des protéines ribosomales a également été mis en évidence lors d’une étude de transcriptomique chez une cyanobactérie (Georg et al., 2009).

Dans le second exemple nous détectons sur le brin positif la présence d’un abondant transcrit, HPnc4620, entre deux ORF annotées, dont omp21. Sur le brin opposé, nous n’observons qu’une infime proportion d’ADNc, qui pourrait correspondre à des longs transcrits du gène en aval, HP0914. Si tel est le cas, soit l’ARNm codant pour HP0914 possède une longue région 3’UTR (>300 nt), soit ces longs transcrits sont dus à des erreurs lors de la terminaison de transcription de l’ARNm codant pour HP0914. Ces fragments minoritaires sur le brin négatif ont été négligés lors de l’annotation d’HPnc4620, qui a donc été classé comme sRNA candidat intergénique.

92

Enfin le dernier exemple illustre un petit ARN, HPnc4860 dont le TSS a été identifié à l’intérieur de l’ORF HP0936, qui possède elle-même son propre TSS. Ce transcrit HPnc4860 qui fait environ 215 nucléotides est un exemple typique de la catégorie des petits ARN sens.

Figure 31 : Profil d’alignement des séquences lues correspondant à trois nouveaux transcrits, annotés comme petits ARN régulateurs candidats. Les profils A et B montrent les séquences lues sur le brin positif et négatif à l’opéron rplU/rpmA (A.), ou au niveau de la région intergénique entre le gène omp21 et le gène HP0914 (B.) dans les banques ML et AS, traitées (+) ou (-) par l’enzyme TEX. (C.) Identification du TSS d’un transcrit de courte taille, chevauchant, dans la même orientation, la séquence transcrite du gène HP0936.

93

3.3.2. Découverte de nombreux sRNA candidats

Au total, nous avons annoté 226 sRNA potentiels exprimés depuis le brin opposé à un gène codant (petits ARN antisens, ou asRNA), 56 depuis des régions intergéniques et 40 codés à l’intérieur d’une ORF annotée (petits ARN sens, ou ssRNA). (voir article « Supplementary data, table 13 »). La taille de ces différents ARN, estimée d’après les résultats du séquençage, varie de 25 à 500 nucléotides avec une valeur médiane de 190 nucléotides.

Le Tableau 9 reprend plusieurs exemples de petits ARN candidats, classés en fonction de leur localisation et de la nature des gènes à proximité. Plusieurs d’entre eux ont été identifiés au sein de l’îlot de pathogénicité cag. Parmi eux, deux ARN antisens HPnc2510 et HPnc2590, sont transcrits face aux gènes cag4 et cag11, respectivement. Des travaux précédents montrent que ces deux gènes sont des composants essentiels du système de sécrétion de type 4, leur inactivation empêche l’injection de CagA dans les cellules et conduit à une répression de la sécrétion d’IL-8 dans des cellules gastriques infectées in vitro (Fischer et al., 2001). Il serait intéressant d’étudier si les sRNA HPnc2510 et 2590 jouent un rôle dans la régulation de l’expression de ces gènes. Un autre sRNA associé à un facteur de pathogénicité a été découvert, transcrit depuis le brin opposé à la séquence codante du gène iceA (« Induced by Contact with Ephitelium restriction endonuclease »). Ce gène est un marqueur génétique associé aux ulcères peptiques et à une forte réponse en IL-8 par les cellules gastriques (Peek et al., 1998). Les séquences d’ADNc correspondant à ce sRNA (nommé HPnc6530) n’ont été détectées que dans les banques mimant un stress acide (AS -/+), suggérant une induction de la transcription du petit ARN en condition acide. Ce résultat corrèle avec des études précédentes qui en comparant par microarray les profils d’expression de bactéries cultivés à pH neutre ou acide avaient montré que l’expression de l’ARNm iceA était réprimée en condition acide (pH5.2) (Ang et al., 2001; Wen et al., 2003).

Il serait intéressant de vérifier si le sRNA antisens HPnc6530 joue un rôle dans la réduction du taux de transcrits d’iceA en condition acide ; les ARN ayant une complémentarité parfaite, on peut imaginer que HPnc6530 sur-exprimé en conditon acide se fixe sur l’ARNm du gène iceA, suivie d’une dégradation du duplex par la RNase III.

Nous avons également remarqué la présence de petits ARN transcrits face à des ARNt ou ARNr (voir article, supplementary table 13). Des sRNA antisens sont détectés pour 6 ARNt différents (ARNt-Ala1, - Arg3, -Asn1, - Pro1, -Trp1, -Val2) et pour 14 aminoacyl-synthétases différentes, enzymes impliquées dans le chargement des acides aminés sur les ARNt. Nous ne comprenons pas encore quels pourraient être les rôles de ces ARN antisens, d’autant plus qu’aucun antisens n’a été détecté pour les autres copies de ces ARNt présents sur le génome de la bactérie (ARNt-Arg1 et 2, -Val1, par exemple).

94

Tableau 9 : Exemple de petits ARN régulateurs candidats identifiés par séquençage du transcriptome d’H. pylori. Les candidats sont regroupés en fonction de leur localisation ou de leur contexte génomique. a as = antisens, s = sRNA intergénique, ss = sens b Représentation schématique du contexte génomique du sRNA (flèche orange) en fonction de son orientation par rapport aux ORF annotées voisines (flèches blanches). Le TSS de ces ORF annotées, lorsqu’il est connu et important pour comprendre la position du sRNA est symbolisé par une flèche brisée noire. c Si la boîte -10 correspond à la séquence consensus du promoteur σ70/80 d’H. pylori (TATAAT), un (+) est noté dans la colonne. Si la boîte -10 est proche du consensus, elle notée (-/+) et le motif est montré entre parenthèses. d Pour les informations concernant la conservation, celle-ci a été étudiée par alignement BLAST de la séquence du sRNA avec sa région promotrice (sur 20nt). Seules les séquences interrogées présentant une couverture minimum de 90% et une E value au-delà de 1e-30 sont considérées comme étant conservées.

Position Taille Classe Boîte -10d sRNA Locusc Commentairese du TSS (nt) b σ70/80

Ilot de pathogénicité cag

-/+ HPnc2510 549840 81 as (TAGAAT) Cag4 : composant essentiel duT4SS

+ HPnc2590 564469 203 as Cag11 : composant essentiel duT4SS

+ Seulement 14 nt séparent le TSS de cag13 HPnc2620 566794 92 s et celui d’HPnc2620

+ sRNA abondant HPnc2630 568522 217 s (Fort signal sur NB)

Flagelles

-/+ HPnc3440 734722 ~60 as (TAAAAT) H. pylori spécfique

-/+ HPnc5780 1155230 209 as (TAGAAT) H. pylori spécifique

+ Conservation : H. pylori et H. acinonychis. HPnc3860 808283 244 as Boite -10 mutée dans la souche H. p. 908

-/+ HPnc6010 1185438 140 ss (TAGAAT) Conservation : H. pylori et H. acinonychis

95

Tableau 9 : Suite.

Position Taille Classe Boîte -10d sRNA Locusc Commentairese du TSS (nt) b σ70/80

ARNr et ARNt

Antisens de la région « leader » de l’ARNr HPnc1880 445139 130 as + 23S

HPnc6120 (1) : - Antisens de la région « leader » de l’ARNr (1) et 6130 1209132 169 as (2) : -/+ 16S. Promoteur de HPnc6120 non (2) (TAGAAT) conservé.

+ HPnc0930 261440 128 as H. pylori spécifique

- HPnc1770 425207 127 as H. pylori spécifique

+ HPnc5330 1072364 227 as H. pylori spécifique

- HPnc0270 78101 149 as H. pylori spécifique

Protéines de surface

+ Conservé seulement chez 26695, HPAG1, HPnc0820 236397 235 as G27, B8

- HPnc1270 332895 133 as Région promotrice et 5’ peu conservée

+ Conservé dans la moitié des souches HPnc6970 1401587 200 as séquencées

Intergéniques

+ Conservé dans tous les souches, avec le HPnc2410 537525 184 s même gène en 3’, mais gène variable en 5’

+ HPnc5490 1105620 83 s Conservation : H. pylori et H. acinonychis

-/+ HPnc6670 1307963 140 s (TATAAC) H. pylori spécifique

+ Possède une séquence poly(TC) avec un HPnc5000 1026428 71 s nombre de répétitions variable entre les souches.

96

3.4. Recherche de courtes ORF potentiellement codées par des sRNA

Afin de déterminer si certains de ces petits ARN candidats portent une séquence codante, un crible bio- informatique a été mis en place (travaux de Sven Fendeiss). Ce crible a recherché des ORF potentielles d’une taille minimum de 10 acides aminés possédant le codon d’initiation AUG et une séquence Shine- Dalgarno, semblable ou proche de la séquence consensus (AAGGAG), dans les 11 nucléotides en amont. Les ORF ainsi prédites ont ensuite été soumises à un alignement BLAST contre les génomes séquencés des espèces appartenant au groupe de ε-protéobactéries, dont H. pylori fait partie. Finalement, seules les séquences conservées au minimum dans trois espèces ont été retenues. A l’issu du crible une soixantaine d’ORF potentielles, comptant 10 à 36 acides aminés, ont été sélectionnées.

Toutefois une inspection manuelle avait auparavant permis de compléter les données issues du crible et d’identifier une famille de petits ARN candidats, répétés et H. pylori-spécifiques, codant pour des peptides de courte taille. Une étude plus approfondie de cette famille d’ARN sera l’objet du chapitre 2.

3.5. Validation expérimentale de l’expression des sRNA candidats

Afin de s’assurer que les sRNA candidats détectés par le séquençage du transcriptome correspondent effectivement à des transcrits exprimés par la bactérie, nous avons voulu confirmer ces résultats par une seconde méthode expérimentale. Pour ce faire, nous (Cynthia Sharma, Sandrine Chabas et moi-même) avons tenté de détecter par northern-blot l’expression d’un grand panel de sRNA candidats. Les ARN totaux utilisés pour réaliser les northern blot ont été extraits sur des cultures d’H. pylori 26695 indépendantes de celles utilisées pour générer les banques d’ADNc en vue du pyroséquençage. Parmi les 98 sRNA potentiels sondés, 77 présentent sur northern blot un signal à la taille attendue (à -/+ 10 nucléotides près), et 5 n’ont pas pu être détectés. Pour les autres, la taille détectée sur NB ne correspond pas à celle estimée par séquençage 454 des cDNA. Enfin, l’hybridation de sondes contre 7 derniers ssRNA candidats ont révélé des signaux correspondants à des transcrits de grandes tailles (estimées > à 600 nt). Nous supposons que ces derniers candidats ne sont pas des sRNA, mais des fragments d’ARNm plus stables que le reste de la molécule dont ils sont issus. La conséquence étant une sur-représentation des séquences ADNc correspondant à ces fragments stables qui donnent après alignement sur le génome un profil semblable à un sRNA potentiel, d’où leur mauvaise annotation initiale. Le tableau 10 présente une sélection de sRNA candidats dont l’expression a été contrôlée par northern blot.

97

Tableau 10 : Exemples de sRNA candidats vérifiés expérimentalement par Northern blot, sur des ARN totaux extraits de bactéries cultivées dans des conditions identiques aux banques ML et AS, avec un stress acide de 30’ ou de 2h.

Classe des sRNA antisens

Nom HPnc1200 HPnc2440 HPnc3830 HPnc4850 HPnc3200

Locus HP0296 HP0513 HP0749 HP0936 HP0637

Gel NB

Taille NB (nt) 210 80 300 400 nt 185

Taille 454 (nt) 210 76 250 à 300 400 184

Expression NB +++ +++ + + ++

Variation Forte induction à pH Accumulation à pH Légère induction à Légère induction à Stable pH7/pH5.2 acide acide uniquement 2h, pH acide 30’, pH acide ?

Classe des sRNA intergéniques

Nom HPnc2420 HPnc3560 HPnc5130 HPnc6670 HPnc5300

Locus HP0510/HP0511 HP0703/HP0705 HP0982/ HP0983 HP1233/ HP1234 HP1009/HP1010

Gel NB

150 Taille NB (nt) 105 330/220/160/140 143 110/120 75

155 Taille 454 (nt) 105 320/223/160 140 140/40 74

Expression NB +++ +++ +++ - ++

Disparition d’un Long fragment induit à Variation Légère induction à fragment de 95nt à pH pH acide, court Induction à pH acide - pH7/pH5 pH acide ? acide fragment stable

Tableau 10 : Suite.

98

Classe des sRNA sens

Nom HPnc3020 HPnc5960

Locus HP0607 HP1115

Gel NB

Taille NB (nt) 60 375/240/75

Taille 454 (nt) 58 351/71

Expression NB -/+ ++

Variation Stable Stable pH7/pH5

3.6. Validation du phénomène de transcription antisens sur l’ensemble du génome.

La très importante proportion de TSS antisens identifiés a attiré notre attention, et nous avons cherché à vérifier s’il pouvait s’agir d’un artefact. En effet, lors de l’étape de rétro-transcription, la réverse transcriptase utilise parfois des ADNc (ADN complémentaires) néo-synthésisés comme matrice, ce qui conduit à la synthèse d’ADN complémentaires à ces ADNc. Après séquençage, ces molécules « artéfactuelles » seront injustement considérées comme des transcrits antisens.

Pour explorer cette éventualité nous avons généré deux nouvelles banques d’ADNc, en présence ou absence d’actinomycine D (ACTD, 12ng/µl)), à partir de la banque ML+ (pH7, enrichie en transcrits primaires). L’ACTD empêche la synthèse d’ADNc ADN-dépendante par la réverse transcriptase (Tatusov et al., 2003). Nous avons ensuite comparé la couverture de 812 TSS primaires, 89 TSS de sRNA, et les 969 TSS antisens identifiés entre les banques générées avec ou sans ACTD. Les résultats de cette étude révèlent une forte corrélation de la couverture de ces TSS entre les deux banques (r>0.99, p<2.2e-16), démontrant ainsi que la forte activité de transcription antisens détectée par séquençage du transcriptome n’est pas un artefact généré au cours de la rétro-transcription mais qu’elle correspond au contraire à une réalité biologique (Figure32). Nous avons également vérifié que ces séquences ne

99 pouvaient pas venir d’une contamination d’ADN génomique. Une banque contrôle non rétro-transcrite a été séquencée et aucune séquence de H. pylori n’a pu être extraite de ce séquençage. Toutes les extractions d’ARN total avaient bien entendu été digérées par la DNAse I avant d’être converties en ADNc.

Figure 32 : Validation du phénomène de transcription antisens observé chez H. pylori. Ces graphiques indiquent la couverture des TSS primaires (A), de sRNA (B) ou antisens (C) pour une banque d’ADNc générée en présence d’ACTD (en ordonnées) en fonction de la couverture de ces TSS dans une banque contrôle non traitée (en abscisses).

100

3.7. “The primary transcriptome of the human pathogen Helicobacter pylori” (Article)

En raison de l’important volume des figures et tableaux supplémentaires de l’article (plus d’une centaine de pages), ceux-ci n’ont pas été inclus au manuscrit. Ils sont disponibles sur le site internet de la revue Nature (http://www.nature.com/nature/journal/v464/n7286/suppinfo/nature08756.html).

La section matériel et méthode est en Annexe I.

101 doi:10.1038/nature08756 ARTICLES

The primary transcriptome of the major human pathogen Helicobacter pylori

Cynthia M. Sharma1, Steve Hoffmann2, Fabien Darfeuille3,4,Je´re´my Reignier3,4, Sven Findeiß2, Alexandra Sittka1, Sandrine Chabas3,4, Kristin Reiche5,Jo¨rg Hackermu¨ller5, Richard Reinhardt6, Peter F. Stadler2,5,7,8,9 &Jo¨rg Vogel1,10

Genome sequencing of Helicobacter pylori has revealed the potential proteins and genetic diversity of this prevalent human pathogen, yet little is known about its transcriptional organization and noncoding RNA output. Massively parallel cDNA sequencing (RNA-seq) has been revolutionizing global transcriptomic analysis. Here, using a novel differential approach (dRNA-seq) selective for the 59 end of primary transcripts, we present a genome-wide map of H. pylori transcriptional start sites and operons. We discovered hundreds of transcriptional start sites within operons, and opposite to annotated genes, indicating that complexity of gene expression from the small H. pylori genome is increased by uncoupling of polycistrons and by genome-wide antisense transcription. We also discovered an unexpected number of ,60 small RNAs including the e-subdivision counterpart of the regulatory 6S RNA and associated RNA products, and potential regulators of cis- and trans-encoded target messenger RNAs. Our approach establishes a paradigm for mapping and annotating the primary transcriptomes of many living species.

About 50% of all humans are infected with Helicobacter pylori,amicro- Fig. 1). We primarily analysed H. pylori strain 26695 grown to mid- aerophilic, Gram-negative e-proteobacterium that thrives in the acidic logarithmic phase (ML2/1 libraries), or under acid stress at pH 5.2 environment of the stomach, and is associated with severe inflam- (AS2/1) resembling the host environment. To increase data depths, mation, peptic ulcer disease and gastric cancer1,2. The 1.67 megabase bacteria were also grown in contact with responsive gastric epithelial pairs genome of H. pylori strain 26695 carries 1,576 open reading cells (AG2/1) or non-responsive liver cells (HU2/1), or in cell frames (ORFs), but surprisingly few genes of transcriptional regula- culture medium alone (PL2/1) (Supplementary Fig. 2). Following tors3,4. Moreover, only,55 transcriptionalstart sites(TSS; compiled in 454 pyrosequencing, ,217 million bases of cDNA (Supplementary Supplementary Table 1) were known in this important human patho- Table 2) were mapped to the H. pylori chromosome (Fig. 1a). gen, and the principal organization of its transcriptome remained to be dRNA-seq confirmed the known acid induction10–12 of major elucidated. Small noncoding RNAs (sRNAs), an otherwise abundant H. pylori virulence loci such as the urease (ure) operon or the cag class of post-transcriptional regulators in bacteria5,6, also seemed to be pathogenicity island (Fig. 1b), as evident from a three- to fourfold lacking in H. pylori, perhaps reflecting the absence of the common higher cDNA coverage of the ureA, ureI or cag16 transcripts in the sRNA chaperone, Hfq, in all e-proteobacteria7. AS2 vs ML2 libraries (Supplementary Table 3). Crucially, the Global analyses using tiling arrays and RNA-seq have provided exonuclease treatment revealed TSS by means of a characteristic redis- invaluable insights into the gene expression patterns and sRNA output tribution of a gene’s cDNAs towards a sawtooth-like profile with an of diverse bacteria, including several pathogens8,9. Yet, these studies elevated sharp 59 flank. For example, the AS1 cDNAs clustered did not directly detect TSS owing to a lack of discrimination between towards the nuclease-protected primary 59 end of ureA mRNA, match- primary and processed transcripts. Specifically, primary transcripts ing the known TSS13,14, whereas the AS2 cDNAs were uniformly dis- including most mRNAs and sRNAs carry a 59 tri-phosphate tributed over ureA (Fig. 1b). Thus, the selective destruction of (59PPP) group, whereas processed transcripts such as mature ribo- processed 59P transcripts enriches TSS-specific cDNAs (Supplemen- somal and transfer RNAs (rRNA, tRNA) have a 59 mono-phosphate tary Fig. 2). Similar patterns mark the cagA TSS15 and reveal primary (59P). Using a novel dRNA-seq approach to selectively identify native and processed 59 ends of tRNA-Phe (Fig. 1c). Altogether, 69 H. pylori 59PPP ends we present a single-nucleotide resolution map of the TSS determined by independent methods were matched by dRNA-seq primary transcriptome of H. pylori and unravel the unexpectedly with high accuracy (Fig. 1d). complex RNA output from this small and compact genome. Genome-wide TSS and operon maps Differential RNA-seq Annotation of 59 ends enriched in (1)vs(2) libraries and satisfying Our dRNA-seq approach discriminates primary from processed 59 other plausible criteria identified a total of 1,907 TSS (Supplementary ends by sequencing differential cDNA library pairs: one library Table 4). These were grouped into five categories (Fig. 2a): primary denoted (2) from untreated total bacterial RNA, and the other TSS having the most cDNAs within #500 bp upstream of annotated (1) enriched for primary transcripts by terminator exonuclease mRNA start codons or processed sRNAs; secondary TSS associated treatment that degrades 59P but not 59PPP RNA (Supplementary with the same gene but with fewer cDNAs; internal TSS within an

1Max Planck Institute for Infection Biology, RNA Biology Group, D-10117 Berlin, Germany. 2University of Leipzig, Department of Computer Science & Interdisciplinary Centre for Bioinformatics, D-04107 Leipzig, Germany. 3INSERM U869 and 4Universite´ de Bordeaux, F-33076 Bordeaux Cedex, France. 5Fraunhofer Institute for Cell Therapy and Immunology, RNomics Group, D-04103 Leipzig, Germany. 6Max Planck Institute for Molecular Genetics, D-14195 Berlin, Germany. 7Max Planck Institute for the Mathematics in Sciences, D-04103 Leipzig, Germany. 8University of Vienna, Institute for Theoretical Chemistry, A-1090 Vienna, Austria. 9The Santa Fe Institute, Santa Fe, 87501 New Mexico, USA. 10University of Wu¨rzburg, Institute for Molecular Infection Biology, D-97080 Wu¨rzburg, Germany. 1 ©2010 Macmillan Publishers Limited. All rights reserved ARTICLES NATURE

a c log2 mapped reads (–) cDNA, no treatment 18 (+) cDNA, 5′PPP enriched (–) 0 (+) tRNA rRNA AUG mRNA cagA

18 (–) 0 (+) Lagging strand Leading strand 0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.67 b tRNA-Phe Urease operon cag pathogenicity island RNase P cleavage ML – ML + d 50 AS – 87% 0.4 0.1 40 0.2 AS + 0.05 0 0 30

Relative score cag11 cag12 cag16 cag17 cagA 20 cag10 cag23 ureH ureF ureE ureI ureB ureA Number of TSS 10 HP0068 tRNA-Val HP0533cag13cag14 cag15 cag18 cag19 cag20cag21cag22 cag24cag25 0 0 0 <–100 <–2 0–1–2 1 2 >2 >100 –0.2 ML – –0.1 –0.4 –0.2 Difference (nt) ML + Relative score

AS – Lagging strand Leading strand

AS + cag22–cag18 suboperon cag25–cag18 operon

72,000 74,000 76,000 78,000 564,000 566,000 568,000 570,000 572,000 574,000 576,000 578,000 580,000 582,000 584,000 Figure 1 | H. pylori TSS revealed by dRNA-seq. a, Combined cDNA reads and are consistent for all libraries of the same strand (maximum of 0.1 for without (blue, (2) libraries) or with (orange, (1) libraries) terminator leading strand; minimum of 20.2 for lagging strand). c, Schematic drawing exonuclease treatment mapped to and plotted as log2 values over the H. of cDNA enrichment patterns (here in AS2/1 libraries) at primary 59 ends pylori chromosome. All libraries were adjusted to same scale. Vertical bars of cagA mRNA (top) or tRNA-Phe precursor (bottom). Exonuclease indicate tRNA (green), rRNA (blue) or mRNA (grey) gene clusters. b, cDNAs treatment (AS1 library; red curve) shifts the cagA cDNAs towards the of mid-log growth (ML2/1) and acid stress (AS2/1) libraries mapped onto nuclease-protected 59-end, yielding a sawtooth-like profile with an elevated urease operon (left) or cag pathogenicity island (right) annotations in sharp 59 flank that matches the published TSS15. In contrast, the mature forward and reverse direction (genome position at the bottom). Black and (RNase P-cleaved) 59 end of tRNA-Phe is predominant in the AS (2) library grey arrows denote published (ureA13,14, ureI49,50, cagA/B15) and newly (black curve). d, Histogram indicating observed distances between 69 TSS identified TSS, respectively. Annotation of cagB (open symbol) according to identified by dRNA-seq vs independent experimental approaches H. pylori strain G27. Dotted lines exemplify the primary cag25–cag18 operon (Supplementary Table 1). Of these TSS 87% matched within 62 nt tolerance and its associated cag22–cag18 suboperon transcribed by the internal TSS in (all 22 TSS mapped by 59 RACE in Supplementary Fig. 3 match with 61 nt). cag23. Scales give a relative score (% mapped reads per genome position) annotated gene on the same strand; antisense TSS situated inside or revealed an extended Pribnow box (tgnTAtaAT) as the 210 motif of within #100 bp of an oppositely encoded gene; and orphan TSS the housekeeping s80 in H. pylori (Fig. 2b; for s28 and s54, see Sup- without annotated genes in proximity. Consequently, multiple asso- plementary Tables 6–8 and Supplementary Fig. 5). Intriguingly, the ciations of TSS are not uncommon (Fig. 2a). 235 motif is replaced by a periodic AT-rich signal upstream of H. pylori was thought to lack the extensive operon structure3,16 typical position 214. Thus, consistent with earlier analysis of much fewer of other bacterial genomes. We complemented our TSS map with promoters in H. pylori20 or related Campylobacter jejuni21, our global DOOR17 and conventional RNA-seq analyses to assign 87.5% of all H. TSS map shows that transcription in e-proteobacteria initiates at pylori genes to 337 primary operons (Supplementary Table 5), present- extended Pribnow boxes downstream of periodic AT-rich stretches. ing the first operon map based on knowledge of transcriptional ini- tiation. dRNA-seq readily detected internal TSS of downstream Massive antisense transcription cistrons within longer primary operons, predicting 126 additional sub- The H. pylori transcriptome is highly complex (Fig. 2a), and 27% operons and 66 monocistrons overlapping the 39 part of polycistrons in of the primary TSS are also antisense TSS, indicating that—similar to H. pylori. Independent validation of such suboperonic signals (Sup- E. coli22—antisense transcription occurs across the entire H. pylori plementary Fig. 4) confirmed an acid-induced internal TSS in cag23 genome (Fig. 3a, Supplementary Fig. 6 and Supplementary Table 9). (Fig. 1b), supporting the known upregulation of cag22–cag18 from Because the antisense TSS are uncorrelated with local GC content the primary cag25–18 operon under acid stress10. Likewise, internal (Fig. 3a), they are unlikely to reflect promiscuous transcription ini- TSS reveal potential uncoupling of suboperons starting with ftsH (cell tiation at AT-rich hexamers. Furthermore, analysis of biological repli- division) or copP (copper transport) from the physiologically unrelated cates (ML2/1 libraries), control experiments using actinomycin D to HP1067 (cheY) chemotaxis gene in the HP1067–HP1074 operon18. suppress unspecific cDNA synthesis (Supplementary Information), Bacterial promoters usually contain specific sequences for binding and independent northern blot probing (Supplementary Fig. 7), of RNA polymerase (RNAP)-associated s factors, for example, the consistently show that the many detected antisense TSS are not 235 (TTGACA) and 210 (TATAAT) boxes of the housekeeping s70 artefacts of library construction. Rather, their high number might in Escherichia coli19. Correspondingly, motif searches at the 1,907 TSS indicate that transcriptional initiation is an important cause of global 2 ©2010 Macmillan Publishers Limited. All rights reserved NATURE ARTICLES

ab1,000 PPI P, I O S 800 Gene 1 Gene 2 Gene 3 Gene 4 600 <500 <100 <100 AA Counts 400 200 Secondary Internal 0 119 439 –20 –15 –10 –5 Primary Antisense Extended –10 box position relative to TSS 812 31 244 969 2 0 36 12 451 0 2 686 1 Bits 0 Orphan 142 50 03 38 0 –9 –8 –7 –6 –5 –4 –3 –2 –1 216 +1

5′ –40 –39 –38 –37 –36 –35 –34 –33 –32 –31 –30 –29 –28 –27 –26 –25 –24 –23 –22 –21 –20 –19 –18 –17 –16 –15 –14 –13 –12 –11 –10 3′

cd Reannotation 30 Old AUG TGNTATAAT SD AUG 26695 Leaderless mRNA HPAG1 25 J99 2 SD sequence Hac 1

Bits Consensus 0 20

15

P1018 10 H pgsA rocE htrA 0.2 5 Number of mRNAs 0.1 AS – 0 0 AS + –400 –200 –100 –80 –60 –40 –20 Relative score 5′ UTR length (nt) 1,079,000 1,079,500 1,080,000 1,080,500 1,081,000 1,081,500 Figure 2 | TSS annotation and 59 mRNA structure. a, Top: representation of which 1,645/1,906 (,86%) lie 211, 210 and 29 bp relative to TSS (top, categories for TSS annotation based on expression strength and genomic histogram of distribution; bottom, logo of upstream TSS sequences). The context: primary (P), secondary (S), internal (I), antisense (A), or orphan dotted line indicates the upstream periodic AT-stretch signal. See (O). Bottom: Venn diagram showing overlap among TSS categories. Many of Supplementary Table 7 for statistical analysis. c, Frequency of individual 59 the 1,907 H. pylori TSS associate with multiple categories (see TSS in gene 2 UTR length based on 825 TSS (primary and secondary) of mRNAs. 59 UTR above), yielding 2,496 TSS associations in total (Supplementary Table 4). lengths ,10 nt (red bars) reveal 34 leaderless mRNAs. The inset shows the Antisense TSS were detected for 721/1,576 (,46%) of annotated ORFs; SD sequence motif of H. pylori. d, Re-annotation of rocE gene prompted by a primary TSS for 717 ORFs; 106 secondary TSS for 98 ORFs; 428 internal TSS newly discovered TSS downstream of its originally annotated start codon for 363 ORFs. Primary TSS commonly reside in upstream ORFs: 142/812 (grey box). Reads of AS2/1 libraries mapping to the pgsA-rocE-HP1018- (,17%) primary TSS are also internal; 142/439 (,32%) internal TSS are htrA region are shown below an alignment of rocE sequences (59 region) of also primary. 216/812 primary TSS (,27%) are antisense TSS, revealing diverse Helicobacter strains. The highly conserved re-annotated AUG, its SD profound global antisense transcription. b, Motif searches upstream of and the 210 box of the new TSS are boxed. H. pylori TSS reveal extended Pribnow boxes (210 signal: tgnTAtaAT) of antisense transcription in H. pylori, in addition to possible imperfect ,6 nt (median distance) upstream of start codons as the consensus termination22. Shine–Dalgarno sequence in H. pylori (Fig. 2c). We found correlations At least one antisense TSS is associated with ,46% of all ORFs, of 59UTR length with cellular function. For example, nucleotide- and including many housekeeping genes such as valS (valyl-tRNA synthe- nucleoside-related genes almost invariably have ,30-nt-long 59UTRs, tase) or rpl21 (ribosomal protein L21), although there is no general as if optimized for translation. In contrast, regulatory genes of cellular bias towards core or variable H. pylori genes23 (data not shown). processes such as cell division, pathogenesis or transformation possess Moreover, ,28% of the tRNAs, and the 59 leaders of 23S and 16S significantly longer 59UTRs (Supplementary Fig. 8). Structural align- rRNA precursors have antisense TSS. Notably, as H. pylori lacks ment of the H. pylori 59UTRs with Rfam database families detected a endoRNases E/G and other common processing factors of stable thiamine pyrophosphate riboswitch upstream of pnuC. In support of RNAs3, antisense-guided cleavage involving the dsRNA-specific the previously predicted transcriptional attenuation mechanism30, both RNase III (ref. 3) might compensate for this paucity. RNA-seq and northern blot probing observed a short (,100 nt) tran- We identified antisense TSS for 22 of 34 putative phase-variable script from this candidate riboswitch (Supplementary Fig. 9). Although genes24 featuring homopolymeric tracts and dinucleotide repeats, no other known riboswitches were detected, conforming to their general and with functions in lipopolysaccharide biosynthesis, surface struc- paucity in Gram-negative species, there are 337 UTRs long enough ture and DNA restriction/modification (Supplementary Table 10). (.60 nt) to harbour novel cis-regulatory RNA structures31. Of these, the two fucT copies (HP0651/0379) encode the fucosyl- Although leaderless mRNAs are considered rare and primarily transferases that modify the major Lewis antigen of H. pylori. Our phage-associated in Gram-negative species32, we found that ,2.2% of discovery of antisense TSS adjacent to the 59 poly(C) tracts involved all H. pylori mRNAs have a 59UTR ,10 nt (Supplementary Table 11). in switching on/off the fucT genes by slipped-strand mispairing25,26 At 26 genes, including the dnaA, recR and hemH housekeeping genes, raises the possibility of antisense regulation of surface structure transcription initiates exactly at an AUG start codon essential for stable variations and host interactions. Moreover, acid-stress-induced ribosome binding of leaderless mRNAs32. antisense RNAs opposite to known acid-stress-repressed genes (for Some primary TSS lay downstream of previously annotated start example, rpl21, HP1186, HP0637; refs 10, 11) would indicate similar codons, as exemplified by rocE (Fig. 2d). Yet, sequence conservation control at low pH (Supplementary Fig. 7). among Helicobacter strains strongly supported the rocE TSS mapped by dRNA-seq, as well as a new start codon ,30 bp downstream. 59 UTRs and leaderless mRNAs Similarly, we propose corrections for 18 more genes (Supplementary The 59UTR (untranslated region) ranging from TSS to start codon Table 12), complementing re-annotations by genome comparison33. determines the translational efficiency of messengers. In striking accor- dance with the structurally observed ribosome contacts27,ourTSS An unexpected wealth of Helicobacter sRNAs annotation reveals that most (,50%) of the 59UTRs are 20–40 nucleo- Previous annotations in H. pylori predicted stable tRNAs, rRNAs, tides (nt) in length (Fig. 2c), and support the AAGGag motif28,29 located transfer-messenger RNA (tmRNA), RNase P and signal recognition 3 ©2010 Macmillan Publishers Limited. All rights reserved ARTICLES NATURE

a 20 experiments (Supplementary Figs 10–14 and Supplementary Antisense sRNA Small ORF Sense in ORF 6S RNA , 10 Table 14), among these are all five members of a 200 nt sRNA

0 family whose multiplicity is reminiscent of the Qrr sRNAs that con- 34 expression 10 trol quorum sensing and virulence in Vibrio bacteria .

20 6S We have also identified 6S RNA (,180 nt), an abundant and Plasticity zone 0.45 ubiquitous riboregulator of RNAP. 6S RNA notoriously failed to be 31,35,36 0.35 discovered in the e-subdivision , perhaps because it is expressed GC content log-normalized 0.25 Plasticity zone cag antisense to HP1219 (Fig. 3b,c), a poorly conserved hypothetical ORF 0 0.5 1.0 1.5 1.67 (Supplementary Fig. 15). Structural probing experiments in vitro bc pRNA* pRNA 0.3 0.6 0.8 1.2 1.7 2.0 A (Fig. 3d) and conservation analysis (Supplementary Fig. 16) indicate AAUAAGGCUAGGAGGAU AACGAACUUGCC 600 HP1219 (hypothetical) 6S that H. pylori 6S RNA adopts the characteristic structure of a long ML– hairpin with a central asymmetric bulge by which E. coli 6S RNA 5S 35–37 ML+ sequesters RNAP . To disentangle itself, RNAP uses 6S RNA as 37 AS– template for transcription of 14–20 nt RNA products (pRNAs) . 0.1 0.05 AS+ We detected two classes of pRNAs in H. pylori (Fig. 3b), one starting 0 with the corresponding bulge-internal adenosine of E. coli pRNAs37, 1,295,300 1,295,400 1,205,500 1,295,600 1,295,700 0 –6 ML– and the other (pRNA*) originating from the opposite strand as previ- Relative score –12 ML+ ously observed with certain 6S RNA mutants in vitro (K. Wassarman, AS– personal communication). Our in vivo detection of pRNAs in a AS+ remote relative of E. coli shows that 6S RNA regulation of RNAP purD yhcG 6S RNA activity is a widely conserved mechanism. Several of the new H. pylori sRNAs seem as abundant as 6S RNA d (Fig. 3a), and most of them are conserved at the sequence level among 90 C T1 OH RNaseRNase T1Lead T2Lead + ++ Helicobacter species but not outside the e-subdivision (data not shown). In global structural clustering analysis assaying conservation G151 G143 of functional secondary structure rather than primary sequence, we G130 G121 110 observed that whereas the c-proteobacterial sRNAs of E. coli and G108 70 G100 Salmonella form large groups of similar structures, the H. pylori

G85 Lead(II) sRNAs fall in small groups exhibiting specific structural motifs G77 RNase T2 (Supplementary Fig. 17). Thus, except for 6S RNA and housekeeping G71 RNase T1 G64 RNAs, e-proteobacteria including H. pylori might have evolved a G59 unique sRNA repertoire. G54 pRNA* Many sRNAs in other bacteria repress trans-encoded mRNAs by G44 5,6 38 G41 pRNA short base-pairing in the 59UTR . Here, the TargetRNA program G37 predicted an interaction of the abundant HPnc5490 sRNA with the G32 59UTR of tlpB encoding a canonical chemotaxis receptor of H. pylori G29 (Fig. 4a). The involvement of accessible loop residues of HPnc5490, and the calculated RNA duplex strength (DG 5234.3 kcal mol21) G19 added confidence to this prediction. An HPnc5490 deletion mutant G17 was generated, and observed to have increased levels of the ,60 kDa

G12 170 TlpB protein (Fig. 4b) and the tlpB-HP0102 operon mRNA, yet 10 normal expression of the remaining canonical chemotaxis receptor G9 genes, tlpA and tlpC (Fig. 4c). Thus, HPnc5490 probably regulates ′ ′ 5 3 tlpB as a trans-antisense RNA. Figure 3 | Discovery of H. pylori sRNAs including 6S RNA. a, Relative We identified a family of six structurally related ,80 nt sRNAs expression of candidate and validated sRNAs according to log2 values of read expressed antisense to small ORFs of homologous 22–30 amino acid numbers (first 50 nt downstream of TSS) of all sequenced libraries (upper peptides (Fig. 4d, e and Supplementary Fig. 18), henceforth referred part) compared to local GC content (lower part) plotted across the H. pylori to as IsoA1-6 (RNA inhibitor of small ORF family A) and aapA1-6 genome. b, Reads in the ML and AS libraries show a highly expressed 180 nt sRNA candidate, now H. pylori 6S RNA, in the yhcG–purD intergenic region (antisense RNA-associated peptide family A), respectively. Five of the and opposite to annotated (yet questionable) ORF HP1219. Determined aapA ORFs produced stable mRNAs in vivo (Fig. 4e). In vitro trans- sequences of detected 6S RNA-specific pRNA/pRNA* including their 6S lation assays yielded the expected small peptides, except for aapA2 RNA-borne TSS are shown at the top. c, Northern blot detection of 6S RNA mRNA whose Shine–Dalgarno sequence is mutated in strain 26695 (and 5S rRNA as loading control) from exponential growth to late stationary (not shown). Furthermore, translation of aapA1 or aapA3 was phase in BHI medium. d, In vitro structure probing (left) of 59end-labelled strongly and specifically inhibited in the presence of the cognate 6S RNA of H. pylori. C, T1 and OH identify no reaction, digestion under IsoA1 or IsoA3 sRNAs (Fig. 4f), thus revealing candidates of cis- denaturing conditions with nuclease T1 (cleaved G residues given to the antisense regulation in H. pylori. left), or alkali, respectively. The right four lanes reveal cleavages induced by The AapA peptides are conserved in other H. pylori strains RNase T1, T2, or lead(II), whose positions are indicated in the derived secondary structure of 6S RNA (right panel) by black, red, and grey circles, (Supplementary Fig. 19) and might interact with membranes, as respectively. The template nucleotides of the detected pRNA and pRNA* suggested by their predicted high hydrophobicity and a-helical struc- sequences are framed in black or blue, respectively. ture (Fig. 4d and Supplementary Fig. 20), as well as similarities to Antimicrobial Peptide Database39 entries such as human defensin particle RNA (SRP RNA), all of which were here confirmed to be LL-37. Therefore, the aapA–isoA loci might be toxin-antitoxin expressed. Moreover, the dRNA-seq data predicted hundreds of addi- systems that slow down growth of H. pylori or other organisms in tional sRNA candidates (denoted HPnc) from intergenic regions, the gastric mucosa, protect against phages, or facilitate the proposed antisense to ORFs, and also sense within ORFs (Fig. 3a; Supplemen- (though controversial) altruistic autolysis of H. pylori40 which was tary Fig. 10 and Supplementary Table 13). We have so far validated postulated to involve as yet unknown ,3.5 kDa hydrophobic pep- the expression of ,60 new sRNAs by independent northern blot tides41. Whereas the AapA peptides remain to be detected in vivo,our 4 ©2010 Macmillan Publishers Limited. All rights reserved NATURE ARTICLES

43 a b c interaction map . The data provide new insights into the organiza- WT ΔHPnc5490 tion of the H. pylori transcriptome, and provide a framework for HP0101 HP0102 tlpB HP0104 Δ WT HPnc5490 10 better analysis of individual genes. Knowledge of the vast majority 5′–CG CA–3′ 9 GGGGGGGGGGGUG 175 8 ||:|||||:|||| of H. pylori TSS and operons will help evaluate unclear phenotypes of CCUCCCCCUCCAC 7 transposon insertions44,45, and eliminate unwanted antisense tran- 3′–UU UG–5′ 80 6 HP1043 HP1044 5 scripts in heterologous expression constructs of H. pylori vaccine 4 5 58 TlpB candidates. Altogether, ,100 sRNAs are known in E. coli , the model HPnc5490 3 2 organism of bacterial RNA research. Corrected by genome size, H. 46 3′ Relative mRNA expression 1 5′ pylori rivals E. coli despite the lack of a conserved Hfq protein. 0 Combined with the success of artificial antisense RNAs in H. pylori46, tlpB tlpA tlpC HP0102 our results show that many RNA-mediated regulations are yet to be e de discovered in -proteobacterial pathogens. aapA1 Other RNA-seq studies detected termini of bacterial transcripts8 omp27 deoD ML AS PL AGSHuh7 ML AS PL AGSHuh7 9 isoA1 but could not unequivocally assign TSS due to lack of 5 group 331 242 aapA2 242 aapA1 aapA5 discrimination. As 59PPP ends mark native transcripts in all eubac- 190 190 HP1175 omp27 110 teria, dRNA-seq should help improve the genome annotations of 147 isoA2 47 110 IsoA5 HP1432 aapA3 other organisms, alone or through metatranscriptomics . It could 67 IsoA1 also complement the popular CAGE48 technique for eukaryotic HP1433 67 isoA3 mRNAs because their cap structure blocks terminator exonuclease. aapA4 34 HP1533 242 Moreover, an improved dRNA-seq protocol might permit detection tnpB aapA6 isoA5 190 of processed 59 hydroxyl ends that unlike the more prominent 59P IsoA2 147 aapA5 67 110 ends are not presently captured in the (2) library. Semi-quantitative IsoA6 HP0022 omp2 331 isoA5 analysis of TSS coverage revealed considerable gene expression 242 aapA3 67 aapA6 190 changes in H. pylori grown along with eukaryotic cells (Supplemen- nusA IsoA3 tary Table 16). Thus, dRNA-seq has the potential to unravel gene HP1517 67 isoA6 HP1516 expression in pathogens and perhaps also their hosts during 331 4,000 bp aapA4 242 f infections. 130190 M – IsoA1IsoA3 110 AapA1 aapA1 AapA3 3.5 METHODS SUMMARY AapA5 IsoA4 3.5 aapA3 AapA6 67 AapA4 Details of bacterial growth conditions, cDNA library construction, TSS annota- tion, sRNA validation, and biocomputational as well as statistical analyses, as Figure 4 | Trans and cis regulatory sRNAs. a, Genomic context of the operon well as other methods are provided as Supplementary Information. For dRNA- (dotted line) encoding chemotaxis receptor, TlpB, and of HPnc5490 sRNA, seq, total RNA was extracted from H. pylori grown under various growth con- together with the predicted 13 bp HPnc5490–tlpB RNA duplex (grey ditions, and treated with Terminator-59-phosphate-dependent exonuclease background). A consensus structure of HPnc5490 homologues shown below (Epicentre Biotechnologies) to deplete processed RNAs. The cDNA libraries reveals presentation of the pairing residues by an accessible loop region. (vertis Biotechnologie AG) were constructed for RNA 2/1 prior exonuclease b, SDS–PAGE showing accumulation of TlpB protein (identified by mass treatment for each growth condition without size fractionation of RNA, spectrometry) in wild-type vs HPnc5490-deficient H. pylori bacteria in mid- before cDNA synthesis. 225,000–540,000 cDNAs per library were sequenced log growth. Marker bands (kDa) to the left. c, Quantitative real-time PCR on a Roche FLX machine, and mapped to the H. pylori 26695 genome. For each analysis of HPnc5490-dependent expression of four H. pylori mRNAs. Wild- library, graphs representing the number of mapped reads per nucleotides were type mRNA levels (grey bars) are set to 1, and fold-regulation upon HPnc5490 calculated and visualized using the Affymetrix Integrated Genome Browser. To deletion is indicated by black bars. Error bars indicate standard deviations corroborate operon predictions, we also analysed a total of ,43,000,000 strand- among three technical replicates. d, Genomic locations of IsoA1–6 RNA specific cDNAs obtained from randomly fragmented RNA by Solexa (Illumina) (black boxes) and associated peptide-encoding aapA mRNAs (grey). IsoA2 sequencing. overlaps with hypothetical ORF HP1176. In strain 26695, aapA2 lacks a Received 6 August; accepted 14 December 2009. conserved peptide ORF. IsoA5 and IsoA6 lie opposite to hypothetical ORFs, Published online 17 February 2010. HP0024 (aapA5) and HP1515 (aapA5). In the alignment of AapA1 and AapA3–6 peptides of strain 26695 (bottom), grey shades denote predicted 1. Cover, T. L. & Blaser, M. J. Helicobacter pylori in health and disease. transmembrane domains, and ‘1’ a positively charged amino acid (H, K, or Gastroenterology 136, 1863–1873 (2009). R) conserved in at least one sequence. e, Northern blots of IsoA and aapA 2. Suerbaum, S. & Michetti, P. Helicobacter pylori infection. N. Engl. J. Med. 347, transcripts of bacteria grown to mid-log phase (ML), under acid stress (AS), 1175–1186 (2002). or in cell culture flasks (PL) along with gastric (AGS) or liver (Huh7) cells. An 3. Tomb, J. F. et al. The complete genome sequence of the gastric pathogen Helicobacter pylori. Nature 388, 539–547 (1997). aapA2 mRNA failed to be detected. Triangles indicate expected transcripts 4. Alm, R. A. et al. Genomic-sequence comparison of two unrelated isolates of the according to RNA-seq. Size marker positions are shown to the left. human gastric pathogen Helicobacter pylori. Nature 397, 176–180 (1999). f, Autoradiogram of gel-separated in vitro translation products of the aapA1 5. Waters, L. S. & Storz, G. Regulatory RNAs in bacteria. Cell 136, 615–628 (2009). and aapA3 mRNAs alone, or in presence of fourfold excess of IsoA1 or IsoA3 6. Majdalani, N., Vanderpool, C. K. & Gottesman, S. Bacterial small RNA regulators. antisense RNAs. Lane M contains a co-migrating 3.5 kDa marker peptide. Crit. Rev. Biochem. Mol. Biol. 40, 93–113 (2005). 7. Valentin-Hansen, P., Eriksen, M. & Udesen, C. The bacterial Sm-like protein Hfq: a prediction of additional conserved 10–60 amino acid peptides key player in RNA transactions. Mol. Microbiol. 51, 1525–1533 (2004). (Supplementary Table 15 and Supplementary Figs 20–21) shows that 8. Sorek, R. & Cossart, P. Prokaryotic transcriptomics: a new view on regulation, small ORFs are more common in Helicobacter species than appre- physiology and pathogenicity. Nature Rev. Genet. 11, 9–16 (2010). ciated. Moreover, the intriguing similarities of three antisense RNA- 9. Sharma, C. M. & Vogel, J. Experimental approaches for the discovery and associated peptides (aapC1/2, aapD)ofH. pylori with the hydrophobic characterization of regulatory small RNA. Curr. Opin. Microbiol. 12, 536–546 42 (2009). Ibs family of E. coli indicate that such loci might be spread via hori- 10. Wen, Y. et al. Acid-adaptive genes of Helicobacter pylori. Infect. Immun. 71, zontal gene transfer. 5921–5939 (2003). 11. Merrell, D. S., Goodrich, M. L., Otto, G., Tompkins, L. S. & Falkow, S. pH-regulated Concluding remarks gene expression of the gastric pathogen Helicobacter pylori. Infect. Immun. 71, 3529–3539 (2003). Our single nucleotide resolution TSS map constitutes the third global 12. Bury-Mone´,S.et al. Responsiveness to acidity via metal ion regulators mediates reference data set for the model organism H. pylori strain 26695, virulence in the gastric pathogen Helicobacter pylori. Mol. Microbiol. 53, 623–638 complementing its genome sequence3,4 and global protein–protein (2004). 5 ©2010 Macmillan Publishers Limited. All rights reserved ARTICLES NATURE

13. Shirai, M., Fujinaga, R., Akada, J. K. & Nakazawa, T. Activation of Helicobacter pylori 37. Wassarman, K. M. & Saecker, R. M. Synthesis-mediated release of a small RNA ureA promoter by a hybrid Escherichia coli–H. pylori rpoD gene in E. coli. Gene 239, inhibitor of RNA polymerase. Science 314, 1601–1603 (2006). 351–359 (1999). 38. Tjaden, B. et al. Target prediction for small, noncoding RNAs in bacteria. Nucleic 14. Spohn, G. & Scarlato, V. Motility of Helicobacter pylori is coordinately regulated by Acids Res. 34, 2791–2802 (2006). the transcriptional activator FlgR, an NtrC homolog. J. Bacteriol. 181, 593–599 39. Wang, Z. & Wang, G. APD: the Antimicrobial Peptide Database. Nucleic Acids Res. (1999). 32, D590–D592 (2004). 15. Spohn, G., Beier, D., Rappuoli, R. & Scarlato, V. Transcriptional analysis of the 40. Phadnis, S. H. et al. Surface localization of Helicobacter pylori urease and a heat divergent cagAB genes encoded by the pathogenicity island of Helicobacter pylori. shock protein homolog requires bacterial autolysis. Infect. Immun. 64, 905–912 Mol. Microbiol. 26, 361–372 (1997). (1996). 16. Thompson, L. J. et al. Gene expression profiling of Helicobacter pylori reveals a 41. Fujita, Y. et al. A novel mechanism of autolysis in Helicobacter pylori: possible growth-phase-dependent switch in virulence gene expression. Infect. Immun. 71, involvement of peptidergic substances. Helicobacter 10, 567–576 (2005). 2643–2655 (2003). 42. Fozo, E. M., Hemm, M. R. & Storz, G. Small toxic proteins and the antisense RNAs 17. Mao, F., Dam, P., Chou, J., Olman, V. & Xu, Y. DOOR: a database for prokaryotic that repress them. Microbiol. Mol. Biol. Rev. 72, 579–589 (2008). operons. Nucleic Acids Res. 37, D459–D463 (2009). 43. Rain, J. C. et al. The protein–protein interaction map of Helicobacter pylori. Nature 18. Beier, D., Spohn, G., Rappuoli, R. & Scarlato, V. Identification and characterization 409, 211–215 (2001). of an operon of Helicobacter pylori that is involved in motility and stress 44. Salama, N. R., Shepherd, B. & Falkow, S. Global transposon mutagenesis and adaptation. J. Bacteriol. 179, 4676–4683 (1997). essential gene analysis of Helicobacter pylori. J. Bacteriol. 186, 7926–7935 (2004). 19. Burgess, R. R. & Anthony, L. How sigma docks to RNA polymerase and what sigma 45. Jenks, P. J., Chevalier, C., Ecobichon, C. & Labigne, A. Identification of nonessential does. Curr. Opin. Microbiol. 4, 126–131 (2001). Helicobacter pylori genes using random mutagenesis and loop amplification. Res. 20. Forsyth, M. H. & Cover, T. L. Mutational analysis of the vacA promoter provides Microbiol. 152, 725–734 (2001). insight into gene transcription in Helicobacter pylori. J. Bacteriol. 181, 2261–2266 46. Croxen, M. A., Ernst, P. B. & Hoffman, P. S. Antisense RNA modulation of alkyl (1999). hydroperoxide reductase levels in Helicobacter pylori correlates with organic 21. Petersen, L., Larsen, T. S., Ussery, D. W., On, S. L. & Krogh, A. RpoD promoters in peroxide toxicity but not infectivity. J. Bacteriol. 189, 3359–3368 (2007). Campylobacter jejuni exhibit a strong periodic signal instead of a 235 box. J. Mol. 47. Shi, Y., Tyson, G. W. & DeLong, E. F. Metatranscriptomics reveals unique Biol. 326, 1361–1372 (2003). microbial small RNAs in the ocean’s water column. Nature 459, 266–269 (2009). 22. Selinger, D. W. et al. RNA expression analysis using a 30 base pair resolution 48. Kodzius, R. et al. CAGE: cap analysis of gene expression. Nature Methods 3, Escherichia coli genome array. Nature Biotechnol. 18, 1262–1268 (2000). 211–222 (2006). 23. Gressmann, H. et al. Gain and loss of multiple genes during the evolution of 49. Akada, J. K., Shirai, M., Takeuchi, H., Tsuda, M. & Nakazawa, T. Identification of Helicobacter pylori. PLoS Genet. 1, e43 (2005). the urease operon in Helicobacter pylori and its control by mRNA decay in 24. Saunders, N. J., Peden, J. F., Hood, D. W. & Moxon, E. R. Simple sequence repeats response to pH. Mol. Microbiol. 36, 1071–1084 (2000). in the Helicobacter pylori genome. Mol. Microbiol. 27, 1091–1098 (1998). 50. Pflock, M., Kennard, S., Delany, I., Scarlato, V. & Beier, D. Acid-induced activation 25. Appelmelk, B. J. et al. Phase variation in Helicobacter pylori lipopolysaccharide. of the urease promoters is mediated directly by the ArsRS two-component Infect. Immun. 66, 70–76 (1998). system of Helicobacter pylori. Infect. Immun. 73, 6437–6445 (2005). 26. Wang, G., Rasko, D. A., Sherburne, R. & Taylor, D. E. Molecular genetic basis for the variable expression of Lewis Y antigen in Helicobacter pylori: analysis of the Supplementary Information is linked to the online version of the paper at a(1,2) fucosyltransferase gene. Mol. Microbiol. 31, 1265–1274 (1999). www.nature.com/nature. 27. Ramakrishnan, V. Ribosome structure and the mechanism of translation. Cell 108, 557–572 (2002). Acknowledgements We thank F. Seifert; H. Hamoutene and B. Timmermann for 28. Vanet, A., Marsan, L., Labigne, A. & Sagot, M. F. Inferring regulatory elements technical support; M. Schmid for mass spectrometry analysis; H. De Reuse, A. van from a whole genome. An analysis of Helicobacter pylori s80 family of promoter Vliet and M. K. Waldor for discussions; F. Thu¨mmler for library preparation; signals. J. Mol. Biol. 297, 335–353 (2000). M. Droege for pyrosequencing support. J.V. and R.R. are supported by NGFN1 grants 29. Yada, T., Totoki, Y., Takagi, T. & Nakai, K. A novel bacterial gene-finding system (BMBF, Germany), and J.V. and P.F.S. by DFG Priority Program SPP1258 Sensory and with improved accuracy in locating start codons. DNA Res. 8, 97–106 (2001). Regulatory RNAs in Prokaryotes (Grants VO8751/2, VO8751/4; STA850/7-1). S.H. 30. Rodionov, D. A., Vitreschak, A. G., Mironov, A. A. & Gelfand, M. S. Comparative was supported by a formel.1 grant of the University of Leipzig, the Freistaat Sachsen genomics of thiamin biosynthesis in procaryotes. New genes and regulatory (LIFE project), the German Research Foundation IZBI (BIZ6/1-4) and Volkswagen mechanisms. J. Biol. Chem. 277, 48949–48959 (2002). Stiftung (I/82 720). F.D. is supported by the French Agence Nationale de la 31. Weinberg, Z. et al. Identification of 22 candidate structured RNAs in bacteria Recherche (ANR-07-JCJC-0104-01), the French Association de la Recherche contre using the CMfinder comparative genomics pipeline. Nucleic Acids Res. 35, le Cancer (ARC) and La Ligue Nationale contre le Cancer (LNCC). We thank D. Rose 4809–4819 (2007). for his supporting work and S. Washietl for a pre-release of the RNAcode software. 32. Brock, J. E., Pourshahian, S., Giliberti, J., Limbach, P. A. & Janssen, G. R. Ribosomes Author Contributions C.M.S., F.D., P.F.S. and J.V. designed the research; C.M.S., bind leaderless mRNA in Escherichia coli through recognition of their 59-terminal F.D., A.S., J.R., J.V. and S.C. performed all wet lab work. C.M.S., S.H., S.F., K.R., J.H. AUG. RNA 14, 2159–2169 (2008). and P.F.S. conducted biocomputational analyses; R.R. carried out sequencing. J.V. 33. Boneca, I. G. et al. A revised annotation and comparative analysis of Helicobacter wrote the manuscript, which all authors commented on, and supervised the pylori genomes. Nucleic Acids Res. 31, 1704–1714 (2003). project. Author information and raw data are available from C.M.S, P.F.S. and J.V. 34. Lenz, D. H. et al. The small RNA chaperone Hfq and multiple small RNAs control quorum sensing in Vibrio harveyi and Vibrio cholerae. Cell 118, 69–82 (2004). Author Information Raw data are available from the NCBI Short Read Archive 35. Barrick, J. E., Sudarsan, N., Weinberg, Z., Ruzzo, W. L. & Breaker, R. R. 6S RNA is a (http://www.ncbi.nlm.nih.gov/Traces/sra) under accession number SRA010186. widespread regulator of eubacterial RNA polymerase that resembles an open Reprints and permissions information is available at www.nature.com/reprints. promoter. RNA 11, 774–784 (2005). The authors declare no competing financial interests. Correspondence and 36. Wassarman, K. M. & Storz, G. 6S RNA regulates E. coli RNA polymerase activity. requests for materials should be addressed to J.V. Cell 101, 613–623 (2000). ([email protected]).

6 ©2010 Macmillan Publishers Limited. All rights reserved 4. Discussion

L’étude du transcriptome d’H. pylori par séquençage haut-débit a apporté de nombreuses informations quant à l’expression des gènes et l’organisation transcriptionnelle de cette bactérie, domaines qui restaient jusqu’alors assez peu documentés dans la littérature. Même si initialement l’usage de l’enzyme TEX (Epicentre) était un outil vendu pour éliminer les ARN les plus abondants (ARNr et ARNt) chez H. pylori, ce traitement s’est avéré ne pas être totalement efficace. En effet la distribution des séquences lues dans les banques enrichies en transcrits primaires révèle effectivement une proportion réduite de transcrits correspondant aux ARNr 23S et 16S. Cependant, cette réduction bénéficie essentiellement aux ARNt, qui occupent une part plus importante du nombre total de séquences lues dans les banques enrichies. Des travaux récents montrent qu’une autre méthode d’enrichissement, basée sur la capture des ARNr 23S et 16S avec des sondes complémentaires fixées sur des billes (Kit MicrobeExpress, Ambion), est plus efficace pour l’élimination de ces ARN (He et al., 2010). En revanche, au niveau qualitatif, l’usage de cette enzyme s’est avéré fort utile pour cartographier les promoteurs des gènes d’H. pylori.

En révélant le TSS de 1907 unités de transcription distribuées sur le génome de la bactérie, nous avons pu identifier :

- Les 1907 régions promotrices associés à ces TSS, dont l’étude comparative a permis de confirmer et d’approfondir le motif consensus des promoteurs reconnus par le facteur σ70/80 ; ces données sont en corrélation avec une étude précédente sur ce type de promoteur (Forsyth and Cover, 1999). - La taille et la séquence des régions 5’UTR de 717 ORF, informations particulièrement intéressantes puisque ces régions sont souvent la cible de régulation ARN-dépendante de l’expression des gènes. - De nombreux gènes organisés en opéron (85 % des gènes regroupés en 337 opérons. - Des centaines de petits ARN régulateurs candidats. - Une importante activité de transcription antisens aux gènes, sur l’ensemble du génome.

102

Reproductibilité

La reproductibilité de notre méthode de séquençage a été examinée sous deux aspects. En premier, nous avons tout d’abord pu confirmer la majorité des sRNA découverts par des analyses sur Northern- blot, soulignant une bonne reproductibilité entre ces deux techniques expérimentales.

Après le séquençage des 10 premières banques d’ADNc (ML, AS, AGS, Huh7, PL, enrichies ou non), nous avons généré deux nouvelles banques d’ADNc à partir d’ARNtotaux extraits de bactéries cultivées dans des conditions identiques à la banque ML. Les deux nouvelles banques, nommée MLR1 et MLR2 ont été également séquencées selon le même protocole que précédemment. Les données issues de ce second séquençage, comparées aux résultats de la banque ML, révèle une forte corrélation entre ces banques (Figure 33). En effet, chaque nucléotide couvert x fois dans la banque ML- est couvert, dans des proportions très proches, dans les banques MLR1 ou MLR2.

Figure 33 : Reproductibilité du profil transcriptomique généré par séquençage haut-débit. Pour chaque nucléotide du génome couvert x-fois dans la banque ML-, la couverture de ces nucléotides dans les autres banques a été calculée. Les graphiques représentent la couverture des nucléotides dans une expérience par rapport à une autre.

.

103

Nouveaux petits ARN régulateurs

Le travail présenté dans ce chapitre est le premier à fournir des données expérimentales quant à l’expression de petits ARN régulateurs chez H. pylori. Ce jeu de données constitue désormais un support conséquent pour une meilleure compréhension de la régulation de l’expression des gènes chez cette bactérie.

Parmi les sRNA abondants identifiés par séquençage haut-débit nous avons découvert un homologue structurel de l’ARN 6S chez H. pylori. Les séquences des ARN 6S d’E. coli (Wassarman and Storz, 2000) et l’ARN 6S d’H.pylori ne partagent aucune homologie, (ce qui explique que l’ARN 6S n’avait jusqu’alors pas été découvert par prédiction bio-informatique chez H. pylori). Cependant, la structure secondaire de l’ARN 6S de chez H. pylori, prédite et vérifiée expérimentalement par des empreintes sur gel, est très similaire à celle d’E. coli (Wassarman and Storz, 2000). De plus, nous observons dans les résultats du séquençage haut-débit la présence de courts transcrits correspondants au brin matrice formé par la boucle interne de l’ARN 6S. Une requête BLAST à partir de la séquence du gène codant pour l’ARN 6S d’H. pylori révèle que ce dernier est conservé dans le groupe des ε-protéobactéries. Ce résultat est particulièrement intéressant dans le sens où il fournit un exemple de relation entre structure secondaire et fonction d’un ARN. Cependant, dans le cas de l’ARN 6S d’H. pylori, il reste à confirmer son interaction avec l’ARN polymérase.

Nous avons également initié la caractérisation de plusieurs petits ARN candidats, dont un sRNA intergénique, HPnc5490, qui partage une séquence complémentaire à la région 5’UTR de l’ARNm codant pour la protéine TlpB, un récepteur du chimiotactisme. Nous avons démontré que dans une souche mutée pour HPnc5490, l’expression de la protéine TlpB est dérégulée. Nous avons récemment construit une souche complémentée pour cette cassette au laboratoire et les études sont en cours pour confirmer le rôle de HPnc5490 dans cette régulation. Nous avons également mis en évidence une famille répétée de petits ARN antisens transcrits face à des ORF de courte taille. La caractérisation de ces ARN sera développée au chapitre 2 des résultats.

D’un point de vue global, ce sont 56 sRNA intergéniques et plus de 200 sRNA antisens candidats qui ont été découverts, expérimentalement, dans le génome de la bactérie. Ces résultats s’ajoutent aux précédentes études de séquençage de transcriptome et soulignent l’intérêt de ces techniques pour l’identification de petits ARN régulateurs (Tableau 11).

104

Tableau 11 : Identification de sRNA par séquençage haut-débit du transcriptome, d’après (Roland et al., 2010).

Taille du Nb de sRNA Nb de sRNA Espèce Référence génome intergéniques antisens Eubactéries (Albrecht et al., Chlamydia trachomatis L2b 1.04Mb 41 25 2010) Listeria monocytogenes (Oliver et al., 2.9Mb 67 - 10403S 2009) (Yoder-Himes et Burkholderia cenocepacia 7Mb 13 - al., 2009) Vibrio cholerae 4Mb 520 127 (Liu et al., 2009) Helicobacter pylori 26695 1.7Mb 56 226 Cette étude Archébactérie (Wurtzel et al., Sulfolobus solfataricus P2 3Mb 310 185 2010) Eucaryote (Nagalakshmi et Saccharomyces cerevisiae 12Mb 487 - al., 2008)

Une forte activité de transcription antisens La cartographie des TSS sur le génome de la bactérie a révélé qu’il existait des sites d’initiation de la transcription sur les brins opposés à la moitié des ORF annotées du génome d’H. pylori. Ces transcrits, non-artéfactuels, peuvent être antisens à la région 5’UTR, la séquence codante ou la région 3’UTR de l’ARNm, selon les cas. Ce phénomène a été observé dans de nombreuses autres études de transcriptomique, et concerne aussi bien les eucaryotes (Neil et al., 2009; Yassour et al., 2010; Yelin et al., 2003) que les procaryotes (Dornenburg et al.; Peters et al., 2009). Le rôle de cette transcription antisens « basale » n’est pas encore compris. Que ces transcrits antisens soient impliqués dans la régulation de la traduction, la dégradation ou la maturation des ARNm sont des hypothèses possibles. Une autre hypothèse impliquerait un phénonème d’interférence transcriptionnelle : l’activité de transcription assurée par une ARN polymérase sur le brin antisens créé un encombrement stérique altérant l’activité du complexe ARN polymérase transcrivant le l’ARNm (Shearwin et al., 2005). Enfin une autre hypothèse est que cette transcription antisens soit la résultante d’une initiation de transcription non fidèle de séquence riche en AT sachant que la boite -10 est riche en AT (TATAAT). Ce manque de précision de l’ARN polymérase permettrait de générer une diversité plus grande au niveau du transcriptome et peut-être que comme chez la levure (Neil et al., 2009) un système de surveillance permettrait de dégrader sélectivement ces transcrits antisens.

105

Chapitre 2 : Etude de la première famille de cassettes toxine- antitoxine identifiée chez H. pylori

1. Introduction

L’analyse du transcriptome d’H. pylori par la méthode de séquençage haut-débit décrite ci-dessus nous a permis de découvrir un grand nombre de petits ARN jusqu’alors inconnus chez cet organisme. Au regard des multiples implications des petits ARN dans les processus physiologiques bactériens (Repoila and Darfeuille, 2009), nos travaux permettent d’aborder la compréhension de la régulation des gènes et de la physiologie d’H. pylori, sous un angle radicalement nouveau. A l’issue ce premier travail d’identification de petits ARN, notre laboratoire s’est consacré à l’étude de plusieurs candidats, afin de caractériser leur rôle chez H. pylori.

Au sein de notre base de données transcriptomiques, nous avons détecté un groupe de 65 petits ARN portant un cadre ouvert de lecture potentiel sur leur séquence transcrite, codant pour des courts peptides de 10 à 60 acides aminés au maximum. Dans ce groupe figure une famille (appelée famille A) de petits ARNm homologues, dont les gènes sont présents en six exemplaires sur le génome de la souche 26695 au niveau de différentes régions intergéniques. Les petits ARNm de cette famille codent pour des peptides de 30 acides aminés conservés uniquement chez les différentes souches d’H. pylori. Ils ont la particularité d’être transcrits face à des sRNA antisens découverts à la fois par l’analyse transcriptomique et par l’approche initiale de prédiction bioinformatique développée par Cynthia Sharma.

L’étude menée au laboratoire sur la régulation de ces ARNm par leur sRNA antisens, et sur la nature du peptide révèle des similitudes avec les cassettes toxines-antitoxines de type I, qui sont des éléments génétiques ubiquitaires chez les bactéries, mais dont le rôle est encore mal compris (Fozo et al., 2008b; Fozo et al., 2010).

La première partie de ce chapitre est consacrée aux travaux portant sur l’aspect fonctionnel des ARN de la famille A chez H. pylori. L’étude de la régulation de ces ARN, d’un point de vue mécanistique, sera abordée dans la seconde partie.

106

2. Matériel et méthode

2.1. Bactéries et conditions de cultures Nom de la souche Caractéristiques Références H. pylori 26695 Souche parentale (Tomb et al., 1997) Substitution de la cassette A1 par le gène de H. pylori 26695 ∆A1 Cette étude résistance à la kanamycine (aphA-3) Substitution de la cassette A3 par le gène de H. pylori 26695 ∆A3 Cette étude résistance au chloramphénicol (catGC) Substitution des cassettes A1 et A3 par les gènes H. pylori 26695 ∆A1A3 Cette étude aphA-3 et catGC, respectivement

Au cours de cette étude, la souche d’Helicobacter pylori 26695 (CIP 106780, Collection de l’Institut Pasteur, Paris, France) a été utlilisée pour l’ensemble des travaux expérimentaux. Pour l’étude bio- informatique, les génomes séquencés des souches d’H. pylori 26695 (Tomb et al., 1997), J99 (Alm et al., 1999), B8 (Farnbacher et al., 2010), HPAG1 (Oh et al., 2006), P12 (Fischer et al., 2010), B38 (Thiberge et al., 2010), G27 (Baltrus et al., 2009) et shi470 (2008,, numéro GenBank : CP001072) ont été utilisés.

Les conditions de cultures sont celles qui ont été décrites dans la section Supplementary Methods de l’article (Annexe I).

2.2. Liste des oligonucléotides

Nom Description Sequence ( 5'->3') Transcription in vitro FD9 IsoA1 T7 (Fw) GAA-ATT-AAT-ACG-ACT-CAC-TAT-AGC-AAG-AGT-TTT-TGC-CAT-GTT-T FD10 IsoA2 T7 (Fw) GAA-ATT-AAT-ACG-ACT-CAC-TAT-AGC-GCC-ATT-TTT-AAT-TTT-CCA-T FD11 IsoA3 T7 (Fw) GAA-ATT-AAT-ACG-ACT-CAC-TAT-AGC-AAG-AGC-GTT-TGC-CAC-TT FD12 IsoA4 T7 (Fw) GAA-ATT-AAT-ACG-ACT-CAC-TAT-AGC-AAG-AGC-GTT-TGC-CAT-TT FD13 IsoA5 T7 (Fw) GAA-ATT-AAT-ACG-ACT-CAC-TAT-AGC-AAG-AGC-GTT-TGC-CAC-TT FD14 IsoA6 T7 (Fw) GAA-ATT-AAT-ACG-ACT-CAC-TAT-AGC-AAG-AGT-ATT-TAC-TAT-GAT-T FD15 IsoA1 (Rev) TAA-ACA-CCC-CCA-TAA-GTG-CAA FD16 IsoA2 (Rev) AAA-CGC-CCC-ATA-AGA-GCG-A FD17 IsoA3 (Rev) ACG-CCC-CAT-AGT-TGC-AAT-AT FD18 IsoA4 (Rev) ACG-CCC-CAT-AGT-TGC-GTT-AT FD19 IsoA5 (Rev) ACG-CCT-CAT-AGT-TAG-GAT-AT FD20 IsoA6 (Rev) AAA-ATC-ACG-CTC-ACC-CCC-TA FD54 aapA1 T7 (Fw) GAA-ATT-AAT-ACG-ACT-CAC-TAT-AGC-ACC-CCC-ATA-AGT-GCA-ATT-A FD103 aapA2 T7 (Fw) GAA-ATT-AAT-ACG-ACT-CAC-TAT-AGA-AAG-ATT-GTT-GCA-AAA-CAA-ACG-CCC FD56 aapA3 T7 (Fw) GAA-ATT-AAT-ACG-ACT-CAC-TAT-AGA-CGC-CCC-ATA-GTT-GCA-ATA-T FD58 aapA4 T7 (Fw) GAA-ATT-AAT-ACG-ACT-CAC-TAT-AGA-CGC-CCC-ATA-GTT-GCG-TT FD105 aapA5 T7 (Fw) GAA-ATT-AAT-ACG-ACT-CAC-TAT-AGC-GCC-TCA-TAG-TTA-GGA-TAT-G FD107 aapA6 T7 (Fw) GAA-ATT-AAT-ACG-ACT-CAC-TAT-AGC-ACG-CTC-ACC-CCC-TAA-TTT-TTA-TTC

107

FD55 aapA1 (Rev) AAA-ACC-CTT-AAA-GCT-AAA-A FD104 aapA2 (Rev) ACA-CTA-AAC-TAG-AAT-ATC-GAA-G FD57 aapA3 (Rev) GAA-ACC-CCT-AAG-CTT-AAA FD59 aapA4 (Rev) GAA-ACC-CCT-AAG-CTT-TTA FD106 aapA5 (Rev) AAA-CCC-CTA-AGT-TTT-TTA-GGC FD108 aapA6 (Rev) AAC-ACC-CCC-CTT-TAA-AAA-AG Construction cassettes d'inactivation FD249 Upsteam aapA1 (Fw) GGG-TGT-TTT-GAT-GCG-CTC-AAT-C FD251 AmA1 (Fw) GTT-CGT-TCA-AAT-TAT-TAA-CCG

AmA1 (Rev) + Homologie aphA- FD252 CCT-AGT-TAG-TCA-CCC-GGG-TAC-GTT-TAT-TTT-ACA-ACA-ATC-TTT-CTA 3 (5')

AvA1 (Fw) + Homologie aphA-3 FD253 GGA-TGA-ATT-GTT-TTA-GTA-CCT-GCT-GTA-AAA-TGA-TAG-CTT-TAG-TT (3')

FD254 AvA1 (Rev) CGT-ATC-AAA-CAG-CAA-AGC-GTT-TG FD70 aphA-3 (Fw) GTA-CCC-GGG-TGA-CTA-ACT-AGG FD255 aphA-3 (Rev) CAG-GTA-CTA-AAA-CAA-TTC-ATC-C FD263 Upsteam aapA3 (Fw) GAA-GTG-CTTT-CAA-TTA-ACG-CTC FD264 AmA3 (Fw) TGA-AAT-CCT-AGC-TAA-TGA-GCT-AG

AmA3 (Rev) + Homologie catGC FD265 CAC-AAT-ATG-GCG-GAT-CTC-TAG-GAC-CGC-ATC-AAA-TAC-GCA-AG (5')

AvA3 (Fw) + Homologie catGC FD266 CAA-CGT-GGA-TCT-GAA-TTC-GAG-CCT-TAT-GAA-GCG-GGT-TTG-TC (3')

FD267 AvA3(Rev) GAA-CTT-AAA-GAG-AAC-GAT-AGC-CTC-TT FD275 catGC (Fw) CTA-GAG-ATC-CGC-CAT-ATT-GTG FD276 catGC (Rev) CTC-GAA-TTC-AGA-TCC-ACG-TTG Clonage cassette aapA1 WT ou mutée dans pILL2150 CAC-ACA-TAT-GGC-TAC-CAA-ACA-TGG-CAA-AAA-CTC-TTG-GAA-AAC-CTT-GTA- FD212 aapA1 WT/BamHI (Fw) CCT-CAA-AAT-TTC FD213 aapA1 ∆IsoA1/BamHI (Rev) CAC-ACA-TAT-GGC-TAC-CAA-ACA-TGG-CAA-AAA-C FD180 aapA1/NdeI (Rev) CAC-AGG-ATC-CGC-CCC-CAT-AAG-TTA-AGG-ATA-AGC

2.3. Inactivation des cassettes A1 et A3 chez la souche d’H.pylori 26695

L’inactivation de la cassette A1 chez la souche 26695, a été réalisée par recombinaison homologue avec un fragment d’ADN, généré par PCR, contenant un gène résistance à la kanamycine encadré par des régions de 500 paires de bases, homologues aux régions amont et aval des cassettes A1. Le fragment d’ADN a été construit par une technique de PCR « trois-temps » (Stingl et al., 2007). Brièvement les régions amont (AmA1) et aval (AvA1) de la cassette A1 ont été amplifiées à partir de l’ADN génomique de la souche 26695, avec le Kit « Expand High Fidelity DNA Polymerase » (Roche), et les couples d’amorces FD251/FD252 (AmA1) et FD253/FD254 (AvA1). Les amorces FD252 et FD253 portent une queue flottante

108 de 20pb homologues aux extrémités 5’ et 3’ du gène de résistance à la kanamycine. Ce dernier a été amplifié à partri du plasmide pUC18K2 (Menard et al., 1993) avec le couple d’amorces FD70/FD255. Les trois fragments AmA1, aphA3, AvA1 ont ensuite été purifiés sur gel et mélangés dans des proportions équimolaires (~50 ng/fragments), puis utilisés comme matrice pour une amplification PCR avec les amorces FD251/FD254. Après une purification sur gel, 1 µg de produit PCR final est étalé sur une culture d’H. pylori souche 26695, âgée de 24h et cultivée sur une gélose CAB classique. Les bactéries sont ensuite incubées 24h à 37°C en microaérobie, puis repiquées sur un milieu CAB supplémenté en kanamycine (20 µg/mL) et incubées pendant 72H. Les clones obtenus, appelés HP 266695 ∆A1 ont été isolés, et leurs ADN génomique a été extrait par le Kit QiaAmp DNA (Qiagen). Cet ADN génomique a été amplifié par PCR avec les amorces F249/FD255, pour confirmer l’insertion au locus de la cassette A1. L’inactivation de la cassette A3 a quant à elle été réalisée avec un fragment contenant le gène du chloramphénicol, encadré par les régions amont (AmA3) et aval (AvA3) de la cassette A3. Le même protocole que celui décrit pour la cassette A1 a été utilisé. Les fragments AmA3 et AvA3 ont été amplifiés avec les couples d’amorces FD264/FD265 et FD266/FD267, respectivement. Le gène de résistance au chloramphénicol a été amplifié à partir du pILL2150 (Boneca et al., 2008), avec les amorces FD275/FD276. Les clones obtenus sont appelés HP 26695 ∆A3. La souche HP 26695 ∆A1A3 a été obtenue en inactivant la cassette A3 sur une souche HP 26695 ∆A1. Les plasmides pUC18K2 et pILL2150 utlisés dans cette étude nous ont été gracieusement donnés par le Dr. Hilde de Reuse.

2.4. Extraction des ARN et Northern Blot Les techniques utilisées pour ce travail sont décrites dans la section Supplementary Methods de l’article (Annexe I). Les oligonucléotides utlisés pour les détections des ARN aapA1 à A6 et IsoA1 à A6 figurent dans la liste des oligonucléotides ci-dessus.

2.5. Construction des ARN aapA1 et IsoA1 mutés dans les boucles Les mutations dans les boucles L2 et L2’ dans ARN IsoA1 et aapA1, respectivement, ont été introduites par amplification PCR de ces cassettes sur l’ADN génomique avec les couples d’amorces FD9/FD234 (IsoA1 ∆L2) et FD201/FD180 (aapA1 ∆L2’). Les amorces FD234 et FD201 portent les trois mutations à introduire (Figure 53) au niveau des boucles L2/L2’. Pour muter la boucle L1 (IsoA1 ∆L1) et les boucles L1L2 (IsoA1 ∆L1L2) sur l’IsoA1, les couples d’amorce FD205/FD15 et FD205/FD234 ont été utlisés, respectivement. Pour les constructions aapA1 ∆L1’ et aapA ∆L1’L2’, la mutation a été réalisée en 2 étapes. Tout d’abord des fragments PCR correspondant aux 80 premiers nucléotides de aapA1 (5’) ont été amplifiés avec les armorces FD54/FD204 ou FD201/FD204, pour introduire en amont le promoteur T7

109 avec une boucle L2’ de type sauvage (FD54) ou mutée (FD201), et en aval les mutations dans la boucle L1’ (FD204). Parallèlement, un fragment PCR correspondant à la fin de la molécule aapA1 (3’) a été amplifié, avec les couples FD203 (forward, introduction de mutations dans la boucle L1 ‘) et FD180. Les deux fragments 5’ et 3’, purifiés sur gel, sont ensuite mélangés dans des proportions équimolaires et assemblés par PCR avec les couples FD54/FD180 (aapA1 ∆L1’) ou FD201/FD180 (aapA ∆L1’L2’)

2.6. Transcription in vitro et marquage des ARN Les gènes codant pour les ARN aapA1 à A6, et IsoA1 à A6 ont été amplifiés par PCR, sur l’ADN génomique de la souche H. pylori 26695, avec des amorces spécifiques (voir liste des oligonucléotides). Un promoteur T7, porté par l’amorce « Forward », a été introduit en amont de chaque gène. Ces fragments ont ensuite été utilisés comme matrices pour la transcription des ARN avec le kit « Megascript T7 RNA-polymerase » (Ambion), selon les instructions du fabricant. Après une étape d’extraction phénol/chloroforme, 20 pmol d’ARN issu de la transcription in vitro sont ensuite déphosphorylés, par l’enzyme CIAP (Promega) et marqués en 5’, en présence de γ-32P-ATP et de PNK (Ambion), selon les instructions des fabricants. Avant d’être utilisés pour les expériences d’empreintes, les ARN marqués sont purifiés sur gel, élués pendant 24h à 4°C dans un tampon d’élution (NaAc 0.1 M, EDTA 2mM, SDS 0.1%) puis soumis à une extraction phénol/chloroforme.

2.7. Analyse de la structure des ARN aapA et IsoA par digestions enzymatique et chimique.

L’analyse par digestion enzymatique et chimique des ARN aapA et IsoA transcrits in vitro et marqués radioactivement a été réalisée selon le protocole décrit dans la section Supplementary Methods de l’article (Annexe I). Pour les expériences d’empreintes de l’ARN IsoA1 radioactivement marqué (cible) en présence des ARN aapA1/aapA3 (partenaires), ou de des aapA1/aapA3 marqués (cible) en présence des ARN IsoA1 et IsoA3 (partenaires), les cibles (à une concentration de 0.1 pmol/µL) ont été incubées en présence de leurs partenaires respectifs (à 1 pmol/µL) pendant 10 minutes à 37°C dans du tampon de structure 1X (10 mM Tris pH 7, 100mM KCl, 10mM MgCl2), en absence ou présence d’une concentration de 5, 10 ou 25 mM de néomycine. Les échantillons ont ensuite été digérés par l’acétate de plomb selon le même protocole que pour les molécules digérées sans partenaires (Supplementary Methods de l’article (Annexe I)).

110

2.8. Traduction in vitro

Les ARN aapA A1 à A6 issus de l’étape de transcription in vitro ont été utilisés comme matrice (à 0.5 µM) pour une étape de traduction in vitro en utlisant le kit « E. coli S30 Extract » (Promega) en présence de [35S]-methionine, selon le protocole décrit dans Supplementary Methods de l’article (Annexe I). Pour les tests d’inhibition de la traduction, les IsoA1 à A6 à la concentration désirée (de 0.25 à 2 µM) ont été mélangés aux ARNm aapA1 et aapA3 en amont de l’étape de traduction in vitro.

2.9. Tentative de clonage de la cassette aapA1 dans pILL2150.

La cassette aapA1 (du codon d’initiation de aapA1 jusqu’à l’extrémité 3’) a été amplifiée par PCR à partir de l’ADN génomique de la souche 26695 avec les amorces FD212/FD180 (construction sauvage) ou FD213/FD180 (introduction de mutations ponctuelles dans le promoteur de IsoA1). Les amorces portent respectivement des sites de restriction BamHI/NdeI qui ont été utlisées pour le clonage dans le plasmide pILL2150, sous le promoteur inductible PTac. Les plasmides pILL2150 portant la construction sauvage ou mutée ont été introduits par électroporation dans des souches d’E. coli K12, et les transformants ont été sélectionnés sur milieu LB agar + chloramphénicol (34µg/mL), puis isolés afin d’être séquencés.

111

3. Résultats

3.1. Identification de cassettes génomiques codant pour des ARNm courts associés à un ARN antisens.

Parmi les nouveaux petits ARN découverts chez H. pylori par séquençage du transcriptome, des analyses bio-informatique et manuelle ont permis de déterminer que plusieurs de ces candidats (65 au total) possédaient des cadres ouverts de lecture codants pour des peptides de 10 à 60 acides aminés. A quelques exceptions près, ces gènes n’étaient pas annotés sur le génome séquencé de la souche d’H. pylori 26695, les programmes d’annotation automatisée des génomes étant généralement conçus pour ignorer les cadres ouverts de lecture de courte taille (<50 acides aminés).

La localisation de ces nouveaux gènes candidats sur le génome de la bactérie révèle qu’ils sont codés dans des régions intergéniques pour une dizaine d’entre eux ; les autres chevauchent ou sont en antisens par rapport à des ORF précédemment annotées. En ce qui concerne les 10 candidats intergéniques, un recoupement avec les résultats du séquençage du transcriptome indique qu’un petit ARN antisens est transcrit depuis le brin opposé à chacun d’entre eux. Ces courts ARNm ont été ainsi nommés « aap » pour « antisense-associated peptide » (Figure 34A et 34B), et le segment génomique composé des gènes codant pour les ARNm aap et leurs sRNA antisens est défini par le terme de cassette chromosomique.

Figure 34 : Petits ARNm codants (aap) associés à des sRNA antisens (iso). A. Cassette chromosomique composée des deux gènes codants pour un ARNm aapA et un sRNA isoA. Les TSS et terminateurs de transcription rho-indépendants sont déduits d’après les données du transcriptome. La séquence codante de l’aapA est figurée en jaune. B. Représentation graphique des séquences lues par pyroséquençage sur le brin positif et négatif dans la banque ML- (pH 7, TEX-) au niveau du gène codant pour l’ARNm aapA3.

112

En comparant les séquences nucléotidiques de ces différents ARNm aap, nous avons remarqué que plusieurs de ces ARN partageaient des séquences homologues et nous avons pu définir quatre familles, classées de A à D. La famille A comporte 6 gènes paralogues (numérotés aapA1 à aapA6), la famille C en compte 2 (aapC1 et aapC2), et enfin nous n’avons trouvé qu’une seule copie du gène pour les séquences restantes nommées aapB et aapD. (Tableau 12 et Figure 35).

Figure 35 : Distribution des ARNm des différentes familles d’ARNm aapA à D sur le génome de la souche H. pylori 26695. Les séquences des cassettes aapA1 à A6 (trait orange), aapB (trait rouge), aapC1 et C2 (trait bleu), et aapD (trait vert) ont été alignées, par BLAST, sur le génome de la souche H. pylori 26695 et visualisés par le programme CGView (http://stothard.afns.ualberta.ca/cgview_server/). Du centre vers l’extérieur, les cercles représentent le biais GC, le pourcentage de GC, la position des alignements BLAST et enfin la distribution des ORF annotées, sur les deux brins. Les zones de plasticité (PZ1 et PZ2) et l’ilot de pathogénicité cag (CagPAI) sont indiqués par des crochets. Les séquences de l’origine de réplication (ori) et des ARNr ont également été alignées par BLAST.

113

Tableau 12 : Liste de tous les ARNm aapA à D identifiés dans le génome de la souche 26695. a Numérotation des régions intergéniques contenant une paire de gène aap/Iso et définies selon les gènes présents en amont (5’) et aval (3’) b Taille estimée selon les résultats du séquençage du transcriptome et/ou par NB. C Position définie d’après l’identification des TSS par séquençage du trancriptome.

Taille Position Gène Gène Taille Locusa Nom Brin Peptide Commentaire (nt)b du TSSc en 5’ en 3’ (aa)

aapA1 250 1245705 + A1 HP1177 HP1178 MATKHGKNSWKTLYLKISFLGCKVVVLLKR 30 isoA1 80 1245785 -

aapA2 ? 1243408 + MAKALYLKISFLGFNDCFLKIFIFRGFLKPP Séquences ADN et A2 HP1175 HP1177 33 LF isoA2 70 1243488 - peptide dégénérées

aapA3 220 1503081 + A3 HP1432 HP1433 MKHKSGKRSWKTLYFEFAFLGLKVIVSVKR 30 isoA3 80 1503161 -

aapA4 300/220 1612519 + Tronqué. Mutation : A4 HP1533 HP1534 MRSKNGKRSWRSLYFEFAFWDLK 23 isoA4 95/80 1612599 - codon stop précoce.

aapA5 220 22856 + A5 HP0022 HP0025 MKCKSGKRSWKLLYLEISFSWFKVVFLMKR 30 isoA5 80 22936 -

aapA6 200 1589897 + A6 HP1514 HP1515 MRKNHSKYSWETLYLKISFLGFCLELKIKR 30 isoA6 90 1589977 -

aapB 155 865716 - MKKLIKMLSYSKERRNIIRLSLLPSPSIIPK B HP0811 HP0812 42 KKKTMLFELYF isoB 90 865571 +

aapC1 200 479758 + A l’extrémité 3’ de la C1 HP0461 HP0462 MRLVIIVLMVSATPLY 16 isoC1 75 479786 - zone de plasticité 1

aapC2 200 1072022 - Duplication de C1. A C2 HP1009 HP1010 MRLVIIVLMVSATPLY 16 isoC2 75 1071961 + l’extrémité de la PZ2

aapD 240 964869 - D HP0911 HP0912 MKLLLVTTPLY 12 isoD 50 964752 +

Pour les travaux de caractérisation de ces cassettes, nous avons choisi de travailler principalement sur la famille la plus abondante, composée des cassettes A1 à A6. Chacun de ces gènes est distribué au niveau de régions intergéniques différentes, réparties de manière symétrique de part et d’autre de l’origine de réplication à l’exception des cassettes A1 et A2 (Figure 35).

L’alignement des séquences nucléotidiques des cassettes A1 à A6 révèle une importante homologie entre elles, avec notamment plusieurs motifs parfaitement conservés (Figure 36), excepté pour la cassette A2, qui est fortement dégénérée et n’a pu être alignée. Au niveau des régions promotrices des gènes codants pour les ARNm aapA1 à 6 nous pouvons distinguer deux séquences différentes pour la boîte -10 (TAGGAT) pour les cassettes A3, A4, A5 et (TAAAAT) pour A1 et A6. Ces séquences sont assez

114 proches de la séquence consensus de la boîte -10 (TATAAT) dont la transcription dépend du facteur σ70/80 chez H. pylori ; voir article au chapitre 1 de la partie « Résultats » et (Forsyth and Cover, 1999). Les éléments indispensables à l’initiation de la traduction de l’ARNm par le ribosome tels que la séquence SD et le codon d’initiation sont également parfaitement conservés (Figure 36). L’analyse de l’alignement montre que la portion des cassettes contenant le moins de « gap » (insertion/délétion de nucléotides) est la séquence codante. La seule délétion dans cette région touche l’ARNm aapA4, et elle entraîne un changement de phase de lecture faisant apparaître un codon stop précoce au codon 23. En revanche, la longueur de la séquence codante des ARNm aapA1, A3, A5 et A6 est invariable et elle s’étend sur 93 bases (codon stop inclus), et les seules mutations observées sont des substitutions de bases. Ces ARNm semblent ainsi disposer de tous les éléments nécessaires à leur transcription et à leur traduction chez H. pylori. Cet alignement nous informe également sur la parfaite conservation du TSS et du motif correspondant à la boîte -10 des sRNA antisens IsoA1 à A6, localisés sur le brin opposé à la séquence codante des ARNm, au niveau des codons 11 à 13. La séquence transcrite de ces sRNA fait environ 80 nucléotides et elle fait face à une partie de la séquence codante des ARNm aapA ainsi qu’à toute leur région 5’UTR comprenant notamment la séquence SD et le codon d’initiation de la traduction.

Figure 36 : Alignement ClustalW des cassettes A1 à A6. Les bases conservées dans 4 séquences au minimum sont surlignées en bleu. Les boîtes -10 (cadre orange) et le TSS des ARNm (flèche rouge), ont été déduits d’après le séquençage du transcriptome. Les codons d’initiation (vert) et stop (rouge) permettent de définir la séquence codante et la séquence SD (AAGGAG ou AGGAG) en amont (cadre bleu). La délétion et le codon stop précoce sur A4 sont dans un cadre noir. Le motif complémentaire de la boîte -10 des sRNA IsoA est dans un cadre violet, et leur séquence transcrite est surlignée en jaune.

115

3.1. Expression des ARNm aapA1-A6 et des sRNA IsoA1-A6, in vivo.

Nous avons ensuite cherché à confirmer l’expression de ces ARN in vivo, par analyse sur Northern blot (NB). Pour ce faire, nous avons sondé la présence de chacun des ARNm aapA1 à A6 et Iso A1 à 6 dans des ARN totaux de la souche d’H. pylori 26695 cultivée dans les mêmes conditions que celles utilisées pour la génération des banques d’ADNc pour le séquençage du transcriptome. Nous disposons ainsi de 5 conditions correspondant à des bactéries cultivées jusqu’en phase exponentielle à pH7 (ML), puis soumis à 30’ de stress acide à pH 5.2 (AS), ou en co-infection avec une lignée de cellules humaines gastriques AGS ou hépatocytaires Huh7, ou dans le milieu de culture cellulaire seul (PL).

A l’exception de l’ARNm aapA2 (dont la séquence est dégénérée), l’intégralité des ARNm aapA1-A6 et des sRNA IsoA1-A 6 ont pu être détectés par NB (Figure 37). Les cassettes A1 et A3 sont très fortement exprimées et les signaux sont visibles sur NB après des temps d’exposition plus courts que pour les autres cassettes. Le sRNA IsoA4 et les ARN des cassettes A5 et A6 donnent les signaux les plus faibles, et ont régulièrement posé des problèmes de détection par NB.

Bien que les gènes aapA et surtout IsoA possèdent des boîtes -10 conservées au niveau de leur promoteur (Figure 36), nous observons plusieurs différences dans les variations et les niveaux d’expressions de ces différents ARN ; chaque cassette semblant avoir un comportement particulier. Nous pouvons cependant dégager une tendance commune pour tous les IsoA. En effet, nous observons une accumulation (plus ou moins forte) de tous les transcrits IsoA1 à A6 dans les banques traitées en acide. Pour les aapA1 et A3, les plus exprimés, nous pouvons détecter plusieurs fragments de dégradation dont l’un, faisant 200nt dans les 2 cas et qui décroît en conditions de stress (AS/AGS/Hu7), conjointement à la diminution du signal pour des fragments de dégradation (40nt) des sRNA IsoA1 et IsoA3.

116

Figure 37 : Expression des ARN aapA et IsoA. Détection par northern blot des ARNm aapA1 à 6 et des IsoA1 à 6 sur des ARNtotaux (20µg/puits) extraits de la souche 26695 cultivée en milieu liquide (BHI supplémenté) jusqu’en phase exponentielle, à pH7 (ML) suivi d’un stress acide de 30’ (AS), ou en co- infection avec des cellules gastriques (AGS), ou hépatocytaires (Huh7), ou dans le milieu cellulaire (PL). Les signaux correspondants aux transcrits primaires sont indiqués par une flèche noire. Des bande sous- exprimées (*) ou sur-exprimées (°) entre les conditions de stress versus contrôle (AS vs ML et AGS, Huh7, vs PL) sont visibles.

117

L’ARNm aapA4 exprime deux transcrits, le premier aapA4 d’une taille (200nt) proche de celle des autres aapA, et un second transcrit, aapA4*, beaucoup plus grand (300nt). Ces deux transcrits ont le même promoteur mais deux terminateurs de transcription rho-indépendants différents. Le terminateur d’aapA4* est une tige boucle très stable, formée par le repliement d’une séquence inversée répétée de 60 nucléotides de long (Figure 38). Un transposon de la famille IS605, et contenant les transposases tnpB/tnpA, est inséré juste en aval du gène aapA4*. Le groupe de M. Chandler a précisément décrit le mécanisme d’action de cette famille de transposon chez H. pylori ; et il démontre que les extrémités 5’ et 3’ de ces séquences d’insertion comportent une structure stable en « épingle à cheveux », utilisée comme substrat par les transposases pour médier l’excision du transposon (Barabas et al., 2008; Ronning et al., 2005). Ainsi la structure en « épingle à cheveux » qui constitue le terminateur de transcription de aapA4* ferait partie de la séquence d’insertion IS605 insérée en aval.

Figure 38 : Séquence d’insertion IS605 en aval de la cassette aapA4. (En haut) Séquence du gène correspondant à l’ARNm aapA4. Le promoteur est surligné en vert, et le TSS en rouge. La séquence transcrite correspondant à la bande inférieure sur NB est en jaune, la séquence correspondant au fragment plus long est prolongée en bleu. Les deux terminateurs prédits sont en gras/soulignés. La séquence codante de la transposase tnpB est en gris. (En bas) Structure secondaire prédite du structure en épingle à cheveux très stable, associée aux transposases de type IS605.

118

3.2. Traduction in vitro

Nous avons montré que les ARN aapA1-A6 possèdent une séquence codante (prédite) et qu’ils sont transcrits dans la bactérie. Nous avons ensuite voulu savoir si ces ARNm étaient fonctionnels, autrement dit s’ils pouvaient être effectivement traduits en peptides. Pour répondre à cette question nous avons tout d’abord généré des lots d’ARNm aapA1 à A6 par transcription in vitro sur des fragments PCR portant le gène de chacun des ARNm sous la dépendance d’un promoteur T7. A partir de ces transcrits, nous avons réalisé un test de traduction in vitro avec des extraits cellulaires S30 d’E. coli (Promega), qui contiennent toute la machinerie de traduction/transcritpion/dégradation. Bien que nous soyons dans un système hétérologue, les séquences SD des ARNm aapA sont suffisamment proches du consensus de la séquence SD d’E. coli pour que le système de traduction soit opérationnel sur ces ARNm.

Les résultats de ce test de traduction in vitro révèle la traduction d’un peptide dans les pistes correspondant aux ARNm aapA1, A3, A5 et A6 (Figure 39). La migration de ces peptides dans un gel Tris- Tricine dénaturant correspond à celle d’un peptide contrôle de poids moléculaire équivalent (3.5 Kda). Les ARNm aapA2 et A4 ne sont pas traduits in vitro. Ce résultat n’est pas surprenant pour l’ARNm aapA2 qui ne possède pas de séquence SD. En revanche, l’ARNm aapA4, qui a subi une mutation de la séquence codante introduisant un codon stop précoce, possède la séquence SD et le codon d’initiation conservés chez les autres ARNm aapA traduits et nous nous serions attendus à observer un peptide traduit, mais plus court. Il est possible que notre gel ne soit pas assez résolutif pour un peptide de si petite taille (23 acides aminés).

Figure 39 : Traduction in vitro des ARNm aapA. Les ARNm aapA1 à A6, transcrits in vitro, ont été incubés en présence d’extraits S30 (« S30-Extract system »,Promega) et de méthionine marquée au 35S (ARNm à 0.5µM/tube réactionnel) puis analysé par Tricine-SDS-PAGE. La taille des peptides sur le gel a été estimée en fonction d’un marqueur de taille coloré, qui n’apparaît pas sur l’autoradiogramme.

119

3.3. Etude de la conservation et des caractéristiques des peptides

Puisque les ARNm aapA pouvaient être traduit in vitro nous nous sommes intéressés aux peptides codés par ces ARN. Des recherches bio-informatiques, par homologie de séquences ou de domaine, ont été menées afin d’identifier des peptides ou des motifs d’acides aminés dont le rôle est connu dans d’autres bactéries. Aucune homologie avec des protéines d’autres procaryotes n’a été trouvée dans les différentes bases de données. Cependant, les séquences codantes de peptides sont retrouvées dans toutes les souches d’H. pylori dont le génome a été séquencé. Afin d’étudier plus en avant la conservation de ces peptides, les séquences des peptides découverts dans 8 souches d’H. pylori (26695, J99, HPAG1, G27, P12, Shi470, B8 et B38) ont été extraites et analysées par bio-informatique, ce qui représente un total de 39 séquences soit (environ 5 peptides différents par souches).

L’alignement des séquences de ces peptides permet de mettre à jour plusieurs caractéristiques. Tout d’abord, la frappante homogénéité de la taille de ces fragments, qui possèdent tous 30 acides aminés précisément (Figure 40). Nous pouvons ensuite observer plusieurs sous-groupes de peptides conservés d’une souche à l’autre. Ces sous groupes ont été nommés A1, A3, A5, et A6 en fonction de leurs homologies avec les séquences des peptides A1, A3, A5 et A6 initialement découverts chez la souche 26695. Un dernier sous-groupe, A7, rassemble un type de peptide qui n’existe pas chez la souche 26695.

La séquence de ces peptides révèle la présence de nombreux acides aminés chargés positivement (Arginine, Arg, R ; Lysine, Lys, K ; Histidine, His, H) qui confèrent une charge nette de +5 à +8 en fonction des peptides. Ces charges sont principalement réparties au niveau des 10 premiers acides aminés dans la région N-term (Figure 40). Dans les sous-groupes A1, A3, A5 et A6, la région C-ter possède une paire Lys- Arg (deux charges positives) parfaitement conservée au niveau des positions 29 et 30, tandis que pour le groupe A7, seule la charge positive sur le 30ème codon est conservée. De façon intéressante, dans le groupe A7, la substitution de la lysine 29 par un acide glutamique (chargé négativement) est compensée par la substitution de l’acide glutamique 16 par une lysine.

La région centrale (de la position 10 à 28) contient principalement des acides aminés hydrophobes (en moyenne 12 acides aminés hydrophobes pour 18 codons), avec plusieurs paires d’acides aminés parfaitement conservées (Figure 40).

120

Figure 40 : Conservation de la séquence des peptides aapA chez H. pylori. La figure présente un alignement ClustalW des 39 séquences peptidiques aapA extraites des génomes des souches 26695, J99, HPAG1, G27, P12, Shi470, B8 et B38. Les séquences homologues sont classées en cinq sous-groupes nommés A1, A3, A5, A6, et A7. Les flèches indiquent les séquences de référence de la souche 26695. Les acides aminés chargés positivement sont surlignés en rouge (lysine et arginine) et orange (histidine), et ceux chargés négativement en bleu. Les acides aminés non chargés sont surlignés en dégradé de gris, en fonction de leur conservation. La taille des lettres dans la séquence consensus (déduite par le programme JalView) dépend du dégré de conservation de l’acide aminé. Sous la séquence consensus figure une représentation schématique de l’hélice-α prédite par le programme Jpred3 au niveau de cette région.

121

L’étude de la structure secondaire de ces peptides, prédite par bio-informatique (Jpred3, APD2) indique qu’ils pourraient former une hélice-α au niveau de cette région d’acides aminés hydrophobes (Figure 40). D’après une représentation graphique de cette hélice-alpha, nous pouvons remarquer que l’agencement des acides aminés apolaires délimite deux surfaces hydrophobes, réparties de part et d’autre de la structure, quelque soit le peptide étudié (Figure 41). Ces surfaces hydrophobes sont entrecoupées par deux surfaces polaires, contenant les charges positives ou négatives.

Figure 41 : « Wheel-diagram » de l’hélice-α prédite pour les peptides aapA1-A7 de la souche d’H. pylori 26695. Ce diagramme est une réprésentation schématique de l’hélice-α vue de face. La position 1 de de l’hélice correspond au tryptohane 10 dans la séquence peptidique. Chaque acide aminé est représenté par un disque dont la taille varie en fonction de son éloignement par rapport au début de l’hélice. A titre d’information, les acides aminés quasi-parfaitement (au moins dans 37 des 39 séquences) conservés sont indiqués par un point rouge.

122

En résumé, ces peptides sont chargés positivement (charge nette > +5), et ils pourraient former une hélice-α présentant des faces hydrophobes et des faces hydrophiles. Toutes ces caractéristiques sont partagées par la classe des peptides cationiques amphiphiles. Cette classe regroupe des peptides antimicrobiens (AMP), synthésisés par des organismes procaryotes ou eucaryotes, qui ont la propriété d’interagir avec les membranes plasmiques bactériennes (Papagianni, 2003). L’affinité de ces AMP pour les membranes plasmiques (chargées négativement) est attribuée à leurs charges positives ainsi qu’aux possibles interactions entre la surface hydrophobe de leur hélice-α et les phospholipides membranaires (Papagianni, 2003).

3.4. Régulation de la traduction par les ARN antisens IsoA

Selon les résultats précédents, H. pylori exprime ainsi constitutivement des ARNm fonctionnels codant pour des peptides potentiellement toxiques pour la bactérie. Toutefois, in vivo, les sRNA antisens IsoA1 à A6 sont transcrits face à ces ARNm aapA1 à A6. Chaque sRNA IsoA est complémentaire sur toute sa longueur (soit environ 80nt) à la séquence codante et la région 5’UTR de leurs ARNm cibles respectifs. Nous avons souhaité savoir si ces petis ARN antisens étaient impliqués dans la régulation de l’expression de ces peptides.

Pour répondre à cette question, nous avons réalisé des tests de traduction in vitro des ARNm aapA1 et A3 (les deux ARNm fonctionnels les plus fortement exprimés in vivo), en présence de concentration croissante des antisens IsoA1 et IsoA3.

Ces tests démontrent une inhibition concentration-dépendante des ARNm aapA1 et aapA3 par leur sRNA respectifs ; d’où le nom donné à ces sRNA (IsoA pour « RNA Inhibitor of Small ORF family A » (Figure 42). Dans les deux cas, une concentration en sRNA deux fois supérieure à l’ARNm est suffisante pour réprimer complètement la traduction du peptide, soit un rapport stoechiométrique compris approximativement entre 1:1 et 2:1. Les données du séquençage transcriptomique et l’étude de l’expression des ARNm aapA et des sRNA IsoA indiquent que les sRNA IsoA1 et A3 sont exprimés de manière constitutive et en large excès par rapport à leurs cibles in vivo. On peut donc supposer que dans la bactérie la synthèse des peptides est constamment maintenue sous silence par les ARN antisens IsoA.

Etant donné que IsoA1 à A6 ont des séquences proches, avec plusieurs motifs parfaitement conservés, nous nous sommes interrogés sur une possible redondance fonctionnelle de ces petits ARN. En effet, il est possible d’imaginer que chaque sRNA IsoA soit capable de cibler, par complémentarité de bases imparfaite, l’ensemble des différents ARNm aapA1 à A6. Pour tester cette hypothèse nous avons étudié

123 la traduction de aapA1 et aapA3 en présence des IsoA1 à A6, dans une concentration deux à quatre fois supérieure (Figure 42). Les résultats montrent que la traduction de aapA1 et aapA3 n’est pas ou peu affectée par les IsoA issus des cassettes homologues. Une légère inhibition de la traduction est visible pour aapA1 en présence d’une concentration quatre fois supérieure d’IsoA5 et A6. Etant donné que dans la cellule les IsoA5 et A6 semblent bien moins exprimés que aapA1, nous pouvons penser que cette inhibition croisée n’a pas d’impact sur la régulation d’aapA1 in vivo.

Ces résultats nous indiquent donc que chaque cassette fonctionne de manière indépendante, chaque sRNA IsoA inhibant de manière efficace et spécifique la traduction de son propre ARNm aapA.

Les caractéristiques de ces cassettes, à savoir l’expression d’un peptide potentiellement toxique régulée par un sRNA antisens, sont typiques des cassettes toxine-antitoxine de type I que nous avons vu en introduction (chapitre 1, paragraphe 4).

Figure 42 : Tests de traduction in vitro des ARNm aapA1 et aapA3 en présence des sRNA IsoA1 à A6. Les ARN aapA1 et aapA3 ont été traduits (à 0.5 µM d’ARNm/tube réactionnel) en absence (-) ou présence d’une concentration croissante de leurs IsoA respectifs, ou d’une concentration fixe des IsoA issus des autres cassettes.

124

3.5. Tentative de surexpression du peptide A1 in vivo.

Afin d’étudier plus en avant le potentiel toxique des peptides codés par les cassettes, nous avons souhaité observer les effets d’une surexpression d’un membre de la famille A, le peptide A1, in vivo.

Nous avons ainsi tenté de cloner la cassette A1 dans le plasmide pILL2150 (gracieusement fourni par le laboratoire du Dr. Hilde de Reuse), qui est un plasmide navette E. coli/H. pylori (Boneca et al., 2008). Nos constructions ont été conçues pour cloner le gène aapA1 sous le contrôle du promoteur (PTac) inductible à l’IPTG porté par ce plasmide.

Comme nous l’avons montré précédemment, le promoteur du sRNA IsoA1 est localisé au niveau de la séquence codant pour le peptide A1, la boîte -10 étant située sur le brin opposé aux codons 12 et 13. Il est ainsi impossible de découpler physiquement ces deux gènes. Etant donné la forte activité de transcription du promoteur de IsoA1 et son efficacité dans la répression du peptide, il est nécessaire d’inactiver ce sRNA afin de pouvoir surexprimer aapA1. Les options pour inactiver l’expression de IsoA1 sans altérer la séquence codant pour le peptide A1 sont limitées. Notre stratégie a été d’inactiver le promoteur du gène codant pour IsoA1, en mutant deux bases de la boîte -10 (TATAATTACAAC), au niveau de la troisième position des codons 12 et 13. Ces mutations ont été introduites lors de l’amplification par PCR du gène aapA1 à partir d’ADN génomique de la souche 26695. Après clonage des fragments aapA1 sauvage ou muté dans pILL2150, nous avons tenté de transformer différentes souches d’E. coli par ces plasmides. Très peu de clones ont été obtenus après transformation. Le séquençage de ces quelques clones révèle la présence systèmatique de mutations ponctuelles (délétion en grande majorité) altérant la séquence du peptide A1 (Tableau 13). Il est connu que le promoteur pTac est un promoteur inductible qui en condition de répression « fuit » très légèrement et donc quelques molécules de peptide toxique ont pu être synthétisées empêchant ainsi le clonage dans ce vecteur. Cette expérience nous a permis également de mettre en évidence, indirectement, le potentiel toxique de ces peptides au moins chez E. coli. Il est intéressant de noter que nous avons tout de même pu obtenir un clone (clone 6-10) légèrement muté en position 26 (V->A). Ce clone pousse très difficilement en formant des colonies d’E. coli très petites. Ce cas n’a été obtenu que dans la construction mutée pour le promoteur IsoA1. Une hypothèse possible serait donc que l’expression de l’ARN antisens IsoA1 pourrait avoir un rôle positif sur l’activité du promoteur du gène aapA1.

125

Tableau 13 : Mutations systématiques de la séquence peptidique A1 dans les clones d’E. coli transformés avec les plasmides pILL2150 portant une cassette aapA1/IsoA1 WT ou mutée sur le promoteur d’IsoA1 (ΔIsoA1).

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Mutation Pousse Peptide A1 M A T K H G K N S W K T L Y L K I S F L G C K V V V L L K R Construction pILL2150 – aapA1 WT / ΔIsoA1 Clone 6-10 M A T K H G K N S W K T L Y L K I S F L G C K V V A L L K R Substitution Faible Clone 6-5 M A T K W Q K L L E N L V P Q N F I F G V stop Délétion + Clone 6-7 M A T K H G K N S W K T C T S K F H F W G V K L L F Y stop Délétion + Clone 6-2 M A T K H G K N S G K P C T S K F H F W G V K L L F Y stop Délétion + C1 MC1061 M A T N M A K T L G K P C T S K F H F W G V K L L F Y stop Délétion + C1 TOP10 M A T K L A K T L G K P C T S K F H F W G V K L L F Y stop Délétion + Construction pILL250 – aapA1 WT / IsoA1 WT Clone 7-1 M A T K L A K T L G K P C T S K F H F W G V K L L F Y stop Délétion + Clone 7-2 M A T K H A K T L G K P C T S K F H F W G V K L L F Y stop Délétion + Clone 7-3 M A T K H A K T L G K P C T S K F H F W G V K L L F Y stop Délétion + Clone 7-4 M A T K M A K T L G K P C T S K F H F W G V K L L F Y stop Délétion + Clone 7-6 M A T K L A K T L G K P C T S K F H F W G V K L L F Y stop Délétion + Clone 7-7 M A T K Q A K T L G K P C T S K F H F W G V K L L F Y stop Délétion + Clone 7-8 M A T K L A K T L G K P C T S K F H F W G V K L L F Y stop Délétion + Clone 7-10 M S P N M A K T L G K P C T S K F H F W G V K L L F Y stop Délétion + C4 TOP10 M A T K M A K T L G K P C T S K F H F W G V K L L F Y stop Délétion +

Nous avons alors choisi d’utiliser un second vecteur dérivé du pILL2150, le pILL2157, développé par la même équipe (Boneca et al., 2008). Dans ce plasmide, le promoteur PTac a été remplacé par le promoteur du gène d’H. pylori UreI. Afin d’assurer une forte répression de l’activité de transcription de ce promoteur et d’éviter des fuites en absence d’IPTG, celui-ci a été placé sous le contrôle de deux séquences opératrices reconnues par le répresseur LacI. Ces plasmides ont récemment été introduits chez la souche d’E. coli JM109, et les transformants obtenus cette fois-ci ne présentent pas de mutation dans la séquence du peptide. Actuellement, nous sommes en train de transformer différentes souches d’H. pylori avec ces plasmides, par conjugaison.

3.6. Etude la fonction des cassettes

Le rôle des cassettes toxine-antitoxine chromosomiques a très peu été étudié dans la littérature, qui plus est pour les cassettes dont le sRNA est codé en cis de l’ARNm. Toutefois, plusieurs travaux tendent à relier ces cassettes avec la résistance à divers stress. Dans ce cas, l’expression de la toxine n’est pas léthale, mais conduit à un arrêt réversible de la croissance. Les bactéries placées dans cet état de stase suspendent leurs activités de division, réplication, transcription et traduction. Elles deviennent ainsi tolérantes à de nombreux stress, dont l’action des antibiotiques ciblant les fonctions bactériennes décrites ci-dessus.

126

Afin d’observer l’impact des cassettes de la famille A sur la réponse d’H. pylori aux stress, nous avons tenté d’inactiver les cassettes A1 et A3 sur le génome de la souche 26695 par recombinaison homologue. Pour ce faire, nous avons utilisé une technique de PCR trois-temps (Stingl et al., 2007) pour construire un fragment d’ADN portant le gène de résistance à la kanamycine ou au chloramphénicol, encadré par deux régions de 500 pb homologues aux régions amont et aval de la cassette A1 ou de la cassette A3, respectivement. Les fragments A1 ou A3 ont été insérés chez H. pylori par transformation naturelle, et plusieurs clones ont été obtenus et nommés HP ΔA1, et HP ΔA3. A partir des clones HP ΔA1, une seconde transformation naturelle avec les fragments A3 a permis de générer une dernière série de clones HP ΔA1-A3, mutés pour les deux cassettes.

Sous microscope, les souches construites ne présentent pas de phénotype particulier. Elles ont aussi une croissance semblable à la souche sauvage (WT) (données non montrées). Au regard de travaux récents associant les cassettes toxine-antitoxine bactériennes aux réponses contre des dommages à l’ADN, nous avons souhaité étudier le comportement des souches mutées HP ΔA1, HP ΔA3 et HP ΔA1A3 en présence de deux antibiotiques (le métronidazole et la ciprofloxacine) induisant des dommages à l’ADN. La réduction du métronidazole chez les bactéries anaérobies ou microaérophiles, dont H. pylori (Kaihovaara et al., 1998), conduit à la libération d’intermédiaires causant des dommages sur l’ADN génomique (Edwards, 1993a; Edwards, 1993b). La ciprofloxacine quant à elle cible l’ADN gyrase A d’H.pylori et induit des cassures double brin sur l’ADN (Moore et al., 1995).

Nous avons estimé la sensibilité à ces deux antibiotiques pour les trois souches mutées, en réalisant des antibiogrammes sur boîtes, à l’aide de bandelettes permettant la diffusion d’un gradient de concentration en antibiotique (MICEvaluator strips, Oxoid).

Les concentrations minimales inhibitrices relevées montrent que les trois souches mutées HP ΔA1, HP ΔA3 et HP ΔA1A3 présentent une sensibilité accrue au métronidazole et à la ciprofloxacine, par rapport à une souche sauvage elle-même sensible (Figure 43).

Il est intéressant de noter qu’il semble y avoir un effet synergique des deux cassettes, la souche HP ΔA1A3 présentant les CMI les plus faibles, 30 fois moins que la souche sauvage pour le métronidazole et 6 fois moins pour la ciprofloxacine.

127

Figure 43 : Tests de sensibilité au métronidazole et à la ciprofloxacine sur les souchées mutées pour la cassette A1 (HP ΔA1) ou la cassette A3 (HP ΔA3) ou les deux (HP ΔA1A3) en comparaison avec une souche d’H. pylori 26695 contrôle, non mutée (HP WT). Les bactéries en phase exponentielle ont été inoculées, après dilution, à DO=0.1 sur une bôite de pétri, puis incubées en présence de bandelettes de métronidazole ou ciprofloxanice « MICEvaluator » (Oxoid), pendant 48h avant la lecture de la CMI.

3.7. Association des cassettes avec des systèmes de restriction-modification

La littérature rapporte de nombreux exemples de cassettes toxines-antitoxines de type I chromosomiques répétées en plusieurs exemplaires sur les génomes (décrites en introduction, chapitre 1). Face à ces observations, il a été émis l’hypothèse que ces cassettes pourraient être des éléments génétiques mobiles égoistes, ou impliqués dans la maintenance d’éléments génétiques mobiles.

Afin d’identifier un lien entre les cassettes de la famille A (répétées en six exemplaires sur le génome de la souche 26695) et des évenements d’insertion ou de duplication de gènes, nous avons comparé par bio-informatique la conservation des loci génomiques codant ces peptides, dans les 8 souches d’H. pylori utilisées précédemment (26695, J99, HPAG1, G27, P12, shi470, B8 et B38).

Nous avons comparé la séquence (sur 10kb) de chacun des loci génomiques contenant les cassettes A1 à A6 chez la souche 26695 avec la séquence de ces mêmes loci dans les 7 autres souches de cette étude (Figure 44).

La figure présente le profil de conservation des gènes que nous avons pu dresser au niveau de ces loci. Plusieurs informations peuvent être extraites de cette étude. Tout d’abord, le nombre de cassettes au sein des différents génomes est globalement homogène (5-6), excepté pour la shi470 qui n’en possède que trois. Cependant, toutes les souches ne disposent pas du même panel de cassettes. Ainsi, les souches 26695, B8 ou B38 ne possèdent pas de cassettes codant pour les peptides de type A7, au contraire, les cassettes de la souche shi470 codent uniquement des peptides A7.

128

Nous pouvons également observer qu’à un même locus, le nombre ou le type de la cassette peut varier, tandis que les gènes flanquants sont conservés. Par exemple le locus entre les gènes hopQ et deoD contient la cassette A1 pour l’ensemble des souches, à l’exception de la souche shi470 qui code une cassette A7. De tels exemples sont nombreux et touchent principalement les locus A3 et A4.

Un autre résultat frappant est l’excellente conservation, quasi-systématique, de la région amont de chacune de ces cassettes, quelle que soit la souche ou le locus concerné. La région aval quant à elle, est bien conservée pour les locus A1 et A5, mais elle varie fortement pour tous les autres cas de figure. De plus, les gènes présents au niveau de cette région variable ont été annotés, pour une très grande majorité, comme appartenant aux systèmes de restriction-modification impliqués dans l’évolution des génomes (Kobayashi, 2001).

Figure 44 : Conservation des gènes aux loci des cassettes de la famille A, dans différentes souches d’H. pylori. La conservation des gènes annotés est indiquée par un gradient de couleur. Les gènes en rouge sont conservés dans les 8 souches étudiées, tandis que les gènes en vert sont souche-spécifiques. Les cassettes sont symbolisées par une double flèche, avec une couleur différente pour chaque type de cassettes (définies en fonction du peptide codé) : A1 (rouge), A3/A4 (bleu), A5 (vert), A6 (violet) et A7 (rose). Le locus contenant la cassette A2 chez la souche 26695 ne contient pas de cassettes dans les autres souches et n’a pas été représenté.

129

130

131

3.8. Mécanisme de régulation

Afin de comprendre la spécificité d’interaction d’un ARNm aapA avec son IsoA correspondant, nous avons également exploré l’aspect mécanistique de l’interaction entre les deux partenaires. La structure secondaire est souvent prépondérante pour l’activité des sRNA, les zones en tige favorisant la présentation de courts motifs simple brin, accessibles, pour la reconnaissance rapide des cibles. La structure secondaire des sRNA IsoA1 à A6 a été prédite par bio-informatique (Figure 45). Les six ARN présentent une topologie similaire, composée de deux tiges présentant les boucles L1 et L2 (entre 4 à 10 nucléotides par boucle). Ces deux tiges-boucles sont espacées par un « linker » (LK) de taille variable (10 à 20 nucléotides en moyenne).

Figure 45 : Structure secondaire prédite des sRNA IsoA. Réprésentation schématique du repliement de la séquence ribonucléotidique des ARN IsoA1 à A6. Les régions simple brin sont en couleur, rouge et vert pour les boucles L1 et L2 respectivement, bleu pour l’espaceur (LK, « linker »).

Cette structure prédite a été vérifiée expérimentalement pour ces ARN (Figure 46). Pour ce faire, les ARN radiomarqués en 5’ ont subi une digestion ménagée par la RNase T1 ou l’acétate de plomb avant d’être résolus sur gel de séquence dénaturant ; le profil de digestion révèle alors une empreinte de la structure secondaire. La RNase T1 a la propriété de couper les séquences d’ARN au niveau des G non-appariés, tandis que l’acétate de plomb cible toutes les bases accessibles, dans les régions simple brin. L’empreinte sur gel de IsoA1 confirme la struture secondaire prédite de cet ARN et notamment la présence des 3 régions simple brin : les boucles L1, L2 et le « linker » LK (Figure 46).

132

Figure 46 : Analyse de la structure des IsoA1, A5 et A7 par digestion enzymatique et chimique. L’autoradiogramme montre les profils de digestion des sRNA IsoA1 (A), A5 (B) ou A6 (C), en condition native, marqués radioactivement en 5’, incubés pendant 1 ou 2 minutes en présence de RNase T1 (T1) d’acétate de plomb (Lead(II)) pour A1, ou en présence de RNase T1, V1 (coupe séquence double brin) ou TA (coupe les A simple brin) pour A5 et A6. La piste contrôle (C) correspond aux ARN marqués et non digérés. La piste G correspond à une échelle de G, réalisée par une disgestion des IsoA en condition dénaturante avec la RNase T1. La piste L est une échelle alcaline. Les lignes verticales noires à droite du gel représente les régions d’accessibilité au plomb (simple brin). La comparaison des profils de digestion des G en condition dénaturante (G) ou native (T1 1’ ou 2’) permet d’identifier des G en position simple brin (vert) ou impliqués dans des structures double brin (rouge).

L’analyse de la structure secondaire de aapA1 par prédiction bio-informatique ou par empreinte sur gel, indique que les 80 premiers nucléotides de aapA1 adoptent un repliement similaire, composé de deux tiges-boucles (boucles L1’ et L2’), complémentaires aux boucles L1 et L2 de IsoA1 (Figure 47). L’ARNm aapA1 étant relativement grand (220nt) la résolution de son profil de digestion a été réalisée sur un gel peu concentré en acrylamide, ce qui n’a pas permis de résoudre les petits fragments (<20 nt).

La seconde tige-boucle de aapA1 (L1’) présente quelques zones d’accessibilité au plomb, sans doute dues àla présence de deux A non appariées. Dans cette conformation, la séquence SD et le codon d’initiation sont situés au niveau de cette tige-boucle. Cependant, les travaux de traduction in vitro décrits précédemment montrent que cette structure n’est pas inhibitrice de l’initiation de la traduction.

133

Figure 47 : Analyse de la structure de aapA1 par digestion enzymatique et chimique. L’ARNm aapA1 a été marqué radioactivement puis digéré, en condition native par les RNases T1 ou TA (coupe les A simple brin), ou par l’acétate de plomb (Lead(II)). La piste C correspond à aapA1 non digéré, la piste L à une hydrolyse alcaline, et la piste G à la digestion de aapA1 dénaturé par la RNase T1. Les G non coupés, (car ils sont en positions double brin) sont indiqués en rouge dans la structure secondaire prédite. Les résidus G78 et G79 (bleu) sont dans un contexte double brin d’après les résultats du gel, alors que la prédiction informatique les positionne dans une région simple brin. Il est possible que ces deux G soient impliquées dans une interaction longue distance avec une séquence simple brin de l’extrémité 3’ (bases figurées en bleu, position 181-189).

134

3.9. Spécificité d’interaction entre un Iso et son ARN correspondant

Les résultats de traduction in vitro décrits précédemment prouvent que les sRNA IsoA inhibent la traduction des ARNm aapA1. L’hypothèse la plus vraisemblable pour expliquer cette inhibition serait une interaction de type antisens entre l’IsoA et sa cible.

Afin de pouvoir cartographier la zone d’interaction entre l’IsoA et son ARNm nous avons réalisé des empreintes sur gel des ARN aapA1 et aapA3 marqués radioactivement et soumis à une digestion par l’acétate de plomb en présence ou en absence des IsoA1 et A3, non-marqués (Figure 48). L’analyse des profils de digestion des ARNm aapA1 et aapA3 en présence de leurs sRNA respectifs, comparativement à ceux des ARNm seuls, révèle une large empreinte de protection contre la digestion au plomb laissée par la fixation du sRNA sur sa cible. Ces résultats indiquent la capacité des IsoA à former un duplex étendu de 80nt avec leurs ARNm cibles, ce qui explique l’inhibition de la traduction des aapA extrêmement efficace, assurée par ces molécules (voir plus haut, traduction in vitro).

Ces travaux de traduction in vitro avaient également montré le caractère spécifique de ces régulations, chaque IsoA ne régulant que son partenaire direct. Les profils de digestion d’aapA1 seul ou en présence de IsoA3 sont strictement identiques, à l’instar des profils d’aapA3 seul ou en présence de IsoA1. Ces résultats nous indiquent qu’il n’y a aucune interaction détectable, par appariemment de base, entre des appA et des IsoA issus de cassettes différentes. Au regard de la forte complémentarité de base entre ces ARN, nous aurions pu nous attendre à détecter au moins quelques régions (même plus courtes) d’interaction. Ces résultats démontrent la grande spécificité d’interaction entre un sRNA Iso et sa cible.

Outre la protection des premiers nucléotides des ARNm aapA1 et A3 contre la digestion par l’acétate de plomb, l’hybridation des sRNA sur leurs cibles induit une hausse de la sensibilité au plomb autour de la position 80 et au niveau d’une autre région plus éloignée en 3’. Ceci conforte l’hypothèse d’une interaction intramoléculaire « longue distance », en condition native.

135

Figure 48 : Empreinte sur gel des duplex aapA/IsoA. Les deux autoradiogrammes montrent le profil de digestion, par l’acétate de plomb, des aapA1 (A) et aapA3 (B) marqués radioactivement, en absence (-) ou en présence des IsoA1 ou A3. Les lignes verticales indiquent la zone des ARN aapA qui forme un duplex double brin, résistant au plomb, avec leurs IsoA respectifs. Les points noirs indiquent les deux régions des ARNm impliquées dans un réarragement de la structure secondaire après interaction dans la région 5’ de l’ARNm. (C) Complémentarité des IsoA1 et A3 avec la séquence de aapA1. La séquence SD est en jaune et le codon d’iniation en vert.

136

3.10. Kissing complex

Les résultats précédents démontrent l’incapacité pour un IsoA donné de s’hybrider, de quelque manière que ce soit, sur un ARNm aapA autre que sa cible. Pour expliquer cette spécificité, il ne semble pas possible, comme nous l’avons montré, d’invoquer un défaut de complémentarité entre un IsoA et un aapA non-correspondant (Figure 48C).

Le problème aurait donc lieu plus en amont, au niveau des étapes précoces de l’interaction entre un IsoA et une cible. En effet, les ARN IsoA et aapA étant très structurés, nous pouvons imaginer que l’appariemment de ces ARN passe d’abord par une étape de reconnaissance sur de courtes séquences complémentaires simple brin, qui initierait l’envahissement des brins et la formation d’un duplex étendu.

Afin de repérer de telles régions d’interaction nous avons étudié la conservation de séquences et de structure entre les différentes séquences d’aapA identifiées dans les 8 souches d’H. pylori qui avaient été utilisées par l’étude de conservation des peptides A (Souches 26695, J99, HPAG1, G27, P12, Shi470, B8 et B38). Nous avons ainsi défini, par alignement multiple, la séquence consensus d’un ARNm aapA et nous avons sélectionné les 22 séquences (toutes souches, toutes cassettes confondues) les plus proches de ce consensus. Ces 22 séquences ont ensuite été analysées par le programme RNAalifold qui permet, à partir d’un alignement multiple de séquences, de prédire une structure secondaire consensus mettant en évidence la conservation des bases impliquées dans la formation des tiges double brin.

La figure 49 représente la structure consensus déterminée pour notre jeu de 22 séquences, et elle permet de mettre en évidence une forte conservation parfaite des bases impliquées dans la formation de la tige L2’. En ce qui concerne la tige L1’, sa structure également très bien conservée, mais les bases impliquées dans la formation de l’appariemment entre les deux brins sont variables. Cependant il est très intéressant de noter que cette variabilité est essentiellemennt due à des phénomènes de mutations compensatoires simples (par exemple une paire G-C devient G:U) ou doubles (une paire T-A devient G- C). Cette propension à conserver une structure secondaire spécifique souligne l’importance fonctionnelle que peut jouer une telle structure chez la bactérie. Les ARNm aapA et les IsoA étant parfaitement complémentaires, des résultats similaires ont été obtenus en analysant la structure des IsoA par RNalifold.

Nous avons ainsi une structure secondaire importante composée de deux tiges, présentant des séquences simple brin dans les boucles, et au niveau du linker (LK). La conservation de séquence des ARNm aapA révèle que ces régions simple brin sont fortement variables, de telle sorte que ces séquences sont spécifiques à chaque type de cassettes (Figure 50).

137

Figure 49 : Conservation de la structure des ARN IsoA et aapA. La structure consensus a été prédite par le programme RNAalifold, d’après les séquences de 22 cassettes réparties dans les 8 souches d’H. pylori (26695, J99, HPAG1, G27, P12, SZhi470, B8 et B38). La structure simplifiée des ARN est représentée par un trait noir. Au niveau des tiges, un code couleur permet de visualiser les paires de bases conservées ou non.

Figure 50 : Alignement ClustalW2 des 22 séquences des ARNm IsoA utilisées pour la prédiction de la structure consensus. Les bases conservées (dans 90% des souches au minimum) sont surlignées en bleu foncé. Chaque paire de mutations compensatoires est surlignée par un code couleur identitique.

138

Si la formation d’un duplex entre un IsoA et un aapA passe nécessairement par une reconnaissance initiale au niveau de ces régions simple brin, alors cette différence de séquences dans les boucles expliquerait la régulation indépendante de chaque aapA par son propre IsoA.

Des interactions initiales entre les boucles complémentaires d’un sRNA et de sa cible ont déjà été décrites dans la littérature. C’est le cas de la boucle apicale du sRNA CopA qui interagit avec la boucle de sa cible (CopT) pour former un complexe d’embrassement (ou « kissing complex) (Kolb et al., 2000; Persson et al., 1990a). La formation de ce complexe permet par la suite la formation d’un duplex plus étendu.

Les IsoA et aapA possèdent deux boucles complémentaires potentiellement capables de former un « kissing complex ». Afin de déterminer leur possible interaction par le biais d’un « kissing complex », nous avons tout d’abord réalisé une nouvelle empreinte sur gel de l’ARNm aapA1 incubé en présence de IsoA1 ou IsoA3, et avec des concentrations croissantes de néomycine. La néomycine appartient à la classe des aminoglycosides, une classe d’antibiotiques qui a également été décrite commme étant capables de stabiliser les interactions de type « kissing complex » (Ennifar et al., 2003).

Le profil de digestion par l’acétate de plomb de aapA1 en présence de concentration croissante de néomycine fait apparaître deux sites de fixation de cette molécule sur la structure de aapA1 (Figure 51). Conformément aux observations précédentes, en absence de néomycine, l’incubation de aapA1 avec IsoA1 aboutie à la formation d’un duplex étendu. Cependant, en présence de néomycine, l’interaction de type « duplex étendu » disparaît au profit d’une structure intermédiaire où seules les boucles L1’ et L2’ sont protégées. Encore une fois, cette interaction est spécifique puisque IsoA3, en présence ou en absence de néomycine n’interagit pas avec aapA1.

La même expérience réalisée sur l’IsoA1 marqué aboutie au même résultat, et permet de visualiser une protection des boucles L1 et L2 (Figure 52).

Afin de confirmer cette probable interaction des ARN au niveau des boucles, nous avons ensuite entrepris de muter les séquences des ARN IsoA1/aapA1, sur 3 bases au niveau de la boucle L1/L1’ (IsoA1 ΔL1/aapA1 ΔL1’), de la boucle L2/L2’ (IsoA1 ΔL2/aapA1 ΔL2’), et des deux boucles simultanément (IsoA1 ΔL1L2/aapA1 ΔL1’/L2‘) (Figure 53).

139

Figure 51 : Empreinte de l’interaction d’IsoA1 sur aapA1 en présence de néomycine. L’ARN aapA1, marqué radioactivement a été incubé en absence (-) ou en présence de IsoA1 et IsoA3. Chaque réaction a été réalisée sans ou en présence de 10 à 25µM de néomycine. Les sites de fixation de la néomycine sur l’ARNm aapA1 seul sont indiqués en bleu. Le crochet rouge (KC, Kissing Complex) indique la zone d’interaction qui reste protégée de la dégradation par le plomb en présence du sRNA IsoA1 et de néomycine, au niveau de la boucle L1’.

140

Figure 52 : Empreinte de l’interaction de aapA1 sur IsoA1 en présence de néomycine. L’ARN isoA1, marqué radioactivement a été incubé en absence (-) ou en présence de aapA1 et aapA3. Chaque réaction a été réalisée sans ou en présence de 5, 10 ou 25µM de néomycine. Les sites de fixation de la néomycine sur IsoA1 seul sont indiqués en bleu. Les crochets rouges indiquent les zones d’interaction qui restent protégées de la dégradation par le plomb en présence de l’ARNm aapA1 et de néomycine.

141

Figure 53 : Séquences des mutations introduites au niveau des boucles de IsoA1 et aapA1. Les séquences des mutations introduites sont encadrées.

Nous avons ensuite tenté de cartographier les zones d’interaction de chacun de ces mutants sur les ARN IsoA1 ou aapA1 non-mutés (WT). Pour ce faire nous avons réalisé des empreintes sur gel des ARN IsoA1 et aapA1 (WT) marqués radioactivement en présence des différents ARN complémentaires (WT ou mutés).

La figure 54 présente les empreintes des ARN IsoA1 et aapA1 (WT) ou ΔL1’L2’ en présence de leurs ARN complémentaires WT ou mutés. D’après le profil de digestion des ARN mutés incubés seuls, nous pouvons observer que les mutations introduites n’ont pas engendré de modification de la structure secondaire. De plus, il apparaît que les mutations introduites affectent sensiblement l’hybridation des ARN mutés sur les ARN sauvages. On peut donc supposer que les boucles sont effectivement déterminantes pour la formation d’un duplex étendu.

Il est intéressant de noter que malgré cette incapacité à former un duplex étendu, l’incubation de l’IsoA1 ∆L1L2 avec aapA1 WT marqué induit l’apparition d’une zone de sensibilité à la dégradation par le plomb au niveau de la zone en 3’ précédemment décrite comme étant impliquée dans une possible interaction longue distance avec la région 5’.

Cependant, dans un test de traduction in vitro de l’ARNm aapA1 en présence de chacun des IsoA1 mutants générés, nous n’observons pas de modification de l’efficacité d’inhibibition de la traduction. Ainsi, bien que les mutations dans les boucles empêchent la formation d’un duplex étendu, il semblerait que l’inhibition de la traduction de aapA1 implique d’autres régions du sRNA IsoA1.

142

Figure 54 : Interaction entre les ARN IsoA/aapA WT ou mutés. (A) Les ARN IsoA1 WT ou ΔL1L2, marqués radioactivement, ont été incubés seuls (-) ou en présence de l’ARNm aapA1 WT (A1) puis digérés par l’acétate de plomb. Les barres verticales représentent le mésappariement entre les boucles de IsoA1 ΔL1L2 et du aapA1 WT, engendrant une sensibilité à la dégradation par le plomb (en noir), et la légère interaction entre les espaceurs (en bleu). (B) Empreinte réalisée sur aapA1 WT ou ΔL1’L2’ marqués en présence de IsoA1 WT et ΔL1L2 et digéré par l’acétate de plomb. Les points rouges indiquent la zone d’interaction longue distance affectée dans même si aucun duplex étendu n’est formé. (C) Test de traduction in vitro de aapA1 en présence des IsoA1 WT ou muté.

143

4. Discussion

L’analyse du transcriptome par séquençage haut-débit, présentée au chapitre 1 (partie « Résultats) avait permis de découvrir des cassettes chromosomiques composées d’un couple de gènes, transcrits en antisens l’un par rapport à l’autre, et répété en six exemplaires sur le génome de la souche 26695. Dans cette famille de cassettes, nommée la famille A, l’un des gènes est transcrit en un ARNm (aapA) codant pour un peptide de fonction inconnue, tandis que l’autre correspond à un sRNA (IsoA) antisens codé en cis. Les travaux développés dans ce deuxième chapitre ont permis de caractériser plus précisément cette famille. D’après nos résultats, les cassettes aapA/IsoA, largement conservées au sein de l’espèce, possèdent de nombreuses caractéristiques communes aux systèmes toxine-antitoxine de type I bactériens et constituent ainsi les premières cassettes de ce type découvertes chez H. pylori.

Nature des peptides et toxicité

Une étude comparative de la séquence en acides aminés d’une quarantaine de peptides de la famille A, codés dans différentes souches d’H. pylori, rélève une forte conservation d’acides aminés chargés positivement aux extrémités N- et C-terminales, tandis que la région centrale possède une forte porportion d’acides aminés hydrophobes prédits pour se replier en hélice-α. Les caractères cationique et hydrophobe des peptides A sont partagés par de nombreuses toxines de type I bactériennes, comme par exemple les peptides Ldr/Fst, ShoB, TpxA, Hok ou TisB, dont la surexpression, toxique pour leurs bactéries hôtes, est associée à une dépolarisation de la membrane (Fozo et al., 2008b; Gerdes et al., 1986a; Kawano et al., 2002; Unoson and Wagner, 2008; Weaver et al., 2009). L’hélice-α formée par la région hydrophobe de ces peptides leur permet de se fixer au niveau membranaire pour y former des pores (Gobl et al., 2010).

Lors de nos tentatives pour cloner la cassette A1 sous un promoteur inductible à l’IPTG dans le plasmide pILL2150, les seuls transformants obtenus présentaient une mutation précoce dans la séquence du peptide. Dans une étude chez B. subtilis, un groupe rapporte que des tentatives de clonage de la toxine TxpA en absence de son sRNA inhibiteur RatA, conduisait à la sélection exclusive de transformants ayant accumulé des mutations suppressives dans la séquence codante de la toxine (Silvaggi et al., 2005). Cette pression de sélection pour des peptides A1 tronqués suggére que ce peptide pleine taille est toxique, à l’image de TxpA.

144

L’expression de aapA1 étant sous le contrôle d’un promoteur inductible, il semblerait que des fuites permettent malgré tout l’expression du peptide et explique la pression de sélection contre des peptides pleine taille. La cassette A1 a par la suite été clonée avec succès dans un second vecteur, le plasmide pILL2157, sous le contrôle d’un promoteur plus répressif en absence d’IPTG. Ces constructions vont bientôt être introduites dans des souches d’H. pylori, pour étudier les effets d’une surexpression de ce peptide.

Expression et régulation

Nous avons montré que les ARNm aapA sont fonctionnels, dans des tests de traduction in vitro, à l’exception des cassettes A2 et A4, qui codent pour un peptide muté, chez la souche 26695. Ce résultat est toutefois surprenant pour la cassette A4 qui possède une séquence SD conservée, ainsi nous nous attendions à observer la synthèse d’un peptide mais plus court. Nous pensons qu’une structure secondaire inhibitrice formée par l’ARNm A4 pourrait être à l’origine de cette absence de traduction.

La traduction des quatre ARNm fonctionnels A1, A3, A5 et A6 est régulée efficacement et spécifiquement par leurs IsoA respectifs, dans des tests de traduction in vitro. Ceci supporte le rôle d’ « antitoxine de type I » pour ces sRNA antisens codés en cis, et qui sont complémentaires aux 80 premiers nucléotides des ARN aapA, dont la région d’initiation de la traduction.

D’autres familles répétées de cassettes toxine-antitoxine ont été étudiées chez E. coli, notamment les cassettes Ldr et Hok/Sok (Pedersen and Gerdes, 1999; Weaver et al., 2009), mais à notre connaissance nous sommes les premiers à avoir étudier une possible redondance des sRNA issus des différentes copies codées sur le génome. Nos travaux indiquent que chez H. pylori, chaque cassette assure sa propre régulation et qu’elles peuvent donc agir et évoluer indépendament les unes des autres.

La détection par Northern blot des 4 ARNm fonctionnels aapA1, A3, A5 et A6 indique qu’ils sont transcrits in vivo, à des niveaux d’expression variables entre les cassettes, bien qu’ils possèdent tous des régions promotrices très proches au niveau de la boîte -10. Le niveau d’expression des ARN aapA1 (élevé pour A1 et A3 et plus faible pour A5 et A6) corrèle avec le niveau d’expression de leurs sRNA régulateurs respectifs. Ces variations du niveau d’expression entre les cassettes pourraient être attribuées à la présence d’éventuels motifs activateurs ou répresseurs de la transcription plus en amont dans la séquence promotrice, ou encore avoir une origine épigénétique, telle que la méthylation différentielle des promoteurs ou la localisation de la cassette dans des loci génomique plus ou moins actifs transcriptionnellement en fonction du degré d’enroulement de la molécule d’ADN génomique (Blot et

145 al., 2006; Casadesus and Low, 2006). Il est intéressant de noter que dans le cas de la cassette A4, où l’ARNm est inactif, nous ne détectons qu’une faible expression de l’antisens IsoA4.

En condition standard de culture, les ARNm aapA et les IsoA sont tous les deux exprimés de manière constitutive, à l’instar de nombreuses cassettes de type I, tels que SymE/SymR ou Sib/Ibs (Fozo et al., 2008a; Fozo et al., 2008b; Kawano et al., 2007). Nous observons sur northern blot, en plus des signaux correspondant aux transcrits primaires aapA et IsoA, la présence de fragments de dégradations. Dans des conditions de stress (acidité, ou co-infection avec des cellules humaines) nous observons une accumulation de transcripts primaires pour les ARN aapA et IsoA concomittante à la disparation des fragments de dégradation. L’hybridation d’un sRNA antisens conduit souvent à une dégradation du duplex par la RNase III ou la RNase E (voir chapitre 1, « Introduction »). Nous pensons que les fragments de dégradation observés pour ces ARN sont une conséquence de l’interaction entre les ARNm aapA et IsoA in vivo, interaction qui serait modulée en conditions de stress. Le gène codant pour la RNase E étant absent chez H. pylori, il serait intéressant d’étudier le rôle de la RNase III dans cette dégradation. Des données préliminaires recueillies au laboratoire sur une souche d’H. pylori mutée pour le gène de la RNase III indiquent une forte accumulation de transcrits primaires aapA1 et IsoA1 dans ces bactéries (Dr. Isabelle Iost, communication personnelle).

L’expression constante du sRNA en phase exponentielle suggère que l’expression des peptides est constitutivement maintenue sous silence dans ces conditions. Le promoteur des sRNA IsoA présente le motif consensus de liaison au facteur de transcription σ70/80, qui permet l’expression de la majorité des gènes de ménage en phase exponentielle de croissance. Lorsque que nous tentons de détecter les ARN aapA1 et IsoA1 en phase stationnaire par NB (Figure supplémentaire), les résultats révèlent une extinction complète de l’expression de l’IsoA1, tandis que l’ARNm aapA1 est toujours présent dans la bactérie. La phase stationnaire pourrait ainsi constituer une condition expérimentale intéressante pour étudier l’expression de ces peptides.

Afin de pouvoir détecter la production de peptides chez H. pylori, nous avons fait synthétiser chimiquement le peptide A1 par la société Bachem (Suisse), en vue de réaliser une immunisation sur des lapins, sous-traitée à la société P.A.R.I.S. (France). Les lapins immunisés avec les peptides pleine taille couplés à la protéine porteuse KLH n’ont déclenché aucune réponse immunitaire contre ces peptides, qui sont donc peu immunogènes, probablement en raison de leur forte hydrophobicité. La fusion de « tag » à ces peptides semble désormais consistuer la meilleure option pour tenter de détecter ces peptides.

146

Mécanisme de régulation

Nous nous sommes également intéressés aux mécanismes de régulation employés par les sRNA antisens IsoA pour inhiber l’expression de la toxine. A l’exception des systèmes hok/Sok et tisB/IstR-1 bien étudiés chez E. coli, peu de travaux dans la littérature portent sur ces aspects mécanistiques (Darfeuille et al., 2007; Gerdes et al., 1990).

Les sRNA IsoA à l’instar des autres antitoxines de type I sont très structurés (Fozo et al., 2008a), et nous avons montré, en étudiant la conservation de séquences et de structures entre une quarantaine de cassettes issus de 8 souches différentes qu’il y avait une forte pression de sélection sur les bases impliquées dans la formation des deux tiges boucles caractéristiques des ARN IsoA. La présence de nombreuses mutations compensatoires au sein de ces séquences, qui n’induisent pas de modification de la structure secondaire, souligne d’ailleurs l’importance de cette structure secondaire, par delà la séquence. Après l’identification de l’ARN 6S d’H. pylori (chapitre 1, « Résultats »), ayant une structure très conservée par rapport à l’ARN 6S d’E. coli malgré une séquence totalement divergente, nos cassettes représentent un second exemple d’ARN dont la structure chez H. pylori rappelle celle de systèmes chez d’autres organismes. Selon ces résultats, il est probable qu’il existe encore chez H. pylori d’autres homologues structuraux d’ARN présents dans d’autres bactéries, mais avec une séquence nucléotidique différente.

In vitro, les ARNm aapA et IsoA forment un duplex étendu sur 80 nucléotides. D’après nos résultats, la formation de ce duplex est directement dépendante d’une étape de reconnaissance par « kissing complex » entre les boucles L1/L1’ et L2/L2’ des deux ARN, à l’instar de l’interaction entre l’ARNm fhlA et le sRNA OxyS (Argaman and Altuvia, 2000) ou de CopA/CopT (Persson et al., 1990a). En effet, d’après des empreintes sur gel réalisées en présence de néomycine (qui stabilise les « kissing complex »), et avec des ARN mutés au niveau des boucles L1/L1’ et L2/L2’, nous montrons qu’une complémentarité dans les boucles est nécessaire à la formation de ce duplex étendu.

Cependant, les mutations dans les boucles de ces ARN n’ont pas d’effet sur la régulation de la traduction des peptides A médiée par les sRNA IsoA. Ainsi, il apparaît que la formation du duplex et l’inhibition de la traduction constituent chez ces cassettes deux phénomènes indépendants. Nous formulons l’hypothèse qu’il existe une autre région des IsoA impliquées dans l’inhibition de la traduction, et que la formation du duplex, via les « kissing complex » serait impliquée dans d’autres phénomènes, tels que la dégradation et le recyclage des deux ARN, par la RNase III.

147

Des études sont en cours pour déterminer le rôle de l’espaceur simple brin présent entre les deux tiges- boucles (L1/L2) des IsoA dans l’inhibition de la traduction. Pour comprendre ce phénomène, il serait également intéressant d’étudier plus précisément la nature des interactions longues distances que nous avons observées au sein des ARNm aapA1 et aapA3. En effet, les études d’interaction avec les ARN aapA1/IsoA1 mutés dans les boucles révèlent une corrélation parfaite entre une altération de cette interaction et l’inhibition de la traduction des ARNm.

Rôle des cassettes de la famille A chez H. pylori

Les fonctions de ces cassettes dans les bactéries sont mal connues. Les principales hypothèses associent ces cassettes à des éléments génétiques mobiles égoïstes (assurant leur propre maintenance) ou altruistes (assurant la maintenance d’un groupe de gènes, présents sur le chromosome ou acquis par transfer horizontal) (voir chapitre 1, « Introduction »).

Plusieurs caractéristiques des cassettes de la famille A pourraient coïncider avec ces hypothèses. Tout d’abord, elles semblent avoir été dupliquées plusieurs fois dans le génome de la bactérie, à l’image de nombreuses autres cassettes de type I (Fozo et al., 2008b; Kawano et al., 2002; Pedersen and Gerdes, 1999). De plus, il existe au sein d’un même locus des cassettes différentes en fonction des souches, suggérant une capacité d’intégration/d’échange de brin site spécifique pour ces cassettes.

Alors que la région génomique en 5’ de ces cassettes A est très conservée, en termes de séquences et d’organisation des gènes, la région en 3’ est très souvent associée à une zone de variabilité importante (sur quelques kilobases), créée par l’insertion d’un ou plusieurs gènes homologues à des systèmes de restriction-modification, considérés comme des éléments génétiques mobiles égoïstes mais également comme un moyen de défense contre l’invasion d’ADN étranger (Kobayashi, 2001). Il est intéressant de noter que certaines cassettes Hok/Sok chromosomiques chez E. coli sont également associés à la présence de séquences d’insertion (Pedersen and Gerdes, 1999).

Cependant, d’autres éléments sont en contradiction avec l’hypothèse de cassettes parasites et accessoires pour la famille A, chez H. pylori. En effet, nous avons montré qu’une seule délétion induisant une mutation de la séquence codante des peptides était suffisante pour l’inactivation du potentiel toxique des peptides, dans le cadre d’une transformation de ces cassettes chez E. coli. Etant donné le pouvoir de variabilité génomique chez H. pylori, il paraît peu probable que ces cassettes aient été aussi bien conservées si elles n’étaient que des éléments génétiques accessoires.

148

Nous pensons au contraire que la forte conservation de la séquence des peptides A reflète un caractère essentiel de ces cassettes, qui apporteraient un avantage sélectif à la bactérie dans certaines conditions. Cette hypothèse suppose donc que les toxines n’aient pas un effet bactéricide, mais un effet bactériostatique et réversible.

Des travaux récents sur la toxine TisB supportent cette hypothèse. En effet, en réponse à des dommages à l’ADN induits par la ciprofloxacine, la toxine TisB est exprimée chez E. coli, et conduit à l’entrée en stase d’une partie de la population bactérienne (Dorr et al., 2010; Unoson and Wagner, 2008). Alors que la majorité des bactéries sont tuées par le traitement, les bactéries entrées en stase (métabolliquement inactives) sont naturellement tolérantes à toutes les molécules ciblant les fonctions de division, réplication, biosynthèse des protéines. En cas de retour à des conditions de culture propices, ces bactéries en stase, dites persistantes, sont capables de reprendre leur croissance et de régénérer la population bactérienne (Lewis, 2007).

Dans une bactérie telle qu’H. pylori, connue pour causer des infections chroniques, et soumise à de nombreux stress environnementaux dont la sécrétion de radicaux libres (ciblant l’ADN) par les cellules immunitaires, la possibilité de former des cellules persistantes par l’expression de cassettes toxine- antitoxine serait un phénomène intéressant à étudier.

Dans des travaux préliminaires sur ce thème, nous avons montré que la mutation des cassettes A1 et A3 entraînait une diminution reproductible de la CMI, pour le métronidazole et la ciprofloxacine, qui induisent tous deux des dommages sur l’ADN. L’inactivation de ces cassettes concerne deux locus différents, et les mutants ont été sélectionnés avec deux gènes de résistance différents, il semble donc peu probable que cette baisse de la CMI soit liée à un effet polaire de nos constructions.

149

Perspectives

Régulation et sRNA chez H. pylori.

Nos travaux ont montré que le répertoire en sRNA d’H. pylori pouvait être efficacement analysé par un séquençage haut-débit des ARN totaux exprimés par la bactérie. Par ailleurs, notre technique de séquençage est reproductible et peut être appliquée à l’analyse de banques d’ARN totaux issues de bactéries cultivées dans différentes conditions.

Notre étude s’est focalisée sur la détection de sRNA chez des bactéries cultivées dans des conditions bien définies : à pH neutre ou acide, ou en co-culture avec des cellules humaines. Afin de détecter des sRNA dont l’expression serait dépendante de conditions physiologiques particulières pour la bactérie, il est désormais envisageable de séquencer, selon notre méthode, de nouvelles banques d’ARN totaux issues de bactéries cultivées dans d’autres conditions (stress oxydatif, carence en nickel, etc…).

D’un autre côté, il serait intéressant d’exploiter plus en avant les nombreuses données que nous avons recueillies sur les sRNA exprimés par H. pylori. En effet, nous disposons désormais d’une liste de plus de 250 sRNA potentiels, dont le rôle et la fonction biologique restent à déterminer. Des approches de caractérisation fonctionnelles sont d’ores et déjà en cours au laboratoire. Nous avons par exemple supprimé les gènes correspondants aux sRNA HPnc5490, HPnc2630 et HPnc0270 dans différentes souches d’H. pylori et nous sommes en train d’étudier les phénotypes associés à ces mutants. Des travaux préliminaires indiquent que la suppression de ces sRNA n’a pas d’impact sur la physiologie des bactéries en condition standard de culture et il faut désormais envisager d’explorer le rôle de ces sRNA dans d’autres conditions. En ce qui concerne HPnc5490, nous avons pu mettre en évidence sa cible (un récepteur au chimiotactisme) et la souche mutée (et complémentée) pour ce sRNA est en cours d’étude dans des expériences de colonisation chez la souris.

Chez les autres bactéries, l’activité régulatrice des sRNA est souvent associée à la présence de certaines protéines. Nous pouvons citer par exemple la protéine Hfq, présente chez de nombreuses bactéries mais absente chez H. pylori. Avec la découverte de nombreux sRNA chez H. pylori, la question de l’existence de protéines chaperones impliquées dans la régulation par les sRNA est relancée. Il est possible que cette bactérie possède des protéines assurant un rôle homologue à celui de la protéine Hfq. Ainsi la recherche expérimentale de protéines liées à ces sRNA constitue une prochaine étape dans la compréhension des régulations sRNA-dépendantes chez H. pylori.

150

Cassettes toxines-antitoxines de type I.

Nous avons découvert des cassettes toxines-antitoxines de type I répétées en 6 exemplaires sur le génome et nous avons montré que chacune d’elle assurait sa propre régulation. Cette démonstration a permis de mettre en évidence la possibilité d’étudier chacune de ces cassettes indépendamment.

Le rôle des cassettes toxines-antitoxines de type I dans la physiologie de la bactérie est encore mal connu, bien que plusieurs preuves tendraient à montrer qu’elles sont impliquées dans des phénomènes de persistance bactérienne en réponse à des stress. Pour essayer de comprendre leurs fonctions chez H. pylori, nous avons initié des travaux de caractérisation fonctionnelle en construisant des souches mutées pour les cassettes A1 ou A3, ou les deux. Il serait désormais intéressant de comparer la persistance de ces souches avec une souche sauvage dans diverses conditions de stress et notamment in vivo, dans des tests de colonisation chez la souris avec ou sans traitement antibiotique. S’il s’avère que ces cassettes sont effectivement impliquées dans la persistance d’H. pylori en milieu gastrique, elles pourraient se révéler d’un intérêt particulier en termes de cibles thérapeutiques.

Il faudrait également s’interroger sur les conditions d’expression de ces cassettes, constitutivement silencieuses. En effet, nous ignorons à ce jour quels sont les mécanismes régulateurs à l’origine de l’expression du peptide, notamment au niveau transcriptionnel, où quels sont les stimuli en amont de la cascade de régulation. Pour répondre à ces questions, une étape primordiale serait de pouvoir détecter le peptide. La production d’anticorps polyclonaux contre le peptide A1 ayant échoué, la meilleure solution serait donc de réaliser une construction pour tagger le peptide, idéalement au locus, ou sur un vecteur. Etant donné que la partie 5’ du gène codant pour le peptide code également pour le sRNA régulateur, il est préférable de greffer un court tag de type 6-His (six histidine) en C-term.

Il reste également à étudier clairement le rôle et la toxicité de ce peptide chez la bactérie. Pour cela, nous devons tout d’abord maîtriser son expression. Pour ce faire, la séquence codante pour le peptide A1 a été clonée dans un plasmide pILL2157, sous le contrôle d’un promoteur inductible, avec une mutation ou non du promoteur de l’IsoA1. Les autres peptides de ce type ayant un effet bactériostatique réversible, nous nous attendons à observer des effets similaires lors d’expériences d’induction d’expression de ces peptides A1. Une autre indication de leur toxicité serait d’observer, commes dans d’autres cas, une dépolarisation de la membrane plasmique et une perméabilisation de cette membrane (fuite d’ATP).

151

L’autre aspect sur lequel nous nous sommes penchés a été l’étude de l’interaction et de l’inhibition des ARNm aapA par les sRNA IsoA. Nous avons montré que ces partenaires étaient capables d’interagir par « kissing-complex » au niveau de deux structures de type tige-boucle ; et que cette interaction était nécessaire à la formation d’un duplex étendu et mais n’était pas directement impliquée dans l’inhibition de la traduction des peptides. Ainsi, il semblerait que nous soyons face à deux processus distincts, résumés sur la figure 55.

Nous pouvons imaginer que le rôle du duplex étendu est de favoriser la dégradation et le recylage des ARN in vivo, probablement par une digestion par la RNase III. Nous disposons depuis très récemment d’une souche mutée pour la RNase III (Dr. Isabelle Iost, communication personnelle). L’étude du devenir de ces ARN dans cette souche pourrait amener de nombreuses indications sur le rôle joué par la RNase III au niveau du duplex étendu, si tant est qu’il se forme in vivo.

D’un autre côté, nous avons montré que l’inhibition de la traduction en elle-même était un phénomène indépendant des « kissing-complex », et les régions impliquées restent à déterminer. Pour répondre à cette problématique, nous sommes en train de construire des ARN IsoA et aapA mutés sur d’autres régions que les boucles et notamment au niveau du linker.

Enfin, les expériences d’inhibition de la traduction avec les ARN mutés au niveau des boucles ne prenant pas en compte l’aspect cinétique de l’interaction, il faudrait réaliser des expériences de retard sur gel pour étudier cette cinétique entre des ARN complémentaires ou non au niveau des boucles impliquées dans le « kissing-complex ».

Figure 55 : Perspectives sur l’aspect mécanistique de l’interaction entre les sRNA IsoA et les ARNm aapA.

152

Conclusion générale

La bactérie H. pylori est un des rares micro-organismes à pouvoir coloniser durablement l’estomac humain. Au cours de l’infection, la bactérie doit faire face à de nombreux stress, tels que l'acidité gastrique ou la réponse des cellules immunitaires. La survie de la bactérie dans cet environnement passe par l’expression et la régulation de nombreux gènes d’adaptation. Les mécanismes qui contrôlent l’adaptation d’H. pylori à son environnement sont encore mal connus.

Découverts chez E. coli il y a plus d’une vingtaine d’années, les « petits ARN » (sRNA) apparaissent désormais comme une classe majeure de régulateurs de l’expression des gènes dans une grande variété d’organismes. Leur étude chez H. pylori offre une perspective intéressante pour expliquer et comprendre plus précisément la régulation de l’expression de gènes de cet organisme. Cependant H. pylori est une bactérie atypique, qui a évolué dans une niche isolée et aux conditions très particulières. Aussi, aucun des sRNA parfois ubiquitaires chez d’autres organismes n’ont pu être détectés chez H. pylori par des techniques de prédiction bio-informatique.

Ainsi, afin d’explorer le répertoire en sRNA de cette bactérie, nous avons opté pour une démarche expérimentale. En utilisant une technique émergente de séquençage haut-débit (pyroséquençage 454), nous avons analysé le transcriptome de la souche H. pylori 26695 pour y détecter des petits ARN régulateurs candidats. Afin de tirer le maximum d’informations de ces travaux de séquençage, nous avons également analysé des transcriptomes enrichis en transcrits primaires, qui ont permis d’identifier les sites d’initiation de la transcription, les promoteurs et les régions 5’UTR pour la moitié des gènes codés dans le génome de la bactérie.

En ce qui concerne l’identification de sRNA, nous rapportons la détection (reproductible) de 56 candidats issus de régions intergéniques et plus de deux cents sRNA antisens, transcrits sur le brin opposé à des gènes annotés.

L’ensemble de ces résultats permettent ainsi d’aborder sous un jour nouveau la compréhension de la régulation de l’expression des gènes chez H. pylori, que ce soit au niveau transcriptionnel ou post- transcriptionnel. L’exploitation de l’importante base de données générée par ce travail a également d’autres applications. La cartographie des promoteurs et opérons des gènes permet par exemple de mieux appréhender la conception et l’interprétation d’expériences de suppression de gènes.

L’étude des petits ARN candidats a permis de révéler plusieurs cas intéressants. Nous avons par exemple caractérisé un homologue structurel et probablement fonctionnel de l’ARN 6S d’E. coli mais dont la

153 séquence a totalement divergé chez H. pylori ; ceci explique pourquoi la communauté scientifique a longtemps cru que cet ARN ubiquitaire était absent chez H. pylori et les autres ε-protéobactéries.

Nous avons également identifié des sRNA transcrits depuis l’ilôt de pathogénicité cag ou antisens à des facteurs de pathogénicité. Il serait intéressant d’étudier le rôle de ces sRNA dans la régulation de la virulence d’H. pylori.

Enfin, nous avons caractérisé la première famille de cassettes toxine-antitoxine I découverte à ce jour chez H. pylori. Bien qu’étant uniques par leurs séquences nucléotidiques, ces cassettes (famille A) présentent de nombreuses homologies avec les autres cassettes toxine-antitoxine de type I, ubiquitaires dans les génomes bactériens.

Chez H. pylori, les cassettes de la famille A sont composées d’un ARNm (aapA) et d’un sRNA antisens (IsoA). Les ARNm aapA codent pour un peptide cationique hydrophobe, ayant des caractéristiques partagées avec plusieurs toxines de type I. Bien qu’ils ne soient pas homologues, les peptides AapA ont des caractéristiques structurales particulièrement proches des toxines Ldr/Fst conservées dans un grand nombre de bactéries.

Par analogie avec ces systèmes, il est possible que les peptides de la famille A puissent eux aussi interagir, via leur région hydrophobe, avec la membrane plasmique de la bactérie qui les exprime.Chez les autres bactéries, la surexpression de toxines induit la formation de pores dans la membrane, associée à une dépolarisation, qui entraîne la mort ou l’arrêt du cycle de division de la bactérie. Ainsi, il serait désormais intéressant d’analyser les conséquences de la surexpression de ces peptides chez H. pylori, en portant une attention particulière à ces phénomènes.

Les sRNA IsoA quant à eux sont exprimés constitutivement, dans des conditions classiques de culture. Nous avons montré qu’ils ciblent les ARNm aapA par complémentarité de bases, et inhibent la traduction de la toxine. Ils permettraient ainsi de se prémunir contre l’expression des toxines dans un milieu propice à la croissance.

Le fait que ces cassettes soient répétées en plusieurs copies dans les génomes de différentes souches et qu’elles soient régulièrement associées à des insertions de systèmes de restriction-modification laisse à penser que ces cassettes pourraient jouer un rôle dans la maintenance d’éléments génétiques mobiles.

Néanmoins, les ARN aapA et IsoA présentent des profils d’expression sensiblement différents lorsque les bactéries sont cultivées dans des conditions de stress. De plus, des souches d’H. pylori mutées pour ces cassettes présentent une sensibilité accrue à deux antibiotiques (qui induisent entre autre des dommages sur l’ADN). En considérant les données disponibles dans la littérature sur les cassettes de

154 type I, il semblerait que ces systèmes n’aient pas un effet bactéricide comme cela avait été envisagé auparavant, mais qu’ils ont plutôt un effet bactériostatique réversible qui permet la génération de bactéries persistantes, capables de survivre à divers stress. Si les cassettes toxine-antitoxine de type I découvertes chez H. pylori fonctionnent sur le même principe, il est possible qu’elles jouent un rôle dans la persistance des infections dans l’estomac humain. Des études sont en cours pour étudier cette hypothèse. Enfin, il faudrait déterminer si ces cassettes de la famille A sont impliquées dans la génération de formes coccoïdes chez H. pylori, qui apparaissent généralement dans des conditions de stress.

155

Annexe I

Supplementary Methods

(Article : The primary transcriptome of the human pathogen Helicobacter pylori)

156

doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

Supplementary Methods and Text

The primary transcriptome of the major human pathogen Helicobacter pylori

This file contains:

page

Oligonucleotides 2 Bacterial strains 2 Helicobacter pylori growth 2 RNA extraction, Northern blot, and 5’ RACE 3 Protein detection 4 Quantitative RT-PCR 4 In vitro structure probing 4 In vitro translation assays 5 Depletion of processed RNAs 5 Construction of cDNA libraries for dRNA-seq 6 Construction of cDNA libraries for operon mapping by Solexa sequencing 7 Read mapping and mapping statistics 7 Data visualization 9 Transcriptional start site (TSS) annotation 9 Reproducibility of dRNA-seq 10 Validation of antisense TSS using actinomycin D 11 Semi-quantitative analysis of expression differences 12 Promoter and ribosome binding site motif detection 13 Annotation of operons 15 Structure clustering of H. pylori sRNA candidates and 5’ UTRs 16 Prediction of small peptides 17 Hydrophobicity analysis 18 Comparative analysis of leaderless mRNAs 19 REFERENCES 20

www.nature.com/nature 1 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

SUPPLEMENTARY INFORMATION, MATERIALS AND METHODS

Oligonucleotides. The complete list of DNA and RNA oligonucleotides used as hybridization probes and for 5’ RACE are provided in Supplementary Table 17.

Bacterial strains. Helicobacter pylori strain 26695 (CIP 106780; Collection of the Institut Pasteur, Paris, France) was used throughout this study. The HPnc5490 deletion strain

(ΔHPnc5490::aphA-3) was generated by homologous recombination using a PCR-amplified non-polar cassette carrying the aphA-3’ kanamycin resistance gene1 flanked by ~500 bp homology regions up- and downstream of the HPnc5490 gene. The cassette was constructed by three-step PCR as described 2, using the Expand High Fidelity DNA Polymerase Kit (Roche) and primers listed in Supplementary Table 17. First, ~500 bp regions up- or downstream of HPnc5490 were amplified from genomic DNA of H. pylori with primers A1/A2 or B1/B2, respectively. The A1 and B1 primers carry a ~18 bp homologous sequence to the 5’ or 3’ end of the aphA-3’; the latter gene was amplified from plasmid pUC18K23 using primer pair K1h/K2h. The three PCR products were gel-purified and mixed in an equimolar ratio, to be used as template for PCR with primer pair A2/ B2. Following gel- purification, ~1 µg of final PCR product comprising the complete cassette and flanking regions was used for natural transformation of H. pylori as described 4. Disruption mutants were selected on columbia agar plates supplemented with 20 µg/ml kanamycin for 3-4 days. Genomic DNA of kanamycin-resistant mutants was isolated using the QiaAmp DNA Minikit

(Qiagen), and the ΔHPnc5490::aphA-3 mutation was confirmed by PCR (primers: sA_Ups/K2h) and northern blot probing (data not shown).

H. pylori growth. Bacteria were grown on columbia agar plates containing 7% laked horse blood and Dent selective supplement (Oxoid, UK) for 1-2 days at 37°C in anaerobic jars

under microaerobic conditions (10% CO2, 6% O2) generated by CampyGen bags (Oxoid,

UK). For liquid cultures, bacteria were harvested from plates and inoculated with an OD600 of 0.08 in a flask containing 25 ml BHI (brain-heart infusion medium) containing 10% foetal

www.nature.com/nature 2 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

calf serum (FCS) and Dent selective supplement. Flasks were incubated at 37°C under

microaerobic atmosphere and agitated (110 rpm) until the culture reached the desired OD600. Generally, bacterial growth was stopped by adding 3 ml stop solution (95% ethanol/ 5% phenol) to 25 ml of bacterial culture. Cells were harvested by centrifugation for 10 min at 3,000 rpm and 4°C, supernatants removed, and stored as pellets at -80°C. Acid stress: Cells

were diluted to an OD600 of 0.08 in three flasks containing fresh medium. After 15 hours of growth at 37°C under microaerobic conditions, one flask was used to determine the volume of HCl (3.7%) required to achieve a pH of 5.2. The thus estimated volume of HCl or sterilized

H20 was added to the acid stress or control flask, respectively. Incubation continued at 37°C under microaerobic conditions for 30 min (RNA-seq samples) or 2 hours (northern blot samples). Co-culture with human cells: Adherent Huh7 and AGS cell lines were cultivated in flasks containing Dulbecco’s Modified Eagle’s Medium (DMEM) or Ham’s medium, respectively, at 37°C in a humidified atmosphere (5% CO2, 95% air). Prior to co-culture with bacteria, cells were washed with PBS, and fresh Ham’s medium was added to the flasks containing the AGS or Huh7 cells, and an additional empty flask (PL control libraries). Next, the three flasks were inoculated with a suspension of 48 h plate-grown H. pylori (multiplicity of infection: 240), and incubated at 37°C for 7 hours. To collect adherent bacteria, the eukaryotic cells were scraped from the plastic surface, and the whole suspension (comprising free and adherent bacteria as well as host cells) was stopped and harvested as above.

RNA extraction, northern blot, and 5’ RACE. Frozen cell pellets were thawed on ice, resuspended in 880 µl lysis solution (TE buffer, 0.5 mg/ml lysozyme, 1% SDS, pH 8.0), and placed in a heated (65°C) water bath for 2 min, followed by extraction of total RNA using the hot-phenol method5. For northern blot analysis, 3-20 µg RNA per lane were separated on 6% polyacrylamide-8.3 M urea gels, transferred onto Hybond-XL membranes, and hybridized with 5’-labeled (γ32P) DNA oligos probes (Supplementary Table 17) as described6. 5’ RACE analysis followed our previously published protocols6,7. Supplementary Tables 1 and 17 list

www.nature.com/nature 3 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

the gene-specific RACE primers for 5’ end mapping and internal TSS validation (Supplementary Figs. 3-4).

Protein detection. 1 OD600 of bacterial culture at mid-log phase was centrifuged (10 min, 4,000 g, 4°C), and the cell pellet dissolved in loading buffer (Fermentas, #R0891) to yield 0.04 OD bacteria/µl. Following lysis and denaturation at 95°C for 5 min, 0.3 OD per lane were separated in SDS-polyacrylamide gels. The upregulated TlpB protein was identified in Coomassie-stained gels by peptide mass fingerprinting at the MPI-IB core facility according to published standard protocols (http://info.mpiib-berlin.mpg.de/jungblut).

Quantitative RT-PCR. Relative expression of target mRNAs was determined using OuantitectTM SYBR® Green RT-PCR Kit (Qiagen) following the manufacturer’s instructions on RNA of mid-log phase H. pylori. Specific primer pairs for tlpB (JVO- 5267/5268), HP0102 (JVO-5269/5270), tlpA (JVO-5273/5274), and tlpC (JVO-5275/5276) were designed using Primer3 software (http://frodo.wi.mit.edu/primer3/input.htm). The groEL mRNA (JVO-5297/5298) served as internal standard.

In vitro structure probing. Helicobacter 6S RNA was transcribed in vitro using T7 RNA polymerase and a DNA template obtained from genomic DNA with primer pair JVO-2504/- 2505, and 5’-end labeled according to published protocols8,9. For structure probing (10 μl reaction volume), ~0.1 pmol of labeled 6S RNA was denatured at 95°C (1 min) and chilled on

ice (5 min), upon which 1 μg of yeast RNA and 10x structure buffer (0.1M Tris at pH 7, 1M

KCl, 0.1M MgCl2) were added. Following incubation for 10 min at 37°C, 2 μl of a fresh solution of lead(II) acetate (25 mM; Fluka #15319), 2 μl of RNase T1 (0.01 U/μl; Ambion, #AM2283), or 2 μl of RNase T2 (0.02 u/μl; Invitrogen#18031-013) were added for 1 to 3 min. RNase T1 ladders were obtained by incubating labeled RNA (~0.2 pmol) in 1x sequencing buffer (Ambion) for 1 min at 95°C. Subsequently, 1 μl of RNase T1 (0.1 U/μl) was added and incubation was continued for 5 min at 37°C. OH ladders were obtained by

www.nature.com/nature 4 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

incubation (5 min) of 0.2 pmol labeled RNA in alkaline hydrolysis buffer (Ambion) at 95°C. Generally, reactions were stopped by addition of 12 μl loading buffer II on ice (95% formamide; 18 mM EDTA; 0.025% SDS, xylene cyanol, and bromophenol blue). Heat- denatured samples were separated in 6% polyacrylamide-7M urea sequencing gels and in 1x TBE. Gels were dried and analysed using a PhosphorImager (FLA-3000 Series; Fuji) and AIDA software (Raytest).

In vitro translation assays. DNA templates for in vitro mRNA and sRNA synthesis were amplified from genomic DNA using primer pairs FD54/FD55 (aapA1), FD56/FD57 (aapA3), FD9/FD15 (IsoA1) and FD11/FD17 (IsoA3), as listed in Supplementary Table 17. Following in vitro synthesis with T7 RNA polymerase and purification (see above), 15 pmol of aapA1 or aapA3 mRNA were translated using the E. coli S30 kit (Promega, #L1030) in of 25 µl

reactions containing 0.2 mM [35S]-methionine (1175 Ci/mmol; Perkin-Elmer), 7.5 µl S30 extract, 10 µl S30 premix without amino acids, and 0.1 mM of each amino acid minus methionine. For antisense interference, 60 pmol of the IsoA1 or IsoA3 RNAs were added. Reaction were incubated at 37°C for 1 hour, stopped with 100 µl of 1M NaOH, precipitated with 1 ml of TCA (25%) solution. Pellets obtained by centrifugation washed with acetone, resuspended in 20 µl of 1x Tricine sample buffer (Biorad), heat-denatured, and separated in 16.5% Tris-tricine gels, using Novex® Sharp Pre-stained protein assize standard. Gels were run at 100V for 4 hours, dried, exposed and analysed using a Pharos FX phosphorimager (Biorad).

Depletion of processed RNAs. Total RNA was freed of residual genomic DNA by DNase I treatment. For depletion of processed transcripts, equal amounts of Helicobacter RNA were incubated with TerminatorTM 5’-phosphate-dependent exonuclease (TEX) (Epicentre #TER51020) or in buffer alone for 60 min at 30°C. We used 1 unit TEX per 1 µg total RNA. Following organic extraction (25:24:1 v/v phenol/chloroform/isoamyalcohol), RNA was precipitated overnight with 2.5 volumes of an ethanol/0.1M sodium acetate (pH 6.5) mixture,

www.nature.com/nature 5 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

and treated with 1 unit TAP (tobacco acid pyrophosphatase) (Epicentre, #T19100) for 1 hour at 37°C to generate 5’-mono-phosphates for linker ligation, and again purified by organic extraction and precipitation as above.

cDNA libraries for dRNA-seq and 454 pyrosequencing. Libraries for 454 pyrosequencing

of cDNA were constructed by vertis Biotechnology AG, Germany (http://www.vertis-

biotech.com/) as described previously for eukaryotic microRNA10 but omitting the RNA size-

fractionation step prior to cDNA synthesis. In brief, equal amounts of -/+ TEX treated RNA

were poly(A)-tailed using poly(A) polymerase, followed by ligation of an RNA adapter to the

5´P RNA fragments. First-strand cDNA synthesis was performed using an oligo(dT)-adapter

primer and M-MLV-RNaseH- reverse transcriptase. Incubation temperatures were 42°C for

20 min, ramp to 55°C, followed by 55°C for 5 min. The cDNAs were PCR-amplified to yield

a concentration of 20-30 ng/µl using a high fidelity DNA polymerase. Each library contains a

specific 4-mer barcode sequences (see Supplementary Table 2), which is attached to the 5’

end of the cDNAs during PCR amplification. Five cDNA library pairs (RNA -/+ TEX

treatment) were prepared from H. pylori grown in BHI media at mid-log phase (ML-/+), acid

stress (AS-/+), in cell culture flasks alone (PL-/+) or the presence AGS (AG-/+) or Huh7

(HU-/+) cells (Supplementary Fig. 2). To test reproducibility, two additional library pairs

(MLR1-/+, MLR2-/+) were prepared from biological replicates of the mid-log growth bacteria

(barcode tags for these libraries are ACTA, ATCG, CAAT, and CACA, respectively). A total

of ~3.7 million cDNAs were sequenced, yielding 220,000-530,000 5’ linker-clipped cDNAs

per library (Supplementary Table 2). For the biological replicate libraries, we generated

~100,000 (MLR1-/+) and ~135,000/140,000 (MLR2-/+) cDNA reads, as well as ~110,000

reads for a control cDNAs synthesized in the presence of actinomycin D (MLR1_ActD+ with

barcode CGCA; see below). Sequencing was performed on Roche 454 FLX machines at the

www.nature.com/nature 6 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

MPI for Molecular Genetics (Berlin, Germany), and Roche Diagnostics GmbH (Penzberg,

Germany).

Solexa sequencing for operon mapping. To complement the dRNA-seq data for operon predictions, strand-specific cDNA libraries for Solexa sequencing were generated by vertis (see above) from total RNA of the same five growth conditions as for dRNA-seq. In order to yield cDNAs covering transcripts over their entire length, the RNA was first fragmented by incubation at 95°C for 5 min. RNA fragments were then polyadenylated, ligated to a 5’ linker and amplified as above for 454 sequencing. The PCR primers for amplification were designed for amplicon sequencing following instructions of Solexa (Illumina). The five cDNA libraries

were sequenced using 76 single-read cycles on a Genome Analyser II (Illumina) at the MPI for Evolutionary Anthropology (Leipzig, Germany). We obtained comparable read numbers for the ML, AS, AG, and HU libraries (~10,000,000 each), and due to technical reasons ~2,000,000 reads for the PL library.

Read mapping and statistics. For mapping of reads, 5’-linker clipped reads were aligned to the H. pylori 26695 genome (NC_000915) using the segemehl program11 which is based on an error-tolerant suffix array method. In principle, segemehl does not require clipping of tailing sequences as these are ignored during mapping. However, for very short sequences the poly(A) tails often cause mapping errors. Therefore, a filtering step removed all sequences with an A-content of >70% (Supplementary Table 2); the poly(A) tail of these sequences was clipped separately. Clipped reads ≥12 nt were mapped again with segemehl (this reiteration is essential to map very short sequences). Disregarding cDNAs <12 bp, 62.7%–84.2% of the cDNAs in each library could be mapped to the H. pylori chromosome, and 25.7%–75.2% of the reads mapped uniquely to the genome (Supplementary Table 2). The longest mapped cDNA reads were ~350 nt (data not shown).

For several single reads reported by the sequencer we obtained multiple hits, say h hits, in the reference genome. We defined a hit by some interval [l,r] of nucleotides, where l and r are coordinates in the reference genome. We normalized the hits by the total number of

www.nature.com/nature 7 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

hits found for a single read. That is, each nucleotide within [l,r] received a score of 1/h. For all hits and for all reads the scores were summed up across the reference genome. The fold coverage of the whole genome is then expressed as mean score for all nucleotides. The fold coverage for protein coding sequences, RNAs or other genomic subsets was calculated equivalently. For example, the fold coverage of coding sequences is given by the mean score for all nucleotides within such coding sequences. While about 40% of whole genome is covered at least 5-fold, >70% of the mRNAs are covered at the same level (Supplementary Table 9).

Overall genome fold coverage for all libraries was calculated separately for the plus strand, the minus strand, and the sum of both strands. If expression occurred on both strands at some genomic position, the weaker expression was declared as antisense (Supplementary Fig. 6). Approx. 70% of the nucleotides on both the leading and lagging strand were covered ≥1-fold. About 40% of the whole genome are covered ≥5-fold. As expected for the whole transcriptome of H. pylori, fold coverages on both strands are inversely proportional. Hence, single coverage for base pairs rises to 97%, and even 80% of the genome is covered at least 5- fold. The coverage of annotated mRNAs is equivalently high: >70% of the nucleotides within mRNA annotations are ≥5-fold covered (Supplementary Fig. 6 and Table 9). Interestingly, ~10% of annotated mRNAs show antisense transcription at the 10-fold level.

Supplementary Fig. 22 shows a detailed distribution of reads <12 bp for each library, reads with no match to the H. pylori genome, or reads that overlap with annotated regions (for actual numbers, see Supplementary Table 18). The fraction of reads that could not be mapped to the Helicobacter genome is higher for the AG-/+ and HU-/+ libraries as they also contain human reads from the host cells (Supplementary Table 2). The fraction of uniquely mapped reads is generally higher in the enriched libraries, due to the removal of a large number of ribosomal rRNA reads. Reads which derive from these transcripts map at least twice to the genome due to the presence of two 16S and 23S rRNA genes and three 5S rRNA genes. Supplementary Fig. 22 shows that the fraction of ribosomal RNAs (orange) is reduced in the

www.nature.com/nature 8 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

enriched (+) libraries versus (-) libraries. For example, in the ML- library ~63% of all reads derive from rRNAs, but only ~25% in the ML+ library. Conversely, the fraction of tRNAs increased upon TEX treatment (7.3% tRNA reads in the ML- versus 27% tRNA reads in ML+), for currently unknown reasons. A large fraction of reads mapped to mRNAs (8.8% / 5.8% of the ML- / ML+ libraries), as most evident in the acid stress libraries (32.5% / 18.9% in AS- / AS+). Moreover, a greater fraction of reads mapping antisense to annotated genes was observed (5.4% / 7.9% in AS- / AS+). These reads probably derive from cis-encoded antisense RNAs. In addition, the fraction of reads from intergenic regions contains promising candidates for novel H. pylori sRNAs (e.g., 3.4% / 15% in ML- / ML+). Furthermore, the increased read number from intergenic regions in the (+) libraries shows the successful enrichment of primary transcripts upon TEX treatment.

Data visualization. For each library, graphs representing the number of mapped reads per nucleotide were calculated and visualized using the Integrated Genome Browser (IGB)

version 4.56 software from Affymetrix (http://genoviz.sourceforge.net/)12. Sequence logos were drawn at http://weblogo.berkeley.edu/logo.cgi, distributions using xmgrace and R. Venn diagrams were prepared with VENNY (http://bioinfogp.cnb.csic.es/tools/venny/index.html) using the TSS positions of the four categories (primary, secondary, internal, and antisense) as input.

TSS annotation. To build a genome-wide TSS map for H. pylori (Supplementary Table 4), we manually annotated all 5’ ends that showed higher cDNA coverage in the (+) versus (-)

library in at least two (primarily, ML and AS) of the five conditions (indicated by a 1 in the column “Enriched” in Supplementary Table 4). An example of a TSS characteristic enrichment pattern is shown in Fig. 1c in the main manuscript. In a few cases (<2% of all annotated TSS) we saw a clear enrichment in only one condition and we thus included plausible location relative to adjoining genes as an additional criterion to confirm the TSS. For example, two divergently transcribed genes, i.e. one gene (gene x) is encoded on the lagging strand and the next gene (gene y) in the genome is encoded on the leading strand, can

www.nature.com/nature 9 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

have overlapping promoter regions if they are encoded in close vicinity. In this kind of genomic context, both genes need their own promoters for transcription. In cases of low cDNA coverage and enrichment in only one condition we annotated these 5’ ends as TSS based on their location (indicated by a 1 in the column “Location” in Supplementary Table 4). There are almost equal TSS numbers from the lagging (n=969; ~51%) and leading (n=938; ~49%) strand of H. pylori. The annotated TSS were grouped into five categories according to Fig. 2a in the main manuscript. Primary TSS having the highest cDNA number within a distance ≤500 bp upstream of annotated ORFs or mature 5’ ends of small RNAs; secondary TSS being associated with the same gene as a nearby primary TSS but showing fewer cDNA reads; internal TSS located within an annotation on the sense strand; antisense TSS situated inside or within ≤100 bp of an annotation on the opposite strand; and orphan TSS if there is no annotation in close proximity. These associations to annotated genes are indicated by a 1 in the columns “Primary”, “Secondary”, or “Antisense” in Supplementary Table 4. Orphan TSS are indicated by zeros in all three columns.

Antisense TSS were detected for 721/1576 (~46%) of annotated ORFs; primary TSS for 717 ORFs; 106 secondary TSS for 98 ORFs; 428 internal TSS for 363 ORFs. Primary TSS commonly reside in upstream ORFs: 145/810 (~18%) primary TSS are also internal; 145/439 (~33%) internal TSS are also primary. 216/812 primary TSS (~27%) are antisense TSS, revealing profound global antisense transcription.

Reproducibility of dRNA-seq. To verify the reproducibility of dRNA-seq, two new pairs of differential cDNA libraries (MLR1-/+, MLR2-/+) of two biological replicates of the original mid-log (ML-/+) libraries were constructed. Whole transcriptome reproducibility among the three biological replicates was analysed for the enriched (+) and non-enriched (-) mid-log condition. To this end, the overall transcriptome coverage of the ~440,000 and ~420,000 mapped reads of the ML- and ML+ libraries (Supplementary Table 2), ~92,000/95,000 mapped reads of the MLR1-/+ and ~126,000/131,000 mapped reads of the ML2R-/+ libraries were compared. Specifically, for all nucleotides in the genome that were covered x-fold in

www.nature.com/nature 10 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

one library, the mean fold coverage of the corresponding nucleotides in the biological replicate was calculated. Correlation analysis was performed using Spearman's rank correlation test. The dRNA-seq data was found to be highly and significantly correlated (r=0.85-0.99, p<2.2e-10) among all replicates of the untreated and enriched libraries. This indicates high reproducibility of the regions that are transcribed from the H. pylori genome between biological replicates of dRNA-seq cDNA libraries.

The reproducibility of the enrichment patterns at TSS was evaluated as follows. Using a rather strict expression threshold of 5-fold, i.e. at least five mapped reads per nucleotide in a window of 40 nt downstream of the annotated TSS in the original ML+ library, 154 primary TSS, 52 TSS for validated small RNAs (Supplementary Table 14), and 58 antisense TSS were analysed. The fold-enrichment values in the 40 nt windows between the enriched and the non- enriched libraries of the three replicates were compared for this TSS subset. In total, 90% of the primary TSS, and 100% of the TSS for validated small RNAs and antisense TSS showed an enrichment of >1.5-fold in at least one of the smaller biological replicates. This indicates high reproducibility of dRNA-seq approach in terms of the depletion of processed RNAs and concomitant TSS enrichment.

Validation of antisense TSS using actinomycin D. Spurious second-strand cDNA synthesis

during reverse transcription reactions has been shown to be the major source of artificial antisense transcripts13. To prevent spurious second-strand cDNA synthesis in the reverse transcription step during library preparation an M-MLV-RNaseH-minus reverse transcriptase

depleted of its RNase activity was used for all library constructions. In addition, further cDNA libraries of TEX treated RNA from the mid-log growth condition were generated as described for the dRNA-seq libraries above but in the absence (MLR1+) and presence (MLR1_ActD+) of 12 ng/µl actinomycin D (ActD) similar to the previously described method14. Actinomycin D inhibits DNA-dependent, but not RNA-dependent, DNA synthesis15. If the high number of antisense TSS were caused by template switching of the reverse transcriptase, a significant change in the number of antisense TSS should be observed

www.nature.com/nature 11 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

between libraries generated in the absence or presence of ActD. For the MLR1+ and MLR1_ActD+ libraries, ~100,000 and ~110,000 reads, respectively, were sequenced and the fold coverages in a 40 nt window downstream of 812 primary TSS, 89 TSS of validated sRNAs, and 969 antisense TSS were compared between the two libraries. Pearson’s correlation coefficient shows a strong and significant correlation for all three tested types of TSS (r>0.99, p < 2.2e-16) (Supplementary Fig. 23), indicating a high reproducibility of antisense TSS in the presence of actinomycin D. Thus, these transcripts are likely to result from active transcription initiation, and are not artefacts of cDNA synthesis. To further validate the subgroup of expressed TSS for small RNAs in MLR1+, all TSS with a minimum coverage of at least 5-fold were selected. In total ~85% (27/32) of the TSS of validated sRNAs (including validated antisense RNAs) present in MLR1+ were found to be expressed at the same coverage level in the MLR1_ActD+ library (data not shown).

Semi-quantitative analysis of expression differences. To compare expression at the TSS in the TEX-treated cDNA libraries of the five different growth conditions, the dRNA-seq mapping data of each enriched library (ML+, AS+, PL+ AG+, and HU+) was normalized to the number of mapped nucleotides for each library. A window of 40 nt was anchored downstream of all primary TSS. The fold-coverages within the TSS-window were used to compare the promoter expressions in the enriched acid-stress and infection libraries in a semi- quantitative way. For each pairwise comparison a minimum normalized fold-coverage (normalized to the total genome expression of each library to be able to compare libraries with different mapped read numbers) of 1.5e-10 (~10-fold coverage in the ML libraries) was required in at least one library. Supplementary Table 16 lists all observed expression differences >1.5-fold. Note that only genes with primary TSS and satisfying the coverage threshold were considered. Consistent with the expression differences observed for the whole urease mRNAs given in Supplementary Table 3, a >2-fold up-regulation of expression at the ureI and ureA TSS upon acid stress was observed upon acid stress. Furthermore, additional detectable changes in TSS coverage upon acid stress as well as in the presence of eukaryotic

www.nature.com/nature 12 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

cells could be observed. For example, we confirmed the previously reported down-regulation

of HP1177 (omp27) and HP1212 (ATP-synthase subunit C) upon acid stress16, and of HP0682, HP0974, and HP0218 upon contact with AGS cells17. Although this data is only semi-quantitative, it indicates that dRNA-seq can potentially be used for gene expression profiling, more replicates and higher cDNA coverage for statistical analysis permitted.

Motif detection in promoters and ribosome binding sites. All 1,907 unique TSS were used to detect promoter and ribosome binding motifs. Expecting -10 and -35 box to be located directly upstream of TSS, we used MEME18 to search for common motifs within 50 nt upstream regions. Starting with a motif length of 6 nt a conserved TAtaAT (lower-case characters indicate an information content <1 bit) pattern was found in 92% (1754/1906) of the TSS. The same approach failed to detect a conserved -35 box, even when analysis of hexamers was centered at the -35 position (relative to the detected -10 box). In other words, a -35 box seems to be dispensable if an extended Pribnow box (TGNTATAAT) exists. Thus, we modified the maximum length of the first motif up to ten nucleotides. Indeed, a tgnTAtaAT pattern centered on the -10 position in front of all TSS was detected. Further analysis of the upstream region revealed a periodic A/T-rich pattern (see Figure 2c in the main manuscript). These findings are in accordance with published promoter analysis in H. pylori and the closely related Campylobacter jejuni19-21. The detected -10 signal is unlikely to simply reflect the high genomic AT content (61.1 %) of H. pylori because genome-wide searches with more stringent algorithms (PWMATCH, MOSTA; see below) showed that ~30% of all

~2,300 possible tgnTAtaAT-like nonamers are located in close vicinity to a TSS (Supplementary Table 7). This association is significant at the 10-9 level (p ≤ 10-9). Neither σ28 nor σ54 promoters were detected by a global analysis of the TSS set, and we therefore compiled the known σ28 / σ54 promoter sequences (Supplementary Table 6) from the literature and generated MEME motifs for these as well (Supplementary Fig. 5).

Based on the (re)annotated coding sequences of H. pylori and our annotated TSS we compiled a set of 789 5' UTRs with minimal length of 10 nt. Applying MEME to all 5’ UTRs,

www.nature.com/nature 13 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

the pattern AAGGag was detected as the most common motif. The median distance to the downstream start codon is 6 nt. This data perfectly fits to previous analysis of Shine-Dalgarno

(SD) sequence in H. pylori20,22. In agreement with Yada et al. the SD motif is the only significant hit we found within the 5' UTRs.

Statistical evaluation of motifs: The upstream and downstream motifs identified by MEME were subsequently searched in a genome wide scan using the software tools PWMATCH (www.bioinf.uni-leipzig.de/Software/pwmatch), a re-implementation of the scoring algorithm published in ref.23 and of BSANNO24. The search was restricted to high- scoring matches to correct over fitting introduced by MEME. Thus, for PWMATCH we used a minimum match ratio of 0.9. The minimum match ratio is equivalent to a minimum motif/match identity of 90%. Unlike PWMATCH, the statistical model of BSANNO controls the false positive rate of a match. For BSANNO we selected a type I error rate of 0.1. Hence, the probability of a false positive match was upper-bounded by 10%. To assess the relation of identified motifs and the annotated TSS the number of co-occurrences was counted, i.e. for the 5’-upstream motif (tgnTAtaAT-box) co-occurrence was assumed if the TSS was not more than 25 nt downstream of the box. Conversely, a TSS was assumed to be preceded by a motif if a tgnTAtaAT-box was identified not more than 25 bp upstream of the start site. This strategy was used for the calculated σ28 and σ54 motifs as well. The resulting putative σ28 and σ54 motifs are listed in Supplementary Table 8. Similarly, co-occurrence with the downstream motif (SD sequence) was assumed if the distance to a primary or secondary TSS for a protein

coding gene (coding TSS) was <60 bp.

To assess the statistical significance of the motifs two different approaches were chosen. A data shuffling method was complemented by the use of the MOSTA package that employs a poisson clumping model. The MOSTA package25 offers a statistical model to calculate the significance of a motif directly. For PWMATCH hits the significance of a single motif was assessed using a background model of 100 shuffled H. pylori genomes, preserving

both mono- and dinucleotide compositions26. The number of occurrences of each motif in the

www.nature.com/nature 14 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

H. pylori genome was thus compared to the background model using a χ2 test (df=1). A similar strategy was used to evaluate the significance of the number of motifs in close vicinity to a feature (TSS) as well as the number of features preceded or followed by a motif. To obtain background models we randomly generated feature and motif sites across the H. pylori genome and performed a χ2 test on the respective contingency tables. The results are summarized in Supplementary Table 7.

Annotation of operons. To build an operon map for strain 26695, we combined three data sets: (i) our dRNA-seq data revealing TSS; (ii) conventional RNA-seq, i.e. strand-specific Solexa sequencing of cDNA to identify cotranscribed genes; (iii) 336 putative H. pylori operons predicted by the DOOR (Database of prOkaryotic OpeRons)27. By examining the presence of primary TSS or internal TSS upstream or within the predicted operons as well as overall cDNA coverage in the ten dRNA-seq and five Solexa libraries we could confirm 227 (including 15 ambigous but likely correct operons structure due to low expression) of the predicted DOOR operons and suggested 70 extended operons as well as 40 new operons (Supplementary Table 5). Based on internal TSS or primary TSS that were observed within operons we defined 126 alternative operons, eleven of which correspond to previously predicted DOOR operons. Supplementary Figure 4 exemplifies the evaluation and annotation of operons as well as experimental confirmation of intra-operonic TSS using 5’ RACE. The operons were assigned one of the following classifications: 1) confirmed: predicted DOOR

operon is supported by our dRNA-seq and Solexa data, i.e. a primary TSS was identified upstream of the first gene in an operon and overall read-coverage indicates a polycistronic transcript; 2) dismissed: predicted DOOR operon is not supported by the TSS annotation and read coverage; 3) extended: predicted DOOR operon was extended by an upstream or downstream gene if no primary TSS was observed upstream of the first gene of a predicted DOOR operon, but in front of a more upstream gene (s), or if read coverage indicated a longer polycistronic mRNA than predicted; 4) new: operon based on sequencing data and not

www.nature.com/nature 15 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

previously predicted by DOOR; 5) alternative: a suboperon of a confirmed, extended, or new operon, based on the presence of an intra-operonic internal TSS or primary TSS; 6) single: if the last gene of an operon is preceded by a primary TSS or internal TSS it could also be transcribed as a separate gene. The operon map presented in Supplementary Table 5 summarizes all confirmed, extended, and new primary operons as well as all proposed suboperons indicated as alternative (at least dicistronic) or single (alternative monocistronic) transcription units of the primary operons.

Structure clustering of H. pylori sRNA candidates and 5’UTRs. Most RNA families depend on well-defined secondary structures, while often lacking strong homologies at the

sequence level, as discussed28-30. Furthermore, several basepairing sRNAs have been shown to be functionally conserved despite a lack of primary sequence conservation, e.g. DsrA of E. coli and a much longer homologue in Borrelia, both of which regulate rpoS expression31. Similarly, differently sized RyhB homologues from E. coli, Vibrio cholerae, and two copies in Pseudomonas which are unrelated in sequence have all been shown to regulate genes involved in iron metabolism32-34. In order to identify H. pylori sRNA candidates which have similar secondary structures, and thus are likely to be members of the same family of functional sRNAs, as well as to identify candidates that are evolutionarily conserved, we performed a structural clustering following a described pipeline29. The set included all validated H. pylori sRNA candidates (Supplementary Table 14), 59 and 79 known sRNAs of E. coli and Salmonella typhimurium12,35,36, respectively, and the housekeeping RNAs

(tmRNA, SRP RNA, RNase P RNA, tRNAs, and 5S rRNAs) for the three bacteria. The cluster tree (Supplementary Fig. 17) falls into well-separated groups, one for each family of housekeeping RNAs. Other known sRNAs of E. coli and S. typhimurium exhibit only weak structural similarities to the H. pylori sequences within the same cluster (large distances to leaves) indicating that these H. pylori candidates are probably not functional homologues of the corresponding known sRNA. This observation suggests that apart from housekeeping RNAs, each bacterium may evolve its own distinct RNA repertoire. Furthermore, the majority

www.nature.com/nature 16 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

of H. pylori sRNAs, which are not a member of clusters with known RNAs of E. coli or S. typhimurium, are not grouped in large clusters, but rather in groups of single sRNAs exhibiting specific structural motifs.

To identify putative riboswitches within the determined H. pylori 5’UTRs, a structural

clustering using INFERNAL37 of all 5’UTR sequences from TSS to AUG and from TSS to 30 bp downstream of the AUG against Rfam38 models for known riboswitches was performed (data not shown). This predicted a TPP riboswitch upstream of pnuC in H. pylori (see also Supplementary Figure 9).

Prediction of small peptides. The detected sRNA candidates might also code for short peptides. Thus, a pipeline was constructed to search for open reading frames (ORFs) within the sRNA candidates. An ORF was deemed valid if it started with the canonical start codon ‘AUG’, ended in frame with one of the three stop codons ‘UAA’, ‘UAG’ or ‘UGA’ and encoded at least 10 amino acids. Additionally, we enforced a 60% match including the sub- sequence AGG[A|G] of the SD-Pattern within a distance of eleven nucleotides upstream of the ORF. Furthermore, this set of short peptides was reduced by a restrictive conservation filtering step. Using BLAST39 homologues of the sRNAs (e-value 10; initial hit has to cover ≥50% of the H. pylori query) as well as the corresponding ORFs are searched within all fully sequenced ε-proteobacteria. Both truncated sRNAs as well as ORFs are maximally extended to the length of the initial H. pylori query sequence. Finally, an ORF conserved in at least three species passes our pipeline. The predicted putative protein-coding RNAs are

summarized in Supplementary Table 15. Manual inspection identified three additional antisense RNA/small ORF cassettes (Supplementary Figs. 20–21). The aapB (antisense RNA associated peptide B) loci includes the ~100 nt RNA HPnc4160 which is antisense to HPnc4170 encoding a 42 aa ORF conserved in many other Helicobacter strains. We termed the newly identified ORFs according to their left flanking ORF in the genome followed by an “A”. For example, the left flanking gene of HPnc4170 is HP0811 and, thus, we named the 42 amino acid ORF

www.nature.com/nature 17 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

HP0811A. Furthermore, two of the newly identified sRNAs, HPnc2090/HPnc5320, probably the result of duplication, and HPnc4590 (Supplementary Fig. 20) contain a nearly perfect anti- SD sequence ‘TCTCCT’ and are highly expressed. On the opposite strands of sRNAs HPnc2090/HPnc5320 and HPnc4590, only few reads were detected but inspection of the genomic sequences revealed that they could encode for small peptides of 16 (HP0461A/HP01009A) and 11 (HP0911A) amino acids (Supplementary Fig. 20F). Thus, we termed this loci aapC1/2 and aapD. Conservation analysis showed that the Shine–Dalgarno sequences, start codons and peptides are highly conserved in other Helicobacter strains. Moreover, the small ORF/asRNA pairs are present in different copy numbers at the same genomic locations in different strains (Supplementary Fig. 21). Additional cassettes that are similar in sequence to both aapC1/2 and aapD were identified in the other strains (Supplementary Fig. 21C). Thus, given the sequence similarity between the peptides of aapD and aapC1/2, these could constitute one large family. Furthermore, they have similar sequences to the short hydrophobic peptides of the Ibs family which has recently been

identified in E. coli40,41. Similar to the peptides encoded by aapA1-6 (Fig. 4d in the main manuscript), also for the small ORFs of aapC1/2 and aapD, transmembrane domains could be predicted using the TMpred program (www.ch.embnet.org/software/TMPRED_form.html) (Supplementary Fig. 20E). Overall, besides the aapA1-6 family, four additional small ORF/antisense RNA cassettes in the H. pylori 26695 genome were identified (Supplementary Fig. 21D).

Hydrophobicity analysis. In order to estimate the hydrophobicity of the short peptides the Kyte-Doolittle scale42 was used. A sliding window approach was applied to scan each peptide for the most hydrophobic subsequence of 11 amino acids. For each scored peptide one thousand random sequences out of the annotated and translated CDS were sampled and scored as well. This sample represents a normal distributed background. Thus the dataset could be normalized using the mean and the standard deviation of the background distribution. Using a confidence interval of 95% a normalized hydrophobicity value is significant if it is >2.

www.nature.com/nature 18 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

Supplementary Figure 20A depicts the results for three independent data sets: 1)

experimentally verified short peptides from E. coli43; 2) 53 annotated short ORFs ≤50 aa from the H. pylori NCBI annotation; 3) short peptides predicted in this study. Some of the E. coli peptides had already been predicted by others to be hydrophobic, for example, the Ibs cluster (indicated by red circles) to have a typically hydrophobic transmembrane domain40. These molecules also have high hydrophobicity values as determined by the method described above. We note that the sets of previously annotated and predicted short peptides from our H. pylori study showed no general enrichment above the selected confidence interval of 95% in hydrophobicity values but that the majority of the newly predicted peptides from this study show positive hydrophobicity values.

Comparative analysis of leaderless mRNAs. For 34 mRNAs the 5’ UTR was <10 nt long. Therefore, these transcripts were considered leaderless (Supplementary Table 11). To analyse these genes in more detail, homologues of the CDS in all sequenced ε-proteobacteria were searched using Blast and aligned by ClustalW. To scan the CDS and their upstream regions for potential protein coding blocks the program RNAcode (Washietel et al., unpublished) was applied. Briefly, RNAcode uses phylogenetic signatures such as synonymous vs non- synonymous substitutions and the conservation of multiple sequence alignments to estimate potential coding regions. RNAcode does not rely on the presence of an ORF. Using this program we were able to analyse where potentially coding regions of the leaderless mRNA alignments start. For three (HP0925, HP0806, HP0228) of the leaderless mRNAs the RNAcode prediction begins at the first nucleotide of the start codon (Supplementary Table 19). In ten cases (HP1529, HP0376, HP0929, HP0818_R, HP0498, HP0329, HP1394, HP1216, HP0874, HP0776) the predicted region starts downstream of the annotated start codon, supporting the experimentally verified TSS. An upstream signal was observed for 14 (HP1139, HP1181, HP1423, HP1365, HP0151_R, HP0112_R, HP0820, HP1183, HP0897_R, HP0219_R, HP0921, HP0324, HP1493, HP0346) of the mRNAs and seven (HP0413, HP1007, HP0414 HP1008, HP0427, HP1408, HP0682) leaderless mRNAs could not be

www.nature.com/nature 19 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

analyzed due to their sparse conservation. In total, 48% of the leaderless mRNAs predicted by

TSS mapping are also supported by the above conservation and coding potential analyses.

REFERENCES

1. Skouloubris, S., Thiberge, J.M., Labigne, A. & De Reuse, H. The Helicobacter pylori UreI protein is not involved in urease activity but is essential for bacterial survival in vivo. Infect Immun 66, 4517-21 (1998). 2. Stingl, K. et al. Channel-mediated potassium uptake in Helicobacter pylori is essential for gastric colonization. Embo J 26, 232-41 (2007). 3. Menard, R., Sansonetti, P.J. & Parsot, C. Nonpolar mutagenesis of the ipa genes defines IpaB, IpaC, and IpaD as effectors of Shigella flexneri entry into epithelial cells. J Bacteriol 175, 5899-906 (1993). 4. Bury-Mone, S., Skouloubris, S., Labigne, A. & De Reuse, H. The Helicobacter pylori UreI protein: role in adaptation to acidity and identification of residues essential for its activity and for acid activation. Mol Microbiol 42, 1021-34 (2001). 5. Blomberg, P., Wagner, E.G. & Nordstrom, K. Control of replication of plasmid R1: the duplex between the antisense RNA, CopA, and its target, CopT, is processed specifically in vivo and in vitro by RNase III. Embo J 9, 2331-40 (1990). 6. Urban, J.H. & Vogel, J. Translational control and target recognition by Escherichia coli small RNAs in vivo. Nucleic Acids Res 35, 1018-37 (2007). 7. Argaman, L. et al. Novel small RNA-encoding genes in the intergenic regions of Escherichia coli. Curr Biol 11, 941-950. (2001). 8. Sittka, A., Pfeiffer, V., Tedin, K. & Vogel, J. The RNA chaperone Hfq is essential for the virulence of Salmonella typhimurium. Mol Microbiol 63, 193-217 (2007). 9. Papenfort, K. et al. sigma(E)-dependent small RNAs of Salmonella respond to membrane stress by accelerating global omp mRNA decay. Mol Microbiol 62, 1674-88 (2006). 10. Berezikov, E. et al. Diversity of microRNAs in human and chimpanzee brain. Nat Genet 38, 1375-7 (2006). 11. Hoffmann, S. et al. Fast mapping of short sequences with mismatches, insertions and deletions using index structures. PLoS Comput Biol in press(2009). 12. Sittka, A. et al. Deep sequencing analysis of small noncoding RNA and mRNA targets of the global post-transcriptional regulator, Hfq. PLoS Genet 4, e1000163 (2008). 13. Perocchi, F., Xu, Z., Clauder-Munster, S. & Steinmetz, L.M. Antisense artifacts in transcriptome microarray experiments are resolved by actinomycin D. Nucleic Acids Res 35, e128 (2007). 14. Parkhomchuk, D. et al. Transcriptome analysis by strand-specific sequencing of complementary DNA. Nucleic Acids Res 37, e123 (2009). 15. Ruprecht, R.M., Goodman, N.C. & Spiegelman, S. Conditions for the selective synthesis of DNA complementary to template RNA. Biochim Biophys Acta 294, 192-203 (1973). 16. Bury-Mone, S. et al. Responsiveness to acidity via metal ion regulators mediates virulence in the gastric pathogen Helicobacter pylori. Mol Microbiol 53, 623-38 (2004). 17. Kim, N. et al. Genes of Helicobacter pylori regulated by attachment to AGS cells. Infect Immun 72, 2358-68 (2004). 18. Bailey, T.L. & Gribskov, M. The megaprior heuristic for discovering protein sequence patterns. Proc Int Conf Intell Syst Mol Biol 4, 15-24 (1996). 19. Petersen, L., Larsen, T.S., Ussery, D.W., On, S.L. & Krogh, A. RpoD promoters in Campylobacter jejuni exhibit a strong periodic signal instead of a -35 box. J Mol Biol 326, 1361-72 (2003). 20. Vanet, A., Marsan, L., Labigne, A. & Sagot, M.F. Inferring regulatory elements from a whole genome. An analysis of Helicobacter pylori sigma(80) family of promoter signals. J Mol Biol 297, 335-53 (2000). 21. Forsyth, M.H. & Cover, T.L. Mutational analysis of the vacA promoter provides insight into gene transcription in Helicobacter pylori. J Bacteriol 181, 2261-6 (1999). 22. Yada, T., Totoki, Y., Takagi, T. & Nakai, K. A novel bacterial gene-finding system with improved accuracy in locating start codons. DNA Res 8, 97-106 (2001).

www.nature.com/nature 20 doi: 10.1038/nature08756 SUPPLEMENTARY INFORMATION

23. Kel, A.E. et al. MATCH: A tool for searching transcription factor binding sites in DNA sequences. Nucleic Acids Res 31, 3576-9 (2003). 24. Pape, U.J. Statistics for Transcription Factor Binding Sites. PhD thesis, Free University of Berlin, IMPRS for Computional Biology and Scientific Computing, Max Planck Institute for Molecular Genetics. (2008). 25. Pape, U.J., Klein, H. & Vingron, M. Statistical detection of cooperative transcription factors with similarity adjustment. Bioinformatics 25, 2103-9 (2009). 26. Karlin, S., Blaisdell, B.E., Mocarski, E.S. & Brendel, V. A method to identify distinctive charge configurations in protein sequences, with application to human herpesvirus polypeptides. J Mol Biol 205, 165-77 (1989). 27. Mao, F., Dam, P., Chou, J., Olman, V. & Xu, Y. DOOR: a database for prokaryotic operons. Nucleic Acids Res 37, D459-63 (2009). 28. Backofen, R. et al. RNAs everywhere: genome-wide annotation of structured RNAs. J Exp Zoolog B Mol Dev Evol 308, 1-25 (2007). 29. Will, S., Reiche, K., Hofacker, I.L., Stadler, P.F. & Backofen, R. Inferring noncoding RNA families and classes by means of genome-scale structure-based clustering. PLoS Comput Biol 3, e65 (2007). 30. Ellis, J.C. & Brown, J.W. The RNase P family. RNA Biol 6, 362-9 (2009). 31. Lybecker, M.C. & Samuels, D.S. Temperature-induced regulation of RpoS by a small RNA in Borrelia burgdorferi. Mol Microbiol 64, 1075-89 (2007). 32. Wilderman, P.J. et al. Identification of tandem duplicate regulatory small RNAs in Pseudomonas aeruginosa involved in iron homeostasis. Proc Natl Acad Sci U S A 101, 9792-7 (2004). 33. Massé, E. & Gottesman, S. A small RNA regulates the expression of genes involved in iron metabolism in Escherichia coli. Proc Natl Acad Sci U S A 99, 4620-5 (2002). 34. Davis, B.M., Quinones, M., Pratt, J., Ding, Y. & Waldor, M.K. Characterization of the small untranslated RNA RyhB and its regulon in Vibrio cholerae. J Bacteriol 187, 4005-14 (2005). 35. Papenfort, K. et al. Systematic deletion of Salmonella small RNA genes identifies CyaR, a conserved CRP-dependent riboregulator of OmpX synthesis. Mol Microbiol 68, 890-906 (2008). 36. Sittka, A., Sharma, C.M., Rolle, K. & Vogel, J. Deep sequencing of Salmonella RNA associated with heterologous Hfq proteins in vivo reveals small RNAs as a major target class and identifies RNA processing phenotypes. RNA Biol 6(2009). 37. Nawrocki, E.P., Kolbe, D.L. & Eddy, S.R. Infernal 1.0: inference of RNA alignments. Bioinformatics 25, 1335-7 (2009). 38. Griffiths-Jones, S., Bateman, A., Marshall, M., Khanna, A. & Eddy, S.R. Rfam: an RNA family database. Nucleic Acids Res 31, 439-41 (2003). 39. Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. Basic local alignment search tool. J Mol Biol 215, 403-10 (1990). 40. Fozo, E.M., Hemm, M.R. & Storz, G. Small toxic proteins and the antisense RNAs that repress them. Microbiol Mol Biol Rev 72, 579-89, Table of Contents (2008). 41. Fozo, E.M. et al. Repression of small toxic protein synthesis by the Sib and OhsC small RNAs. Mol Microbiol 70, 1076-93 (2008). 42. Kyte, J. & Doolittle, R.F. A simple method for displaying the hydropathic character of a protein. J Mol Biol 157, 105-32 (1982). 43. Hemm, M.R., Paul, B.J., Schneider, T.D., Storz, G. & Rudd, K.E. Small membrane proteins found by comparative genomics and ribosome binding site models. Mol Microbiol 70, 1487-501 (2008).

www.nature.com/nature 21 Bibliographie

Aiba, H. (2007) Mechanism of RNA silencing by Hfq-binding small RNAs. Curr Opin Microbiol, 10, 134-139. Akada, J.K., Shirai, M., Takeuchi, H., Tsuda, M. and Nakazawa, T. (2000) Identification of the urease operon in Helicobacter pylori and its control by mRNA decay in response to pH. Mol Microbiol, 36, 1071-1084. Akama, T., Tanigawa, K., Kawashima, A., Wu, H., Ishii, N. and Suzuki, K. (2010) Analysis of Mycobacterium leprae gene expression using DNA microarray. Microb Pathog, 49, 181-185. Akimoto, S. and Ohnishi, Y. (1982) R483 and F plasmid genes promoting RNA degradation: comparative restriction mapping. Microbiol Immunol, 26, 779-793. Akopyants, N.S., Clifton, S.W., Kersulyte, D., Crabtree, J.E., Youree, B.E., Reece, C.A., Bukanov, N.O., Drazek, E.S., Roe, B.A. and Berg, D.E. (1998a) Analyses of the cag pathogenicity island of Helicobacter pylori. Mol Microbiol, 28, 37-53. Akopyants, N.S., Fradkov, A., Diatchenko, L., Hill, J.E., Siebert, P.D., Lukyanov, S.A., Sverdlov, E.D. and Berg, D.E. (1998b) PCR-based subtractive hybridization and differences in gene content among strains of Helicobacter pylori. Proc Natl Acad Sci U S A, 95, 13108-13113. Albrecht, M., Sharma, C.M., Reinhardt, R., Vogel, J. and Rudel, T. (2010) Deep sequencing-based discovery of the Chlamydia trachomatis transcriptome. Nucleic Acids Res, 38, 868-877. Alm, R.A., Ling, L.S., Moir, D.T., King, B.L., Brown, E.D., Doig, P.C., Smith, D.R., Noonan, B., Guild, B.C., deJonge, B.L., Carmel, G., Tummino, P.J., Caruso, A., Uria-Nickelsen, M., Mills, D.M., Ives, C., Gibson, R., Merberg, D., Mills, S.D., Jiang, Q., Taylor, D.E., Vovis, G.F. and Trust, T.J. (1999) Genomic-sequence comparison of two unrelated isolates of the human gastric pathogen Helicobacter pylori. Nature, 397, 176-180. Alm, R.A. and Trust, T.J. (1999) Analysis of the genetic diversity of Helicobacter pylori: the tale of two genomes. J Mol Med, 77, 834-846. Altuvia, S., Weinstein-Fischer, D., Zhang, A., Postow, L. and Storz, G. (1997) A small, stable RNA induced by oxidative stress: role as a pleiotropic regulator and antimutator. Cell, 90, 43-53. Altuvia, S., Zhang, A., Argaman, L., Tiwari, A. and Storz, G. (1998) The Escherichia coli OxyS regulatory RNA represses fhlA translation by blocking ribosome binding. Embo J, 17, 6069-6075. Amara, R.R. and Vijaya, S. (1997) Specific polyadenylation and purification of total messenger RNA from Escherichia coli. Nucleic Acids Res, 25, 3465-3470. Amundsen, S.K., Fero, J., Hansen, L.M., Cromie, G.A., Solnick, J.V., Smith, G.R. and Salama, N.R. (2008) Helicobacter pylori AddAB helicase-nuclease and RecA promote recombination-related DNA repair and survival during stomach colonization. Mol Microbiol, 69, 994-1007. Amundsen, S.K., Fero, J., Salama, N.R. and Smith, G.R. (2009) Dual nuclease and helicase activities of Helicobacter pylori AddAB are required for DNA repair, recombination, and mouse infectivity. J Biol Chem, 284, 16759-16766. Andersen, J., Forst, S.A., Zhao, K., Inouye, M. and Delihas, N. (1989) The function of micF RNA. micF RNA is a major factor in the thermal regulation of OmpF protein in Escherichia coli. J Biol Chem, 264, 17961-17970. Ang, S., Lee, C.Z., Peck, K., Sindici, M., Matrubutham, U., Gleeson, M.A. and Wang, J.T. (2001) Acid- induced gene expression in Helicobacter pylori: study in genomic scale by microarray. Infect Immun, 69, 1679-1686. Argaman, L. and Altuvia, S. (2000) fhlA repression by OxyS RNA: kissing complex formation at two sites results in a stable antisense-target RNA complex. J Mol Biol, 300, 1101-1112. Argaman, L., Hershberg, R., Vogel, J., Bejerano, G., Wagner, E.G., Margalit, H. and Altuvia, S. (2001) Novel small RNA-encoding genes in the intergenic regions of Escherichia coli. Curr Biol, 11, 941-950. Arnvig, K.B. and Young, D.B. (2009) Identification of small RNAs in Mycobacterium tuberculosis. Mol Microbiol, 73, 397-408.

157

Ashraf, S.S., Guenther, R.H., Ansari, G., Malkiewicz, A., Sochacka, E. and Agris, P.F. (2000) Role of modified nucleosides of yeast tRNA(Phe) in ribosomal binding. Cell Biochem Biophys, 33, 241- 252. Atherton, J.C. (2006) The pathogenesis of Helicobacter pylori-induced gastro-duodenal diseases. Annu Rev Pathol, 1, 63-96. Atherton, J.C., Peek, R.M., Jr., Tham, K.T., Cover, T.L. and Blaser, M.J. (1997) Clinical and pathological importance of heterogeneity in vacA, the vacuolating cytotoxin gene of Helicobacter pylori. Gastroenterology, 112, 92-99. Babitzke, P. and Romeo, T. (2007) CsrB sRNA family: sequestration of RNA-binding regulatory proteins. Curr Opin Microbiol, 10, 156-163. Baltrus, D.A., Amieva, M.R., Covacci, A., Lowe, T.M., Merrell, D.S., Ottemann, K.M., Stein, M., Salama, N.R. and Guillemin, K. (2009) The complete genome sequence of Helicobacter pylori strain G27. J Bacteriol, 191, 447-448. Barabas, O., Ronning, D.R., Guynet, C., Hickman, A.B., Ton-Hoang, B., Chandler, M. and Dyda, F. (2008) Mechanism of IS200/IS605 family DNA transposases: activation and transposon-directed target site selection. Cell, 132, 208-220. Barnard, F.M., Loughlin, M.F., Fainberg, H.P., Messenger, M.P., Ussery, D.W., Williams, P. and Jenks, P.J. (2004) Global regulation of virulence and the stress response by CsrA in the highly adapted human gastric pathogen Helicobacter pylori. Mol Microbiol, 51, 15-32. Barrick, J.E., Sudarsan, N., Weinberg, Z., Ruzzo, W.L. and Breaker, R.R. (2005) 6S RNA is a widespread regulator of eubacterial RNA polymerase that resembles an open promoter. Rna, 11, 774-784. Bechinger, B. and Lohner, K. (2006) Detergent-like actions of linear amphipathic cationic antimicrobial peptides. Biochim Biophys Acta, 1758, 1529-1539. Bereswill, S., Greiner, S., van Vliet, A.H., Waidner, B., Fassbinder, F., Schiltz, E., Kusters, J.G. and Kist, M. (2000) Regulation of ferritin-mediated cytoplasmic iron storage by the ferric uptake regulator homolog (Fur) of Helicobacter pylori. J Bacteriol, 182, 5948-5953. Bjorkholm, B., Sjolund, M., Falk, P.G., Berg, O.G., Engstrand, L. and Andersson, D.I. (2001) Mutation frequency and biological cost of antibiotic resistance in Helicobacter pylori. Proc Natl Acad Sci U S A, 98, 14607-14612. Blot, N., Mavathur, R., Geertz, M., Travers, A. and Muskhelishvili, G. (2006) Homeostatic regulation of supercoiling sensitivity coordinates transcription of the bacterial genome. EMBO Rep, 7, 710-715. Blum, E., Py, B., Carpousis, A.J. and Higgins, C.F. (1997) Polyphosphate kinase is a component of the Escherichia coli RNA degradosome. Mol Microbiol, 26, 387-398. Boisset, S., Geissmann, T., Huntzinger, E., Fechter, P., Bendridi, N., Possedko, M., Chevalier, C., Helfer, A.C., Benito, Y., Jacquier, A., Gaspin, C., Vandenesch, F. and Romby, P. (2007) Staphylococcus aureus RNAIII coordinately represses the synthesis of virulence factors and the transcription regulator Rot by an antisense mechanism. Genes Dev, 21, 1353-1366. Boneca, I.G., Ecobichon, C., Chaput, C., Mathieu, A., Guadagnini, S., Prevost, M.C., Colland, F., Labigne, A. and de Reuse, H. (2008) Development of inducible systems to engineer conditional mutants of essential genes of Helicobacter pylori. Appl Environ Microbiol, 74, 2095-2102. Bouvier, M., Sharma, C.M., Mika, F., Nierhaus, K.H. and Vogel, J. (2008) Small RNA binding to 5' mRNA coding region inhibits translational initiation. Mol Cell, 32, 827-837. Brahmachary, P., Dashti, M.G., Olson, J.W. and Hoover, T.R. (2004) Helicobacter pylori FlgR is an enhancer-independent activator of sigma54-RNA polymerase holoenzyme. J Bacteriol, 186, 4535-4542. Brantl, S. (2002) Antisense-RNA regulation and RNA interference. Biochim Biophys Acta, 1575, 15-25. Brencic, A. and Lory, S. (2009) Determination of the regulon and identification of novel mRNA targets of Pseudomonas aeruginosa RsmA. Mol Microbiol, 72, 612-632. Brennan, R.G. and Link, T.M. (2007) Hfq structure, function and ligand binding. Curr Opin Microbiol, 10, 125-133. Brown, L.M. (2000) Helicobacter pylori: epidemiology and routes of transmission. Epidemiol Rev, 22, 283- 297.

158

Burrowes, E., Baysse, C., Adams, C. and O'Gara, F. (2006) Influence of the regulatory protein RsmA on cellular functions in Pseudomonas aeruginosa PAO1, as revealed by transcriptome analysis. Microbiology, 152, 405-418. Bury-Mone, S., Skouloubris, S., Labigne, A. and De Reuse, H. (2001) The Helicobacter pylori UreI protein: role in adaptation to acidity and identification of residues essential for its activity and for acid activation. Mol Microbiol, 42, 1021-1034. Bury-Mone, S., Thiberge, J.M., Contreras, M., Maitournam, A., Labigne, A. and De Reuse, H. (2004) Responsiveness to acidity via metal ion regulators mediates virulence in the gastric pathogen Helicobacter pylori. Mol Microbiol, 53, 623-638. Carpenter, B.M., McDaniel, T.K., Whitmire, J.M., Gancz, H., Guidotti, S., Censini, S. and Merrell, D.S. (2007) Expanding the Helicobacter pylori genetic toolbox: modification of an endogenous plasmid for use as a transcriptional reporter and complementation vector. Appl Environ Microbiol, 73, 7506-7514. Casadesus, J. and Low, D. (2006) Epigenetic gene regulation in the bacterial world. Microbiol Mol Biol Rev, 70, 830-856. Censini, S., Lange, C., Xiang, Z., Crabtree, J.E., Ghiara, P., Borodovsky, M., Rappuoli, R. and Covacci, A. (1996) cag, a pathogenicity island of Helicobacter pylori, encodes type I-specific and disease- associated virulence factors. Proc Natl Acad Sci U S A, 93, 14648-14653. Chabelskaya, S., Gaillot, O. and Felden, B. (2010) A Staphylococcus aureus small RNA is required for bacterial virulence and regulates the expression of an immune-evasion molecule. PLoS Pathog, 6, e1000927. Chabelskaya, S., Gaillot, O. and Felden, B. (2010) A Staphylococcus aureus small RNA is required for bacterial virulence and regulates the expression of an immune-evasion molecule. PLoS Pathog, 6, e1000927. Chen, S., Zhang, A., Blyn, L.B. and Storz, G. (2004) MicC, a second small-RNA regulator of Omp protein expression in Escherichia coli. J Bacteriol, 186, 6689-6697. Chevalier, C., Boisset, S., Romilly, C., Masquida, B., Fechter, P., Geissmann, T., Vandenesch, F. and Romby, P. (2010) Staphylococcus aureus RNAIII binds to two distant regions of coa mRNA to arrest translation and promote mRNA degradation. PLoS Pathog, 6, e1000809. Christensen-Dalsgaard, M. and Gerdes, K. (2006) Two higBA loci in the Vibrio cholerae superintegron encode mRNA cleaving enzymes and can stabilize plasmids. Mol Microbiol, 62, 397-411. Christiansen, J.K., Nielsen, J.S., Ebersbach, T., Valentin-Hansen, P., Sogaard-Andersen, L. and Kallipolitis, B.H. (2006) Identification of small Hfq-binding RNAs in Listeria monocytogenes. Rna, 12, 1383- 1396. Chu, Y.T., Wang, Y.H., Wu, J.J. and Lei, H.Y. (2010) Invasion and multiplication of Helicobacter pylori in gastric epithelial cells and implications for antibiotic resistance. Infect Immun, 78, 4157-4165. Contreras, M., Thiberge, J.M., Mandrand-Berthelot, M.A. and Labigne, A. (2003) Characterization of the roles of NikR, a nickel-responsive pleiotropic autoregulator of Helicobacter pylori. Mol Microbiol, 49, 947-963. Cotter, P.A. and Stibitz, S. (2007) c-di-GMP-mediated regulation of virulence and biofilm formation. Curr Opin Microbiol, 10, 17-23. Covacci, A., Censini, S., Bugnoli, M., Petracca, R., Burroni, D., Macchia, G., Massone, A., Papini, E., Xiang, Z., Figura, N. and et al. (1993) Molecular characterization of the 128-kDa immunodominant antigen of Helicobacter pylori associated with cytotoxicity and duodenal ulcer. Proc Natl Acad Sci U S A, 90, 5791-5795. Coyer, J., Andersen, J., Forst, S.A., Inouye, M. and Delihas, N. (1990) micF RNA in ompB mutants of Escherichia coli: different pathways regulate micF RNA levels in response to osmolarity and temperature change. J Bacteriol, 172, 4143-4150. Croxen, M.A., Sisson, G., Melano, R. and Hoffman, P.S. (2006) The Helicobacter pylori chemotaxis receptor TlpB (HP0103) is required for pH taxis and for colonization of the gastric mucosa. J Bacteriol, 188, 2656-2665.

159

Danielli, A., Amore, G. and Scarlato, V. (2010) Built shallow to maintain homeostasis and persistent infection: insight into the transcriptional regulatory network of the gastric human pathogen Helicobacter pylori. PLoS Pathog, 6, e1000938. Darfeuille, F., Unoson, C., Vogel, J. and Wagner, E.G. (2007) An antisense RNA inhibits translation by competing with standby ribosomes. Mol Cell, 26, 381-392. de Reuse, H. and Bereswill, S. (2007) Ten years after the first Helicobacter pylori genome: comparative and functional genomics provide new insights in the variability and adaptability of a persistent pathogen. FEMS Immunol Med Microbiol, 50, 165-176. Deana, A. and Belasco, J.G. (2005) Lost in translation: the influence of ribosomes on bacterial mRNA decay. Genes Dev, 19, 2526-2533. Delany, I., Ieva, R., Soragni, A., Hilleringmann, M., Rappuoli, R. and Scarlato, V. (2005) In vitro analysis of protein-operator interactions of the NikR and fur metal-responsive regulators of coregulated genes in Helicobacter pylori. J Bacteriol, 187, 7703-7715. Delany, I., Spohn, G., Rappuoli, R. and Scarlato, V. (2001) The Fur repressor controls transcription of iron- activated and -repressed genes in Helicobacter pylori. Mol Microbiol, 42, 1297-1309. Delany, I., Spohn, G., Rappuoli, R. and Scarlato, V. (2002) Growth phase-dependent regulation of target gene promoters for binding of the essential orphan response regulator HP1043 of Helicobacter pylori. J Bacteriol, 184, 4800-4810. Delihas, N. and Forst, S. (2001) MicF: an antisense RNA gene involved in response of Escherichia coli to global stress factors. J Mol Biol, 313, 1-12. Dietz, P., Gerlach, G. and Beier, D. (2002) Identification of target genes regulated by the two-component system HP166-HP165 of Helicobacter pylori. J Bacteriol, 184, 350-362. Dix, D.B., Wittenberg, W.L., Uhlenbeck, O.C. and Thompson, R.C. (1986) Effect of replacing uridine 33 in yeast tRNAPhe on the reaction with ribosomes. J Biol Chem, 261, 10112-10118. Doig, P., de Jonge, B.L., Alm, R.A., Brown, E.D., Uria-Nickelsen, M., Noonan, B., Mills, S.D., Tummino, P., Carmel, G., Guild, B.C., Moir, D.T., Vovis, G.F. and Trust, T.J. (1999) Helicobacter pylori physiology predicted from genomic comparison of two strains. Microbiol Mol Biol Rev, 63, 675-707. Donahue, W.F. and Jarrell, K.A. (2002) A BLAST from the past: ancient origin of human Sm proteins. Mol Cell, 9, 7-8. Dorer, M.S., Fero, J. and Salama, N.R. (2010) DNA damage triggers genetic exchange in Helicobacter pylori. PLoS Pathog, 6, e1001026. Dornenburg, J.E., Devita, A.M., Palumbo, M.J. and Wade, J.T. Widespread Antisense Transcription in Escherichia coli. MBio, 1. Dorr, T., Vulic, M. and Lewis, K. (2010) Ciprofloxacin causes persister formation by inducing the TisB toxin in Escherichia coli. PLoS Biol, 8, e1000317. Douillard, F.P., Ryan, K.A., Caly, D.L., Hinds, J., Witney, A.A., Husain, S.E. and O'Toole, P.W. (2008) Posttranscriptional regulation of flagellin synthesis in Helicobacter pylori by the RpoN chaperone HP0958. J Bacteriol, 190, 7975-7984. Eaton, K.A. and Krakowka, S. (1994) Effect of gastric pH on urease-dependent colonization of gnotobiotic piglets by Helicobacter pylori. Infect Immun, 62, 3604-3607. Eaton, K.A., Suerbaum, S., Josenhans, C. and Krakowka, S. (1996) Colonization of gnotobiotic piglets by Helicobacter pylori deficient in two flagellin genes. Infect Immun, 64, 2445-2448. Edwards, D.I. (1993a) Nitroimidazole drugs--action and resistance mechanisms. I. Mechanisms of action. J Antimicrob Chemother, 31, 9-20. Edwards, D.I. (1993b) Nitroimidazole drugs--action and resistance mechanisms. II. Mechanisms of resistance. J Antimicrob Chemother, 31, 201-210. Ehretsmann, C.P., Carpousis, A.J. and Krisch, H.M. (1992) Specificity of Escherichia coli endoribonuclease RNase E: in vivo and in vitro analysis of mutants in a bacteriophage T4 mRNA processing site. Genes Dev, 6, 149-159. Ennifar, E., Paillart, J.C., Marquet, R., Ehresmann, B., Ehresmann, C., Dumas, P. and Walter, P. (2003) HIV- 1 RNA dimerization initiation site is structurally similar to the ribosomal A site and binds aminoglycoside antibiotics. J Biol Chem, 278, 2723-2730.

160

Ernst, F.D., Bereswill, S., Waidner, B., Stoof, J., Mader, U., Kusters, J.G., Kuipers, E.J., Kist, M., van Vliet, A.H. and Homuth, G. (2005) Transcriptional profiling of Helicobacter pylori Fur- and iron- regulated gene expression. Microbiology, 151, 533-546. Evans, D.J., Jr., Queiroz, D.M., Mendes, E.N. and Evans, D.G. (1998) Diversity in the variable region of Helicobacter pylori cagA gene involves more than simple repetition of a 102-nucleotide sequence. Biochem Biophys Res Commun, 245, 780-784. Falush, D., Wirth, T., Linz, B., Pritchard, J.K., Stephens, M., Kidd, M., Blaser, M.J., Graham, D.Y., Vacher, S., Perez-Perez, G.I., Yamaoka, Y., Megraud, F., Otto, K., Reichard, U., Katzowitsch, E., Wang, X., Achtman, M. and Suerbaum, S. (2003) Traces of human migrations in Helicobacter pylori populations. Science, 299, 1582-1585. Faridani, O.R., Nikravesh, A., Pandey, D.P., Gerdes, K. and Good, L. (2006) Competitive inhibition of natural antisense Sok-RNA interactions activates Hok-mediated cell killing in Escherichia coli. Nucleic Acids Res, 34, 5915-5922. Farnbacher, M., Jahns, T., Willrodt, D., Daniel, R., Haas, R., Goesmann, A., Kurtz, S. and Rieder, G. (2010) Sequencing, annotation, and comparative genome analysis of the gerbil-adapted Helicobacter pylori strain B8. BMC Genomics, 11, 335. Faubladier, M. and Bouche, J.P. (1994) Division inhibition gene dicF of Escherichia coli reveals a widespread group of prophage sequences in bacterial genomes. J Bacteriol, 176, 1150-1156. Faucher, S.P., Friedlander, G., Livny, J., Margalit, H. and Shuman, H.A. (2010) Legionella pneumophila 6S RNA optimizes intracellular multiplication. Proc Natl Acad Sci U S A, 107, 7533-7538. Fineran, P.C., Blower, T.R., Foulds, I.J., Humphreys, D.P., Lilley, K.S. and Salmond, G.P. (2009) The phage abortive infection system, ToxIN, functions as a protein-RNA toxin-antitoxin pair. Proc Natl Acad Sci U S A, 106, 894-899. Fischer, W., Puls, J., Buhrdorf, R., Gebert, B., Odenbreit, S. and Haas, R. (2001) Systematic mutagenesis of the Helicobacter pylori cag pathogenicity island: essential genes for CagA translocation in host cells and induction of interleukin-8. Mol Microbiol, 42, 1337-1348. Fischer, W., Windhager, L., Rohrer, S., Zeiller, M., Karnholz, A., Hoffmann, R., Zimmer, R. and Haas, R. (2010) Strain-specific genes of Helicobacter pylori: genome evolution driven by a novel type IV secretion system and genomic island transfer. Nucleic Acids Res, 38, 6089-6101. Forsyth, M.H. and Cover, T.L. (1999) Mutational analysis of the vacA promoter provides insight into gene transcription in Helicobacter pylori. J Bacteriol, 181, 2261-2266. Fortune, D.R., Suyemoto, M. and Altier, C. (2006) Identification of CsrC and characterization of its role in epithelial cell invasion in Salmonella enterica serovar Typhimurium. Infect Immun, 74, 331-339. Foynes, S., Dorrell, N., Ward, S.J., Stabler, R.A., McColm, A.A., Rycroft, A.N. and Wren, B.W. (2000) Helicobacter pylori possesses two CheY response regulators and a histidine kinase sensor, CheA, which are essential for chemotaxis and colonization of the gastric mucosa. Infect Immun, 68, 2016-2023. Fozo, E.M., Hemm, M.R. and Storz, G. (2008a) Small toxic proteins and the antisense RNAs that repress them. Microbiol Mol Biol Rev, 72, 579-589, Table of Contents. Fozo, E.M., Kawano, M., Fontaine, F., Kaya, Y., Mendieta, K.S., Jones, K.L., Ocampo, A., Rudd, K.E. and Storz, G. (2008b) Repression of small toxic protein synthesis by the Sib and OhsC small RNAs. Mol Microbiol, 70, 1076-1093. Fozo, E.M., Makarova, K.S., Shabalina, S.A., Yutin, N., Koonin, E.V. and Storz, G. (2010) Abundance of type I toxin-antitoxin systems in bacteria: searches for new candidates and discovery of novel families. Nucleic Acids Res, 38, 3743-3759. Franch, T., Petersen, M., Wagner, E.G., Jacobsen, J.P. and Gerdes, K. (1999) Antisense RNA regulation in prokaryotes: rapid RNA/RNA interaction facilitated by a general U-turn loop structure. J Mol Biol, 294, 1115-1125. Frias-Lopez, J., Shi, Y., Tyson, G.W., Coleman, M.L., Schuster, S.C., Chisholm, S.W. and Delong, E.F. (2008) Microbial community gene expression in ocean surface waters. Proc Natl Acad Sci U S A, 105, 3805-3810.

161

Georg, J., Voss, B., Scholz, I., Mitschke, J., Wilde, A. and Hess, W.R. (2009) Evidence for a major role of antisense RNAs in cyanobacterial gene regulation. Mol Syst Biol, 5, 305. Gerdes, K., Bech, F.W., Jorgensen, S.T., Lobner-Olesen, A., Rasmussen, P.B., Atlung, T., Boe, L., Karlstrom, O., Molin, S. and von Meyenburg, K. (1986a) Mechanism of postsegregational killing by the hok gene product of the parB system of plasmid R1 and its homology with the relF gene product of the E. coli relB operon. Embo J, 5, 2023-2029. Gerdes, K., Larsen, J.E. and Molin, S. (1985) Stable inheritance of plasmid R1 requires two different loci. J Bacteriol, 161, 292-298. Gerdes, K., Nielsen, A., Thorsted, P. and Wagner, E.G. (1992) Mechanism of killer gene activation. Antisense RNA-dependent RNase III cleavage ensures rapid turn-over of the stable hok, srnB and pndA effector messenger RNAs. J Mol Biol, 226, 637-649. Gerdes, K., Rasmussen, P.B. and Molin, S. (1986b) Unique type of plasmid maintenance function: postsegregational killing of plasmid-free cells. Proc Natl Acad Sci U S A, 83, 3116-3120. Gerdes, K., Thisted, T. and Martinussen, J. (1990) Mechanism of post-segregational killing by the hok/sok system of plasmid R1: sok antisense RNA regulates formation of a hok mRNA species correlated with killing of plasmid-free cells. Mol Microbiol, 4, 1807-1818. Giangrossi, M., Prosseda, G., Tran, C.N., Brandi, A., Colonna, B. and Falconi, M. (2010) A novel antisense RNA regulates at transcriptional level the virulence gene icsA of Shigella flexneri. Nucleic Acids Res, 38, 3362-3375. Gobl, C., Kosol, S., Stockner, T., Ruckert, H.M. and Zangger, K. (2010) Solution structure and membrane binding of the toxin fst of the par addiction module. Biochemistry, 49, 6567-6575. Gottesman, S. (2004) The small RNA regulators of Escherichia coli: roles and mechanisms*. Annu Rev Microbiol, 58, 303-328. Gottesman, S. (2005) Micros for microbes: non-coding regulatory RNAs in bacteria. Trends Genet, 21, 399-404. Greenfield, T.J., Ehli, E., Kirshenmann, T., Franch, T., Gerdes, K. and Weaver, K.E. (2000) The antisense RNA of the par locus of pAD1 regulates the expression of a 33-amino-acid toxic peptide by an unusual mechanism. Mol Microbiol, 37, 652-660. Gressmann, H., Linz, B., Ghai, R., Pleissner, K.P., Schlapbach, R., Yamaoka, Y., Kraft, C., Suerbaum, S., Meyer, T.F. and Achtman, M. (2005) Gain and loss of multiple genes during the evolution of Helicobacter pylori. PLoS Genet, 1, e43. Guillier, M. and Gottesman, S. (2006) Remodelling of the Escherichia coli outer membrane by two small regulatory RNAs. Mol Microbiol, 59, 231-247. Gunn, J.S., Alpuche-Aranda, C.M., Loomis, W.P., Belden, W.J. and Miller, S.I. (1995) Characterization of the Salmonella typhimurium pagC/pagD chromosomal region. J Bacteriol, 177, 5040-5047. Guruge, J.L., Falk, P.G., Lorenz, R.G., Dans, M., Wirth, H.P., Blaser, M.J., Berg, D.E. and Gordon, J.I. (1998) Epithelial attachment alters the outcome of Helicobacter pylori infection. Proc Natl Acad Sci U S A, 95, 3925-3930. Ha, N.C., Oh, S.T., Sung, J.Y., Cha, K.A., Lee, M.H. and Oh, B.H. (2001) Supramolecular assembly and acid resistance of Helicobacter pylori urease. Nat Struct Biol, 8, 505-509. Hammer, B.K. and Bassler, B.L. (2007) Regulatory small RNAs circumvent the conventional quorum sensing pathway in pandemic Vibrio cholerae. Proc Natl Acad Sci U S A, 104, 11145-11149. Harris, P.R., Cover, T.L., Crowe, D.R., Orenstein, J.M., Graham, M.F., Blaser, M.J. and Smith, P.D. (1996) Helicobacter pylori cytotoxin induces vacuolation of primary human mucosal epithelial cells. Infect Immun, 64, 4867-4871. Hayes, F. (2003) Toxins-antitoxins: plasmid maintenance, programmed cell death, and cell cycle arrest. Science, 301, 1496-1499. Hazell, S.L., Andrews, R.H., Mitchell, H.M. and Daskalopoulous, G. (1997) Genetic relationship among isolates of Helicobacter pylori: evidence for the existence of a Helicobacter pylori species- complex. FEMS Microbiol Lett, 150, 27-32.

162

He, S., Wurtzel, O., Singh, K., Froula, J.L., Yilmaz, S., Tringe, S.G., Wang, Z., Chen, F., Lindquist, E.A., Sorek, R. and Hugenholtz, P. (2010) Validation of two ribosomal RNA removal methods for microbial metatranscriptomics. Nat Methods, 7, 807-812. He, W. and Parker, R. (2000) Functions of Lsm proteins in mRNA degradation and splicing. Curr Opin Cell Biol, 12, 346-350. Henriques, S.T., Melo, M.N. and Castanho, M.A. (2006) Cell-penetrating peptides and antimicrobial peptides: how different are they? Biochem J, 399, 1-7. Hofreuter, D. and Haas, R. (2002) Characterization of two cryptic Helicobacter pylori plasmids: a putative source for horizontal gene transfer and gene shuffling. J Bacteriol, 184, 2755-2766. Hofreuter, D., Odenbreit, S. and Haas, R. (2001) Natural transformation competence in Helicobacter pylori is mediated by the basic components of a type IV secretion system. Mol Microbiol, 41, 379-391. Holmqvist, E., Reimegard, J., Sterk, M., Grantcharova, N., Romling, U. and Wagner, E.G. (2010) Two antisense RNAs target the transcriptional regulator CsgD to inhibit curli synthesis. Embo J, 29, 1840-1850. Homuth, G., Domm, S., Kleiner, D. and Schumann, W. (2000) Transcriptional analysis of major heat shock genes of Helicobacter pylori. J Bacteriol, 182, 4257-4263. Hou, P., Tu, Z.X., Xu, G.M., Gong, Y.F., Ji, X.H. and Li, Z.S. (2000) Helicobacter pylori vacA genotypes and cagA status and their relationship to associated diseases. World J Gastroenterol, 6, 605-607. Huntzinger, E., Boisset, S., Saveanu, C., Benito, Y., Geissmann, T., Namane, A., Lina, G., Etienne, J., Ehresmann, B., Ehresmann, C., Jacquier, A., Vandenesch, F. and Romby, P. (2005) Staphylococcus aureus RNAIII and the endoribonuclease III coordinately regulate spa gene expression. Embo J, 24, 824-835. Iost, I. and Dreyfus, M. (1995) The stability of Escherichia coli lacZ mRNA depends upon the simultaneity of its synthesis and translation. Embo J, 14, 3252-3261. Israel, D.A., Salama, N., Krishna, U., Rieger, U.M., Atherton, J.C., Falkow, S. and Peek, R.M., Jr. (2001) Helicobacter pylori genetic diversity within the gastric niche of a single human host. Proc Natl Acad Sci U S A, 98, 14625-14630. Iwamoto, H., Czajkowsky, D.M., Cover, T.L., Szabo, G. and Shao, Z. (1999) VacA from Helicobacter pylori: a hexameric chloride channel. FEBS Lett, 450, 101-104. Jacob, F. and Monod, J. (1961) Genetic regulatory mechanisms in the synthesis of proteins. J Mol Biol, 3, 318-356. Jagannathan, A., Constantinidou, C. and Penn, C.W. (2001) Roles of rpoN, fliA, and flgR in expression of flagella in Campylobacter jejuni. J Bacteriol, 183, 2937-2942. Jishage, M., Iwata, A., Ueda, S. and Ishihama, A. (1996) Regulation of RNA polymerase sigma subunit synthesis in Escherichia coli: intracellular levels of four species of sigma subunit under various growth conditions. J Bacteriol, 178, 5447-5451. Johansen, J., Rasmussen, A.A., Overgaard, M. and Valentin-Hansen, P. (2006) Conserved small non- coding RNAs that belong to the sigmaE regulon: role in down-regulation of outer membrane proteins. J Mol Biol, 364, 1-8. Josenhans, C., Eaton, K.A., Thevenot, T. and Suerbaum, S. (2000) Switching of flagellar motility in Helicobacter pylori by reversible length variation of a short homopolymeric sequence repeat in fliP, a gene encoding a basal body protein. Infect Immun, 68, 4598-4603. Kaihovaara, P., Hook-Nikanne, J., Uusi-Oukari, M., Kosunen, T.U. and Salaspuro, M. (1998) Flavodoxin- dependent pyruvate oxidation, acetate production and metronidazole reduction by Helicobacter pylori. J Antimicrob Chemother, 41, 171-177. Kawamoto, H., Koide, Y., Morita, T. and Aiba, H. (2006) Base-pairing requirement for RNA silencing by a bacterial small RNA and acceleration of duplex formation by Hfq. Mol Microbiol, 61, 1013-1022. Kawano, M., Aravind, L. and Storz, G. (2007) An antisense RNA controls synthesis of an SOS-induced toxin evolved from an antitoxin. Mol Microbiol, 64, 738-754.

163

Kawano, M., Oshima, T., Kasai, H. and Mori, H. (2002) Molecular characterization of long direct repeat (LDR) sequences expressing a stable mRNA encoding for a 35-amino-acid cell-killing peptide and a cis-encoded small antisense RNA in Escherichia coli. Mol Microbiol, 45, 333-349. Kawano, M., Reynolds, A.A., Miranda-Rios, J. and Storz, G. (2005) Detection of 5'- and 3'-UTR-derived small RNAs and cis-encoded antisense RNAs in Escherichia coli. Nucleic Acids Res, 33, 1040-1050. Kent, W.J., Sugnet, C.W., Furey, T.S., Roskin, K.M., Pringle, T.H., Zahler, A.M. and Haussler, D. (2002) The human genome browser at UCSC. Genome Res, 12, 996-1006. Kersulyte, D., Lee, W., Subramaniam, D., Anant, S., Herrera, P., Cabrera, L., Balqui, J., Barabas, O., Kalia, A., Gilman, R.H. and Berg, D.E. (2009) Helicobacter Pylori's plasticity zones are novel transposable elements. PLoS One, 4, e6859. Kersulyte, D., Velapatino, B., Mukhopadhyay, A.K., Cahuayme, L., Bussalleu, A., Combe, J., Gilman, R.H. and Berg, D.E. (2003) Cluster of type IV secretion genes in Helicobacter pylori's plasticity zone. J Bacteriol, 185, 3764-3772. Kitakawa, M., Dabbs, E.R. and Isono, K. (1979) Genes coding for ribosomal proteins S15, L21, and L27 map near argG in Escherichia coli. J Bacteriol, 138, 832-838. Kobayashi, I. (2001) Behavior of restriction-modification systems as selfish mobile elements and their impact on genome evolution. Nucleic Acids Res, 29, 3742-3756. Kobayashi, R., Suzuki, T. and Yoshida, M. (2007) Escherichia coli phage-shock protein A (PspA) binds to membrane phospholipids and repairs proton leakage of the damaged membranes. Mol Microbiol, 66, 100-109. Kolb, F.A., Engdahl, H.M., Slagter-Jager, J.G., Ehresmann, B., Ehresmann, C., Westhof, E., Wagner, E.G. and Romby, P. (2000) Progression of a loop-loop complex to a four-way junction is crucial for the activity of a regulatory antisense RNA. Embo J, 19, 5905-5915. Kowarz, L., Coynault, C., Robbe-Saule, V. and Norel, F. (1994) The Salmonella typhimurium katF (rpoS) gene: cloning, nucleotide sequence, and regulation of spvR and spvABCD virulence plasmid genes. J Bacteriol, 176, 6852-6860. Kraft, C. and Suerbaum, S. (2005) Mutation and recombination in Helicobacter pylori: mechanisms and role in generating strain diversity. Int J Med Microbiol, 295, 299-305. Kuipers, E.J., Thijs, J.C. and Festen, H.P. (1995) The prevalence of Helicobacter pylori in peptic ulcer disease. Aliment Pharmacol Ther, 9 Suppl 2, 59-69. Kwok, T., Zabler, D., Urman, S., Rohde, M., Hartig, R., Wessler, S., Misselwitz, R., Berger, J., Sewald, N., Konig, W. and Backert, S. (2007) Helicobacter exploits integrin for type IV secretion and kinase activation. Nature, 449, 862-866. Landt, S.G., Abeliuk, E., McGrath, P.T., Lesley, J.A., McAdams, H.H. and Shapiro, L. (2008) Small non- coding RNAs in Caulobacter crescentus. Mol Microbiol, 68, 600-614. Lee, E.J. and Groisman, E.A. (2010) An antisense RNA that governs the expression kinetics of a multifunctional virulence gene. Mol Microbiol, 76, 1020-1033. Lenz, D.H., Mok, K.C., Lilley, B.N., Kulkarni, R.V., Wingreen, N.S. and Bassler, B.L. (2004) The small RNA chaperone Hfq and multiple small RNAs control quorum sensing in Vibrio harveyi and Vibrio cholerae. Cell, 118, 69-82. Lewis, K. (2007) Persister cells, dormancy and infectious disease. Nat Rev Microbiol, 5, 48-56. Linz, B., Balloux, F., Moodley, Y., Manica, A., Liu, H., Roumagnac, P., Falush, D., Stamer, C., Prugnolle, F., van der Merwe, S.W., Yamaoka, Y., Graham, D.Y., Perez-Trallero, E., Wadstrom, T., Suerbaum, S. and Achtman, M. (2007) An African origin for the intimate association between humans and Helicobacter pylori. Nature, 445, 915-918. Liu, J.M., Livny, J., Lawrence, M.S., Kimball, M.D., Waldor, M.K. and Camilli, A. (2009) Experimental discovery of sRNAs in Vibrio cholerae by direct cloning, 5S/tRNA depletion and parallel sequencing. Nucleic Acids Res, 37, e46. Liu, M.Y., Gui, G., Wei, B., Preston, J.F., 3rd, Oakford, L., Yuksel, U., Giedroc, D.P. and Romeo, T. (1997) The RNA molecule CsrB binds to the global regulatory protein CsrA and antagonizes its activity in Escherichia coli. J Biol Chem, 272, 17502-17510.

164

Liu, M.Y., Yang, H. and Romeo, T. (1995) The product of the pleiotropic Escherichia coli gene csrA modulates glycogen biosynthesis via effects on mRNA stability. J Bacteriol, 177, 2663-2672. Livny, J. and Waldor, M.K. (2007) Identification of small RNAs in diverse bacterial species. Curr Opin Microbiol, 10, 96-101. Madan Babu, M., Teichmann, S.A. and Aravind, L. (2006) Evolutionary dynamics of prokaryotic transcriptional regulatory networks. J Mol Biol, 358, 614-633. Magnuson, R.D. (2007) Hypothetical functions of toxin-antitoxin systems. J Bacteriol, 189, 6089-6092. Majdalani, N., Cunning, C., Sledjeski, D., Elliott, T. and Gottesman, S. (1998) DsrA RNA regulates translation of RpoS message by an anti-antisense mechanism, independent of its action as an antisilencer of transcription. Proc Natl Acad Sci U S A, 95, 12462-12467. Majdalani, N., Hernandez, D. and Gottesman, S. (2002) Regulation and mode of action of the second small RNA activator of RpoS translation, RprA. Mol Microbiol, 46, 813-826. Mandin, P. and Gottesman, S. (2010) Integrating anaerobic/aerobic sensing and the general stress response through the ArcZ small RNA. Embo J, 29, 3094-3107. Marchais, A., Naville, M., Bohn, C., Bouloc, P. and Gautheret, D. (2009) Single-pass classification of all noncoding sequences in a bacterial genome using phylogenetic profiles. Genome Res, 19, 1084- 1092. Margulies, M., Egholm, M., Altman, W.E., Attiya, S., Bader, J.S., Bemben, L.A., Berka, J., Braverman, M.S., Chen, Y.J., Chen, Z., Dewell, S.B., Du, L., Fierro, J.M., Gomes, X.V., Godwin, B.C., He, W., Helgesen, S., Ho, C.H., Irzyk, G.P., Jando, S.C., Alenquer, M.L., Jarvie, T.P., Jirage, K.B., Kim, J.B., Knight, J.R., Lanza, J.R., Leamon, J.H., Lefkowitz, S.M., Lei, M., Li, J., Lohman, K.L., Lu, H., Makhijani, V.B., McDade, K.E., McKenna, M.P., Myers, E.W., Nickerson, E., Nobile, J.R., Plant, R., Puc, B.P., Ronan, M.T., Roth, G.T., Sarkis, G.J., Simons, J.F., Simpson, J.W., Srinivasan, M., Tartaro, K.R., Tomasz, A., Vogt, K.A., Volkmer, G.A., Wang, S.H., Wang, Y., Weiner, M.P., Yu, P., Begley, R.F. and Rothberg, J.M. (2005) Genome sequencing in microfabricated high-density picolitre reactors. Nature, 437, 376-380. Marintchev, A. and Wagner, G. (2004) Translation initiation: structures, mechanisms and evolution. Q Rev Biophys, 37, 197-284. Marshall, B.J. and Warren, J.R. (1984) Unidentified curved bacilli in the stomach of patients with gastritis and peptic ulceration. Lancet, 1, 1311-1315. Marsin, S., Lopes, A., Mathieu, A., Dizet, E., Orillard, E., Guerois, R. and Radicella, J.P. (2010) Genetic dissection of Helicobacter pylori AddAB role in homologous recombination. FEMS Microbiol Lett. Marsin, S., Mathieu, A., Kortulewski, T., Guerois, R. and Radicella, J.P. (2008) Unveiling novel RecO distant orthologues involved in homologous recombination. PLoS Genet, 4, e1000146. Masse, E., Escorcia, F.E. and Gottesman, S. (2003) Coupled degradation of a small regulatory RNA and its mRNA targets in Escherichia coli. Genes Dev, 17, 2374-2383. Masse, E. and Gottesman, S. (2002) A small RNA regulates the expression of genes involved in iron metabolism in Escherichia coli. Proc Natl Acad Sci U S A, 99, 4620-4625. Masse, E., Vanderpool, C.K. and Gottesman, S. (2005) Effect of RyhB small RNA on global iron use in Escherichia coli. J Bacteriol, 187, 6962-6971. McGee, D.J., Langford, M.L., Watson, E.L., Carter, J.E., Chen, Y.T. and Ottemann, K.M. (2005) Colonization and inflammation deficiencies in Mongolian gerbils infected by Helicobacter pylori chemotaxis mutants. Infect Immun, 73, 1820-1827. Megraud, F. (2005) A humble bacterium sweeps this year's Nobel Prize. Cell, 123, 975-976. Menard, R., Sansonetti, P.J. and Parsot, C. (1993) Nonpolar mutagenesis of the ipa genes defines IpaB, IpaC, and IpaD as effectors of Shigella flexneri entry into epithelial cells. J Bacteriol, 175, 5899- 5906. Merrell, D.S., Goodrich, M.L., Otto, G., Tompkins, L.S. and Falkow, S. (2003) pH-regulated gene expression of the gastric pathogen Helicobacter pylori. Infect Immun, 71, 3529-3539. Mikulecky, P.J., Kaw, M.K., Brescia, C.C., Takach, J.C., Sledjeski, D.D. and Feig, A.L. (2004) Escherichia coli Hfq has distinct interaction surfaces for DsrA, rpoS and poly(A) RNAs. Nat Struct Mol Biol, 11, 1206-1214.

165

Mizuno, T., Chou, M.Y. and Inouye, M. (1984) A unique mechanism regulating gene expression: translational inhibition by a complementary RNA transcript (micRNA). Proc Natl Acad Sci U S A, 81, 1966-1970. Mobley, H., Mendz G.L and.S.L., H. (2001) Helicobacter pylori: Physiology and genetics. ASM Press, Washington, D.C, Book. Moll, I., Afonyushkin, T., Vytvytska, O., Kaberdin, V.R. and Blasi, U. (2003a) Coincident Hfq binding and RNase E cleavage sites on mRNA and small regulatory RNAs. Rna, 9, 1308-1314. Moll, I., Leitsch, D., Steinhauser, T. and Blasi, U. (2003b) RNA chaperone activity of the Sm-like Hfq protein. EMBO Rep, 4, 284-289. Moller, T., Franch, T., Udesen, C., Gerdes, K. and Valentin-Hansen, P. (2002) Spot 42 RNA mediates discoordinate expression of the E. coli galactose operon. Genes Dev, 16, 1696-1706. Moon, K. and Gottesman, S. (2009) A PhoQ/P-regulated small RNA regulates sensitivity of Escherichia coli to antimicrobial peptides. Mol Microbiol, 74, 1314-1330. Moore, R.A., Beckthold, B., Wong, S., Kureishi, A. and Bryan, L.E. (1995) Nucleotide sequence of the gyrA gene and characterization of ciprofloxacin-resistant mutants of Helicobacter pylori. Antimicrob Agents Chemother, 39, 107-111. Morfeldt, E., Taylor, D., von Gabain, A. and Arvidson, S. (1995) Activation of alpha-toxin translation in Staphylococcus aureus by the trans-encoded antisense RNA, RNAIII. Embo J, 14, 4569-4577. Morita, T., Maki, K. and Aiba, H. (2005) RNase E-based ribonucleoprotein complexes: mechanical basis of mRNA destabilization mediated by bacterial noncoding RNAs. Genes Dev, 19, 2176-2186. Morita, T., Mochizuki, Y. and Aiba, H. (2006) Translational repression is sufficient for gene silencing by bacterial small noncoding RNAs in the absence of mRNA destruction. Proc Natl Acad Sci U S A, 103, 4858-4863. Mulcahy, H., O'Callaghan, J., O'Grady, E.P., Macia, M.D., Borrell, N., Gomez, C., Casey, P.G., Hill, C., Adams, C., Gahan, C.G., Oliver, A. and O'Gara, F. (2008) Pseudomonas aeruginosa RsmA plays an important role during murine infection by influencing colonization, virulence, persistence, and pulmonary inflammation. Infect Immun, 76, 632-638. Muller, S., Pflock, M., Schar, J., Kennard, S. and Beier, D. (2007) Regulation of expression of atypical orphan response regulators of Helicobacter pylori. Microbiol Res, 162, 1-14. Murakami, K.S., Masuda, S., Campbell, E.A., Muzzin, O. and Darst, S.A. (2002) Structural basis of transcription initiation: an RNA polymerase holoenzyme-DNA complex. Science, 296, 1285-1290. Nagalakshmi, U., Wang, Z., Waern, K., Shou, C., Raha, D., Gerstein, M. and Snyder, M. (2008) The transcriptional landscape of the yeast genome defined by RNA sequencing. Science, 320, 1344- 1349. Narberhaus, F. (1999) Negative regulation of bacterial heat shock genes. Mol Microbiol, 31, 1-8. Neil, H., Malabat, C., d'Aubenton-Carafa, Y., Xu, Z., Steinmetz, L.M. and Jacquier, A. (2009) Widespread bidirectional promoters are the major source of cryptic transcripts in yeast. Nature, 457, 1038- 1042. Niehus, E., Gressmann, H., Ye, F., Schlapbach, R., Dehio, M., Dehio, C., Stack, A., Meyer, T.F., Suerbaum, S. and Josenhans, C. (2004) Genome-wide analysis of transcriptional hierarchy and feedback regulation in the flagellar system of Helicobacter pylori. Mol Microbiol, 52, 947-961. Nielsen, A.K., Thorsted, P., Thisted, T., Wagner, E.G. and Gerdes, K. (1991) The rifampicin-inducible genes srnB from F and pnd from R483 are regulated by antisense RNAs and mediate plasmid maintenance by killing of plasmid-free segregants. Mol Microbiol, 5, 1961-1973. Nielsen, A.T., Dolganov, N.A., Otto, G., Miller, M.C., Wu, C.Y. and Schoolnik, G.K. (2006) RpoS controls the Vibrio cholerae mucosal escape response. PLoS Pathog, 2, e109. Nielsen, J.S., Lei, L.K., Ebersbach, T., Olsen, A.S., Klitgaard, J.K., Valentin-Hansen, P. and Kallipolitis, B.H. (2010) Defining a role for Hfq in Gram-positive bacteria: evidence for Hfq-dependent antisense regulation in Listeria monocytogenes. Nucleic Acids Res, 38, 907-919. Novick, R.P., Ross, H.F., Projan, S.J., Kornblum, J., Kreiswirth, B. and Moghazeh, S. (1993) Synthesis of staphylococcal virulence factors is controlled by a regulatory RNA molecule. Embo J, 12, 3967- 3975.

166

Odenbreit, S., Puls, J., Sedlmaier, B., Gerland, E., Fischer, W. and Haas, R. (2000) Translocation of Helicobacter pylori CagA into gastric epithelial cells by type IV secretion. Science, 287, 1497- 1500. Oh, J.D., Kling-Backhed, H., Giannakis, M., Xu, J., Fulton, R.S., Fulton, L.A., Cordum, H.S., Wang, C., Elliott, G., Edwards, J., Mardis, E.R., Engstrand, L.G. and Gordon, J.I. (2006) The complete genome sequence of a chronic atrophic gastritis Helicobacter pylori strain: evolution during disease progression. Proc Natl Acad Sci U S A, 103, 9999-10004. Ohnishi, Y., Iguma, H., Ono, T., Nagaishi, H. and Clark, A.J. (1977) Genetic mapping of the F plasmid gene that promotes degradation of stable ribonucleic acid in Escherichia coli. J Bacteriol, 132, 784-789. Oliver, H.F., Orsi, R.H., Ponnala, L., Keich, U., Wang, W., Sun, Q., Cartinhour, S.W., Filiatrault, M.J., Wiedmann, M. and Boor, K.J. (2009) Deep RNA sequencing of L. monocytogenes reveals overlapping and extensive stationary phase and sigma B-dependent transcriptomes, including multiple highly transcribed noncoding RNAs. BMC Genomics, 10, 641. Ono, T., Akimoto, S., Ono, K. and Ohnishi, Y. (1986) Plasmid genes increase membrane permeability in Escherichia coli. Biochim Biophys Acta, 867, 81-88. Opdyke, J.A., Kang, J.G. and Storz, G. (2004) GadY, a small-RNA regulator of acid response genes in Escherichia coli. J Bacteriol, 186, 6698-6705. Padalon-Brauch, G., Hershberg, R., Elgrably-Weiss, M., Baruch, K., Rosenshine, I., Margalit, H. and Altuvia, S. (2008) Small RNAs encoded within genetic islands of Salmonella typhimurium show host- induced expression and role in virulence. Nucleic Acids Res, 36, 1913-1927. Pandey, D.P. and Gerdes, K. (2005) Toxin-antitoxin loci are highly abundant in free-living but lost from host-associated prokaryotes. Nucleic Acids Res, 33, 966-976. Papagianni, M. (2003) Ribosomally synthesized peptides with antimicrobial properties: biosynthesis, structure, function, and applications. Biotechnol Adv, 21, 465-499. Papenfort, K., Pfeiffer, V., Mika, F., Lucchini, S., Hinton, J.C. and Vogel, J. (2006) SigmaE-dependent small RNAs of Salmonella respond to membrane stress by accelerating global omp mRNA decay. Mol Microbiol, 62, 1674-1688. Papenfort, K., Said, N., Welsink, T., Lucchini, S., Hinton, J.C. and Vogel, J. (2009) Specific and pleiotropic patterns of mRNA regulation by ArcZ, a conserved, Hfq-dependent small RNA. Mol Microbiol, 74, 139-158. Papenfort, K. and Vogel, J. (2009) Multiple target regulation by small noncoding RNAs rewires gene expression at the post-transcriptional level. Res Microbiol, 160, 278-287. Papenfort, K. and Vogel, J. (2010) Regulatory RNA in bacterial pathogens. Cell Host Microbe, 8, 116-127. Passalacqua, K.D., Varadarajan, A., Ondov, B.D., Okou, D.T., Zwick, M.E. and Bergman, N.H. (2009) Structure and complexity of a bacterial transcriptome. J Bacteriol, 191, 3203-3211. Pedersen, K. and Gerdes, K. (1999) Multiple hok genes on the chromosome of Escherichia coli. Mol Microbiol, 32, 1090-1102. Peek, R.M., Jr., Thompson, S.A., Donahue, J.P., Tham, K.T., Atherton, J.C., Blaser, M.J. and Miller, G.G. (1998) Adherence to gastric epithelial cells induces expression of a Helicobacter pylori gene, iceA, that is associated with clinical outcome. Proc Assoc Am Physicians, 110, 531-544. Pereira, L.E., Brahmachary, P. and Hoover, T.R. (2006) Characterization of Helicobacter pylori sigma54 promoter-binding activity. FEMS Microbiol Lett, 259, 20-26. Perkins, T.T., Kingsley, R.A., Fookes, M.C., Gardner, P.P., James, K.D., Yu, L., Assefa, S.A., He, M., Croucher, N.J., Pickard, D.J., Maskell, D.J., Parkhill, J., Choudhary, J., Thomson, N.R. and Dougan, G. (2009) A strand-specific RNA-Seq analysis of the transcriptome of the typhoid bacillus Salmonella typhi. PLoS Genet, 5, e1000569. Persson, C., Wagner, E.G. and Nordstrom, K. (1990a) Control of replication of plasmid R1: formation of an initial transient complex is rate-limiting for antisense RNA--target RNA pairing. Embo J, 9, 3777- 3785. Persson, C., Wagner, E.G. and Nordstrom, K. (1990b) Control of replication of plasmid R1: structures and sequences of the antisense RNA, CopA, required for its binding to the target RNA, CopT. Embo J, 9, 3767-3775.

167

Pessi, G., Williams, F., Hindle, Z., Heurlier, K., Holden, M.T., Camara, M., Haas, D. and Williams, P. (2001) The global posttranscriptional regulator RsmA modulates production of virulence determinants and N-acylhomoserine lactones in Pseudomonas aeruginosa. J Bacteriol, 183, 6676-6683. Peters, J.M., Mooney, R.A., Kuan, P.F., Rowland, J.L., Keles, S. and Landick, R. (2009) Rho directs widespread termination of intragenic and stable RNA transcription. Proc Natl Acad Sci U S A, 106, 15406-15411. Pfeiffer, V., Papenfort, K., Lucchini, S., Hinton, J.C. and Vogel, J. (2009) Coding sequence targeting by MicC RNA reveals bacterial mRNA silencing downstream of translational initiation. Nat Struct Mol Biol, 16, 840-846. Pflock, M., Kennard, S., Delany, I., Scarlato, V. and Beier, D. (2005) Acid-induced activation of the urease promoters is mediated directly by the ArsRS two-component system of Helicobacter pylori. Infect Immun, 73, 6437-6445. Pflock, M., Kennard, S., Finsterer, N. and Beier, D. (2006) Acid-responsive gene regulation in the human pathogen Helicobacter pylori. J Biotechnol, 126, 52-60. Pinto, A.V., Mathieu, A., Marsin, S., Veaute, X., Ielpi, L., Labigne, A. and Radicella, J.P. (2005) Suppression of homologous and homeologous recombination by the bacterial MutS2 protein. Mol Cell, 17, 113-120. Portal-Celhay, C. and Perez-Perez, G.I. (2006) Immune responses to Helicobacter pylori colonization: mechanisms and clinical outcomes. Clin Sci (Lond), 110, 305-314. Pulvermacher, S.C., Stauffer, L.T. and Stauffer, G.V. (2009) Role of the Escherichia coli Hfq protein in GcvB regulation of oppA and dppA mRNAs. Microbiology, 155, 115-123. Rajkowitsch, L. and Schroeder, R. (2007) Coupling RNA annealing and strand displacement: a FRET-based microplate reader assay for RNA chaperone activity. Biotechniques, 43, 304, 306, 308 passim. Rasis, M. and Segal, G. (2009) The LetA-RsmYZ-CsrA regulatory cascade, together with RpoS and PmrA, post-transcriptionally regulates stationary phase activation of Legionella pneumophila Icm/Dot effectors. Mol Microbiol, 72, 995-1010. Rasmussen, A.A., Eriksen, M., Gilany, K., Udesen, C., Franch, T., Petersen, C. and Valentin-Hansen, P. (2005) Regulation of ompA mRNA stability: the role of a small regulatory RNA in growth phase- dependent control. Mol Microbiol, 58, 1421-1429. Repoila, F. and Darfeuille, F. (2009) Small regulatory non-coding RNAs in bacteria: physiology and mechanistic aspects. Biol Cell, 101, 117-131. Rhodius, V.A., Suh, W.C., Nonaka, G., West, J. and Gross, C.A. (2006) Conserved and variable functions of the sigmaE stress response in related genomes. PLoS Biol, 4, e2. Rivas, E., Klein, R.J., Jones, T.A. and Eddy, S.R. (2001) Computational identification of noncoding RNAs in E. coli by comparative genomics. Curr Biol, 11, 1369-1373. Roberts, S.A. and Scott, J.R. (2007) RivR and the small RNA RivX: the missing links between the CovR regulatory cascade and the Mga regulon. Mol Microbiol, 66, 1506-1522. Roland, J.S., Greer, W. and Tilman, T. (2010) Prokaryotic whole-transcriptome analysis: deep sequencing and tiling array. Microbial Biotechnology, 3(2), 125–130. Ronning, D.R., Guynet, C., Ton-Hoang, B., Perez, Z.N., Ghirlando, R., Chandler, M. and Dyda, F. (2005) Active site sharing and subterminal hairpin recognition in a new class of DNA transposases. Mol Cell, 20, 143-154. Rudi, J., Kuck, D., Strand, S., von Herbay, A., Mariani, S.M., Krammer, P.H., Galle, P.R. and Stremmel, W. (1998) Involvement of the CD95 (APO-1/Fas) receptor and ligand system in Helicobacter pylori- induced gastric epithelial apoptosis. J Clin Invest, 102, 1506-1514. Sagaert, X., Van Cutsem, E., De Hertogh, G., Geboes, K. and Tousseyn, T. (2010) Gastric MALT lymphoma: a model of chronic inflammation-induced tumor development. Nat Rev Gastroenterol Hepatol, 7, 336-346. Sahr, T., Bruggemann, H., Jules, M., Lomma, M., Albert-Weissenberger, C., Cazalet, C. and Buchrieser, C. (2009) Two small ncRNAs jointly govern virulence and transmission in Legionella pneumophila. Mol Microbiol.

168

Salama, N., Guillemin, K., McDaniel, T.K., Sherlock, G., Tompkins, L. and Falkow, S. (2000) A whole- genome microarray reveals genetic diversity among Helicobacter pylori strains. Proc Natl Acad Sci U S A, 97, 14668-14673. Salaun, L., Audibert, C., Le Lay, G., Burucoa, C., Fauchere, J.L. and Picard, B. (1998) Panmictic structure of Helicobacter pylori demonstrated by the comparative study of six genetic markers. FEMS Microbiol Lett, 161, 231-239. Schmitt, W. and Haas, R. (1994) Genetic analysis of the Helicobacter pylori vacuolating cytotoxin: structural similarities with the IgA protease type of exported protein. Mol Microbiol, 12, 307-319. Schulz, A. and Schumann, W. (1996) hrcA, the first gene of the Bacillus subtilis dnaK operon encodes a negative regulator of class I heat shock genes. J Bacteriol, 178, 1088-1093. Scott, D.R., Weeks, D., Hong, C., Postius, S., Melchers, K. and Sachs, G. (1998) The role of internal urease in acid resistance of Helicobacter pylori. Gastroenterology, 114, 58-70. Selbach, M., Moese, S., Hauck, C.R., Meyer, T.F. and Backert, S. (2002) Src is the kinase of the Helicobacter pylori CagA protein in vitro and in vivo. J Biol Chem, 277, 6775-6778. Selbach, M., Moese, S., Hurwitz, R., Hauck, C.R., Meyer, T.F. and Backert, S. (2003) The Helicobacter pylori CagA protein induces cortactin dephosphorylation and actin rearrangement by c-Src inactivation. Embo J, 22, 515-528. Servant, P. and Mazodier, P. (2001) Negative regulation of the heat shock response in Streptomyces. Arch Microbiol, 176, 237-242. Sharma, C.M., Darfeuille, F., Plantinga, T.H. and Vogel, J. (2007) A small RNA regulates multiple ABC transporter mRNAs by targeting C/A-rich elements inside and upstream of ribosome-binding sites. Genes Dev, 21, 2804-2817. Shearwin, K.E., Callen, B.P. and Egan, J.B. (2005) Transcriptional interference--a crash course. Trends Genet, 21, 339-345. Shine, J. and Dalgarno, L. (1974) The 3'-terminal sequence of Escherichia coli 16S ribosomal RNA: complementarity to nonsense triplets and ribosome binding sites. Proc Natl Acad Sci U S A, 71, 1342-1346. Siguier, P., Filee, J. and Chandler, M. (2006) Insertion sequences in prokaryotic genomes. Curr Opin Microbiol, 9, 526-531. Silvaggi, J.M., Perkins, J.B. and Losick, R. (2005) Small untranslated RNA antitoxin in Bacillus subtilis. J Bacteriol, 187, 6641-6650. Sittka, A., Lucchini, S., Papenfort, K., Sharma, C.M., Rolle, K., Binnewies, T.T., Hinton, J.C. and Vogel, J. (2008) Deep sequencing analysis of small noncoding RNA and mRNA targets of the global post- transcriptional regulator, Hfq. PLoS Genet, 4, e1000163. Skouloubris, S., Thiberge, J.M., Labigne, A. and De Reuse, H. (1998) The Helicobacter pylori UreI protein is not involved in urease activity but is essential for bacterial survival in vivo. Infect Immun, 66, 4517-4521. Slagter-Jager, J.G. and Wagner, E.G. (2003) Loop swapping in an antisense RNA/target RNA pair changes directionality of helix progression. J Biol Chem, 278, 35558-35563. Sledjeski, D. and Gottesman, S. (1995) A small RNA acts as an antisilencer of the H-NS-silenced rcsA gene of Escherichia coli. Proc Natl Acad Sci U S A, 92, 2003-2007. Sobhani, I. (2004) [Helicobacter pylori and gastric cancer]. Med Sci (Paris), 20, 431-436. Song, T., Mika, F., Lindmark, B., Liu, Z., Schild, S., Bishop, A., Zhu, J., Camilli, A., Johansson, J., Vogel, J. and Wai, S.N. (2008) A new Vibrio cholerae sRNA modulates colonization and affects release of outer membrane vesicles. Mol Microbiol, 70, 100-111. Sonnleitner, E., Sorger-Domenigg, T., Madej, M.J., Findeiss, S., Hackermuller, J., Huttenhofer, A., Stadler, P.F., Blasi, U. and Moll, I. (2008) Detection of small RNAs in Pseudomonas aeruginosa by RNomics and structure-based bioinformatic tools. Microbiology, 154, 3175-3187. Soper, T., Mandin, P., Majdalani, N., Gottesman, S. and Woodson, S.A. (2010) Positive regulation by small RNAs and the role of Hfq. Proc Natl Acad Sci U S A, 107, 9602-9607. Sorek, R. and Cossart, P. (2010) Prokaryotic transcriptomics: a new view on regulation, physiology and pathogenicity. Nat Rev Genet, 11, 9-16.

169

Spohn, G., Delany, I., Rappuoli, R. and Scarlato, V. (2002) Characterization of the HspR-mediated stress response in Helicobacter pylori. J Bacteriol, 184, 2925-2930. Spohn, G. and Scarlato, V. (1999) Motility of Helicobacter pylori is coordinately regulated by the transcriptional activator FlgR, an NtrC homolog. J Bacteriol, 181, 593-599. Stachel, S.E. and Nester, E.W. (1986) The genetic and transcriptional organization of the vir region of the A6 Ti plasmid of Agrobacterium tumefaciens. Embo J, 5, 1445-1454. Steglich, C., Futschik, M.E., Lindell, D., Voss, B., Chisholm, S.W. and Hess, W.R. (2008) The challenge of regulation in a minimal photoautotroph: non-coding RNAs in Prochlorococcus. PLoS Genet, 4, e1000173. Stingl, K., Altendorf, K. and Bakker, E.P. (2002) Acid survival of Helicobacter pylori: how does urease activity trigger cytoplasmic pH homeostasis? Trends Microbiol, 10, 70-74. Stingl, K., Brandt, S., Uhlemann, E.M., Schmid, R., Altendorf, K., Zeilinger, C., Ecobichon, C., Labigne, A., Bakker, E.P. and de Reuse, H. (2007) Channel-mediated potassium uptake in Helicobacter pylori is essential for gastric colonization. Embo J, 26, 232-241. Stingl, K., Muller, S., Scheidgen-Kleyboldt, G., Clausen, M. and Maier, B. (2010) Composite system mediates two-step DNA uptake into Helicobacter pylori. Proc Natl Acad Sci U S A, 107, 1184- 1189. Stork, M., Di Lorenzo, M., Welch, T.J. and Crosa, J.H. (2007) Transcription termination within the iron transport-biosynthesis operon of Vibrio anguillarum requires an antisense RNA. J Bacteriol, 189, 3479-3488. Stougaard, P., Molin, S. and Nordstrom, K. (1981) RNAs involved in copy-number control and incompatibility of plasmid R1. Proc Natl Acad Sci U S A, 78, 6008-6012. Suerbaum, S. and Josenhans, C. (2007) Helicobacter pylori evolution and phenotypic diversification in a changing host. Nat Rev Microbiol, 5, 441-452. Suerbaum, S., Smith, J.M., Bapumia, K., Morelli, G., Smith, N.H., Kunstmann, E., Dyrek, I. and Achtman, M. (1998) Free recombination within Helicobacter pylori. Proc Natl Acad Sci U S A, 95, 12619- 12624. Suh, S.J., Silo-Suh, L., Woods, D.E., Hassett, D.J., West, S.E. and Ohman, D.E. (1999) Effect of rpoS mutation on the stress response and expression of virulence factors in Pseudomonas aeruginosa. J Bacteriol, 181, 3890-3897. Svenningsen, S.L., Tu, K.C. and Bassler, B.L. (2009) Gene dosage compensation calibrates four regulatory RNAs to control Vibrio cholerae quorum sensing. Embo J, 28, 429-439. Sycuro, L.K., Pincus, Z., Gutierrez, K.D., Biboy, J., Stern, C.A., Vollmer, W. and Salama, N.R. (2010) Peptidoglycan crosslinking relaxation promotes Helicobacter pylori's helical shape and stomach colonization. Cell, 141, 822-833. Tatusov, R.L., Fedorova, N.D., Jackson, J.D., Jacobs, A.R., Kiryutin, B., Koonin, E.V., Krylov, D.M., Mazumder, R., Mekhedov, S.L., Nikolskaya, A.N., Rao, B.S., Smirnov, S., Sverdlov, A.V., Vasudevan, S., Wolf, Y.I., Yin, J.J. and Natale, D.A. (2003) The COG database: an updated version includes eukaryotes. BMC Bioinformatics, 4, 41. Tatusov, R.L., Koonin, E.V. and Lipman, D.J. (1997) A genomic perspective on protein families. Science, 278, 631-637. Terry, K., Williams, S.M., Connolly, L. and Ottemann, K.M. (2005) Chemotaxis plays multiple roles during Helicobacter pylori animal infection. Infect Immun, 73, 803-811. Thiberge, J.M., Boursaux-Eude, C., Lehours, P., Dillies, M.A., Creno, S., Coppee, J.Y., Rouy, Z., Lajus, A., Ma, L., Burucoa, C., Ruskone-Foumestraux, A., Courillon-Mallet, A., De Reuse, H., Boneca, I.G., Lamarque, D., Megraud, F., Delchier, J.C., Medigue, C., Bouchier, C., Labigne, A. and Raymond, J. (2010) From array-based hybridization of Helicobacter pylori isolates to the complete genome sequence of an isolate associated with MALT lymphoma. BMC Genomics, 11, 368. Thibonnier, M., Aubert, S., Ecobichon, C. and De Reuse, H. (2010) Study of the functionality of the Helicobacter pylori trans-translation components SmpB and SsrA in an heterologous system. BMC Microbiol, 10, 91.

170

Thibonnier, M., Thiberge, J.M. and De Reuse, H. (2008) Trans-translation in Helicobacter pylori: essentiality of ribosome rescue and requirement of protein tagging for stress resistance and competence. PLoS One, 3, e3810. Thisted, T. and Gerdes, K. (1992) Mechanism of post-segregational killing by the hok/sok system of plasmid R1. Sok antisense RNA regulates hok gene expression indirectly through the overlapping mok gene. J Mol Biol, 223, 41-54. Tjaden, B., Saxena, R.M., Stolyar, S., Haynor, D.R., Kolker, E. and Rosenow, C. (2002) Transcriptome analysis of Escherichia coli using high-density oligonucleotide probe arrays. Nucleic Acids Res, 30, 3732-3738. Toledo-Arana, A., Dussurget, O., Nikitas, G., Sesto, N., Guet-Revillet, H., Balestrino, D., Loh, E., Gripenland, J., Tiensuu, T., Vaitkevicius, K., Barthelemy, M., Vergassola, M., Nahori, M.A., Soubigou, G., Regnault, B., Coppee, J.Y., Lecuit, M., Johansson, J. and Cossart, P. (2009) The Listeria transcriptional landscape from saprophytism to virulence. Nature, 459, 950-956. Tomb, J.F., White, O., Kerlavage, A.R., Clayton, R.A., Sutton, G.G., Fleischmann, R.D., Ketchum, K.A., Klenk, H.P., Gill, S., Dougherty, B.A., Nelson, K., Quackenbush, J., Zhou, L., Kirkness, E.F., Peterson, S., Loftus, B., Richardson, D., Dodson, R., Khalak, H.G., Glodek, A., McKenney, K., Fitzegerald, L.M., Lee, N., Adams, M.D., Hickey, E.K., Berg, D.E., Gocayne, J.D., Utterback, T.R., Peterson, J.D., Kelley, J.M., Cotton, M.D., Weidman, J.M., Fujii, C., Bowman, C., Watthey, L., Wallin, E., Hayes, W.S., Borodovsky, M., Karp, P.D., Smith, H.O., Fraser, C.M. and Venter, J.C. (1997) The complete genome sequence of the gastric pathogen Helicobacter pylori. Nature, 388, 539-547. Tomizawa, J. and Itoh, T. (1981) Plasmid ColE1 incompatibility determined by interaction of RNA I with primer transcript. Proc Natl Acad Sci U S A, 78, 6096-6100. Trotochaud, A.E. and Wassarman, K.M. (2004) 6S RNA function enhances long-term cell survival. J Bacteriol, 186, 4978-4985. Tu, K.C., Long, T., Svenningsen, S.L., Wingreen, N.S. and Bassler, B.L. (2010) Negative feedback loops involving small regulatory RNAs precisely control the Vibrio harveyi quorum-sensing response. Mol Cell, 37, 567-579. Udekwu, K.I., Darfeuille, F., Vogel, J., Reimegard, J., Holmqvist, E. and Wagner, E.G. (2005) Hfq- dependent regulation of OmpA synthesis is mediated by an antisense RNA. Genes Dev, 19, 2355- 2366. Udekwu, K.I. and Wagner, E.G. (2007) Sigma E controls biogenesis of the antisense RNA MicA. Nucleic Acids Res, 35, 1279-1288. Unoson, C. (2010) Small RNA-mediated regulation of gene-expression in Escherichia coli. Acta Universitatis Upsaliensis Uppsala, Ph.D. Thesis. Unoson, C. and Wagner, E.G. (2008) A small SOS-induced toxin is targeted against the inner membrane in Escherichia coli. Mol Microbiol, 70, 258-270. Valentin-Hansen, P., Eriksen, M. and Udesen, C. (2004) The bacterial Sm-like protein Hfq: a key player in RNA transactions. Mol Microbiol, 51, 1525-1533. Van Melderen, L. and Saavedra De Bast, M. (2009) Bacterial toxin-antitoxin systems: more than selfish entities? PLoS Genet, 5, e1000437. Vanderpool, C.K. and Gottesman, S. (2004) Involvement of a novel transcriptional activator and small RNA in post-transcriptional regulation of the glucose phosphoenolpyruvate phosphotransferase system. Mol Microbiol, 54, 1076-1089. Vanet, A., Marsan, L., Labigne, A. and Sagot, M.F. (2000) Inferring regulatory elements from a whole genome. An analysis of Helicobacter pylori sigma(80) family of promoter signals. J Mol Biol, 297, 335-353. Vasil, M.L. (2007) How we learnt about iron acquisition in Pseudomonas aeruginosa: a series of very fortunate events. Biometals, 20, 587-601. Vecerek, B., Moll, I., Afonyushkin, T., Kaberdin, V. and Blasi, U. (2003) Interaction of the RNA chaperone Hfq with mRNAs: direct and indirect roles of Hfq in iron metabolism of Escherichia coli. Mol Microbiol, 50, 897-909.

171

Viala, J., Chaput, C., Boneca, I.G., Cardona, A., Girardin, S.E., Moran, A.P., Athman, R., Memet, S., Huerre, M.R., Coyle, A.J., DiStefano, P.S., Sansonetti, P.J., Labigne, A., Bertin, J., Philpott, D.J. and Ferrero, R.L. (2004) Nod1 responds to peptidoglycan delivered by the Helicobacter pylori cag pathogenicity island. Nat Immunol, 5, 1166-1174. Vogel, J. (2009) A rough guide to the non-coding RNA world of Salmonella. Mol Microbiol, 71, 1-11. Vogel, J., Argaman, L., Wagner, E.G. and Altuvia, S. (2004) The small RNA IstR inhibits synthesis of an SOS- induced toxic peptide. Curr Biol, 14, 2271-2276. Vogel, J., Bartels, V., Tang, T.H., Churakov, G., Slagter-Jager, J.G., Huttenhofer, A. and Wagner, E.G. (2003) RNomics in Escherichia coli detects new sRNA species and indicates parallel transcriptional output in bacteria. Nucleic Acids Res, 31, 6435-6443. Vogel, J. and Papenfort, K. (2006) Small non-coding RNAs and the bacterial outer membrane. Curr Opin Microbiol, 9, 605-611. Wagner, E.G. (2009) Kill the messenger: bacterial antisense RNA promotes mRNA decay. Nat Struct Mol Biol, 16, 804-806. Wagner, E.G. and Darfeuille, F. (2006) Small Regulatory RNAs in Bacteria. Nucleic Acids and Molecular Biology, 17, 1-29. Wang, G., Humayun, M.Z. and Taylor, D.E. (1999) Mutation as an origin of genetic variability in Helicobacter pylori. Trends Microbiol, 7, 488-493. Wang, G. and Maier, R.J. (2008) Critical role of RecN in recombinational DNA repair and survival of Helicobacter pylori. Infect Immun, 76, 153-160. Wang, Z., Gerstein, M. and Snyder, M. (2009) RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet, 10, 57-63. Wassarman, K.M., Repoila, F., Rosenow, C., Storz, G. and Gottesman, S. (2001) Identification of novel small RNAs using comparative genomics and microarrays. Genes Dev, 15, 1637-1651. Wassarman, K.M. and Saecker, R.M. (2006) Synthesis-mediated release of a small RNA inhibitor of RNA polymerase. Science, 314, 1601-1603. Wassarman, K.M. and Storz, G. (2000) 6S RNA regulates E. coli RNA polymerase activity. Cell, 101, 613- 623. Waters, L.S. and Storz, G. (2009) Regulatory RNAs in bacteria. Cell, 136, 615-628. Weaver, K.E., Reddy, S.G., Brinkman, C.L., Patel, S., Bayles, K.W. and Endres, J.L. (2009) Identification and characterization of a family of toxin-antitoxin systems related to the Enterococcus faecalis plasmid pAD1 par addiction module. Microbiology, 155, 2930-2940. Weeks, D.L., Eskandari, S., Scott, D.R. and Sachs, G. (2000) A H+-gated urea channel: the link between Helicobacter pylori urease and gastric colonization. Science, 287, 482-485. Weilbacher, T., Suzuki, K., Dubey, A.K., Wang, X., Gudapaty, S., Morozov, I., Baker, C.S., Georgellis, D., Babitzke, P. and Romeo, T. (2003) A novel sRNA component of the carbon storage regulatory system of Escherichia coli. Mol Microbiol, 48, 657-670. Wen, Y., Marcus, E.A., Matrubutham, U., Gleeson, M.A., Scott, D.R. and Sachs, G. (2003) Acid-adaptive genes of Helicobacter pylori. Infect Immun, 71, 5921-5939. Wendisch, V.F., Zimmer, D.P., Khodursky, A., Peter, B., Cozzarelli, N. and Kustu, S. (2001) Isolation of Escherichia coli mRNA and comparison of expression using mRNA and total RNA on DNA microarrays. Anal Biochem, 290, 205-213. Wurtzel, O., Sapra, R., Chen, F., Zhu, Y., Simmons, B.A. and Sorek, R. (2010) A single-base resolution map of an archaeal transcriptome. Genome Res, 20, 133-141. Xu, Q., Morgan, R.D., Roberts, R.J. and Blaser, M.J. (2000) Identification of type II restriction and modification systems in Helicobacter pylori reveals their substantial diversity among strains. Proc Natl Acad Sci U S A, 97, 9671-9676. Yassour, M., Pfiffner, J., Levin, J.Z., Adiconis, X., Gnirke, A., Nusbaum, C., Thompson, D.A., Friedman, N. and Regev, A. (2010) Strand-specific RNA sequencing reveals extensive regulated long antisense transcripts that are conserved across yeast species. Genome Biol, 11, R87. Yelin, R., Dahary, D., Sorek, R., Levanon, E.Y., Goldstein, O., Shoshan, A., Diber, A., Biton, S., Tamir, Y., Khosravi, R., Nemzer, S., Pinner, E., Walach, S., Bernstein, J., Savitsky, K. and Rotman, G. (2003)

172

Widespread occurrence of antisense transcription in the human genome. Nat Biotechnol, 21, 379-386. Yoder-Himes, D.R., Chain, P.S., Zhu, Y., Wurtzel, O., Rubin, E.M., Tiedje, J.M. and Sorek, R. (2009) Mapping the Burkholderia cenocepacia niche response via high-throughput sequencing. Proc Natl Acad Sci U S A, 106, 3976-3981. Zambon, C.F., Navaglia, F., Basso, D., Rugge, M. and Plebani, M. (2003) Helicobacter pylori babA2, cagA, and s1 vacA genes work synergistically in causing intestinal metaplasia. J Clin Pathol, 56, 287-291. Zhang, A., Wassarman, K.M., Ortega, J., Steven, A.C. and Storz, G. (2002) The Sm-like Hfq protein increases OxyS RNA interaction with target mRNAs. Mol Cell, 9, 11-22. Zhang, A., Wassarman, K.M., Rosenow, C., Tjaden, B.C., Storz, G. and Gottesman, S. (2003) Global analysis of small RNA and mRNA targets of Hfq. Mol Microbiol, 50, 1111-1124.

173

Résumé/Abstract

Etude de petits ARN régulateurs chez Helicobacter pylori

Ces dernières années de nombreuses recherches ont montré l’importance des petits ARN dans la régulation de l’expression des gènes, chez tous les organismes vivants, des bactéries aux mammifères. Le projet de cette thèse était de recherche et d’identifier des petits ARN chez une bactérie pathogène pour l’homme, Helicobacter pylori (Hp). Cette bactérie colonise exclusivement l’estomac humain, un organe qui pendant longtemps a été considéré comme étant stérile, en raison du pH parfois très acide qui y règne. L’infection persistante de l’estomac humain causée par Hp est associée avec plusieurs pathologies gastriques tels que les gastrites, les ulcères peptiques, les cancers gastriques et les lymphomes du MALT. La moitié de la population est infectée par Hp, qui est responsable d’environ 1 million de décès par an { travers le monde, et de 6000 nouveaux cas de cancers gastrique par an en France. Au cours de ma thèse, j’ai travaillé en étroite collaboration avec le groupe du Pr. Jörg Vogel (RNA Biology, MPI, Berlin, Allemagne) pour développer une méthode rapide et efficace d’analyse du transcriptome complet d’Hp, en s’appuyant sur une nouvelle sur une technologie émergente de pyroséquençage haut-débit (HTPS 454 technology, Life Science, USA). Notre méthode de séquençage du transcriptome d’Hp à partir de banques enrichies en transcrits primaires (dRNA-seq), nous a permis d’identifier les sites d’initiation de la transcription (TSS) de milliers de d’ARN. Plus de la moitié de ces TSS ont été associés { des petits ARN non codants, de courte taille (de 50 { 250 nucléotides en moyenne), qui n’avaient jamais été découverts jusqu’alors, et dont les gènes sont localisés dans des régions intergéniques (sRNA) ou en antisens (asRNA) par rapport aux ORF précédemment annotées dans le génome d’Hp. Nos travaux ont également permis de mettre en évidence une forte activité de transcription antisens sur l’ensemble du génome de la bactérie, un phénomène déj{ observé chez E. coli et les eucaryotes. Ainsi, au moins un TSS est localisé sur le brin opposé à 46 % des ORF et à 28% des régions « leaders » des précurseurs des ARNr 23S et 16S, et des ARNt. Enfin, l’approche dRNA-seq a permis l’identification de la première famille de toxines de type I (AapA) identifiée à ce jour chez Hp. Dans ces conditions normales de culture, la traduction de ces toxines est constitutivement réprimée par des petits ARN antisens (IsoA) qui ciblent les ARNm aapA par complémentarité de base. Malgré leur homologie avec des modules toxine-antitoxine identifiés chez d’autres bactéries, pour certaines impliquées dans la réponse aux stress, nous n’avons pas encore découvert les conditions dans lesquelles ces peptides aapA seraient exprimées chez Hp, et leur rôle biologique reste à élucider.

Search for small regulatory RNA in Helicobacter pylori

In the past few years, small regulatory RNAs have emerged as an important class of post-transcriptional regulators of gene expression. Indeed they have been identified and/or predicted to exist in all species ranging from bacteria to mammals. The project of this thesis was to search for small non coding RNAs in a human pathogen: Helicobacter pylori (Hp). This bacterium exclusively colonizes the human stomach, an organ that until recently was thought to be sterile due to its extreme acidity. It is now established that persistent colonization by Hp is associated with various gastric pathologies including gastritis, peptic ulcer, gastric cancer and MALT lymphoma. Half of the human population is infected by Hp that is responsible for about 1 million deaths per year and around 6000 cases of gastric cancer in France. During my thesis we , in a close collaboration with the group of Joerg Vogel (RNA biology, MPI, Berlin, Germany) developed a rapid and efficient method to reveal the whole transcriptome of Hp based on recent advances in high-throughput pyrosequencing technologies (HTPS 454 technology, Life Science, USA). By using specifically enriched libraries in primary transcripts, our strategy allowed us to map thousand (1907) of transcription start sites (TSS) on the Hp genome. More than half of these TSS correspond to new short transcripts (non coding RNAs, between 50 and 250 nucleotides in length) that have never been annotated in this genome and that are localized both in intergenic regions (sRNA) and in regions antisense to annotated ORFs (asRNA). Analysis of associations between primary transcription start sites (pTSS) revealed more complexity in the Hp transcriptome than previously anticipated: around one third (27%) of pTSS belong to antisense transcripts (aTSS). The strikingly high degree of antisense transcription occurs, similar to E. coli and higher eukaryotes, across the entire Hp genome. Overall, at least one aTSS is linked to ~46% of all ORFs, ~28% of tRNAs, and the 5’ leaders of 23S and 16S rRNA precursors. Finally our dRNA-seq approach led us to identify the first family of putative type I toxins (AapA) in the Hp genome. Under normal growth conditions these toxins are constitutively repressed by a sophisticated antisense RNA-mediated (IsoA) mechanism. Despite their homology to other toxin-antitoxin modules previously described in other bacteria, we have not found physiological conditions under which these peptides are expressed and have yet to determine the biological significance (if any ?) of these suicide genes.

174