Hunting RNA Motifs

Hunting RNA motifs Paul Gardner July 23, 2012 Paul Gardner Hunting RNA motifs Classification problems I What is this? I The second most abundant M. tuberculosis transcript I No hits to Rfam, no homologs have been identified, no known function Mycobacteria tuberculosis genome: RNA−seq and annotations 7e+05 +ve strand R ank R eads Gene −ve strand 6e+05 1 5,741K SSU rR N A 2 689K sRNA/RUF? 5e+05 3 236K R N aseP R N A 4e+05 4 197K LSU rR N A 5 119K AT P synthase 3e+05 Read counts 6 119K HSP X 2e+05 7 115K tmR N A CDSs ncRNAs 8 103K Secreted protein 1e+05 Pfam domain terminators 0e+00 Arnvig et al. Rv3661 miscrna00343 (2011) PLoS HAD Rv3662c Pathog. 4099500 4100000 4100500 4101000 4101500 4102000 genome coordinate Paul Gardner Hunting RNA motifs Classification problems I What about this? I The seventh most abundant N. gonorrhoeae transcript I No hits to Rfam, no homologs have been identified, no known function Neisseria gonorrhoeae genome: RNA−seq and annotations R ank R eads Gene 80000 +ve strand −ve strand 1 206K R N aseP R N A 2 178K tR N A -Ser 60000 3 130K ZapA 3‘ U T R ? 4 120K P hage protein 40000 5‘ U T R ? 5 97K tmR N A Read counts 6 93K BRO protein 20000 CDSs ncRNAs 7 81K sR N A ? Pfam domain terminators 8 81K Hsp70 protein 0 9 76K tRNA-Asp NGO2161 terminator12061 terminator12063 Inositol_P terminator12062 NGO2162 terminator12064 Isabella & Clark SEC−C (2011) BMC Genomics. 2137500 2138000 2138500 2139000 genome coordinate Paul Gardner Hunting RNA motifs Classification problems I And this? I The ninth most abundant C. difficile transcript I No hits to Rfam, no homologs have been identified, no known function Clostridium difficile genome: RNA−seq and annotations R ank R eads Gene 1 12K R N aseP R N A +ve strand 4000 −ve strand 2 12K 6S R N A 3 12K SR P R N A 4 11K ldhA 3000 5 10K tmR N A 6 6K spoV G 2000 7 6K Gly reductase Read counts 8 5K slpA 1000 9 4K sRNA/RUF? CDSs ncRNAs Pfam domain terminators 10 4K hypothetical prot. 11 4K sRNA/RUF? 0 terminator0881 Deakin, Lawley toxB toxB toxB terminator1760 trpS et al. (2012) 3014000 3014500 3015000 3015500 3016000 3016500 3017000 Unpublished. genome coordinate Paul Gardner Hunting RNA motifs Classification problems I And this? I The eleventh most abundant C. difficile transcript I No hits to Rfam, no homologs have been identified, no known function Clostridium difficile genome: RNA−seq and annotations R ank R eads Gene 4000 1 12K R N aseP R N A +ve strand −ve strand 2 12K 6S R N A 3 12K SR P R N A 3000 4 11K ldhA 5 10K tmR N A 6 6K spoV G 2000 7 6K Gly reductase Read counts 8 5K slpA 1000 9 4K sRNA/RUF? CDSs ncRNAs Pfam domain terminators 10 4K hypothetical prot. 11 4K sRNA/RUF? 0 Deakin, Lawley feoA2 terminator1637terminator1105 acetyltransferase et al. (2012) 1760600 1760800 1761000 1761200 1761400 1761600 Unpublished. genome coordinate Paul Gardner Hunting RNA motifs What is our next big challenge? I Past: I How many non-coding RNA genes are there? I Future: I Can we determine the functions, if any, for large sets of given RNAs? Paul Gardner Hunting RNA motifs Will a \periodic table of RNA" be useful? I My aim is to build an analog to the Periodic Table for classifying RNA families and motifs, enabling researchers to predict function. b ase b asep air YR R R R UY A R A R Y G UC R R R G U C A A G A U R R R C G C U G U G A Y R Y G C G C G G C R Y R C G R Y R C A A G G U A G C A G C A G A A G R Y R Y G G A Y C U A Y C G A U A U R R R Y R C G R U R C G 5´ 5´ 5´ 5´ 5´ 5´ 5´ 5´ ANYA GNRA UNCG T loop U t u r n k t r n 1 k t r n 2 tw ist R Y R R C Y A Y Y G R R R R G R Y G A A R Y G G A G A A U A C G G C G R A U G A Y Y R G Y A C G A Y R A Y R Y R Y C U A G A G A G R Y G U Y R A Y R Y A A R Y C G A Y R A Y G Y G C G Y R Y G C C U A R A U R Y A R C G R Y R Y R G C C A U Y A U G U A U A U C G R Y A U A U R U Y Y G R 5´ R Y A U R U 5´ R GA R RA 5´ 5´ 5´ 5´ 5´ U Y U Y 5´ U UU Y sar r ic1 sar r ic2 UAA GAN C sr C loop d om V t er m 1 t er m 2 Y G Y C U R Y G G Y R Y Y Y U U Y Y Y Y A C R Y R Y Y A Y C C Y U G R Y R R C G Y U Y R C G C G C GU C A R A R A Y A Y R Y R A C Y A U G Y Y A Y R G R R G C Y R A G Y R C G G U U G G R Y Y R Y U A A U A R G R R Y R G C Y G U Y R Y Y G A Y C A Y Y R A U C Y C Y R Y Y R Y A A U U G A U U C G C A U C A U U R G C R C Y G R G R A U U A U Y Y R A Y G U G C U R A U G C U A G C U A C Y G Y A U Y R Y C U A U A G C G G A U G C U A A U G U A U U A A U C C G Y R U A U C G A Y Y A Y G C U A C G U R U Y G Y Y A U A U A C G U A U R R A R C G G C G C U A R C R A U U A A U U A R U A G C R Y Y R G C G A U A U A U C G Y R Y R G C G Y A U A U Y Y Y G Y R U Y A A U R R U R R Y U A U R Y U G C C G A U C G U A U A G C A C G G C G C C A Y R R U A G C C G G A A U A C C G G U A U G C G C A Y C R A R R A U U A U A U A U R R G A U A R G G Y Y A U A U C Y C A R A A A Y Y Y G C G C A U G C Y Y G U R G C R R A U U G G C U C Y G R R R C G Y A C G U R R G Y Y R U G C G U A G C C Y G Y C A U U A U A Y Y Y R Y R G R R A U C G A U U A Y U C G Y C Y G U U A G Y R G Y R R Y G C G Y Y Y C Y Y A R Y C G Y R C R R Y U A C G U A A R C G Y Y R G Y Y G R C G C G R C Y G G Y G C C G G R R R Y G R Y A U Y YY GY R C Y R G C G U R U R Y G Y U C R R U A U U Y R A U C Y G U U A G C U A A U R R G U R Y U U Y U A G C R Y R G C Y Y G G U A G C G C G R A A G A A G C G A A U U G A U U A A R A G G Y R R Y G C YG C A U Y G U A Y C C U Y C G U A G C A U R G U Y A A C R G C C G C G G C C G U G U R Y R C Y C Y U U U C G G U C G C Y R R R U Y R G U R A U C U A G C U R U Y R A C Y G G R Y R R A C G U A U G C G A G G U A A U U A G Y A G C R C U A C G R C A U U Y U C Y U A U A G Y U A R A G R Y G U A Y Y G Y A U A U U A R U G R R Y G G A Y C G U A U A R A U R G A C Y R U U A A U R C Y U R Y G A G C C G A G C Y G G C G U C G Y C G A U U G A A Y U G A U C G C U A U G C C G A U C U U Y R U A U G C G U C R C U Y U A C G C R Y R Y Y G A A R C G U A Y C G C G A U U A A U A U A U A R A U C G A C C G U A G C G Y U Y G C A U G U C G R R C Y G C Y R U A A U A U C G U A C U C G U A U G C U U G C G R A A R R A U C R Y G C G C A U A Y A G C A U C G U A Y R Y U A A U U A R Y R U C A C G G U G C G U R Y A A U C Y R G C U G R Y A U Y R R Y Y R Y R G C A U A U R U G U G C U R Y R C G Y R U A Y G Y R Y Y Y R G C U G U A R U C G U G Y R G C G C Y A C G A U C G Y G C R C G G C Y R Y R G Y R Y 5´ G C G C U A Y A A U Y Y C G G C Y R Y R G C Y 5´ 5´ AC 5´ U 5´ UC R U 5´ Y R R Y GY UYR R Y 5´ R 5´ R YY YY RRR R 5´ 5´ GC 5´ CY G Y C G G 5´ Y YY Y R R G Y YY GGY 5´ Y AA R U GG UY 5´ 5´ U U U Y 5´ Y 5´ YY 5´ TRIT IRE SECIS m ir -T A R m ir -30 m ir -9 lin -4 m ir -5 m ir -8 m ir -1 m ir -2 m ir -6 let -7 Y RNA 6S 5S t R N A R N aseP AA U AA U A A CC C U Y Y C U U U Y Y Y G C C C Y G CG AG Y Y Y R C C G C U YY Y G A C G RR GG U C CU Y G C C R R C A G A R U G C A U G C C G C U R Y U A U C R GR C G C G U A G C G C G G C U G G U 5´ Y R U U UUUUUU U A G R GR G CA CGGG A G U A U C U G C G CA G C U G C Y G C G C CC Y G GG A C R R C C A U C G G Y Y Y C A G G CGAAU U A U R A G C A U U U GG R Y R A A C Y A A A U C Y Y R U C U U C G U A A U R Y G G C A U A G G Y G U A A A U C Y C G C C Y C C U C R Y U R C A C U A G C U G A R G C C G U U U A A U C C U G C G A G U A C G C A R R Y G A C Y A C A A C G U G C G U Y R G C U G A C G Y U A U R Y G U G A U U G A C G U U A U R U U G C G U A U Y C G Y R Y G U A C U U Y R Y ACUU UGU U G U R U G G C Y G U G C C G A G C C G A GCUAAAR C C C C C C C GCUAAAGCACUAAAAA G G G A U U A U A G A A C G A C G U C A C C A R U A A C C G Y U C A U RR C R C C G C G A U U AG Y C G G C U A G C A U C C G G G G G G Y C C G A G A U A G U G ARA A C U U A C A G C U A Y G C A U G C A A C G U A Y G C C A C A U A G C A A R A G C A U AA A A Y C C G U R Y U U U G U G Y G C A G U R U A Y U A C G U R Y A C U U U U U A C C A A G U Y G U G A U G C C U G A U U G G C G R C R C G G A C A U A G CUCCC G U U U U Y U R U U R A A A R C A G C C G R G C A R Y R C C G G R U A GA C G C C R U C U G G U U A G U U U A A U U UGCAU A C G C G A U A G G Y U G Y G A C G A G U Y C G U A C G G U R A Y A G R G G C C G C C R C C U A C A A A C G 5´ UU G G C C A U G C A U A G C R G R G Y C UUAAA A R G C G A U G C C U U A U C G C A U U A U C Y A Y C C C G G Y Y A R G A CG GCC C C C GC G G U A G Y U G U A C G R G C C G G Y A C U G G C G C R C G Y A Y U A U A C Y A A C U G U U G G G U U C G G G A R U A U G U G G G C R U G C C G A Y A U G C Y C A C A G U C C G A U C G C G G U G U G C C C C G G C U A C G U G YC Y G A A U A U C G A U G C A U A Y AR CGC Y C U GYCG G G G G GC G C U A U U R U A G A U G U A G C U A C G U G C C G G C A U Y C G C Y R C G G Y C RY RR U A R C U C G A U U A U Y GCG U A RYU A U A G R U G C C G Y C G U C G A U U G Y A U Y R A U C Y GA A U Y C A U A U C R U U U U U A YY C G A U A A U G U A U G C C G A G C C G G C C G A U R R Y G C U YG R U R U Y RY A Y Y A A G C GA U U U A 5´ A G C U 5´ GA U A G AC A GAUUU U 5´ A AUAAY A Y R 5´ 5´ YY R G RUA 5´ CGYA C 5´ C AAC R UU 5´ A U G AUU UU A C U 5´ Y RG RR R UUU 5´ 5´ R G U U 5´ YURCGUGACGAAGC A UUUU Y 5´ UUG G CG A UR U A UA A A 5´ 5´ 5´ U SAM V sy m R C P E B 3 F in P sr oB m sr SAM a HH 3 V m nt n 3 liv K D sr A CAESAR isr K sr oD isr B 6C r sp L su h B G R C G A Y Y U R R G G G A Y Y A C R R C G A G Y RA Y U Y G U C C C A A UUUUUUUUAUGUC G U C U C C G A G G G U G C U C C C G G A C U C A CGCA U A C G A C G U C G U A C G A CC C G U G G G A A C U U C R R U A U U U Y A U U U C U G G G Y A A U G U A U A U U G A Y C A U U C A U Y Y U Y UUUUUU U Y G CU C U A C U C U U U U G G R Y C U U U U A G G G C G A Y A G R U Y A C U U U G R G G G G G G U C A U A A A U Y U G C C G U A A A A C C R C C U G Y A A A C U C C C C C G G Y R G A U U.

Hunting RNA Motifs

Clusters of Bacterial RNA Polymerase Are Biomolecular Condensates That Assemble Through Liquid–Liquid Phase Separation

Specific and Global RNA Regulators in Pseudomonas Aeruginosa

Characteristics of Genome Evolution in Obligate Insect Symbionts, Including The

Structure-Based Mechanisms of Processive Transcription Anti-Termination

Evidence for a Second Class of S-Adenosylmethionine Riboswitches

The Biology of RNA-Protein Complexes

New Insights Into Marine Group III Euryarchaeota, from Dark to Light

Structural and Functional Studies of a Noncanonical Dicer From

Riboregulation in Nitrogen-Fixing Endosymbiotic Bacteria

Identification of Chromosomal Alpha-Proteobacterial Small Rnas by Comparative Genome Analysis and Detection in Sinorhizobium Meliloti Strain 1021

Transcription Termination and Antitermination of Bacterial CRISPR

Nusg Inhibits RNA Polymerase Backtracking by Stabilizing the Minimal Transcription Bubble Matti Turtola, Georgiy a Belogurov*