Hunting RNA Motifs
Total Page:16
File Type:pdf, Size:1020Kb
Hunting RNA motifs Paul Gardner July 23, 2012 Paul Gardner Hunting RNA motifs Classification problems I What is this? I The second most abundant M. tuberculosis transcript I No hits to Rfam, no homologs have been identified, no known function Mycobacteria tuberculosis genome: RNA−seq and annotations 7e+05 +ve strand R ank R eads Gene −ve strand 6e+05 1 5,741K SSU rR N A 2 689K sRNA/RUF? 5e+05 3 236K R N aseP R N A 4e+05 4 197K LSU rR N A 5 119K AT P synthase 3e+05 Read counts 6 119K HSP X 2e+05 7 115K tmR N A CDSs ncRNAs 8 103K Secreted protein 1e+05 Pfam domain terminators 0e+00 Arnvig et al. Rv3661 miscrna00343 (2011) PLoS HAD Rv3662c Pathog. 4099500 4100000 4100500 4101000 4101500 4102000 genome coordinate Paul Gardner Hunting RNA motifs Classification problems I What about this? I The seventh most abundant N. gonorrhoeae transcript I No hits to Rfam, no homologs have been identified, no known function Neisseria gonorrhoeae genome: RNA−seq and annotations R ank R eads Gene 80000 +ve strand −ve strand 1 206K R N aseP R N A 2 178K tR N A -Ser 60000 3 130K ZapA 3‘ U T R ? 4 120K P hage protein 40000 5‘ U T R ? 5 97K tmR N A Read counts 6 93K BRO protein 20000 CDSs ncRNAs 7 81K sR N A ? Pfam domain terminators 8 81K Hsp70 protein 0 9 76K tRNA-Asp NGO2161 terminator12061 terminator12063 Inositol_P terminator12062 NGO2162 terminator12064 Isabella & Clark SEC−C (2011) BMC Genomics. 2137500 2138000 2138500 2139000 genome coordinate Paul Gardner Hunting RNA motifs Classification problems I And this? I The ninth most abundant C. difficile transcript I No hits to Rfam, no homologs have been identified, no known function Clostridium difficile genome: RNA−seq and annotations R ank R eads Gene 1 12K R N aseP R N A +ve strand 4000 −ve strand 2 12K 6S R N A 3 12K SR P R N A 4 11K ldhA 3000 5 10K tmR N A 6 6K spoV G 2000 7 6K Gly reductase Read counts 8 5K slpA 1000 9 4K sRNA/RUF? CDSs ncRNAs Pfam domain terminators 10 4K hypothetical prot. 11 4K sRNA/RUF? 0 terminator0881 Deakin, Lawley toxB toxB toxB terminator1760 trpS et al. (2012) 3014000 3014500 3015000 3015500 3016000 3016500 3017000 Unpublished. genome coordinate Paul Gardner Hunting RNA motifs Classification problems I And this? I The eleventh most abundant C. difficile transcript I No hits to Rfam, no homologs have been identified, no known function Clostridium difficile genome: RNA−seq and annotations R ank R eads Gene 4000 1 12K R N aseP R N A +ve strand −ve strand 2 12K 6S R N A 3 12K SR P R N A 3000 4 11K ldhA 5 10K tmR N A 6 6K spoV G 2000 7 6K Gly reductase Read counts 8 5K slpA 1000 9 4K sRNA/RUF? CDSs ncRNAs Pfam domain terminators 10 4K hypothetical prot. 11 4K sRNA/RUF? 0 Deakin, Lawley feoA2 terminator1637terminator1105 acetyltransferase et al. (2012) 1760600 1760800 1761000 1761200 1761400 1761600 Unpublished. genome coordinate Paul Gardner Hunting RNA motifs What is our next big challenge? I Past: I How many non-coding RNA genes are there? I Future: I Can we determine the functions, if any, for large sets of given RNAs? Paul Gardner Hunting RNA motifs Will a \periodic table of RNA" be useful? I My aim is to build an analog to the Periodic Table for classifying RNA families and motifs, enabling researchers to predict function. b ase b asep air YR R R R UY A R A R Y G UC R R R G U C A A G A U R R R C G C U G U G A Y R Y G C G C G G C R Y R C G R Y R C A A G G U A G C A G C A G A A G R Y R Y G G A Y C U A Y C G A U A U R R R Y R C G R U R C G 5´ 5´ 5´ 5´ 5´ 5´ 5´ 5´ ANYA GNRA UNCG T loop U t u r n k t r n 1 k t r n 2 tw ist R Y R R C Y A Y Y G R R R R G R Y G A A R Y G G A G A A U A C G G C G R A U G A Y Y R G Y A C G A Y R A Y R Y R Y C U A G A G A G R Y G U Y R A Y R Y A A R Y C G A Y R A Y G Y G C G Y R Y G C C U A R A U R Y A R C G R Y R Y R G C C A U Y A U G U A U A U C G R Y A U A U R U Y Y G R 5´ R Y A U R U 5´ R GA R RA 5´ 5´ 5´ 5´ 5´ U Y U Y 5´ U UU Y sar r ic1 sar r ic2 UAA GAN C sr C loop d om V t er m 1 t er m 2 Y G Y C U R Y G G Y R Y Y Y U U Y Y Y Y A C R Y R Y Y A Y C C Y U G R Y R R C G Y U Y R C G C G C GU C A R A R A Y A Y R Y R A C Y A U G Y Y A Y R G R R G C Y R A G Y R C G G U U G G R Y Y R Y U A A U A R G R R Y R G C Y G U Y R Y Y G A Y C A Y Y R A U C Y C Y R Y Y R Y A A U U G A U U C G C A U C A U U R G C R C Y G R G R A U U A U Y Y R A Y G U G C U R A U G C U A G C U A C Y G Y A U Y R Y C U A U A G C G G A U G C U A A U G U A U U A A U C C G Y R U A U C G A Y Y A Y G C U A C G U R U Y G Y Y A U A U A C G U A U R R A R C G G C G C U A R C R A U U A A U U A R U A G C R Y Y R G C G A U A U A U C G Y R Y R G C G Y A U A U Y Y Y G Y R U Y A A U R R U R R Y U A U R Y U G C C G A U C G U A U A G C A C G G C G C C A Y R R U A G C C G G A A U A C C G G U A U G C G C A Y C R A R R A U U A U A U A U R R G A U A R G G Y Y A U A U C Y C A R A A A Y Y Y G C G C A U G C Y Y G U R G C R R A U U G G C U C Y G R R R C G Y A C G U R R G Y Y R U G C G U A G C C Y G Y C A U U A U A Y Y Y R Y R G R R A U C G A U U A Y U C G Y C Y G U U A G Y R G Y R R Y G C G Y Y Y C Y Y A R Y C G Y R C R R Y U A C G U A A R C G Y Y R G Y Y G R C G C G R C Y G G Y G C C G G R R R Y G R Y A U Y YY GY R C Y R G C G U R U R Y G Y U C R R U A U U Y R A U C Y G U U A G C U A A U R R G U R Y U U Y U A G C R Y R G C Y Y G G U A G C G C G R A A G A A G C G A A U U G A U U A A R A G G Y R R Y G C YG C A U Y G U A Y C C U Y C G U A G C A U R G U Y A A C R G C C G C G G C C G U G U R Y R C Y C Y U U U C G G U C G C Y R R R U Y R G U R A U C U A G C U R U Y R A C Y G G R Y R R A C G U A U G C G A G G U A A U U A G Y A G C R C U A C G R C A U U Y U C Y U A U A G Y U A R A G R Y G U A Y Y G Y A U A U U A R U G R R Y G G A Y C G U A U A R A U R G A C Y R U U A A U R C Y U R Y G A G C C G A G C Y G G C G U C G Y C G A U U G A A Y U G A U C G C U A U G C C G A U C U U Y R U A U G C G U C R C U Y U A C G C R Y R Y Y G A A R C G U A Y C G C G A U U A A U A U A U A R A U C G A C C G U A G C G Y U Y G C A U G U C G R R C Y G C Y R U A A U A U C G U A C U C G U A U G C U U G C G R A A R R A U C R Y G C G C A U A Y A G C A U C G U A Y R Y U A A U U A R Y R U C A C G G U G C G U R Y A A U C Y R G C U G R Y A U Y R R Y Y R Y R G C A U A U R U G U G C U R Y R C G Y R U A Y G Y R Y Y Y R G C U G U A R U C G U G Y R G C G C Y A C G A U C G Y G C R C G G C Y R Y R G Y R Y 5´ G C G C U A Y A A U Y Y C G G C Y R Y R G C Y 5´ 5´ AC 5´ U 5´ UC R U 5´ Y R R Y GY UYR R Y 5´ R 5´ R YY YY RRR R 5´ 5´ GC 5´ CY G Y C G G 5´ Y YY Y R R G Y YY GGY 5´ Y AA R U GG UY 5´ 5´ U U U Y 5´ Y 5´ YY 5´ TRIT IRE SECIS m ir -T A R m ir -30 m ir -9 lin -4 m ir -5 m ir -8 m ir -1 m ir -2 m ir -6 let -7 Y RNA 6S 5S t R N A R N aseP AA U AA U A A CC C U Y Y C U U U Y Y Y G C C C Y G CG AG Y Y Y R C C G C U YY Y G A C G RR GG U C CU Y G C C R R C A G A R U G C A U G C C G C U R Y U A U C R GR C G C G U A G C G C G G C U G G U 5´ Y R U U UUUUUU U A G R GR G CA CGGG A G U A U C U G C G CA G C U G C Y G C G C CC Y G GG A C R R C C A U C G G Y Y Y C A G G CGAAU U A U R A G C A U U U GG R Y R A A C Y A A A U C Y Y R U C U U C G U A A U R Y G G C A U A G G Y G U A A A U C Y C G C C Y C C U C R Y U R C A C U A G C U G A R G C C G U U U A A U C C U G C G A G U A C G C A R R Y G A C Y A C A A C G U G C G U Y R G C U G A C G Y U A U R Y G U G A U U G A C G U U A U R U U G C G U A U Y C G Y R Y G U A C U U Y R Y ACUU UGU U G U R U G G C Y G U G C C G A G C C G A GCUAAAR C C C C C C C GCUAAAGCACUAAAAA G G G A U U A U A G A A C G A C G U C A C C A R U A A C C G Y U C A U RR C R C C G C G A U U AG Y C G G C U A G C A U C C G G G G G G Y C C G A G A U A G U G ARA A C U U A C A G C U A Y G C A U G C A A C G U A Y G C C A C A U A G C A A R A G C A U AA A A Y C C G U R Y U U U G U G Y G C A G U R U A Y U A C G U R Y A C U U U U U A C C A A G U Y G U G A U G C C U G A U U G G C G R C R C G G A C A U A G CUCCC G U U U U Y U R U U R A A A R C A G C C G R G C A R Y R C C G G R U A GA C G C C R U C U G G U U A G U U U A A U U UGCAU A C G C G A U A G G Y U G Y G A C G A G U Y C G U A C G G U R A Y A G R G G C C G C C R C C U A C A A A C G 5´ UU G G C C A U G C A U A G C R G R G Y C UUAAA A R G C G A U G C C U U A U C G C A U U A U C Y A Y C C C G G Y Y A R G A CG GCC C C C GC G G U A G Y U G U A C G R G C C G G Y A C U G G C G C R C G Y A Y U A U A C Y A A C U G U U G G G U U C G G G A R U A U G U G G G C R U G C C G A Y A U G C Y C A C A G U C C G A U C G C G G U G U G C C C C G G C U A C G U G YC Y G A A U A U C G A U G C A U A Y AR CGC Y C U GYCG G G G G GC G C U A U U R U A G A U G U A G C U A C G U G C C G G C A U Y C G C Y R C G G Y C RY RR U A R C U C G A U U A U Y GCG U A RYU A U A G R U G C C G Y C G U C G A U U G Y A U Y R A U C Y GA A U Y C A U A U C R U U U U U A YY C G A U A A U G U A U G C C G A G C C G G C C G A U R R Y G C U YG R U R U Y RY A Y Y A A G C GA U U U A 5´ A G C U 5´ GA U A G AC A GAUUU U 5´ A AUAAY A Y R 5´ 5´ YY R G RUA 5´ CGYA C 5´ C AAC R UU 5´ A U G AUU UU A C U 5´ Y RG RR R UUU 5´ 5´ R G U U 5´ YURCGUGACGAAGC A UUUU Y 5´ UUG G CG A UR U A UA A A 5´ 5´ 5´ U SAM V sy m R C P E B 3 F in P sr oB m sr SAM a HH 3 V m nt n 3 liv K D sr A CAESAR isr K sr oD isr B 6C r sp L su h B G R C G A Y Y U R R G G G A Y Y A C R R C G A G Y RA Y U Y G U C C C A A UUUUUUUUAUGUC G U C U C C G A G G G U G C U C C C G G A C U C A CGCA U A C G A C G U C G U A C G A CC C G U G G G A A C U U C R R U A U U U Y A U U U C U G G G Y A A U G U A U A U U G A Y C A U U C A U Y Y U Y UUUUUU U Y G CU C U A C U C U U U U G G R Y C U U U U A G G G C G A Y A G R U Y A C U U U G R G G G G G G U C A U A A A U Y U G C C G U A A A A C C R C C U G Y A A A C U C C C C C G G Y R G A U U.