Hunting RNA Motifs

Hunting RNA Motifs

Hunting RNA motifs Paul Gardner July 23, 2012 Paul Gardner Hunting RNA motifs Classification problems I What is this? I The second most abundant M. tuberculosis transcript I No hits to Rfam, no homologs have been identified, no known function Mycobacteria tuberculosis genome: RNA−seq and annotations 7e+05 +ve strand R ank R eads Gene −ve strand 6e+05 1 5,741K SSU rR N A 2 689K sRNA/RUF? 5e+05 3 236K R N aseP R N A 4e+05 4 197K LSU rR N A 5 119K AT P synthase 3e+05 Read counts 6 119K HSP X 2e+05 7 115K tmR N A CDSs ncRNAs 8 103K Secreted protein 1e+05 Pfam domain terminators 0e+00 Arnvig et al. Rv3661 miscrna00343 (2011) PLoS HAD Rv3662c Pathog. 4099500 4100000 4100500 4101000 4101500 4102000 genome coordinate Paul Gardner Hunting RNA motifs Classification problems I What about this? I The seventh most abundant N. gonorrhoeae transcript I No hits to Rfam, no homologs have been identified, no known function Neisseria gonorrhoeae genome: RNA−seq and annotations R ank R eads Gene 80000 +ve strand −ve strand 1 206K R N aseP R N A 2 178K tR N A -Ser 60000 3 130K ZapA 3‘ U T R ? 4 120K P hage protein 40000 5‘ U T R ? 5 97K tmR N A Read counts 6 93K BRO protein 20000 CDSs ncRNAs 7 81K sR N A ? Pfam domain terminators 8 81K Hsp70 protein 0 9 76K tRNA-Asp NGO2161 terminator12061 terminator12063 Inositol_P terminator12062 NGO2162 terminator12064 Isabella & Clark SEC−C (2011) BMC Genomics. 2137500 2138000 2138500 2139000 genome coordinate Paul Gardner Hunting RNA motifs Classification problems I And this? I The ninth most abundant C. difficile transcript I No hits to Rfam, no homologs have been identified, no known function Clostridium difficile genome: RNA−seq and annotations R ank R eads Gene 1 12K R N aseP R N A +ve strand 4000 −ve strand 2 12K 6S R N A 3 12K SR P R N A 4 11K ldhA 3000 5 10K tmR N A 6 6K spoV G 2000 7 6K Gly reductase Read counts 8 5K slpA 1000 9 4K sRNA/RUF? CDSs ncRNAs Pfam domain terminators 10 4K hypothetical prot. 11 4K sRNA/RUF? 0 terminator0881 Deakin, Lawley toxB toxB toxB terminator1760 trpS et al. (2012) 3014000 3014500 3015000 3015500 3016000 3016500 3017000 Unpublished. genome coordinate Paul Gardner Hunting RNA motifs Classification problems I And this? I The eleventh most abundant C. difficile transcript I No hits to Rfam, no homologs have been identified, no known function Clostridium difficile genome: RNA−seq and annotations R ank R eads Gene 4000 1 12K R N aseP R N A +ve strand −ve strand 2 12K 6S R N A 3 12K SR P R N A 3000 4 11K ldhA 5 10K tmR N A 6 6K spoV G 2000 7 6K Gly reductase Read counts 8 5K slpA 1000 9 4K sRNA/RUF? CDSs ncRNAs Pfam domain terminators 10 4K hypothetical prot. 11 4K sRNA/RUF? 0 Deakin, Lawley feoA2 terminator1637terminator1105 acetyltransferase et al. (2012) 1760600 1760800 1761000 1761200 1761400 1761600 Unpublished. genome coordinate Paul Gardner Hunting RNA motifs What is our next big challenge? I Past: I How many non-coding RNA genes are there? I Future: I Can we determine the functions, if any, for large sets of given RNAs? Paul Gardner Hunting RNA motifs Will a \periodic table of RNA" be useful? I My aim is to build an analog to the Periodic Table for classifying RNA families and motifs, enabling researchers to predict function. b ase b asep air YR R R R UY A R A R Y G UC R R R G U C A A G A U R R R C G C U G U G A Y R Y G C G C G G C R Y R C G R Y R C A A G G U A G C A G C A G A A G R Y R Y G G A Y C U A Y C G A U A U R R R Y R C G R U R C G 5´ 5´ 5´ 5´ 5´ 5´ 5´ 5´ ANYA GNRA UNCG T loop U t u r n k t r n 1 k t r n 2 tw ist R Y R R C Y A Y Y G R R R R G R Y G A A R Y G G A G A A U A C G G C G R A U G A Y Y R G Y A C G A Y R A Y R Y R Y C U A G A G A G R Y G U Y R A Y R Y A A R Y C G A Y R A Y G Y G C G Y R Y G C C U A R A U R Y A R C G R Y R Y R G C C A U Y A U G U A U A U C G R Y A U A U R U Y Y G R 5´ R Y A U R U 5´ R GA R RA 5´ 5´ 5´ 5´ 5´ U Y U Y 5´ U UU Y sar r ic1 sar r ic2 UAA GAN C sr C loop d om V t er m 1 t er m 2 Y G Y C U R Y G G Y R Y Y Y U U Y Y Y Y A C R Y R Y Y A Y C C Y U G R Y R R C G Y U Y R C G C G C GU C A R A R A Y A Y R Y R A C Y A U G Y Y A Y R G R R G C Y R A G Y R C G G U U G G R Y Y R Y U A A U A R G R R Y R G C Y G U Y R Y Y G A Y C A Y Y R A U C Y C Y R Y Y R Y A A U U G A U U C G C A U C A U U R G C R C Y G R G R A U U A U Y Y R A Y G U G C U R A U G C U A G C U A C Y G Y A U Y R Y C U A U A G C G G A U G C U A A U G U A U U A A U C C G Y R U A U C G A Y Y A Y G C U A C G U R U Y G Y Y A U A U A C G U A U R R A R C G G C G C U A R C R A U U A A U U A R U A G C R Y Y R G C G A U A U A U C G Y R Y R G C G Y A U A U Y Y Y G Y R U Y A A U R R U R R Y U A U R Y U G C C G A U C G U A U A G C A C G G C G C C A Y R R U A G C C G G A A U A C C G G U A U G C G C A Y C R A R R A U U A U A U A U R R G A U A R G G Y Y A U A U C Y C A R A A A Y Y Y G C G C A U G C Y Y G U R G C R R A U U G G C U C Y G R R R C G Y A C G U R R G Y Y R U G C G U A G C C Y G Y C A U U A U A Y Y Y R Y R G R R A U C G A U U A Y U C G Y C Y G U U A G Y R G Y R R Y G C G Y Y Y C Y Y A R Y C G Y R C R R Y U A C G U A A R C G Y Y R G Y Y G R C G C G R C Y G G Y G C C G G R R R Y G R Y A U Y YY GY R C Y R G C G U R U R Y G Y U C R R U A U U Y R A U C Y G U U A G C U A A U R R G U R Y U U Y U A G C R Y R G C Y Y G G U A G C G C G R A A G A A G C G A A U U G A U U A A R A G G Y R R Y G C YG C A U Y G U A Y C C U Y C G U A G C A U R G U Y A A C R G C C G C G G C C G U G U R Y R C Y C Y U U U C G G U C G C Y R R R U Y R G U R A U C U A G C U R U Y R A C Y G G R Y R R A C G U A U G C G A G G U A A U U A G Y A G C R C U A C G R C A U U Y U C Y U A U A G Y U A R A G R Y G U A Y Y G Y A U A U U A R U G R R Y G G A Y C G U A U A R A U R G A C Y R U U A A U R C Y U R Y G A G C C G A G C Y G G C G U C G Y C G A U U G A A Y U G A U C G C U A U G C C G A U C U U Y R U A U G C G U C R C U Y U A C G C R Y R Y Y G A A R C G U A Y C G C G A U U A A U A U A U A R A U C G A C C G U A G C G Y U Y G C A U G U C G R R C Y G C Y R U A A U A U C G U A C U C G U A U G C U U G C G R A A R R A U C R Y G C G C A U A Y A G C A U C G U A Y R Y U A A U U A R Y R U C A C G G U G C G U R Y A A U C Y R G C U G R Y A U Y R R Y Y R Y R G C A U A U R U G U G C U R Y R C G Y R U A Y G Y R Y Y Y R G C U G U A R U C G U G Y R G C G C Y A C G A U C G Y G C R C G G C Y R Y R G Y R Y 5´ G C G C U A Y A A U Y Y C G G C Y R Y R G C Y 5´ 5´ AC 5´ U 5´ UC R U 5´ Y R R Y GY UYR R Y 5´ R 5´ R YY YY RRR R 5´ 5´ GC 5´ CY G Y C G G 5´ Y YY Y R R G Y YY GGY 5´ Y AA R U GG UY 5´ 5´ U U U Y 5´ Y 5´ YY 5´ TRIT IRE SECIS m ir -T A R m ir -30 m ir -9 lin -4 m ir -5 m ir -8 m ir -1 m ir -2 m ir -6 let -7 Y RNA 6S 5S t R N A R N aseP AA U AA U A A CC C U Y Y C U U U Y Y Y G C C C Y G CG AG Y Y Y R C C G C U YY Y G A C G RR GG U C CU Y G C C R R C A G A R U G C A U G C C G C U R Y U A U C R GR C G C G U A G C G C G G C U G G U 5´ Y R U U UUUUUU U A G R GR G CA CGGG A G U A U C U G C G CA G C U G C Y G C G C CC Y G GG A C R R C C A U C G G Y Y Y C A G G CGAAU U A U R A G C A U U U GG R Y R A A C Y A A A U C Y Y R U C U U C G U A A U R Y G G C A U A G G Y G U A A A U C Y C G C C Y C C U C R Y U R C A C U A G C U G A R G C C G U U U A A U C C U G C G A G U A C G C A R R Y G A C Y A C A A C G U G C G U Y R G C U G A C G Y U A U R Y G U G A U U G A C G U U A U R U U G C G U A U Y C G Y R Y G U A C U U Y R Y ACUU UGU U G U R U G G C Y G U G C C G A G C C G A GCUAAAR C C C C C C C GCUAAAGCACUAAAAA G G G A U U A U A G A A C G A C G U C A C C A R U A A C C G Y U C A U RR C R C C G C G A U U AG Y C G G C U A G C A U C C G G G G G G Y C C G A G A U A G U G ARA A C U U A C A G C U A Y G C A U G C A A C G U A Y G C C A C A U A G C A A R A G C A U AA A A Y C C G U R Y U U U G U G Y G C A G U R U A Y U A C G U R Y A C U U U U U A C C A A G U Y G U G A U G C C U G A U U G G C G R C R C G G A C A U A G CUCCC G U U U U Y U R U U R A A A R C A G C C G R G C A R Y R C C G G R U A GA C G C C R U C U G G U U A G U U U A A U U UGCAU A C G C G A U A G G Y U G Y G A C G A G U Y C G U A C G G U R A Y A G R G G C C G C C R C C U A C A A A C G 5´ UU G G C C A U G C A U A G C R G R G Y C UUAAA A R G C G A U G C C U U A U C G C A U U A U C Y A Y C C C G G Y Y A R G A CG GCC C C C GC G G U A G Y U G U A C G R G C C G G Y A C U G G C G C R C G Y A Y U A U A C Y A A C U G U U G G G U U C G G G A R U A U G U G G G C R U G C C G A Y A U G C Y C A C A G U C C G A U C G C G G U G U G C C C C G G C U A C G U G YC Y G A A U A U C G A U G C A U A Y AR CGC Y C U GYCG G G G G GC G C U A U U R U A G A U G U A G C U A C G U G C C G G C A U Y C G C Y R C G G Y C RY RR U A R C U C G A U U A U Y GCG U A RYU A U A G R U G C C G Y C G U C G A U U G Y A U Y R A U C Y GA A U Y C A U A U C R U U U U U A YY C G A U A A U G U A U G C C G A G C C G G C C G A U R R Y G C U YG R U R U Y RY A Y Y A A G C GA U U U A 5´ A G C U 5´ GA U A G AC A GAUUU U 5´ A AUAAY A Y R 5´ 5´ YY R G RUA 5´ CGYA C 5´ C AAC R UU 5´ A U G AUU UU A C U 5´ Y RG RR R UUU 5´ 5´ R G U U 5´ YURCGUGACGAAGC A UUUU Y 5´ UUG G CG A UR U A UA A A 5´ 5´ 5´ U SAM V sy m R C P E B 3 F in P sr oB m sr SAM a HH 3 V m nt n 3 liv K D sr A CAESAR isr K sr oD isr B 6C r sp L su h B G R C G A Y Y U R R G G G A Y Y A C R R C G A G Y RA Y U Y G U C C C A A UUUUUUUUAUGUC G U C U C C G A G G G U G C U C C C G G A C U C A CGCA U A C G A C G U C G U A C G A CC C G U G G G A A C U U C R R U A U U U Y A U U U C U G G G Y A A U G U A U A U U G A Y C A U U C A U Y Y U Y UUUUUU U Y G CU C U A C U C U U U U G G R Y C U U U U A G G G C G A Y A G R U Y A C U U U G R G G G G G G U C A U A A A U Y U G C C G U A A A A C C R C C U G Y A A A C U C C C C C G G Y R G A U U.

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    31 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us