ENA, Ensembl & Ensembl Genomes

EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 Exploring Sequences and Browsing Genomes: ENA, Ensembl & Ensembl Genomes Bert Overduin, Ph.D. Vertebrate Genomics Team European Bioinformatics Institute (EMBL-EBI) European Molecular Biology Laboratory Wellcome Trust Genome Campus Hinxton Cambridge CB10 1SD United Kingdom EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 EBI Bioinformatics Services EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 Outline • European Nucleotide Archive Introduction 1: Exploring an ENA record • Ensembl & Ensembl Genomes Introduction 2: Browser basics 3: Visualising your own data 4: Variation Effect Predictor (VEP) 5: BioMart EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 Goal To provide a comprehensive record of the world’s nucleotide sequencing information, covering raw sequencing data, sequence assembly information and functional annotation EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 History • 1980: EMBL Data Library (EMBL Heidelberg, Germany) World’s first public database of nucleotide sequences • 1995: EMBL-Bank (EBI Hinxton, UK) • 2003: Trace Archive Capillary Sequencing reads • 2008: Sequence (formerly: Short) Read Archive (SRA) Next Generation Sequencing reads EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 INSDC • International Nucleotide Sequence Database Collaboration • ENA, NCBI GenBank and DNA Data Bank of Japan • Data are submitted to one of the databases • Databases are synchronized on a daily basis • http://www.insdc.org EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 Three-tiered data architecture EMBL-Bank Sequence Read Archive Trace Archive EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 Content EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 Submitting data • Many journals and funders require authors to submit their sequence to an INSDC database prior to publication • Only submit to one INSDC database (ENA, GenBank or DDBJ) • Unique accession numbers are assigned to all submitted data • Submitted data can be made public immediately or kept private until the associated work has been published • Once public, data will be exchanged with NCBI and DDBJ • Data belong to the submitter and can only be updated with submitter consent EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 Submitting data • Preferred: Webin interactive web submission system • Other tools for e.g. genome projects and large sequencing centers • http://www.ebi.ac.uk/ena/about/submit_and_update EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 Retrieving data • ENA Browser • Free text search: ENA homepage, EB-eye • Sequence similarity search: ENA homepage, ENA Sequence Search • Programmatic data access using REST URLs • Formats: FASTA, FASTQ, flat file, HTML, XML • Bulk data download: using FTP or Aspera • http://www.ebi.ac.uk/ena/about/search_and_browse EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 Demo 1 - Exploring an ENA record Background: Task: © Mo Hassan Retrieve and browse the mitochondrial genome of the cave bear (Ursus spelaeus) EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 Help • Data submissions, helpdesk, enquiries [email protected] • Updates, publication notifications [email protected] • EBI Train Online • http://www.ebi.ac.uk/training/online/ EBI Resources Introductory Course Zaragoza, Spain, 17-18 September 2013 Acknowledgements Guy Cochrane, Blaise Alako, Clara Amid, Ana Cerdeño-Tárraga, Iain Cleland, Richard Gibson, Neil Goodgame, Simon Kay, Rasko Leinonen, Xin Liu, Arnaud Oisel, Nima Pakseresht, Sheila Plaister, Rajesh Radhakrishnan, Kethi Reddy, Stephane Riviere, Marc Rossello, Alexander Senf, Nicole Silvester, Petra Ten Hoopen, Dmitriy Smirnov, Ana Toribio, Daniel Vaughan, Vadim Zalunin CTAAAGTTCTGAAAGACCTGTTGCTTTTCACCAGGAAGTTTTACTGGGCATCTCCTGAGCCTAGGCAATAGCTGTAGGGTGACTTCTGGAGCCATCCCCGTTTCCCCGCCCCCCAAAAGAAGCGGAGATTTAACGGG GACGTGCGGCCAGAGCTGGGGAAATGGGCCCGCGAGCCAGGCCGGCGCTTCTCCTCCTGATGCTTTTGCAGACCGCGGTCCTGCAGGGGCGCTTGCTGCGTGAGTCCGAGGGCTGCGGGCGAACTAGGGGCGCGGCG GGGGTGGAAAAATCGAAACTAGCTTTTTCTTTGCGCTTGGGAGTTTGCTAACTTTGGAGGACCTGCTCAACCCTATCCGCAAGCCCCTCTCCCTACTTTCTGCGTCCAGACCCCGTGAGGGAGTGCCTACCACTGAA CTGCAGATAGGGGTCCCTCGCCCCAGGACCTGCCCCCTCCCCCGGCTGTCCCGGCTCTGCGGAGTGACTTTTGGAACCGCCCACTCCCTTCCCCCAACTAGAATGCTTTTAAATAAATCTCGTAGTTCCTCACTTGA GCTGAGCTAAGCCTGGGGCTCCTTGAACCTGGAACTCGGGTTTATTTCCAATGTCAGCTGTGCAGTTTTTTCCCCAGTCATCTCCAAACAGGAAGTTCTTCCCTGAGTGCTTGCCGAGAAGGCTGAGCAAACCCACA GCAGGATCCGCACGGGGTTTCCACCTCAGAACGAATGCGTTGGGCGGTGGGGGCGCGAAAGAGTGGCGTTGGGGATCTGAATTCTTCACCATTCCACCCACTTTTGGTGAGACCTGGGGTGGAGGTCTCTAGGGTGG GAGGCTCCTGAGAGAGGCCTACCTCGGGCCTTTCCCCACTCTTGGCAATTGTTCTTTTGCCTGGAAAATTAAGTATATGTTAGTTTTGAACGTTTGAACTGAACAATTCTCTTTTCGGCTAGGCTTTATTGATTTGC AATGTGCTGTGTAATTAAGAGGCCTCTCTACAAAGTACTGATAATGAACATGTAAGCAATGCACTCACTTCTAAGTTACATTCATATCTGATCTTATTTGATTTTCACTAGGCATAGGGAGGTAGGAGCTAATAATA CGTTTATTTTACTAGAAGTTAACTGGAATTCAGATTATATAACTCTTTTCAGGTTACAAAGAACATAAATAATCTGGTTTTCTGATGTTATTTCAAGTACTACAGCTGCTTCTAATCTTAGTTGACAGTGATTTTGC CCTGTAGTGTAGCACAGTGTTCTGTGGCACACGCCGGCCTCAGCACAGCACTTTGAGTTTTGGTACTACGTGTATCCACATTTTACACATGACAAGAATGAGGCATGGCACGGCCTGCTTCCTGGCAAATTTATTCA ATGGTACATGGGCTTTGGTGGCAGAGCTCATGTCTCCACTTCATAGCTATGATTCTTAAACATCACACTGCATTAGAGGTTGAATAATAAAATTTCATGTTGAGCAGAAATATTCATTGTTTACAAGTGTAAATGAG TCCCAGCCATGTGTTGCACTGTTCAAGCCCCAAGGGAGAGAGCAGGGAAACAAGTCTTTACCCTTTGATATTTTGCATTCTAGTGGGAGAGATGACAATAAGCAAATGAGCAGAAAGATATACAACATCAGGAAATC ATGGGTGTTGTGAGAAGCAGAGAAGTCAGGGCAAGTCACTCTGGGGCTGACACTTGAGCAGAGACATGAAGGAAATAAGAATGATATTGACTGGGAGCAGTATTTCCCAGGCAAACTGAGTGGGCCTGGCAAGTTGG ATTAAAAAGCGGGTTTTCTCAGCACTACTCATGTGTGTGTGTGTGGGGGGGGGGGGCGGCGTGGGGGTGGGAAGGGGGACTACCATCTGCATGTAGGATGTCTAGCAGTATCCTGTCCTCCCTACTCACTAGGTGCT AGGAGCACTCCCCCAGTCTTGACAACCAAAAATGTCTCTAAACTTTGCCACATGTCACCTAGTAGACAAACTCCTGGTTAAGAAGCTCGGGTTGAAAAAAATAAACAAGTAGTGCTGGGGAGTAGAGGCCAAGAAGT AGGTAATGGGCTCAGAAGAGGAGCCACAAACAAGGTTGTGCAGGCGCCTGTAGGCTGTGGTGTGAATTCTAGCCAAGGAGTAACAGTGATCTGTCACAGGCTTTTAAAAGATTGCTCTGGCTGCTATGTGGAAAGCA GAATGAAGGGAGCAACAGTAAAAGCAGGGAGCCCAGCCAGGAAGCTGTTACACAGTCCAGGCAAGAGGTAGTGGAGTGGGCTGGGTGGGAACAGAAAAGGGAGTGACAAACCATTGTCTCCTGAATATATTCTGAAG GAAGTTGCTGAAGGATTCTATGTTGTGTGAGAGAAAGAGAAGAATTGGCTGGGTGTAGTAGCTCATGCCAAGGAGGAGGCCAAGGAGAGCAGATTCCTGAGCTCAGGAGTTCAAGACCAGCCTGGGCAACACAGCAA AACCCCTTCTCTACAAAAAATACAAAAATTAGCTGGGTGTGGTGGCATGCACCTGTGATCCTAGCTACTCGGGAGGCTGAGGTGGAGGGTATTGCTTGAGCCCAGGAAGTTGAGGCTGCAGTGAGCCATGACTGTGC CACTGTACTTCAGCCTAGGTGACAGAGCAAGACCCTGTCTCCCCTGACCCCCTGAAAAAGAGAAGAGTTAAAGTTGACTTTGTTCTTTATTTTAATTTTATTGGCCTGAGCAGTGGGGTAATTGGCAATGCCATTTC TGAGATGGTGAAGGCAGAGGAAAGAGCAGTTTGGGGTAAATCAAGGATCTGCATTTGGACATGTTAAGTTTGAGATTCCAGTCAGGCTTCCAAGTGGTGAGGCCACATAGGCAGTTCAGTGTAAGAATTCAGGACCA AGGCTGGGCACGGTGGCTCACTTCTGTAATCCCAGCACTTTGGTGGCTGAGGCAGGTAGATCATTTGAGGTCAGGAGTTTGAGACAAGCTTGGCCAACATGGTGAAACCCCATGTCTACTAAAAATACAAAAATTAG CCTGGTGTGGTGGCGCACGCCTATAGTCCCAGGTTTTCAGGAGGCTTAGGTAGGAGAATCCCTTGAACCCAGGAGGTGCAGGTTGCAGTGAGCTGAGATTGTGCCACTGCACTCCAGCCTGGGTGATAGAGTGAGAC TCTGTCTCAAAAAAAAAAAAAAAAAAAAAAAAAAAAACTGAAGGAATTATTCCTCAGGATTTGGGTCTAATTTGCCCTGAGCACCAACTCCTGAGTTCAACTACCATGGCTAGACACACCTTAACATTTTCTAGAAT CCACCAGCTTTAGTGGAGTCTGTCTAATCATGAGTATTGGAATAGGATCTGGGGGCAGTGAGGGGGTGGCAGCCACGTGTGGCAGAGAAAAGCACACAAGGAAAGAGCACCCAGGACTGTCATATGGAAGAAAGACA GGACTGCAACTCACCCTTCACAAAATGAGGACCAGACACAGCTGATGGTATGAGTTGATGCAGGTGTGTGGAGCCTCAACATCCTGCTCCCCTCCTACTACACATGGTTAAGGCCTGTTGCTCTGTCTCCAGGTTCA CACTCTCTGCACTACCTCTTCATGGGTGCCTCAGAGCAGGACCTTGGTCTTTCCTTGTTTGAAGCTTTGGGCTACGTGGATGACCAGCTGTTCGTGTTCTATGATCATGAGAGTCGCCGTGTGGAGCCCCGAACTCC ATGGGTTTCCAGTAGAATTTCAAGCCAGATGTGGCTGCAGCTGAGTCAGAGTCTGAAAGGGTGGGATCACATGTTCACTGTTGACTTCTGGACTATTATGGAAAATCACAACCACAGCAAGGGTATGTGGAGAGGGG GCCTCACCTTCCTGAGGTTGTCAGAGCTTTTCATCTTTTCATGCATCTTGAAGGAAACAGCTGGAAGTCTGAGGTCTTGTGGGAGCAGGGAAGAGGGAAGGAATTTGCTTCCTGAGATCATTTGGTCCTTGGGATGG TGGAAATAGGGACCTATTCCTTTGGTTGCAGTTAACAAGGCTGGGGATTTTTCCAGAGTCCCACACCCTGCAGGTCATCCTGGGCTGTGAAATGCAAGAAGACAACAGTACCGAGGGCTACTGGAAGTACGGGTATG ATGGGCAGGACCACCTTGAATTCTGCCCTGACACACTGGATTGGAGAGCAGCAGAACCCAGGGCCTGGCCCACCAAGCTGGAGTGGGAAAGGCACAAGATTCGGGCCAGGCAGAACAGGGCCTACCTGGAGAGGGAC TGCCCTGCACAGCTGCAGCAGTTGCTGGAGCTGGGGAGAGGTGTTTTGGACCAACAAGGTATGGTGGAAACACACTTCTGCCCCTATACTCTAGTGGCAGAGTGGAGGAGGTTGCAGGGCACGGAATCCCTGGTTGG AGTTTCAGAGGTGGCTGAGGCTGTGTGCCTCTCCAAATTCTGGGAAGGGACTTTCTCAATCCTAGAGTCTCTACCTTATAATTGAGATGTATGAGACAGCCACAAGTCATGGGTTTAATTTCTTTTCTCCATGCATA TGGCTCAAAGGGAAGTGTCTATGGCCCTTGCTTTTTATTTAACCAATAATCTTTTGTATATTTATACCTGTTAAAAATTCAGAAATGTCAAGGCCGGGCACGGTGGCTCACCCCTGTAATCCCAGCACTTTGGGAGG CCGAGGCGGGTGGTCACAAGGTCAGGAGTTTGAGACCAGCCTGACCAACATGGTGAAACCCGTCTCTAAAAAAATACAAAAATTAGCTGGTCACAGTCATGCGCACCTGTAGTCCCAGCTAATTGGAAGGCTGAGGC AGGAGCATCGCTTGAACCTGGGAAGCGGAAGTTGCACTGAGCCAAGATCGCGCCACTGCACTCCAGCCTAGGCAGCAGAGTGAGACTCCATCTTAAAAAAAAAAAAAAAAAAAAAAAGAGAATTCAGAGATCTCAGC TATCATATGAATACCAGGACAAAATATCAAGTGAGGCCACTTATCAGAGTAGAAGAATCCTTTAGGTTAAAAGTTTCTTTCATAGAACATAGCAATAATCACTGAAGCTACCTATCTTACAAGTCCGCTTCTTATAA CAATGCCTCCTAGGTTGACCCAGGTGAAACTGACCATCTGTATTCAATCATTTTCAATGCACATAAAGGGCAATTTTATCTATCAGAACAAAGAACATGGGTAACAGATATGTATATTTACATGTGAGGAGAACAAG CTGATCTGACTGCTCTCCAAGTGACACTGTGTTAGAGTCCAATCTTAGGACACAAAATGGTGTCTCTCCTGTAGCTTGTTTTTTTCTGAAAAGGGTATTTCCTTCCTCCAACCTATAGAAGGAAGTGAAAGTTCCAG TCTTCCTGGCAAGGGTAAACAGATCCCCTCTCCTCATCCTTCCTCTTTCCTGTCAAGTGCCTCCTTTGGTGAAGGTGACACATCATGTGACCTCTTCAGTGACCACTCTACGGTGTCGGGCCTTGAACTACTACCCC CAGAACATCACCATGAAGTGGCTGAAGGATAAGCAGCCAATGGATGCCAAGGAGTTCGAACCTAAAGACGTATTGCCCAATGGGGATGGGACCTACCAGGGCTGGATAACCTTGGCTGTACCCCCTGGGGAAGAGCA

ENA, Ensembl & Ensembl Genomes

Ensembl Genomes: Extending Ensembl Across the Taxonomic Space P

Abstracts Genome 10K & Genome Science 29 Aug - 1 Sept 2017 Norwich Research Park, Norwich, Uk

The ELIXIR Core Data Resources: Fundamental Infrastructure for The

Whole Genome Sequencing Data of Multiple Individuals of Pakistani

Annual Scientific Report 2013 on the Cover Structure 3Fof in the Protein Data Bank, Determined by Laponogov, I

Genomic Data Standards Resources and Initiatives Cited in the Supplemental Information to the Genomic Data Sharing Policy

Strategic Plan 2011-2016

Comparative Analysis of Pacbio and Oxford Nanopore Sequencing Technologies for Transcriptomic Landscape Identiﬁcation of Penaeus Monodon

Globalfungi, a Global Database of Fungal Occurrences from High

Browsing Genomes with Ensembl Annotation

The Genomic Basis of Circadian and Circalunar Timing Adaptations in a Midge Tobias S

ALEXA: a Microarray Design Platform for Alternative Expression Analysis