SAM Sequence Alignment/Map Format

SAM Sequence Alignment/Map Format

Lezione 8 DNA sequencing informatics Il materiale di questa lezione è contenuto nel libro ‘Next-generation DNA sequencing informatics’ Edited by Stuart M Brown Disponibile in biblioteca (CHIOSTRO 572.8633 NEXGDS) History of sequencing informatics • Algorithms for sequencing alignment – Needleman and Wunsch (1970) – Smith-Waterman (1981) • Database searching – FASTA, BLAST • Tools to work with sanger sequencing – STADEN package, DNA sequence assembly programs (ex. Sequencer, Mac vector, PC/Gene..) – Phred/Phrap Phred/Phrap cross_match, consed Sanger sequences from ABI • With funding from the Human Genome Project (HGP) the University of Washington (Seattle) developed a set of bioinformatics tools for processing raw sanger sequences collected by ABI sequencing machines and for assembling overlapping reads into larger contigs • Released ad a C source code suitable for compilation by skilled users on unix-based computers Sanger sequences from ABI PHRED SCORE q = -10 Log10 p PHRED Dove p è la probabilità di errore associata ad ogni base Base calling + quality score Quale sarà il Phred Score di una base chiamata con una probabilità di errore di 1/100 (accuratezza del 99%)? E di una con una p di 1/1000? q = 20 nel primo caso -> minimo considerato accettabile q = 30 nel secondo -> da 30 in su la qualità si considera alta Sanger sequences from ABI Frammenti assemblati in contigs PHRED (Smith-Waterman algorithm+ some concepts from FASTA and BLAST) Base calling + quality score PHRAP CONSED GRAPHICAL EDITOR Sanger sequences from ABI Cosa è rimasto di tutto questo nelle analisi di dati prodotti da sequenziamenti NGS? Analisi di dati NGS: Analytic flow 1. Produzione dei dati grezzi (raw data, reads) dal sequenziatore 2. Allineamento delle reads con un riferimento o tra loro (de novo) 3. Visualizzazione degli allineamenti e identificazione dei polimorfismi (se previsto dal progetto) 4. Interpretazione sulla base delle ipotesi e delle domande biologiche di partenza De novo 1. Raw sequence • Imaging (Illumina, 454, solid) or Ion detection (Ion torrent, Proton) • I dati contengono 3 informazioni fondamentali: – ID (identificatore individuale del campione) – Sequenza – Stima della qualità per ogni base chiamata Formato: FASTQ • FASTQ format formato di testo che include sia la sequenza (in genere nucleotidica) che la qualità di ogni base (score). – Line 1: inizia con il carattere '@' seguito da un identificatore e da una descrizione opzionale (come la linea del titolo nel formato FASTA). – Line 2: raw sequence letters. – Line 3: inizia col carattere '+' che può essere seguito da una descrizione (opzionale). – Line 4: codifica la qualità della sequenza (PHRED SCORE) nella Line 2, deve contenere un numero di simboli pari al numero di lettere in sequenza. @HS2:612:C5A6YACXX:3:2310:11800:31609 2:N:0:GCTGAGA GTTCATCTTGGCAGCTGGTTCCCGTATTTACTGAAGAGTATGTAGCACTTGCGTCGCTCGTGATTGAAAACAGATGGCAGCACGACACGGGCACGGTGCG + ?;?DADDBD?D??CFEG@F?<?FE28?EEGDGGBDD9?*?BDGAAFFI>FFBBFFFFBEE=A=@BDBDDCACCC;AA??@@B@===BB79B<B?>@2<9< 2. Allineamento • In generale la parte più impegnativa dell’analisi dei dati NGS • La scelta dell’algoritmo dipende da che tipo di dato abbiamo: de novo o con sequenza di riferimento? La sequenza di riferimento è vicina evolutivamente? Etc.. Alcuni programmi di allineamento per dati NGS • Burrows Wheeler Transformation (BWT) – based aligners: BWA, Bowtie, SOAP2 – Allineamento di corte sequenze (tipico prodotto di NGS) ad un riferimento – BWA produce un allineamento in SAM format, non chiama i siti polimorfici Formato output di allineamento: SAM sequence alignment/map format De novo • I file SAM sono molto grandi (comunemente decine di Gigabytes) -> si usa comprimerli per salvare spazio • Contiene un titolo (opzionale) e una linea per ogni read con con 11 campi obbligatori http://samtools.github.io/hts-specs/SAMv1.pdf • SAM files sono human-readable text files, i BAM files sono il loro equivalente binario, compresso e più adatto ad essere utilizzato dai programmi di analisi che operano i passaggi successivi. De novo alignment • Non c’è una sequenza di riferimento • Si usano comunemente approcci basati su de Brujin digraphs (capitolo 4 NGS DNA sequencing informatics) • Ci sono diversi softwares, riprenderemo il problema durante la parte pratica http://en.wikibooks.org/wiki/Next_Generation_Sequencing_%28NGS%29/De_novo_assembly#Genome_assembly 3. Visualizzazione degli allineamenti ed eventuale variant calling/genotyping • Spesso per fare queste analisi esistono dei PACCHETTI di programmi che permettono di effettuare molti passaggi come visualizzazione, identificazione delle varianti, esclusione di artefatti • Di seguito vedremo degli esempi, ma l’elenco è ancora lungo SAMtools • Insieme di strumenti per interagire con ed effettuare il post processing di allineamenti di corte sequenze di DNA in formati SAM, BAM e CRAM. Questi files sono generati come output di allineatori di corte reads come BWA. • Include sia strumenti semplici che complessi (variant calling, alignment viewing, sorting, indexing, data extraction, format conversion) Variant calling: Finding sequence variation within and between samples (SNPs, InDel..) GATK (Genome Analysis Toolkit) • Software package sviluppato al Broad Institute per analizzare dati di sequenza high-throughput. Il toolkit offre una vasta gamma di strumenti, principalmete focalizzati sulla scoperta di varianti e sulla genotipizzazione, con grande enfasi alla garanzia della qualità del dato. http://varscan.sourceforge.net/ • Lo useremo nelle esercitazioni pratiche http://www.broadinstitute.org/software/igv/home Java-based stand-alone desktop software del Broad Institute che può visualizzare dati NGs in una varietà di formati (FASTA, FASTQ, SAM, BAM) Facile da installare (c’è una versione anche per iPad!) I genomi di riferimento e le relative annotazioni devono essere installate manualmente Robinson et al. Nature Biotechnology 29, 24–26 (2011) Coverage plot and alignments from paired-end reads for a matched tumor/normal pair. Sequencing was performed on an Illumina GA2 platform and aligned with Maq (http://maq.sourceforge.net/). Alignments are represented as gray polygons with reads mismatching the reference indicated by color. Loci with a large percentage of mismatches relative to the reference are flagged in the coverage plot as color-coded bars. Alignments with unexpected inferred insert sizes are indicated by color. There is evidence for a ~10-kb deletion (removing two exons of AIDA) in the tumor sample not present in the normal. BWA SAM tools GATK https://www.broadinstitute.org/gatk/ .

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    30 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us