SAM Sequence Alignment/Map Format

Lezione 8 DNA sequencing informatics Il materiale di questa lezione è contenuto nel libro ‘Next-generation DNA sequencing informatics’ Edited by Stuart M Brown Disponibile in biblioteca (CHIOSTRO 572.8633 NEXGDS) History of sequencing informatics • Algorithms for sequencing alignment – Needleman and Wunsch (1970) – Smith-Waterman (1981) • Database searching – FASTA, BLAST • Tools to work with sanger sequencing – STADEN package, DNA sequence assembly programs (ex. Sequencer, Mac vector, PC/Gene..) – Phred/Phrap Phred/Phrap cross_match, consed Sanger sequences from ABI • With funding from the Human Genome Project (HGP) the University of Washington (Seattle) developed a set of bioinformatics tools for processing raw sanger sequences collected by ABI sequencing machines and for assembling overlapping reads into larger contigs • Released ad a C source code suitable for compilation by skilled users on unix-based computers Sanger sequences from ABI PHRED SCORE q = -10 Log10 p PHRED Dove p è la probabilità di errore associata ad ogni base Base calling + quality score Quale sarà il Phred Score di una base chiamata con una probabilità di errore di 1/100 (accuratezza del 99%)? E di una con una p di 1/1000? q = 20 nel primo caso -> minimo considerato accettabile q = 30 nel secondo -> da 30 in su la qualità si considera alta Sanger sequences from ABI Frammenti assemblati in contigs PHRED (Smith-Waterman algorithm+ some concepts from FASTA and BLAST) Base calling + quality score PHRAP CONSED GRAPHICAL EDITOR Sanger sequences from ABI Cosa è rimasto di tutto questo nelle analisi di dati prodotti da sequenziamenti NGS? Analisi di dati NGS: Analytic flow 1. Produzione dei dati grezzi (raw data, reads) dal sequenziatore 2. Allineamento delle reads con un riferimento o tra loro (de novo) 3. Visualizzazione degli allineamenti e identificazione dei polimorfismi (se previsto dal progetto) 4. Interpretazione sulla base delle ipotesi e delle domande biologiche di partenza De novo 1. Raw sequence • Imaging (Illumina, 454, solid) or Ion detection (Ion torrent, Proton) • I dati contengono 3 informazioni fondamentali: – ID (identificatore individuale del campione) – Sequenza – Stima della qualità per ogni base chiamata Formato: FASTQ • FASTQ format formato di testo che include sia la sequenza (in genere nucleotidica) che la qualità di ogni base (score). – Line 1: inizia con il carattere '@' seguito da un identificatore e da una descrizione opzionale (come la linea del titolo nel formato FASTA). – Line 2: raw sequence letters. – Line 3: inizia col carattere '+' che può essere seguito da una descrizione (opzionale). – Line 4: codifica la qualità della sequenza (PHRED SCORE) nella Line 2, deve contenere un numero di simboli pari al numero di lettere in sequenza. @HS2:612:C5A6YACXX:3:2310:11800:31609 2:N:0:GCTGAGA GTTCATCTTGGCAGCTGGTTCCCGTATTTACTGAAGAGTATGTAGCACTTGCGTCGCTCGTGATTGAAAACAGATGGCAGCACGACACGGGCACGGTGCG + ?;?DADDBD?D??CFEG@F?<?FE28?EEGDGGBDD9?*?BDGAAFFI>FFBBFFFFBEE=A=@BDBDDCACCC;AA??@@B@===BB79B<B?>@2<9< 2. Allineamento • In generale la parte più impegnativa dell’analisi dei dati NGS • La scelta dell’algoritmo dipende da che tipo di dato abbiamo: de novo o con sequenza di riferimento? La sequenza di riferimento è vicina evolutivamente? Etc.. Alcuni programmi di allineamento per dati NGS • Burrows Wheeler Transformation (BWT) – based aligners: BWA, Bowtie, SOAP2 – Allineamento di corte sequenze (tipico prodotto di NGS) ad un riferimento – BWA produce un allineamento in SAM format, non chiama i siti polimorfici Formato output di allineamento: SAM sequence alignment/map format De novo • I file SAM sono molto grandi (comunemente decine di Gigabytes) -> si usa comprimerli per salvare spazio • Contiene un titolo (opzionale) e una linea per ogni read con con 11 campi obbligatori http://samtools.github.io/hts-specs/SAMv1.pdf • SAM files sono human-readable text files, i BAM files sono il loro equivalente binario, compresso e più adatto ad essere utilizzato dai programmi di analisi che operano i passaggi successivi. De novo alignment • Non c’è una sequenza di riferimento • Si usano comunemente approcci basati su de Brujin digraphs (capitolo 4 NGS DNA sequencing informatics) • Ci sono diversi softwares, riprenderemo il problema durante la parte pratica http://en.wikibooks.org/wiki/Next_Generation_Sequencing_%28NGS%29/De_novo_assembly#Genome_assembly 3. Visualizzazione degli allineamenti ed eventuale variant calling/genotyping • Spesso per fare queste analisi esistono dei PACCHETTI di programmi che permettono di effettuare molti passaggi come visualizzazione, identificazione delle varianti, esclusione di artefatti • Di seguito vedremo degli esempi, ma l’elenco è ancora lungo SAMtools • Insieme di strumenti per interagire con ed effettuare il post processing di allineamenti di corte sequenze di DNA in formati SAM, BAM e CRAM. Questi files sono generati come output di allineatori di corte reads come BWA. • Include sia strumenti semplici che complessi (variant calling, alignment viewing, sorting, indexing, data extraction, format conversion) Variant calling: Finding sequence variation within and between samples (SNPs, InDel..) GATK (Genome Analysis Toolkit) • Software package sviluppato al Broad Institute per analizzare dati di sequenza high-throughput. Il toolkit offre una vasta gamma di strumenti, principalmete focalizzati sulla scoperta di varianti e sulla genotipizzazione, con grande enfasi alla garanzia della qualità del dato. http://varscan.sourceforge.net/ • Lo useremo nelle esercitazioni pratiche http://www.broadinstitute.org/software/igv/home Java-based stand-alone desktop software del Broad Institute che può visualizzare dati NGs in una varietà di formati (FASTA, FASTQ, SAM, BAM) Facile da installare (c’è una versione anche per iPad!) I genomi di riferimento e le relative annotazioni devono essere installate manualmente Robinson et al. Nature Biotechnology 29, 24–26 (2011) Coverage plot and alignments from paired-end reads for a matched tumor/normal pair. Sequencing was performed on an Illumina GA2 platform and aligned with Maq (http://maq.sourceforge.net/). Alignments are represented as gray polygons with reads mismatching the reference indicated by color. Loci with a large percentage of mismatches relative to the reference are flagged in the coverage plot as color-coded bars. Alignments with unexpected inferred insert sizes are indicated by color. There is evidence for a ~10-kb deletion (removing two exons of AIDA) in the tumor sample not present in the normal. BWA SAM tools GATK https://www.broadinstitute.org/gatk/ .

SAM Sequence Alignment/Map Format

Evidence of Selection at the Ramosa1 Locus During Maize Domestication

DNA Sequencing

New Softwares for Automated Microsatellite Marker Development

A Tool for Detecting Base Mis-Calls in Multiple Sequence Alignments by Semi-Automatic Chromatogram Inspection

A Guide to HIV-1 Reverse Transcriptase and Protease Sequencing for Drug Resistance Studies

Next-Generation DNA Sequencing Informatics, 2Nd Edition

Comparison of DNA Sequence Assembly Algorithms Using Mixed Data Sources

Downloading and Will Run As Stand-Alone Software

Basecalling, Alignment, Assembly and Deconvolution of Sanger

Gap5—Editing the Billion Fragment Sequence Assembly James K

Download from Ftp:/ Matter of Fashion? Nat Rev Genet 2004, 5:63-69

The Staden Package Manual Last Update on 22 October 2002