08/09/2021 1 Overview of Multiple Sequence Alignment Algorithms

08/09/2021 Multiple sequence alignments Multiple Sequence Alignment (MSA) can be seen as a generalization Overview of of a Pairwise Sequence Alignment (PSA). Instead of aligning just two Multiple Sequence Alignment Algorithms sequences, three or more sequences are aligned simultaneously. Yu He MSA is used for: 04/13/2016 • Detection of conserved domains in a group of genes or proteins • Construction of a phylogenetic tree Adapted from the multiple sequence alignment presentations by Mingchao Xie and Julie Thompson • Prediction of a protein structure (e.g., AlphaFold, RoseTTAFold) • Determination of a consensus sequence (e.g., transposons) Last update: 08/09/2021 1 2 Multiple sequence alignments Alignment algorithms Example: part of an alignment of globin from 7 sequences H1 H2 H3 Three types of algorithms: 1. Progressive: Clustal W 2. Iterative: MUSCLE (multiple sequence alignment by log-expectation) 3. Hidden Markov models: HMMER Symbol Meaning * Fully conserved : Conservation between groups of amino acids with strongly similar properties Clustal Omega: Iterative progressive alignment . Conservation between groups of amino acids with weakly similar properties using hidden Markov models Not conserved 3 4 Step 1 : Pairwise alignment of all sequences Step 2 : Distance matrix construction Example : Alignment of 7 globins (Hbb_human, Hbb_horse, Hba_human, No. identical residues Hba_horse, Myg_phyca, Glb5_petma and Lgb2_lupla) Distance between two sequences = 1 - No. aligned residues Hbb_human 1 VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLST ... | |. |||.|| ||| ||| :|||||||||||||||||||||:|||||| Hbb_human 1 - Hbb_horse 2 VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSN ... The alignment can be obtained with: Hbb_horse 2 .17 - Hbb_human 1 LTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFESFGDLST ... • global or local methods |.| :|. | | |||| . | | ||| |: . :| |. :| | ||| Hba_human 3 .59 .60 - Hba_human 3 LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF.DLS. ... • heuristic methods Hba_horse 4 .59 .59 .13 - Hba_human 3 LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF.DLSH ... || :| | | | || | | ||| |: . :| |. :| | |||. Myg_phyca 5 .77 .77 .75 .75 - Hbb_horse 2 LSGEEKAAVLALWDKVNEE..EVGGEALGRLLVVYPWTQRFFDSFGDLSN ... Glb5_petma 6 .81 .82 .73 .74 .80 - Lgb2_lupla 7 .87 .86 .86 .88 .93 .90 - 1 2 3 4 5 6 7 Adapted from Julie Thompson, IGBMC Adapted from Julie Thompson, IGBMC 5 6 1 08/09/2021 Step 3 : Guide tree construction Step 4 : Progressive alignment Guide tree Hbb_human AVTALWGKVNVDEVGGEA Hbb_horse AVTALWGKVNVDEVGGEA AVLALWDKVNEEEVGGEA Hba_human AVLALWDKVNEEEVGGEA AVTALWGKVNV--DEVGGEA Hba_horse AVLALWDKVNE--EEVGGEA NVKAAWGKVGAHAGEYGAEA NVKAAWGKVGAHAGEYGAEA NVKAAWSKVGGHAGEYGAEA Myg_phyca NVKAAWGKVGAHAGEYGAEA NVKAAWSKVGGHAGEYGAEA Glb5_petma NVKAAWSKVGGHAGEYGAEA Lgb2_lupla Hbb_human 1 - The sequences are aligned progressively (global or local algorithm): Hbb_horse 2 .17 - UPGMA clustering method: • alignment of 2 sequences, create profile (consensus) Hba_human 3 .59 .60 - - Join the two closest sequences, create consensus • alignment of 1 sequence and a profile (group of sequences) Hba_horse 4 .59 .59 .13 - Myg_phyca 5 .77 .77 .75 .75 - - Recalculate distances and join the two closest • alignment of 2 profiles (groups of sequences) Glb5_petma 6 .81 .82 .73 .74 .80 - sequences or nodes Lgb2_lupla 7 .87 .86 .86 .88 .93 .90 - - Step 2 is repeated until all sequences are joined 1 2 3 4 5 6 7 Adapted from Julie Thompson, IGBMC Adapted from Julie Thompson, IGBMC 7 8 Iterative alignment Clustal Omega Iterative alignment refines an initial progressive multiple alignment by Navigate to https://www.ebi.ac.uk/Tools/msa/ iteratively dividing the alignment into two profiles and realigning them. final alignment divide sequences pairwise profile Into two groups alignment yes profile 1 initial refined converged? alignment alignment profile 2 no Adapted from Julie Thompson, IGBMC 9 10 Clustal Omega: setting up Drosophila eyeless protein sequences >Dmel MMLTTEHIMHGHPHSSVGQSTLFGCSTAGHSGINQLGGVYVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSNGCVSKILGRYYETGSIKPRAIGGSKPRVATTPVVQKIA DYKRECPSIFAWEIRDRLLSEQVCNSDNIPSVSSINRVLRNLASQKEQQAQQQNESVYEKLRMFNGQTGGWAWYPSNTTTAHLTLPPAASVVTSPANLSGQADRDDVQK RELQFSVEVSHTNSHDSTSDGNSEHNSSGDEDSQMRLRLKRKLQRNRTSFSNEQIDSLEKEFERTHYPDVFARERLADKIGLPEARIQVWFSNRRAKWRREEKMRTQRRSA DTVDGSGRTSTANNPSGTTASSSVATSNNSTPGIVNSAINVAERTSSALVSNSLPEASNGPTVLGGEANTTHTSSESPPLQPAAPRLPLNSGFNTMYSSIPQPIATMAENYNS SLGSMTPSCLQQRDAYPYMFHDPLSLGSPYVSAHHRNTACNPSAAHQQPPQHGVYTNSSPMPSSNTGVISAGVSVPVQISTQNVSDLTGSNYWPRLQ Select sequence type >Dgri MMLTTEHIMHGHPHSSVGVGMGQSALFGCSTAGHSGINQLGGVYVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSNGCVSKILGRYYETGSIKPRAIGGSKPRVATTPV VQKIADYKRECPSIFAWEIRDRLLSEQVCNSDNIPSVSSINRVLRNLASQKEQQAQQQNESVYEKLRMFNGQTGGWAWYPGNTTTAHLALPPTPTAVPTNLSGQITRDEV QKRDLYPGDLSHPNSHESTSDGNSDHNSSGDEDSQMRLRLKRKLQRNRTSFTNEQIDSLEKEFERTHYPDVFARERLAEKIGLPEARIQVWFSNRRAKWRREEKLRTQRRSV DNVGGTSGRTSTNNPSGSSVPTNATTANNSTSGIGTSAGSEGASTVHAGNNNPNETSNGPTILGGDASNVHSNSDSPPLQAVAPRLPLNTGFNTMYSSIPQPIATMAENY NSMTQSLSSMTPTCLQQRDSYPYMFHDPLSLGSPYAAHPRNTACNPAAAHQQPPQHGVYGNGSAVGTANTGVISAGVSVPVQISTQNVSDLTGSNYWPRLQ Paste sequences into this box (you can also upload a file) >Dwil MMLTTEHIMHGHPHSSGMGQSALFGCSTAGHSGINQLGGVYVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSNGCVSKILGRYYETGSIKPRAIGGSKPRVATTPVVQK IADYKRECPSIFAWEIRDRLLSEQVCNSDNIPSVSSINRVLRNLASQKEQQAQQQNESVYEKLRMFNGQSGGWAWYPSNTTTAHLALPPTPTAVPTPTNLSGQINRDDVQK RDLYPGDVSHPNSHESTSDGNSDHNSSGDEDSQMRLRLKRKLQRNRTSFTNEQIDSLEKEFERTHYPDVFARERLAEKIGLPEARIQVWFSNRRAKWRREEKLRTQRRSVD NVGSSGRTSTNNNPNPSVTSVSTTAAPTGNGTPGLISSAAVNGSEESSSAIVGGNNTLADSPNGPTILGGEANTAHGNSESPPLHAVAPRLPLNTGFNTMYSSIPQPIATMA ENYNSMTSTLGSMTPSCLQQRDSYPYMFHDPLSLGSPYAAHHRNTPCNPSAAHQQPPQHGGVYGNSAAMTSSNTGTGVISAGVSVPVQISTQNVSDLAGSNYWPRLQ >Dere MMLTTEHIMHGHPHSSVGQSTLFGCSTAGHSGINQLGGVYVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSNGCVSKILGRYYETGSIKPRAIGGSKPRVATTPVVQKIA DYKRECPSIFAWEIRDRLLSEQVCNSDNIPSVSSINRVLRNLASQKEQQAQQQNESVYEKLRMFNGQTGGWAWYPSNTTTPHLTLPPAASVVTSPANLSGQANRDDGQK RELQFSVEVSHTNSHDSTSDGNSEHNSSGDEDSQMRLRLKRKLQRNRTSFSNEQIDSLEKEFERTHYPDVFARERLADKIGLPEARIQVWFSNRRAKWRREEKMRTQRRSA DTVDGSGRPSTSNNPSGTTASSSVATSNNSNPGIANSAIIVAERASSALISNSLPDASNGPTVLGGEANATHTSSESPPLQPATPRLPLNSGFNTMYSSIPQPIATMAENYNSS LGSMTPSCLQQRDAYPYMFHDPLSLGSPYVPAHHRNTACNPAAAHQQPPQHGVYTNSSAMPSSNTGVISAGVSVPVQISTQNVSDLTGSNYWPRLQ >Dpse MMLTTEHIMHGHHPHSSVGQSALFGCSTAGHSGINQLGGVYVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSNGCVSKILGRYYETGSIKPRAIGGSKPRVATTPVVQKI ADYKRECPSIFAWEIRDRLLSEQVCNSDNIPSVSSINRVLRNLASQKEQQAQQQNESVYEKLRMFNGQTSGWAWYPSNTTAHLALPPTPTALPTPTNLSGQINRDEVQKRD IYPGDVSHPSHESTSDGNSDHNSSGDEDSQMRLRLKRKLQRNRTSFTNEQIDSLEKEFERTHYPDVFARERLAEKIGLPEARIQVWFSNRRAKWRREEKMRTQRRSADNVG GSSGRASTNNQPSTAASSSVTPSSNSTPGIVSSAGNGIGSEGASSAIISNNTLPDTSNAPTVLGGDANATHTSSESPPLQAVAPRIPLNAGFNAMYSSIPQPIATMAENYNSM TSSLGSMTPTCLQQRDSYPYMFHDPLSLGSPYAPPHHRNAPCNPAAAHQQPPQHGVYGNSSSMTSNTGVISAGVSVPVQISTQNVSDLAGSNYWPRLQ 11 12 2 08/09/2021 Clustal Omega results — alignments Clustal Omega results — phylogenetic tree The cladogram is a type of phylogenetic tree that allows you to visualize the evolutionary relationships among your sequences 13 14 Use Jalview Desktop to visualize the alignment Clustal Omega results — result summary • Download Jalview Desktop: – https://www.jalview.org/getdown/release/ • Copy the link to the Clustal Omega alignment – Chrome: right click (control-click on macOS) ➔ Copy Link Address – Firefox and Safari: right-click ➔ Copy Link 15 16 Open the Clustal Omega alignment in Use Jalview Desktop to color the Clustal Omega Jalview Desktop alignment by percent identity • Select File ➔ Input Alignment ➔ from URL • Paste the URL into the textbox ➔ click “OK” Paste the URL 17 18 3 08/09/2021 Alignment for the Drosophila eyeless protein Alignment for the eyeless protein in a broader range of species Paired box domain Homeodomain 19 20 Conclusions • Clustal Omega uses a modified iterative progressive alignment method and can align over 10,000 sequences quickly and accurately • Clustal Omega is very useful for finding evidence of conserved function in DNA and protein sequences – But remember that sequence similarity does not always imply conserved function! • Clustal Omega can be used to find promoters and other cis-regulatory elements 21 4.

08/09/2021 1 Overview of Multiple Sequence Alignment Algorithms

Sequencing Alignment I Outline: Sequence Alignment

Comparative Analysis of Multiple Sequence Alignment Tools

Chapter 6: Multiple Sequence Alignment Learning Objectives

How to Generate a Publication-Quality Multiple Sequence Alignment (Thomas Weimbs, University of California Santa Barbara, 11/2012)

"Phylogenetic Analysis of Protein Sequence Data Using The

Aligning Reads: Tools and Theory Genome Transcriptome Assembly Mapping Mapping

Alignment of Next-Generation Sequencing Data

Performance Evaluation of Leading Protein Multiple Sequence Alignment Methods

HMMER User's Guide

Apply Parallel Bioinformatics Applications on Linux PC Clusters

HMMER User's Guide

Syntax Highlighting for Computational Biology Artem Babaian1†, Anicet Ebou2, Alyssa Fegen3, Ho Yin (Jeffrey) Kam4, German E