Matrizes BLOSUM

29/08/2019

AULA 4

Alinhamento de pares de sequências

1. Aminoácidos 2. Homologia, Identidade, similaridade, etc. 3. O que são alinhamentos de pares de sequências 4. Gaps, indels, etc. 5. Pontuação de alinhamentos e matrizes 6. Alinhamento locais x alinhamentos globais 7. Algoritmos de alinhamento: Needleman- Wunsch & Smith-Waterman 2

1 29/08/2019

Margaret Oakley Dayhoff (1925-1983)

1950 •Pioneira no uso de computadores em química e biologia

•Introduziu o código de uma letra para aminoácidos

•É considerada hoje em dia como 1972 a fundadora do campo da Bioinformática

• Mais informações em: https://www.whatisbiotechnology. org/index.php/people/summary/D ayhoff 3

Os Dayhoff’s (1959)

Edward Margaret

Judith Ruth 4

2 29/08/2019

Artigo de Dayhoff na Scientific American de julho de 1969

3 29/08/2019

Alinhamento de sequências nos anos 1950

Corticotropina b (sheep) ala gly glu asp asp glu Corticotropina A (pig) asp gly ala glu asp glu

Oxytocin CYIQNCPLG Vasopressin CYFQNCPRG

Alinhamento de pares de sequências é a operação mais fundamental em bioinformática

• É utilizado para decidir se duas proteínas (ou genes) estão relacionados estruturalmente ou funcionalmente

• É utilizado para identificar domínios ou motivos que são compartilhados entre proteínas

• É a base para a pesquisa por BLAST (próxima semana)

• É utilizado para análise de genomas

4 29/08/2019

Alinhamento de pares: sequências de proteína podem ser mais informativas do que DNA

• proteína é mais informativa (20 x 4 caracteres); muitos aminoácidos compartilham propriedades biofísicas relacionadas.

• codons são degenerados: mudanças na terceira posição geralmente não alteram o aminácido especificado

• sequências de aminoácidos geralmente oferecem uma "visão do passado" mais distante

• sequências de nucleotídeos podem ser traduzidas em proteína, e então utilizadas para alinhamento de pares

Estrutura dos 20 principais aminoácidos

5 29/08/2019

CÓDIGO DE UMA LETRA Primeira letra do nome é única:

Aminoácido Código de 3 letras Código de uma letra explicação Cysteine Cys C Primeira letra do nome Histidine His H Primeira letra do nome Isoleucine Ile I Primeira letra do nome Methionine Met M Primeira letra do nome Serine Ser S Primeira letra do nome Valine Val V Primeira letra do nome

Primeira letra do nome não é única:

Aminoácido Código de 3 letras Código de uma letra explicação Alanine Ala A Primeira letra do nome Glycine Gly G Primeira letra do nome Leucine Leu L Primeira letra do nome Proline Pro P Primeira letra do nome Threonine Thr T Primeira letra do nome

Foneticamente sugestivos (em inglês)

Aminoácido Código de 3 letras Código de uma letra explicação Arginine Arg R aRginine Phenylalanine Phe F Fenylalanine Tyrosine Tyr Y tYrosine Tryptophan Trp W tWiptophane (ou contêm duplo anel -> double u)

Conexões fáceis de lembrar

Aminoácido Código de 3 letras Código de uma letra explicação Aspartic Acid Asp D asparDic Asparagine Asn N Contains N (or asparagiN) Glutamic Acid Glu E gluE (or glumamEke) Glutamine Gln Q Q-tamine

6 29/08/2019

Usando a ferramenta exploradora de aminoácidos do NCBI:

https://bit.ly/2L2ECZG

• Selecione a tabela Propriedades bioquímicas. • Qual aminoácido é mais abundante? Use esta tabela para verificar se você conhece as abreviações de uma e três letras para todos os 20 aminoácidos, bem como suas estruturas. • A tirosina é um aminoácido hidrofóbico? Para decidir, use a tabela Substituições Comuns. • Explore a valina (um resíduo hidrofóbico), classifique os resultados por hidrofobicidade e veja onde a tirosina está localizada. Você também pode explorar a tabela Estrutura e Química.

Kahoot https://kahoot.it

7 29/08/2019

Definições

Homologia Semelhança atribuída à descendência de um ancestral comum.

Definições

Homologia Semelhança atribuída à descendência de um ancestral comum. Identidade Número de posições invariáveis em duas sequências (de nucleotídeos ou aminoácidos) alinhadas.

RBP: 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVA 59 + K++ + ++ GTW++MA + L + A glicodelina: 23 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKA 55

8 29/08/2019

Definições

Homologia

É uma inferência. sequências são homólogas ou não

Identidade ou similaridade São quantidades. Descrevem o grau de relacionamento entre as sequências

Definições

Similaridade [semelhança] Número de posições pelas quais se relacionam sequências de nucleotídeos ou aminoácidos. Está baseada na identidade e conservação.

Identidade Número de posições invariáveis em duas sequências alinhadas.

Conservação Mudanças numa posição específica de uma sequência de aminoácidos (ou menos comumente, nucleotídeos) que preservam as propriedades fisico-químicas do resíduo original.

9 29/08/2019

Definições: dois tipos de homologia

Ortólogas sequências homólogas em diferentes espécies que surgem de um gene ancestral comum durante a especiação; podem ou não ter função semelhante. Parálogas sequências homólogas dentro de uma única espécie, que surgem por duplicação gênica.

Genes de globina em vertebrados

homólogos

ortólogos ortólogos parálogos

sapo a galo a camund. a camund. b galo b sapo b

gene cadeia a gene cadeia b

duplicação gênica

gene ancestral da globina

10 29/08/2019

Definições

Alinhamento de pares O processo de alinhar duas ou mais sequências para obter os níveis de identidade máxima (e conservação, no caso de sequências de aminoácidos) com o objetivo de calcular o grau de similaridade e a possibilidade de homologia.

Alinhamento de pares: sequências de proteína podem ser mais informativas do que DNA

• Em muitos casos, alinhamentos de DNA são apropriados --para confirmar a identidade de um cDNA --para estudar regiões não codificantes do DNA --para estudar polimorfismos de DNA --exemplo: DNA de Neanderthal x DNA humano moderno

Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 |||||||| |||| |||||| ||||| | ||||||||||||||||||||||||||||||| Sbjct: 189 catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247

11 29/08/2019

Como alinhar essas duas sequências?

RBP de Homo sapiens (199 aminoácidos; número de acesso NP_006735) 1 MKWVWALLLL AAWAAAERDC RVSSFRVKEN FDKARFSGTW YAMAKKDPEG LFLQDNIVAE 61 FSVDETGQMS ATAKGRVRLL NNWDVCADMV GTFTDTEDPA KFKMKYWGVA SFLQKGNDDH 121 WIVDTDYDTY AVQYSCRLLN LDGTCADSYS FVFSRDPNGL PPEAQKIVRQ RQEELCLARQ 181 YRLIVHNGYC DGRSERNLL

b-lactoglobulina de Bos Taurus (178 aminoácidos; número de acesso P02754) 1 MKCLLLALAL TCGAQALIVT QTMKGLDIQK VAGTWYSLAM AASDISLLDA QSAPLRVYVE 61 ELKPTPEGDL EILLQKWENG ECAQKKIIAE KTKIPAVFKI DALNENKVLV LDTDYKKYLL 121 FCMENSAEPE QSLACQCLVR TPEVDDEALE KFDKALKALP MHIRLSFNPT QLEEQCHI

Alinhamento de pares de RBP e b-lactoglobulina

1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulina

51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulina

98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...... QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL...... VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulina

137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI...... 178 lactoglobulina

12 29/08/2019

Gaps (= Indels)

• Posições nas quais uma letra pareia com nada são chamadas de "gaps".

• O valor em pontos dos “gaps” é geralmente negativo.

• Uma vez que um único evento mutacional pode causar a inserção ou deleção de mais de um resíduo, é atribuída mais significância à presença de um "gap" do que ao comprimento dele.

• No BLAST, raramente é necessário mudar os valores dos "gaps" e usa-se o "default".

Alinhamento de pares de RBP e b-lactoglobulina

1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulina

51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulina

98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...... QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL...... VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulina

137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI...... 178 lactoglobulina

Gap Gap Interno Terminal 26

13 29/08/2019

Abordagem geral ao alinhamento por pares

• Escolha duas sequências • Selecione um algoritmo que gere pontos ("score") • Permita "gaps" (inserções, deleções) • Os pontos refletem o grau de similaridade • Alinhamentos podem ser globais ou locais • Estime a probabilidade de que o alinhamento ocorra por acaso

É necessário um sistema de pontuação de alinhamento para avaliar a qualidade do alinhamento

• são atribuídos valores positivos e negativos

• criação de gaps e penalidades de extensão

• pontuação positiva para identidades

• alguma pontuação positiva parcial para substituições conservadas

• alinhamento global x local

• uso de uma matriz de substituição 28

14 29/08/2019

Cálculo do "score“ (pontuação) de um alinhamento

29 Fonte: http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Alignment_Scores2.html 29

Definição de PAM

Margaret Oakley Dayhoff e colaboradores introduziram o termo "accepted point mutation" para uma mutação que está fixada estavelmente num conjunto de genes durante a evolução. Portanto, uma medida da distância evolutiva entre duas sequências pode ser definida:

15 29/08/2019

Definição de PAM

= uma PAM (Percent accepted mutation) é uma "accepted point mutation“, separando duas sequências, para cada 100 resíduos.

Números de Dayhoff de "accepted point mutations": que substituições de aminoácidos ocorrem em proteínas?

16 29/08/2019

Alinhamento de múltiplas sequências de gliceraldeído 3-fosfato desidrogenases

mosca GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA humano GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA planta GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA bactéria GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA levedura GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA árquea GADKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA

mosca VINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST humano VIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST planta VVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST bactéria VINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST levedura VINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST árquea VLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST

mosca GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK humano GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV planta GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA bactéria GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA levedura GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV árquea GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA

Mutabilidade relativa dos aminoácidos

[N]Asn 134 [H]His 66 [S]Ser 120 [R]Arg 65 [D]Asp 106 [K]Lys 56 [E]Glu 102 [P]Pro 56 [A]Ala 100 [G]Gly 49 [T]Thr 97 [Y]Tyr 41 [I]Ile 96 [F]Phe 41 [M]Met 94 [L]Leu 40 [Q]Gln 93 [C]Cys 20 [V]Val 74 [T]Trp 18

17 29/08/2019

Frequência normalizada dos aminoácidos

Gly 8.9% Arg 4.1% Ala 8.7% Asn 4.0% Leu 8.5% Phe 4.0% Lys 8.1% Gln 3.8% Ser 7.0% Ile 3.7% Val 6.5% His 3.4% Thr 5.8% Cys 3.3% Pro 5.1% Tyr 3.0% Glu 5.0% Met 1.5% Asp 4.7% Trp 1.0% Azul=6 codons; vermelho=1 codon Se todos estivessem igualmente representados nas proteínas, todos teriam a mesma frequência (5%) 35

Matriz de Substituição

Uma matriz de substituição contem valores proporcionais à probabilidade que o aminoácido i sofra mutação para o aminoácido j para todos os pares de aminoácidos

Matrizes de substituição são construídas pela reunião de uma grande quantidade de diversos alinhamentos por pares verificados (ou alinhamentos de múltiplas sequências) de proteínas.

Matrizes de substituição deveriam refletir as verdadeiras probabilidades das mutações que ocorrem num período de evolução.

Os dois principais tipos de matrizes de substituição são PAM e BLOSUM. 36

18 29/08/2019

Valores de "accepted point mutations" de Dayhoff: que substituições de aminoácidos ocorrem em proteínas?

A R N D C Q E G Ala Arg Asn Asp Cys Gln Glu Gly A R 30 N 109 17 D 154 0 532 C 33 10 0 0 Q 93 120 50 76 0 E 266 0 94 831 0 422 G 579 10 156 162 10 30 112 H 21 103 226 43 10 243 23 10 37

Matrizes PAM: "Point-accepted mutations"

Matrizes PAM são baseadas em alinhamentos globais de proteínas muito relacionadas.

PAM1 é a matriz calculada de comparações de sequências com divergência inferior a 1%.

Outras matrizes PAM são extrapoladas de PAM1

Todos os dados PAM vêm de proteínas muito relacionadas (>85% de identidade de aminoácidos)

19 29/08/2019

Matriz PAM1 de Dayhoff de probabilidade de mutação

Aminoácido original

Cada elemento da matriz mostra a probabilidade (em % x 100) de que um aminoácido original (topo) seja substituído por um outro aminoácido (lado), multiplicada por 100. 39

Matriz de probabilidade de mutação PAM0 de Dayhoff: As regras para proteínas que evoluem muito devagar

PAM0 A R N D C Q E G Ala Arg Asn Asp Cys Gln Glu Gly A 100% 0% 0% 0% 0% 0% 0% 0% R 0% 100% 0% 0% 0% 0% 0% 0% N 0% 0% 100% 0% 0% 0% 0% 0% D 0% 0% 0% 100% 0% 0% 0% 0% C 0% 0% 0% 0% 100% 0% 0% 0% Q 0% 0% 0% 0% 0% 100% 0% 0% E 0% 0% 0% 0% 0% 0% 100% 0% G 0% 0% 0% 0% 0% 0% 0% 100%

Topo: aminoácido original Lado: aminoácido substituído 40

20 29/08/2019

Matriz de probabilidade de mutação PAM de Dayhoff: As regras para proteínas muito distantes

A R N D C Q E G PAM Ala Arg Asn Asp Cys Gln Glu Gly A 8.7% 8.7% 8.7% 8.7% 8.7% 8.7% 8.7% 8.7% R 4.1% 4.1% 4.1% 4.1% 4.1% 4.1% 4.1% 4.1% N 4.0% 4.0% 4.0% 4.0% 4.0% 4.0% 4.0% 4.0% D 4.7% 4.7% 4.7% 4.7% 4.7% 4.7% 4.7% 4.7% C 3.3% 3.3% 3.3% 3.3% 3.3% 3.3% 3.3% 3.3% Q 3.8% 3.8% 3.8% 3.8% 3.8% 3.8% 3.8% 3.8% E 5.0% 5.0% 5.0% 5.0% 5.0% 5.0% 5.0% 5.0% G 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9%

Topo: aminoácido original Lado: aminoácido substituído 41

Matriz de probabilidade de mutação PAM250

A R N D C Q E G H I L K M F P S T W Y V A 13 6 9 9 5 8 9 12 6 8 6 7 7 4 11 11 11 2 4 9 R 3 17 4 3 2 5 3 2 6 3 2 9 4 1 4 4 3 7 2 2 N 4 4 6 7 2 5 6 4 6 3 2 5 3 2 4 5 4 2 3 3 D 5 4 8 11 1 7 10 5 6 3 2 5 3 1 4 5 5 1 2 3 C 2 1 1 1 52 1 1 2 2 2 1 1 1 1 2 3 2 1 4 2 Q 3 5 5 6 1 10 7 3 7 2 3 5 3 1 4 3 3 1 2 3 E 5 4 7 11 1 9 12 5 6 3 2 5 3 1 4 5 5 1 2 3 G 12 5 10 10 4 7 9 27 5 5 4 6 5 3 8 11 9 2 3 7 H 2 5 5 4 2 7 4 2 15 2 2 3 2 2 3 3 2 2 3 2 I 3 2 2 2 2 2 2 2 2 10 6 2 6 5 2 3 4 1 3 9 L 6 4 4 3 2 6 4 3 5 15 34 4 20 13 5 4 6 6 7 13 K 6 18 10 8 2 10 8 5 8 5 4 24 9 2 6 8 8 4 3 5 M 1 1 1 1 0 1 1 1 1 2 3 2 6 2 1 1 1 1 1 2 F 2 1 2 1 1 1 1 1 3 5 6 1 4 32 1 2 2 4 20 3 P 7 5 5 4 3 5 4 5 5 3 3 4 3 2 20 6 5 1 2 4 S 9 6 8 7 7 6 7 9 6 5 4 7 5 3 9 10 9 4 4 6 T 8 5 6 6 4 5 5 6 4 6 4 6 5 3 6 8 11 2 3 6 W 0 2 0 0 0 0 0 0 1 0 1 0 0 1 0 1 0 55 1 0 Y 1 1 2 1 3 1 1 1 3 2 2 1 2 15 1 2 2 3 31 2 V 7 4 4 4 4 4 4 5 4 15 10 4 10 5 5 5 7 2 4 17

Topo: aminoácido original Lado: aminoácido substituído 42

21 29/08/2019

A 2 R -2 6 N 0 0 2 Matriz PAM250 do logaritmo D 0 -1 2 4 das probabilidades C -2 -4 -4 -5 12 Q 0 1 1 2 -5 4 E 0 -1 1 3 -5 2 4 G 1 -3 0 1 -3 -1 0 5 H -1 2 2 1 -3 3 1 -2 6 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 L -2 -3 -3 -4 -6 -2 -3 -4 -2 -2 6 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 A R N D C Q E G H I L K M F P S T W Y V

Por que vamos de uma matriz de probabilidade de mutação para uma matriz logarítmica de probabilidade?

•É necessário que a matriz utilizada num alinhamento por pares (ou numa busca por BLAST) crie pontos para dois resíduos de aminoácidos alinhados.

•Logaritmos são mais fáceis de usar num sistema de pontuação. Eles nos permitem somar os pontos de resíduos alinhados (ao invés de ter que multiplicá-los).

Vc. sabe o que é logaritmo?

LOGARITMO 4 3 = 81 portanto log3 81 = 4 BASE 44

22 29/08/2019

Como saímos de uma matriz de probabilidades para uma matriz logarítmica?

• As células numa matriz logarítmica de probabilidade consistem de uma "razão de probabilidade“:

probabilidade de que um alinhamento seja autêntico probabilidade que o alinhamento seja aleatório

A pontuação (S) para um alinhamento de resíduos a,b é dado por:

S(a,b) = 10 log10 (Mab/pb)

Por exemplo, para triptofano,

S(a,triptofano) = 10 log10 (0.55/0.010) = 17.4 45

O que significam os números numa matriz logarítmica de probabilidade?

S(a,triptofano) = 10 log10 (0.55/0.010) = 17.4 Uma pontuação de +17 para Trp significa que este alinhamento é 50 vezes mais provável do que o alinhamento ao acaso de dois resíduos de Trp. S(a,b) = 17

Probabilidade de Substituição (Mab/pb) = x Então

17 = 10 log10 x

1.7 = log10 x 101.7 = x = 50 46

23 29/08/2019

O que significam os números numa matriz logarítmica de probabilidade?

Uma pontuação de +2 indica que substituição do aminoácido ocorreu 1,6 vezes mais frequentemente do que esperado por acaso.

Uma pontuação de 0 é neutra.

Uma pontuação de -10 indica que a correspondência de dois aminoácidos num alinhamento que representa corretamente a homologia (descendência evolutiva) é 1/10 da freqüência por acaso desses aminoácidos.

24 29/08/2019

A 7 R -10 9 Matriz PAM 10 do logaritmo N -7 -9 9 D -6 -17 -1 8 das probabilidades C -10 -11 -17 -21 10 Q -7 -4 -7 -6 -20 9 PAM10 log odds E -5 -15 -5 0 -20 -1 8 G -4 -13 -6 -6 -13 -10 -7 7 scoring matrix H -11 -4 -2 -7 -10 -2 -9 -13 10 I -8 -8 -8 -11 -9 -11 -8 -17 -13 9 L -9 -12 -10 -19 -21 -8 -13 -14 -9 -4 7 K -10 -2 -4 -8 -20 -6 -7 -10 -10 -9 -11 7 M -8 -7 -15 -17 -20 -7 -10 -12 -17 -3 -2 -4 12 F -12 -12 -12 -21 -19 -19 -20 -12 -9 -5 -5 -20 -7 9 P -4 -7 -9 -12 -11 -6 -9 -10 -7 -12 -10 -10 -11 -13 8 S -3 -6 -2 -7 -6 -8 -7 -4 -9 -10 -12 -7 -8 -9 -4 7 T -3 -10 -5 -8 -11 -9 -9 -10 -11 -5 -10 -6 -7 -12 -7 -2 8 W -20 -5 -11 -21 -22 -19 -23 -21 -10 -20 -9 -18 -19 -7 -20 -8 -19 13 Y -11 -14 -7 -17 -7 -18 -11 -20 -6 -9 -10 -12 -17 -1 -20 -10 -9 -8 10 V -5 -11 -12 -11 -9 -10 -10 -9 -9 -1 -5 -13 -4 -12 -9 -10 -6 -22 -10 8 A R N D C Q E G H I L K M F P S T W Y V

Comparando duas proteínas com uma matriz PAM1 dá resultados completamente diferentes de PAM250!

Considere duas proteínas relacionadas distantemente. Uma matriz PAM40 não desconsiderará "mismatches", e os penaliza severamente. Usando esta matriz você quase não acha um "match".

hsrbp, 136 CRLLNLDGTC btlact, 3 CLLLALALTC * ** * **

Uma matriz PAM250 é muito tolerante para "mismatches". 24.7% identity in 81 residues overlap; Score: 77.0; Gap frequency: 3.7% rbp4 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDV btlact 21 QTMKGLDIQKVAGTWYSLAMAASD-ISLLDAQSAPLRVYVEELKPTPEGDLEILLQKWEN * **** * * * * ** *

rbp4 86 --CADMVGTFTDTEDPAKFKM btlact 80 GECAQKKIIAEKTKIPAVFKI 50 ** * ** ** 50

25 29/08/2019

PAM: "Accepted point mutation"

• Duas proteínas com 50% de identidade podem ter 80 mudanças por 100 resíduos. (Por que? Porque cada resíduo pode sofrer mutação reversa).

• Proteínas com 20% a 25% de identidade estão na "zona do crepúsculo" e podem, estatisticamente, estar significativamente relacionadas.

• PAM ou "accepted point mutation" se refere aos "hits" ou "matches" entre duas sequências (Dayhoff & Eck, 1968). 51

Alinhamento por pares e limites de detecção

Twilight Zone

“zona do crespúsculo” % identidade %

Distância evolutiva em PAMs

Duas proteínas que divergem aleatoriamente mudam de maneira negativa e exponencial 52

26 29/08/2019

Matrizes PAM refletem diferentes graus de divergência

Assíntota = 94,2% para alinhamento de duas sequências aleatórias (que teriam

5% de identidade!) % Diferença %

PAM250 53

SIM - Alignment Tool for protein sequences

http://ca.expasy.org/tools/sim-prot.html

P02753 – human RBP4 P02754 – bovine b-lactoglobulin

Varie os parâmetros!

27 29/08/2019

Matrizes BLOSUM

Matrizes BLOSUM são baseadas em alinhamentos locais.

BLOSUM = BLOcks SUbstitution Matrix.

BLOSUM62 é uma matriz calculada das comparações de sequências que apresentam mais de 62% de identidade.

Matrizes BLOSUM

Todas as matrizes BLOSUM são baseadas em alinhamentos observados; elas não são extrapoladas de comparações de proteínas proximamente relacionadas.

O banco de dados BLOCKS contem milhares de grupos de alinhamentos de múltiplas sequências.

BLOSUM62 é a matriz "default" no BLAST 2.0. Apesar de ser construída para comparações de proteínas moderadamente distantes, ela funciona bem na detecção de relações próximas. Uma procura por parentes distantes pode ser mais sensível com uma

matriz diferente. 56

28 29/08/2019

A 4 R -1 5 N -2 0 6 Blosum62 scoring matrix D -2 -2 1 6 C 0 -3 -3 -3 9 Q -1 1 0 0 -3 5 E -1 0 0 2 -4 2 5 G 0 -2 0 -1 -3 -2 -2 6 H -2 0 1 -1 -3 0 0 -2 8 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 K -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5 M -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 A R N D C Q E G H I L K M F P S T W Y V

Mais conservado Menos conservado

RBP de rato Lipocalina de rato x camundongo x bactéria

29 29/08/2019

sequência ancestral ACCCTAC

A nenhuma mudança A C uma substituição C --> A C múltiplas substituições C --> A --> T C --> G substituições coincidentes C --> A T --> A substituições paralelas T --> A A --> C --> T substituições convergentes A --> T C substituição reversa C --> T --> C

sequência 1 sequência 2 ACCGATC Li (1997) p.70 AATAATC 59

Percentagem de identidade entre duas proteínas: Quantos por cento é significante?

100% 80% 65% 30% 23% 19%

30 29/08/2019

Dois tipos de alinhamentos de sequência: global e local

Primeiro consideraremos o algoritmo de alinhamento global de Needleman e Wunsch (1970).

Exploraremos então o algoritmo de alinhamento local de Smith e Waterman (1981).

Finalmente, consideraremos BLAST, uma versão heurística de Smith-Waterman. Cobriremos BLAST em pormenores na próxima aula.

31 29/08/2019

Alinhamento global com o algoritmo de Needleman e Wunsch (1970)

• Duas sequências podem ser comparadas numa matriz ao longo dos eixos x e y.

• Se elas forem idênticas, pode-se traçar uma linha na diagonal

• Descubra os sub-caminhos ótimos, e adicione-os para obter a melhor pontuação. Isto envolve --adicionar os "gaps" quando necessário --permitir substituições conservativas --escolher o melhor sistema de pontuação (simples ou complicado)

• N-W sempre acha o melhor alinhamento 63

Três passos para alinhamento global com o algoritmo de Needleman-Wunsch

[1] estabeleça uma matriz

[2] atribua pontos para a matriz

[3] identifique o(s) alinhamento(s) ótimos(s)

32 29/08/2019

Quatro possíveis resultados no alinhamento de duas sequências

[1] identidade (permanece na diagonal) [2] "mismatch" (permanece na diagonal) [3] "gap" em uma sequência (move-se verticalmente!) [4] "gap" na outra sequência (move-se horizontalmente!) 65

33 29/08/2019

Comece Needleman-Wunsch com uma matriz de identidade

67 Needleman & Wusch, J. Mol. Biol. 48:443-453, 1970

Comece Needleman-Wunsch com uma matriz de identidade

sequência 1 ABCNJ-RQCLCR-PM sequência 2 AJC-JNR-CKCRBP-

sequência 1 ABC-NJRQCLCR-PM sequência 2 AJCJN-R-CKCRBP-

34 29/08/2019

Preencha a matriz começando por baixo a direita

35 29/08/2019

36 29/08/2019

A regra é: cada célula recebe sua pontuação +1 (se houver) mais o valor máximo da célula diagonalmente abaixo e à direita ou a linha ou coluna correspondente (cinza) 74

37 29/08/2019

Regra para atribuir valores na posição i,j:

si,j = max si-1,j-1 + s(aibj) si-x,j (i.e. add a gap of length x)

si,j-x (i.e. add a gap of length x)

A regra é: cada célula recebe sua pontuação +1 (se houver) mais o valor máximo da célula diagonalmente abaixo e à direita ou a linha ou coluna correspondente (cinza) 75

Após você haver preenchido a matriz, encontre a(s) via(s) ótima(s) pelo método de "traceback" 76

38 29/08/2019

sequence 1 ABCNJ-RQCLCR- PM sequence 2 AJC-JNR- CKCRBP- sequence 1 ABC-NJRQCLCR- PM sequence 2 AJCJN-R- CKCRBP-

Needleman-Wunsch: programação dinâmica

É garantido que N-W encontra alinhamentos ótimos, apesar do algoritmo não procurar todos os alinhamentos possíveis.

É um exemplo de algoritmo de programação dinâmica: uma via ótima (alinhamento) é identificada por soma de sub-vias ótimas que se estendem. Portanto, uma série de decisões é tomada em cada passo do alinhamento para encontrar o par de resíduos com a melhor pontuação.

39 29/08/2019

Alinhamento global x alinhamento local

Alinhamento global (Needleman-Wunsch) vai de uma ponta a outra de cada sequência.

Alinhamento local encontra regiões de "match" ótimo dentro de duas sequências ("sub-sequências")

Alinhamento local é quase sempre utilizado para buscas em bancos de dados como no BLAST. É útil para encontrar domínios (ou regiões limitadas de homologia) dentro de sequências.

Smith & Waterman (1981) resolveram o problema de otimizar alinhamentos locais de sequências. Outros métodos (BLAST, FASTA) são mais rápidos mas menos completos. 79

Como o algoritmo de Smith-Waterman funciona

Construa uma matriz entre duas proteínas (tamanho m+1, n+1)

Nenhum valor na matriz de pontuação pode ser negativo! S  0

A pontuação para cada célula é o máximo de quatro valores: [1] s(i-1, j-1) + a nova pontuação em [i,j] (um match ou mismatch) [2] s(i,j-1) – gap penalty [3] s(i-1,j) – gap penalty [4] zero

40 29/08/2019

Alinhamento local por Smith & Waterman

sequence 1 GCC-UCG Sequence 2 GCCAUUG

Sequence 1 CAGCC-UCGCUUAG Sequence 2 AAUGCCAUUGACGG

Versões rápidas, heurísticas de Smith- Waterman: FASTA e BLAST

Smith-Waterman é muito rigoroso e garantido para achar um alinhamento ótimo.

Mas Smith-Waterman é lento. Ele requer espaço no computador e tempo proporcional ao produto das duas sequências que estão sendo alinhadas (ou o produto de uma pergunta contra um banco de dados inteiro).

Gotoh (1982) e Myers e Miller (1988) melhoraram os algoritmos de modo que tanto alinhamentos globais como locais necessitam menos tempo e espaço.

FASTA e BLAST são alternativas rápidas para S-W. 82