29/08/2019
AULA 4
Alinhamento de pares de sequências
1
1
1. Aminoácidos 2. Homologia, Identidade, similaridade, etc. 3. O que são alinhamentos de pares de sequências 4. Gaps, indels, etc. 5. Pontuação de alinhamentos e matrizes 6. Alinhamento locais x alinhamentos globais 7. Algoritmos de alinhamento: Needleman- Wunsch & Smith-Waterman 2
2
1 29/08/2019
Margaret Oakley Dayhoff (1925-1983)
1950 •Pioneira no uso de computadores em química e biologia
•Introduziu o código de uma letra para aminoácidos
•É considerada hoje em dia como 1972 a fundadora do campo da Bioinformática
• Mais informações em: https://www.whatisbiotechnology. org/index.php/people/summary/D ayhoff 3
3
Os Dayhoff’s (1959)
Edward Margaret
Judith Ruth 4
4
2 29/08/2019
5
5
Artigo de Dayhoff na Scientific American de julho de 1969
6
6
3 29/08/2019
Alinhamento de sequências nos anos 1950
Corticotropina b (sheep) ala gly glu asp asp glu Corticotropina A (pig) asp gly ala glu asp glu
Oxytocin CYIQNCPLG Vasopressin CYFQNCPRG
7
7
Alinhamento de pares de sequências é a operação mais fundamental em bioinformática
• É utilizado para decidir se duas proteínas (ou genes) estão relacionados estruturalmente ou funcionalmente
• É utilizado para identificar domínios ou motivos que são compartilhados entre proteínas
• É a base para a pesquisa por BLAST (próxima semana)
• É utilizado para análise de genomas
8
8
4 29/08/2019
Alinhamento de pares: sequências de proteína podem ser mais informativas do que DNA
• proteína é mais informativa (20 x 4 caracteres); muitos aminoácidos compartilham propriedades biofísicas relacionadas.
• codons são degenerados: mudanças na terceira posição geralmente não alteram o aminácido especificado
• sequências de aminoácidos geralmente oferecem uma "visão do passado" mais distante
• sequências de nucleotídeos podem ser traduzidas em proteína, e então utilizadas para alinhamento de pares
9
9
Estrutura dos 20 principais aminoácidos
10
10
5 29/08/2019
CÓDIGO DE UMA LETRA Primeira letra do nome é única:
Aminoácido Código de 3 letras Código de uma letra explicação Cysteine Cys C Primeira letra do nome Histidine His H Primeira letra do nome Isoleucine Ile I Primeira letra do nome Methionine Met M Primeira letra do nome Serine Ser S Primeira letra do nome Valine Val V Primeira letra do nome
Primeira letra do nome não é única:
Aminoácido Código de 3 letras Código de uma letra explicação Alanine Ala A Primeira letra do nome Glycine Gly G Primeira letra do nome Leucine Leu L Primeira letra do nome Proline Pro P Primeira letra do nome Threonine Thr T Primeira letra do nome
11
11
Foneticamente sugestivos (em inglês)
Aminoácido Código de 3 letras Código de uma letra explicação Arginine Arg R aRginine Phenylalanine Phe F Fenylalanine Tyrosine Tyr Y tYrosine Tryptophan Trp W tWiptophane (ou contêm duplo anel -> double u)
Conexões fáceis de lembrar
Aminoácido Código de 3 letras Código de uma letra explicação Aspartic Acid Asp D asparDic Asparagine Asn N Contains N (or asparagiN) Glutamic Acid Glu E gluE (or glumamEke) Glutamine Gln Q Q-tamine
12
12
6 29/08/2019
Usando a ferramenta exploradora de aminoácidos do NCBI:
https://bit.ly/2L2ECZG
• Selecione a tabela Propriedades bioquímicas. • Qual aminoácido é mais abundante? Use esta tabela para verificar se você conhece as abreviações de uma e três letras para todos os 20 aminoácidos, bem como suas estruturas. • A tirosina é um aminoácido hidrofóbico? Para decidir, use a tabela Substituições Comuns. • Explore a valina (um resíduo hidrofóbico), classifique os resultados por hidrofobicidade e veja onde a tirosina está localizada. Você também pode explorar a tabela Estrutura e Química.
13
13
Kahoot https://kahoot.it
14
14
7 29/08/2019
Definições
Homologia Semelhança atribuída à descendência de um ancestral comum.
15
Definições
Homologia Semelhança atribuída à descendência de um ancestral comum. Identidade Número de posições invariáveis em duas sequências (de nucleotídeos ou aminoácidos) alinhadas.
RBP: 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVA 59 + K++ + ++ GTW++MA + L + A glicodelina: 23 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKA 55
16
8 29/08/2019
Definições
Homologia
É uma inferência. sequências são homólogas ou não
Identidade ou similaridade São quantidades. Descrevem o grau de relacionamento entre as sequências
17
17
Definições
Similaridade [semelhança] Número de posições pelas quais se relacionam sequências de nucleotídeos ou aminoácidos. Está baseada na identidade e conservação.
Identidade Número de posições invariáveis em duas sequências alinhadas.
Conservação Mudanças numa posição específica de uma sequência de aminoácidos (ou menos comumente, nucleotídeos) que preservam as propriedades fisico-químicas do resíduo original.
18
9 29/08/2019
Definições: dois tipos de homologia
Ortólogas sequências homólogas em diferentes espécies que surgem de um gene ancestral comum durante a especiação; podem ou não ter função semelhante. Parálogas sequências homólogas dentro de uma única espécie, que surgem por duplicação gênica.
19
Genes de globina em vertebrados
homólogos
ortólogos ortólogos parálogos
sapo a galo a camund. a camund. b galo b sapo b
gene cadeia a gene cadeia b
duplicação gênica
gene ancestral da globina
20
20
10 29/08/2019
Definições
Alinhamento de pares O processo de alinhar duas ou mais sequências para obter os níveis de identidade máxima (e conservação, no caso de sequências de aminoácidos) com o objetivo de calcular o grau de similaridade e a possibilidade de homologia.
21
Alinhamento de pares: sequências de proteína podem ser mais informativas do que DNA
• Em muitos casos, alinhamentos de DNA são apropriados --para confirmar a identidade de um cDNA --para estudar regiões não codificantes do DNA --para estudar polimorfismos de DNA --exemplo: DNA de Neanderthal x DNA humano moderno
Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 |||||||| |||| |||||| ||||| | ||||||||||||||||||||||||||||||| Sbjct: 189 catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247
22
22
11 29/08/2019
Como alinhar essas duas sequências?
RBP de Homo sapiens (199 aminoácidos; número de acesso NP_006735) 1 MKWVWALLLL AAWAAAERDC RVSSFRVKEN FDKARFSGTW YAMAKKDPEG LFLQDNIVAE 61 FSVDETGQMS ATAKGRVRLL NNWDVCADMV GTFTDTEDPA KFKMKYWGVA SFLQKGNDDH 121 WIVDTDYDTY AVQYSCRLLN LDGTCADSYS FVFSRDPNGL PPEAQKIVRQ RQEELCLARQ 181 YRLIVHNGYC DGRSERNLL
b-lactoglobulina de Bos Taurus (178 aminoácidos; número de acesso P02754) 1 MKCLLLALAL TCGAQALIVT QTMKGLDIQK VAGTWYSLAM AASDISLLDA QSAPLRVYVE 61 ELKPTPEGDL EILLQKWENG ECAQKKIIAE KTKIPAVFKI DALNENKVLV LDTDYKKYLL 121 FCMENSAEPE QSLACQCLVR TPEVDDEALE KFDKALKALP MHIRLSFNPT QLEEQCHI
23
23
Alinhamento de pares de RBP e b-lactoglobulina
1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulina
51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulina
98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...... QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL...... VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulina
137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI...... 178 lactoglobulina
24
24
12 29/08/2019
Gaps (= Indels)
• Posições nas quais uma letra pareia com nada são chamadas de "gaps".
• O valor em pontos dos “gaps” é geralmente negativo.
• Uma vez que um único evento mutacional pode causar a inserção ou deleção de mais de um resíduo, é atribuída mais significância à presença de um "gap" do que ao comprimento dele.
• No BLAST, raramente é necessário mudar os valores dos "gaps" e usa-se o "default".
25
Alinhamento de pares de RBP e b-lactoglobulina
1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulina
51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulina
98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...... QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL...... VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulina
137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI...... 178 lactoglobulina
Gap Gap Interno Terminal 26
26
13 29/08/2019
Abordagem geral ao alinhamento por pares
• Escolha duas sequências • Selecione um algoritmo que gere pontos ("score") • Permita "gaps" (inserções, deleções) • Os pontos refletem o grau de similaridade • Alinhamentos podem ser globais ou locais • Estime a probabilidade de que o alinhamento ocorra por acaso
27
É necessário um sistema de pontuação de alinhamento para avaliar a qualidade do alinhamento
• são atribuídos valores positivos e negativos
• criação de gaps e penalidades de extensão
• pontuação positiva para identidades
• alguma pontuação positiva parcial para substituições conservadas
• alinhamento global x local
• uso de uma matriz de substituição 28
28
14 29/08/2019
Cálculo do "score“ (pontuação) de um alinhamento
29 Fonte: http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Alignment_Scores2.html 29
Definição de PAM
Margaret Oakley Dayhoff e colaboradores introduziram o termo "accepted point mutation" para uma mutação que está fixada estavelmente num conjunto de genes durante a evolução. Portanto, uma medida da distância evolutiva entre duas sequências pode ser definida:
30
30
15 29/08/2019
Definição de PAM
Margaret Oakley Dayhoff e colaboradores introduziram o termo "accepted point mutation" para uma mutação que está fixada estavelmente num conjunto de genes durante a evolução. Portanto, uma medida da distância evolutiva entre duas sequências pode ser definida:
= uma PAM (Percent accepted mutation) é uma "accepted point mutation“, separando duas sequências, para cada 100 resíduos.
31
31
Números de Dayhoff de "accepted point mutations": que substituições de aminoácidos ocorrem em proteínas?
32
32
16 29/08/2019
Alinhamento de múltiplas sequências de gliceraldeído 3-fosfato desidrogenases
mosca GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA humano GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA planta GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA bactéria GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA levedura GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA árquea GADKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA
mosca VINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST humano VIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST planta VVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST bactéria VINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST levedura VINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST árquea VLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST
mosca GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK humano GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV planta GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA bactéria GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA levedura GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV árquea GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA
33
33
Mutabilidade relativa dos aminoácidos
[N]Asn 134 [H]His 66 [S]Ser 120 [R]Arg 65 [D]Asp 106 [K]Lys 56 [E]Glu 102 [P]Pro 56 [A]Ala 100 [G]Gly 49 [T]Thr 97 [Y]Tyr 41 [I]Ile 96 [F]Phe 41 [M]Met 94 [L]Leu 40 [Q]Gln 93 [C]Cys 20 [V]Val 74 [T]Trp 18
34
34
17 29/08/2019
Frequência normalizada dos aminoácidos
Gly 8.9% Arg 4.1% Ala 8.7% Asn 4.0% Leu 8.5% Phe 4.0% Lys 8.1% Gln 3.8% Ser 7.0% Ile 3.7% Val 6.5% His 3.4% Thr 5.8% Cys 3.3% Pro 5.1% Tyr 3.0% Glu 5.0% Met 1.5% Asp 4.7% Trp 1.0% Azul=6 codons; vermelho=1 codon Se todos estivessem igualmente representados nas proteínas, todos teriam a mesma frequência (5%) 35
35
Matriz de Substituição
Uma matriz de substituição contem valores proporcionais à probabilidade que o aminoácido i sofra mutação para o aminoácido j para todos os pares de aminoácidos
Matrizes de substituição são construídas pela reunião de uma grande quantidade de diversos alinhamentos por pares verificados (ou alinhamentos de múltiplas sequências) de proteínas.
Matrizes de substituição deveriam refletir as verdadeiras probabilidades das mutações que ocorrem num período de evolução.
Os dois principais tipos de matrizes de substituição são PAM e BLOSUM. 36
36
18 29/08/2019
Valores de "accepted point mutations" de Dayhoff: que substituições de aminoácidos ocorrem em proteínas?
A R N D C Q E G Ala Arg Asn Asp Cys Gln Glu Gly A R 30 N 109 17 D 154 0 532 C 33 10 0 0 Q 93 120 50 76 0 E 266 0 94 831 0 422 G 579 10 156 162 10 30 112 H 21 103 226 43 10 243 23 10 37
37
Matrizes PAM: "Point-accepted mutations"
Matrizes PAM são baseadas em alinhamentos globais de proteínas muito relacionadas.
PAM1 é a matriz calculada de comparações de sequências com divergência inferior a 1%.
Outras matrizes PAM são extrapoladas de PAM1
Todos os dados PAM vêm de proteínas muito relacionadas (>85% de identidade de aminoácidos)
38
19 29/08/2019
Matriz PAM1 de Dayhoff de probabilidade de mutação
Aminoácido original
Cada elemento da matriz mostra a probabilidade (em % x 100) de que um aminoácido original (topo) seja substituído por um outro aminoácido (lado), multiplicada por 100. 39
39
Matriz de probabilidade de mutação PAM0 de Dayhoff: As regras para proteínas que evoluem muito devagar
PAM0 A R N D C Q E G Ala Arg Asn Asp Cys Gln Glu Gly A 100% 0% 0% 0% 0% 0% 0% 0% R 0% 100% 0% 0% 0% 0% 0% 0% N 0% 0% 100% 0% 0% 0% 0% 0% D 0% 0% 0% 100% 0% 0% 0% 0% C 0% 0% 0% 0% 100% 0% 0% 0% Q 0% 0% 0% 0% 0% 100% 0% 0% E 0% 0% 0% 0% 0% 0% 100% 0% G 0% 0% 0% 0% 0% 0% 0% 100%
Topo: aminoácido original Lado: aminoácido substituído 40
40
20 29/08/2019
Matriz de probabilidade de mutação PAM de Dayhoff: As regras para proteínas muito distantes
A R N D C Q E G PAM Ala Arg Asn Asp Cys Gln Glu Gly A 8.7% 8.7% 8.7% 8.7% 8.7% 8.7% 8.7% 8.7% R 4.1% 4.1% 4.1% 4.1% 4.1% 4.1% 4.1% 4.1% N 4.0% 4.0% 4.0% 4.0% 4.0% 4.0% 4.0% 4.0% D 4.7% 4.7% 4.7% 4.7% 4.7% 4.7% 4.7% 4.7% C 3.3% 3.3% 3.3% 3.3% 3.3% 3.3% 3.3% 3.3% Q 3.8% 3.8% 3.8% 3.8% 3.8% 3.8% 3.8% 3.8% E 5.0% 5.0% 5.0% 5.0% 5.0% 5.0% 5.0% 5.0% G 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9%
Topo: aminoácido original Lado: aminoácido substituído 41
41
Matriz de probabilidade de mutação PAM250
A R N D C Q E G H I L K M F P S T W Y V A 13 6 9 9 5 8 9 12 6 8 6 7 7 4 11 11 11 2 4 9 R 3 17 4 3 2 5 3 2 6 3 2 9 4 1 4 4 3 7 2 2 N 4 4 6 7 2 5 6 4 6 3 2 5 3 2 4 5 4 2 3 3 D 5 4 8 11 1 7 10 5 6 3 2 5 3 1 4 5 5 1 2 3 C 2 1 1 1 52 1 1 2 2 2 1 1 1 1 2 3 2 1 4 2 Q 3 5 5 6 1 10 7 3 7 2 3 5 3 1 4 3 3 1 2 3 E 5 4 7 11 1 9 12 5 6 3 2 5 3 1 4 5 5 1 2 3 G 12 5 10 10 4 7 9 27 5 5 4 6 5 3 8 11 9 2 3 7 H 2 5 5 4 2 7 4 2 15 2 2 3 2 2 3 3 2 2 3 2 I 3 2 2 2 2 2 2 2 2 10 6 2 6 5 2 3 4 1 3 9 L 6 4 4 3 2 6 4 3 5 15 34 4 20 13 5 4 6 6 7 13 K 6 18 10 8 2 10 8 5 8 5 4 24 9 2 6 8 8 4 3 5 M 1 1 1 1 0 1 1 1 1 2 3 2 6 2 1 1 1 1 1 2 F 2 1 2 1 1 1 1 1 3 5 6 1 4 32 1 2 2 4 20 3 P 7 5 5 4 3 5 4 5 5 3 3 4 3 2 20 6 5 1 2 4 S 9 6 8 7 7 6 7 9 6 5 4 7 5 3 9 10 9 4 4 6 T 8 5 6 6 4 5 5 6 4 6 4 6 5 3 6 8 11 2 3 6 W 0 2 0 0 0 0 0 0 1 0 1 0 0 1 0 1 0 55 1 0 Y 1 1 2 1 3 1 1 1 3 2 2 1 2 15 1 2 2 3 31 2 V 7 4 4 4 4 4 4 5 4 15 10 4 10 5 5 5 7 2 4 17
Topo: aminoácido original Lado: aminoácido substituído 42
42
21 29/08/2019
A 2 R -2 6 N 0 0 2 Matriz PAM250 do logaritmo D 0 -1 2 4 das probabilidades C -2 -4 -4 -5 12 Q 0 1 1 2 -5 4 E 0 -1 1 3 -5 2 4 G 1 -3 0 1 -3 -1 0 5 H -1 2 2 1 -3 3 1 -2 6 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 L -2 -3 -3 -4 -6 -2 -3 -4 -2 -2 6 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 A R N D C Q E G H I L K M F P S T W Y V
43
43
Por que vamos de uma matriz de probabilidade de mutação para uma matriz logarítmica de probabilidade?
•É necessário que a matriz utilizada num alinhamento por pares (ou numa busca por BLAST) crie pontos para dois resíduos de aminoácidos alinhados.
•Logaritmos são mais fáceis de usar num sistema de pontuação. Eles nos permitem somar os pontos de resíduos alinhados (ao invés de ter que multiplicá-los).
Vc. sabe o que é logaritmo?
LOGARITMO 4 3 = 81 portanto log3 81 = 4 BASE 44
44
22 29/08/2019
Como saímos de uma matriz de probabilidades para uma matriz logarítmica?
• As células numa matriz logarítmica de probabilidade consistem de uma "razão de probabilidade“:
probabilidade de que um alinhamento seja autêntico probabilidade que o alinhamento seja aleatório
A pontuação (S) para um alinhamento de resíduos a,b é dado por:
S(a,b) = 10 log10 (Mab/pb)
Por exemplo, para triptofano,
S(a,triptofano) = 10 log10 (0.55/0.010) = 17.4 45
45
O que significam os números numa matriz logarítmica de probabilidade?
S(a,triptofano) = 10 log10 (0.55/0.010) = 17.4 Uma pontuação de +17 para Trp significa que este alinhamento é 50 vezes mais provável do que o alinhamento ao acaso de dois resíduos de Trp. S(a,b) = 17
Probabilidade de Substituição (Mab/pb) = x Então
17 = 10 log10 x
1.7 = log10 x 101.7 = x = 50 46
46
23 29/08/2019
O que significam os números numa matriz logarítmica de probabilidade?
Uma pontuação de +2 indica que substituição do aminoácido ocorreu 1,6 vezes mais frequentemente do que esperado por acaso.
Uma pontuação de 0 é neutra.
Uma pontuação de -10 indica que a correspondência de dois aminoácidos num alinhamento que representa corretamente a homologia (descendência evolutiva) é 1/10 da freqüência por acaso desses aminoácidos.
47
47
A 2 R -2 6 N 0 0 2 Matriz PAM250 do logaritmo D 0 -1 2 4 das probabilidades C -2 -4 -4 -5 12 Q 0 1 1 2 -5 4 E 0 -1 1 3 -5 2 4 G 1 -3 0 1 -3 -1 0 5 H -1 2 2 1 -3 3 1 -2 6 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 L -2 -3 -3 -4 -6 -2 -3 -4 -2 -2 6 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 A R N D C Q E G H I L K M F P S T W Y V
48
48
24 29/08/2019
A 7 R -10 9 Matriz PAM 10 do logaritmo N -7 -9 9 D -6 -17 -1 8 das probabilidades C -10 -11 -17 -21 10 Q -7 -4 -7 -6 -20 9 PAM10 log odds E -5 -15 -5 0 -20 -1 8 G -4 -13 -6 -6 -13 -10 -7 7 scoring matrix H -11 -4 -2 -7 -10 -2 -9 -13 10 I -8 -8 -8 -11 -9 -11 -8 -17 -13 9 L -9 -12 -10 -19 -21 -8 -13 -14 -9 -4 7 K -10 -2 -4 -8 -20 -6 -7 -10 -10 -9 -11 7 M -8 -7 -15 -17 -20 -7 -10 -12 -17 -3 -2 -4 12 F -12 -12 -12 -21 -19 -19 -20 -12 -9 -5 -5 -20 -7 9 P -4 -7 -9 -12 -11 -6 -9 -10 -7 -12 -10 -10 -11 -13 8 S -3 -6 -2 -7 -6 -8 -7 -4 -9 -10 -12 -7 -8 -9 -4 7 T -3 -10 -5 -8 -11 -9 -9 -10 -11 -5 -10 -6 -7 -12 -7 -2 8 W -20 -5 -11 -21 -22 -19 -23 -21 -10 -20 -9 -18 -19 -7 -20 -8 -19 13 Y -11 -14 -7 -17 -7 -18 -11 -20 -6 -9 -10 -12 -17 -1 -20 -10 -9 -8 10 V -5 -11 -12 -11 -9 -10 -10 -9 -9 -1 -5 -13 -4 -12 -9 -10 -6 -22 -10 8 A R N D C Q E G H I L K M F P S T W Y V
49
49
Comparando duas proteínas com uma matriz PAM1 dá resultados completamente diferentes de PAM250!
Considere duas proteínas relacionadas distantemente. Uma matriz PAM40 não desconsiderará "mismatches", e os penaliza severamente. Usando esta matriz você quase não acha um "match".
hsrbp, 136 CRLLNLDGTC btlact, 3 CLLLALALTC * ** * **
Uma matriz PAM250 é muito tolerante para "mismatches". 24.7% identity in 81 residues overlap; Score: 77.0; Gap frequency: 3.7% rbp4 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDV btlact 21 QTMKGLDIQKVAGTWYSLAMAASD-ISLLDAQSAPLRVYVEELKPTPEGDLEILLQKWEN * **** * * * * ** *
rbp4 86 --CADMVGTFTDTEDPAKFKM btlact 80 GECAQKKIIAEKTKIPAVFKI 50 ** * ** ** 50
25 29/08/2019
PAM: "Accepted point mutation"
• Duas proteínas com 50% de identidade podem ter 80 mudanças por 100 resíduos. (Por que? Porque cada resíduo pode sofrer mutação reversa).
• Proteínas com 20% a 25% de identidade estão na "zona do crepúsculo" e podem, estatisticamente, estar significativamente relacionadas.
• PAM ou "accepted point mutation" se refere aos "hits" ou "matches" entre duas sequências (Dayhoff & Eck, 1968). 51
51
Alinhamento por pares e limites de detecção
Twilight Zone
“zona do crespúsculo” % identidade %
Distância evolutiva em PAMs
Duas proteínas que divergem aleatoriamente mudam de maneira negativa e exponencial 52
52
26 29/08/2019
Matrizes PAM refletem diferentes graus de divergência
Assíntota = 94,2% para alinhamento de duas sequências aleatórias (que teriam
5% de identidade!) % Diferença %
PAM250 53
53
SIM - Alignment Tool for protein sequences
http://ca.expasy.org/tools/sim-prot.html
P02753 – human RBP4 P02754 – bovine b-lactoglobulin
Varie os parâmetros!
54
54
27 29/08/2019
Matrizes BLOSUM
Matrizes BLOSUM são baseadas em alinhamentos locais.
BLOSUM = BLOcks SUbstitution Matrix.
BLOSUM62 é uma matriz calculada das comparações de sequências que apresentam mais de 62% de identidade.
55
Matrizes BLOSUM
Todas as matrizes BLOSUM são baseadas em alinhamentos observados; elas não são extrapoladas de comparações de proteínas proximamente relacionadas.
O banco de dados BLOCKS contem milhares de grupos de alinhamentos de múltiplas sequências.
BLOSUM62 é a matriz "default" no BLAST 2.0. Apesar de ser construída para comparações de proteínas moderadamente distantes, ela funciona bem na detecção de relações próximas. Uma procura por parentes distantes pode ser mais sensível com uma
matriz diferente. 56
56
28 29/08/2019
A 4 R -1 5 N -2 0 6 Blosum62 scoring matrix D -2 -2 1 6 C 0 -3 -3 -3 9 Q -1 1 0 0 -3 5 E -1 0 0 2 -4 2 5 G 0 -2 0 -1 -3 -2 -2 6 H -2 0 1 -1 -3 0 0 -2 8 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 K -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5 M -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 A R N D C Q E G H I L K M F P S T W Y V
57
Mais conservado Menos conservado
RBP de rato Lipocalina de rato x camundongo x bactéria
58
58
29 29/08/2019
sequência ancestral ACCCTAC
A nenhuma mudança A C uma substituição C --> A C múltiplas substituições C --> A --> T C --> G substituições coincidentes C --> A T --> A substituições paralelas T --> A A --> C --> T substituições convergentes A --> T C substituição reversa C --> T --> C
sequência 1 sequência 2 ACCGATC Li (1997) p.70 AATAATC 59
Percentagem de identidade entre duas proteínas: Quantos por cento é significante?
100% 80% 65% 30% 23% 19%
60
60
30 29/08/2019
61
61
Dois tipos de alinhamentos de sequência: global e local
Primeiro consideraremos o algoritmo de alinhamento global de Needleman e Wunsch (1970).
Exploraremos então o algoritmo de alinhamento local de Smith e Waterman (1981).
Finalmente, consideraremos BLAST, uma versão heurística de Smith-Waterman. Cobriremos BLAST em pormenores na próxima aula.
62
62
31 29/08/2019
Alinhamento global com o algoritmo de Needleman e Wunsch (1970)
• Duas sequências podem ser comparadas numa matriz ao longo dos eixos x e y.
• Se elas forem idênticas, pode-se traçar uma linha na diagonal
• Descubra os sub-caminhos ótimos, e adicione-os para obter a melhor pontuação. Isto envolve --adicionar os "gaps" quando necessário --permitir substituições conservativas --escolher o melhor sistema de pontuação (simples ou complicado)
• N-W sempre acha o melhor alinhamento 63
63
Três passos para alinhamento global com o algoritmo de Needleman-Wunsch
[1] estabeleça uma matriz
[2] atribua pontos para a matriz
[3] identifique o(s) alinhamento(s) ótimos(s)
64
64
32 29/08/2019
Quatro possíveis resultados no alinhamento de duas sequências
[1] identidade (permanece na diagonal) [2] "mismatch" (permanece na diagonal) [3] "gap" em uma sequência (move-se verticalmente!) [4] "gap" na outra sequência (move-se horizontalmente!) 65
65
66
66
33 29/08/2019
Comece Needleman-Wunsch com uma matriz de identidade
67 Needleman & Wusch, J. Mol. Biol. 48:443-453, 1970
67
Comece Needleman-Wunsch com uma matriz de identidade
sequência 1 ABCNJ-RQCLCR-PM sequência 2 AJC-JNR-CKCRBP-
sequência 1 ABC-NJRQCLCR-PM sequência 2 AJCJN-R-CKCRBP-
68
68
34 29/08/2019
Preencha a matriz começando por baixo a direita
69
69
70
70
35 29/08/2019
71
71
72
72
36 29/08/2019
73
73
A regra é: cada célula recebe sua pontuação +1 (se houver) mais o valor máximo da célula diagonalmente abaixo e à direita ou a linha ou coluna correspondente (cinza) 74
74
37 29/08/2019
Regra para atribuir valores na posição i,j:
si,j = max si-1,j-1 + s(aibj) si-x,j (i.e. add a gap of length x)
si,j-x (i.e. add a gap of length x)
A regra é: cada célula recebe sua pontuação +1 (se houver) mais o valor máximo da célula diagonalmente abaixo e à direita ou a linha ou coluna correspondente (cinza) 75
75
Após você haver preenchido a matriz, encontre a(s) via(s) ótima(s) pelo método de "traceback" 76
76
38 29/08/2019
sequence 1 ABCNJ-RQCLCR- PM sequence 2 AJC-JNR- CKCRBP- sequence 1 ABC-NJRQCLCR- PM sequence 2 AJCJN-R- CKCRBP-
77
77
Needleman-Wunsch: programação dinâmica
É garantido que N-W encontra alinhamentos ótimos, apesar do algoritmo não procurar todos os alinhamentos possíveis.
É um exemplo de algoritmo de programação dinâmica: uma via ótima (alinhamento) é identificada por soma de sub-vias ótimas que se estendem. Portanto, uma série de decisões é tomada em cada passo do alinhamento para encontrar o par de resíduos com a melhor pontuação.
78
78
39 29/08/2019
Alinhamento global x alinhamento local
Alinhamento global (Needleman-Wunsch) vai de uma ponta a outra de cada sequência.
Alinhamento local encontra regiões de "match" ótimo dentro de duas sequências ("sub-sequências")
Alinhamento local é quase sempre utilizado para buscas em bancos de dados como no BLAST. É útil para encontrar domínios (ou regiões limitadas de homologia) dentro de sequências.
Smith & Waterman (1981) resolveram o problema de otimizar alinhamentos locais de sequências. Outros métodos (BLAST, FASTA) são mais rápidos mas menos completos. 79
79
Como o algoritmo de Smith-Waterman funciona
Construa uma matriz entre duas proteínas (tamanho m+1, n+1)
Nenhum valor na matriz de pontuação pode ser negativo! S 0
A pontuação para cada célula é o máximo de quatro valores: [1] s(i-1, j-1) + a nova pontuação em [i,j] (um match ou mismatch) [2] s(i,j-1) – gap penalty [3] s(i-1,j) – gap penalty [4] zero
80
80
40 29/08/2019
Alinhamento local por Smith & Waterman
sequence 1 GCC-UCG Sequence 2 GCCAUUG
Sequence 1 CAGCC-UCGCUUAG Sequence 2 AAUGCCAUUGACGG
81
81
Versões rápidas, heurísticas de Smith- Waterman: FASTA e BLAST
Smith-Waterman é muito rigoroso e garantido para achar um alinhamento ótimo.
Mas Smith-Waterman é lento. Ele requer espaço no computador e tempo proporcional ao produto das duas sequências que estão sendo alinhadas (ou o produto de uma pergunta contra um banco de dados inteiro).
Gotoh (1982) e Myers e Miller (1988) melhoraram os algoritmos de modo que tanto alinhamentos globais como locais necessitam menos tempo e espaço.
FASTA e BLAST são alternativas rápidas para S-W. 82
82
41