Practical Structure-Sequence Alignment of Pseudoknotted Rnas Wei Wang
Total Page:16
File Type:pdf, Size:1020Kb
Practical structure-sequence alignment of pseudoknotted RNAs Wei Wang To cite this version: Wei Wang. Practical structure-sequence alignment of pseudoknotted RNAs. Bioinformatics [q- bio.QM]. Université Paris Saclay (COmUE), 2017. English. NNT : 2017SACLS563. tel-01697889 HAL Id: tel-01697889 https://tel.archives-ouvertes.fr/tel-01697889 Submitted on 31 Jan 2018 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. 1 NNT : 2017SACLS563 Thèse de doctorat de l’Université Paris-Saclay préparée à L’Université Paris-Sud Ecole doctorale n◦580 (STIC) Sciences et Technologies de l’Information et de la Communication Spécialité de doctorat : Informatique par M. Wei WANG Alignement pratique de structure-séquence d’ARN avec pseudonœuds Thèse présentée et soutenue à Orsay, le 18 Décembre 2017. Composition du Jury : Mme Hélène TOUZET Directrice de Recherche (Présidente) CNRS, Université Lille 1 M. Guillaume FERTIN Professeur (Rapporteur) Université de Nantes M. Jan GORODKIN Professeur (Rapporteur) University of Copenhagen Mme Johanne COHEN Directrice de Recherche (Examinatrice) CNRS, Université Paris-Sud M. Laurent BULTEAU Chargé de Recherche (Examinateur) CNRS, Université Paris-Est M. Alain DENISE Professeur (Directeur de thèse) Université Paris-Sud M. Yann PONTY Chargé de Recherche (Co-encadrant) CNRS, École Polytechnique R´esum´e L’alignment de macromol´ecules telles que les prot´eines, les ADN et les ARN afin de r´ev´eler ou d’exploiter `al’inverse leur homologie fonction- nelle est un d´efi classique en bioinformatique, avec des applications de grande envergure dans la mod´elisation de la structure et l’annotations du g´enome. Dans le contexte sp´ecifique des ARN complexes, pr´esentant des pseudoknots, des interactions multiples et des paires de bases non canon- iques, de multiples solutions et outils algorithmiques ont ´et´epropos´es pour le probl`eme d’alignement de s´equence de structure. Cependant, de tels outils sont rarement utilis´es dans la pratique, en partie `acause de leurs exigences de calcul extrˆemes, et de leur incapacit´e`asupporter des types g´en´eraux de structures. Au chapitre 2,nousillustronsd’abordlesop´erationsd’´editionpourcal- culer le coˆut d’un alignement et la d´efinition du probl`eme d’alignement structure-s´equence. Ensuite, nous expliquons plusieurs algorithmes d’´etat de l’art pour le probl`eme. Ces algorithmes comprennent l’algorithme de Han [39]avecleprogrammePAL, l’algorithme de Matsui [60]aveclepro- gramme PSTAG, l’algorithme de Song [91]etl’algorithmedeRinaudo[78]. Tous ces algorithmes sont principalement con¸cus pour pr´edire l’alignement de la structure-s´equence pseudo-not´ee. Cependant, compar´eaux autres algorithmes, Rinaudo et al. adonn´eunem´ethodeenti`erementg´en´erale pour la comparaison s´equence-structure, qui est capable de prendre en entr´een’importe quel type de structures pseudo-not´ees. Mon travail est bas´esur l’algorithme de Rinaudo. Au chapitre 3,jed´ecrisd’abordquelquesd´etailssurlamiseenœuvre de notre nouveau programme LiCoRNA (aLignment of Complet RNAs) in- cluant le schme de scoring et la programmation dynamique par bandes qui permettent d’acc´el´erer la programmation dynamique sans perdre trop de pr´ecision. Ensuite, trois algorithmes seront introduits pour obtenir les alignements sous-optimaux de la structure-s´equence, l’un est un al- gorithme stochastique de backtracking bas´esur la fonction de partition, l’un est l’algorithme d’alignement ∆-sous-optimal et l’un est l’algorithme d’alignement suboptimal K-best. Notre raisonnement pour explorer l’espace des alignements sous-optimaux, ou quasi-optimaux, est triple: Premi`erement, un alignement optimal est ambigu, ce qui signifie que plusieurs aligne- ments ayant le mˆeme score peuvent coexister. Deuxi`emement, un aligne- ment optimal n’est qu’une approximation de celui qui est biologique- ment pertinent. Troisi`emement, un alignement optimal peut ˆetre sen- sible aux perturbations des param`etres d’´evaluation, en particulier les p´enalit´es d’´ecart. Sur la base de la fonction de partition et de l’algorithme int´erieur-ext´erieur, on peut ´egalement calculer la probabilit´ede concor- dance de Boltzmann. En outre, nous introduisons la notation Maximum Expected structure-sequence Alignment (MEA) pour calculer un aligne- ment avec une pr´ecision maximale pr´evue sur un ensemble d’alignements. L’alignement MEA peut ˆetre intuitivement compar´eau centre de masse de l’espace d’alignement. Notre raisonnement est que, si l’alignement est bien d´efini, alors l’alignement MEA devrait ˆetre proche de l’alignement optimal. Inversement, un alignement optimal mal d´efini,admettant de nombreux alignements sous-optimaux, devrait ˆetre soit ´eloign´e’ du MEA, soit avoir une faible pr´ecision associ´ee. Le chapitre 4 illustre les r´esultats des tests de LiCoRNA qui sont princi- palement divis´es en deux parties. La premi`ere partie consiste `a´evaluer la performance de LiCoRNA sur la base des s´equences de graines dans les familles pseudoknotted dans RFAM par la comparaison avec d’autres programmes `ala fine pointe PAL, PSTAG et Profile-csHMMs [120]. Les param`etres d’´evaluation sont la sensibilit´e, valeur pr´edictive positive et l’AFI. Le r´esultat principal est que LiCoRNA peut pr´edire les aligne- ments par paires pour toutes les familles et g´en`ere g´en´eralement des r´esultats ´equivalents ou meilleurs que ses concurrents pour presque toutes les familles. La deuxi`eme partie est que nous traitons les alignements pseu- doknotted complets RFAM en utilisant LiCoRNA.Ler´esultatmontreque LiCoRNA prend en charge pseudoknots sans perte d’identit´ede s´equence en calculant le pourcentage de paire de bases pour chaque position de paire dans la structure de r´ef´erence. 2 Le dernier chapitre pr´esente les perspectives. Tout d’abord, le s´echma de score pour LiCoRNA est ind´ependant de la position qui signifie que les scores pour les substitutions et les lacunes sont les mˆemes dans di↵´erentes positions de l’ARN. Nous pouvons ´etendre au sch´ema de score bas´esur le profil et au mod`ele ´evolutionnaire probabiliste pour am´eliorer encore la pr´ecision. Deuxi`emement, la programmation dynamique bas´ee sur la d´ecomposition arborescente peut ´egalement ˆetre utilis´ee pour identifier des motifs 3D d’ARN qui sont d´efinis par leur propre mod`ele d’appariement de base non-canonique. 3 Acknowledgements First of all, I owe my deepest gratitude to my advisors, Alain Denise, Yann Ponty for their patience, encouragement and immense knowledge. With- out their guidance, I would not have finished my PhD study smoothly. Beside my advisors, I would like to thank the rest of my thesis committee for their time and extreme patience. Thanks to Guillaume Fertin and Jan Gorodkin for their insightful comments and hard questions which incented me to widen my research. I would also like to the other members H´el`ene Touzet, Johanne Cohen, Laurent Bulteau for their time and insightful questions. My thanks also go to all the colleagues in the bioinformatics group in LRI and LIX for their discussions and for solving everyday trouble during my PhD. Thanks to the China Scholarship Council, who provided financial support during my graduate studies. I am forever indebted to my parents for their unconditional supports. I also thank JiaYin XUE for her accompany. Last but not least, I’d like to thank all my friends in France for their help and encouragement. Contents 1 Introduction 1 1.1 Types of RNA ............................... 2 1.2 RNA structure .............................. 2 1.3 RNA secondary structure prediction ................... 6 1.3.1 Secondary Structure ....................... 6 1.3.2 Pseudoknotted Structures .................... 9 2 Structure-sequence alignment 12 2.1 Sequence-sequence alignment ....................... 15 2.2 NESTED structure-sequence alignment ................. 17 2.3 CROSSING structure-sequence alignment ............... 19 2.3.1 Han’s algorithm .......................... 20 2.3.2 Matsui’s algorithm ........................ 23 2.3.3 Song’s algorithm ......................... 28 2.3.4 Rinaudo’s algorithm ....................... 30 2.3.5 Other formula .......................... 33 3 Methods 38 3.1 Model and definitions ........................... 39 i 3.1.1 Tree decomposition and its practical computation ....... 39 3.1.1.1 Definitions ....................... 39 3.1.1.2 Practical computation of the tree decomposition ... 40 3.1.2 Scoring scheme .......................... 41 3.1.2.1 RIBOSUM ....................... 41 3.1.2.2 Cost function for structure-sequence alignment ... 42 3.1.2.3 Scoring a tree decomposition ............. 45 3.1.2.4 LCost function ..................... 45 3.1.3 Banded dynamic programming ................. 48 3.2 Probabilistic structure-sequence alignment ............... 49 3.2.1 Derivation and derivation tree .................. 50 3.2.2 Completeness and unambiguity of Rinaudo’s DP scheme ... 51 3.2.3 Computing the partition function ................ 54 3.2.4 Stochastic backtrack algorithm ................. 57 3.2.5 Inside-outside algorithm ....................