Assessing the Robustness of Genetic Codes and Genomes
Total Page:16
File Type:pdf, Size:1020Kb
Université de Montréal Assessing the robustness of genetic codes and genomes par Miguel Sautié Castellanos Département d’informatique et de recherche opérationnelle Faculté des arts et des sciences Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de Maître ès sciences (M.Sc.) en informatique Juin, 2020 © Miguel Sautié Castellanos, 2020 Université de Montréal Faculté des arts et des sciences Ce mémoire intitulé: Assessing the robustness of genetic codes and genomes présenté par: Miguel Sautié Castellanos a été évalué par un jury composé des personnes suivantes: Miklós Csűrös, président-rapporteur Nadia El-Mabrouk, directeur de recherche François Major, membre du jury Mémoire accepté le: . ABSTRACT There are two main approaches to assess the robustness of genetic codes and coding sequences. The statistical approach is based on empirical estimates of probabilities computed from random samples of permutations representing assignments of amino acids to codons, whereas, the optimization-based approach relies on the optimization percentage frequently computed by using metaheuristics. We propose a method based on the first two moments of the distribution of robustness values for all possible genetic codes. Based on a polynomially solvable instance of the Quadratic Assignment Problem, we propose also an exact greedy algorithm to find the minimum value of the genome robustness. To reduce the number of operations for computing the scores and Cantelli’s upper bound, we developed methods based on the genetic code neighborhood structure and pairwise comparisons between genetic codes, among others. For assessing the robustness of natural genetic codes and genomes, we have chosen 23 natural genetic codes, 235 amino acid properties, as well as 324 thermophilic and 418 non-thermophilic prokaryotes. Among our results, we found that although the standard genetic code is more robust than most genetic codes, some mitochondrial and nuclear genetic codes are more robust than the standard code at the third and first codon positions, respectively. We also observed that the synonymous codon usage tends to be highly optimized to buffer the impact of single-base changes, mainly, in thermophilic prokaryotes. Keywords: Quadratic assignment problem, Cantelli’s upper bound, Generalized linear mixed models, Genetic code, hydrophobicity, thermophiles, codon usage bias. i RÉSUMÉ Deux approches principales existent pour évaluer la robustesse des codes génétiques et des séquences de codage. L'approche statistique est basée sur des estimations empiriques de probabilité calculées à partir d'échantillons aléatoires de permutations représentant les affectations d'acides aminés aux codons, alors que l'approche basée sur l'optimisation repose sur le pourcentage d’optimisation, généralement calculé en utilisant des métaheuristiques. Nous proposons une méthode basée sur les deux premiers moments de la distribution des valeurs de robustesse pour tous les codes génétiques possibles. En se basant sur une instance polynomiale du Problème d'Affectation Quadratique, nous proposons un algorithme vorace exact pour trouver la valeur minimale de la robustesse génomique. Pour réduire le nombre d'opérations de calcul des scores et de la borne supérieure de Cantelli, nous avons développé des méthodes basées sur la structure de voisinage du code génétique et sur la comparaison par paires des codes génétiques, entre autres. Pour calculer la robustesse des codes génétiques naturels et des génomes procaryotes, nous avons choisi 23 codes génétiques naturels, 235 propriétés d'acides aminés, ainsi que 324 procaryotes thermophiles et 418 procaryotes non thermophiles. Parmi nos résultats, nous avons constaté que bien que le code génétique standard soit plus robuste que la plupart des codes génétiques, certains codes génétiques mitochondriaux et nucléaires sont plus robustes que le code standard aux troisièmes et premières positions des codons, respectivement. Nous avons observé que l'utilisation des codons synonymes tend à être fortement optimisée pour amortir l'impact des changements d'une seule base, principalement chez les procaryotes thermophiles. Mots-clés: Problème d'Affectation Quadratique, La borne supérieure de Cantelli, Modèles linéaires Généralisés mixtes, Code génétique, hydrophobicité, thermophiles, biais d'utilisation des codons. ii CONTENTS ABSTRACT ......................................................................................................................................................i RÉSUMÉ .......................................................................................................................................................... ii CHAPTER 1 : INTRODUCTION ..................................................................................................................... 1 CHAPTER 2: ON THE ROBUSTNESS OF THE GENETIC CODES AND GENOMES .................................. 8 2.1 Early evolution of the standard genetic code ................................................................................................. 8 2.2 Recent evolution of the standard genetic code .............................................................................................. 9 2.3 Methods to quantify the genetic code robustness ....................................................................................... 11 2.3.1 Exploring different functions of weighted mean phenotypic change .................................................. 11 2.3.2 Evaluating different scenarios of genetic code evolution .................................................................... 12 2.3.3 The optimization algorithms used to assess genetic code robustness .............................................. 14 2.4 Robustness at the gene and genome level ................................................................................................... 15 CHAPTER 3: A BRIEF INTRODUCTION ON THE QUADRATIC ASSIGNMENT PROBLEM .................... 18 3.1 Solution methods ............................................................................................................................................ 18 3.2 Lower bounds .................................................................................................................................................. 19 3.3 Instances of QAP solvable in polynomial time ............................................................................................. 20 CHAPTER 4: METHODS .............................................................................................................................. 23 4.1 Research objectives and methods ................................................................................................................. 23 4.2 Two methods for assessing the relevance of the mean phenotypic change ............................................. 27 4.2.1 Load minimization problem (LMP) .......................................................................................................... 28 4.2.2 The statistical approach .......................................................................................................................... 31 4.3 Representations of the genetic codes ........................................................................................................... 33 4.3.1 The codon-based representations .......................................................................................................... 34 4.3.2 The representations based on synonymous codon blocks ................................................................. 35 4.3.3 Partial genetic code representations ...................................................................................................... 36 4.3.4 Block and codon neighborhood representations .................................................................................. 36 4.4 Weight functions .............................................................................................................................................. 38 4.4.1 Weights for genetic code robustness ..................................................................................................... 38 4.4.2 Weights for genomic robustness ............................................................................................................ 40 4.5 Methods to process stop codons ................................................................................................................... 41 4.6 The neighborhood structure of the genetic codes ....................................................................................... 43 4.7 Methods to compute the mean phenotypic change ..................................................................................... 46 4.7.1 Computing the mean phenotypic change for different genetic code representations ....................... 47 4.7.2 Considering the codon neighborhood structure for computing the genomic robustness ................ 48 4.7.3 Computing the mean phenotypic change for different genetic codes ................................................ 50 4.8 Methods to assess the relevance of genome and genetic code robustness ............................................. 51 4.8.1 Mean of the null population distribution ................................................................................................ 52 4.8.2 Variance of the null population distribution .........................................................................................