A Mathematical Model of the , the Origin of Coding, and the Ribosome as a Dynamical Molecular Machine

Diego L. Gonzalez

CNR-IMM Diparmento Istuto per la di Stasca Microeleronica Università di e i Microsistemi Bologna

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013

1 The Origin of the Genetic code and Protein Coding

• “The origin of the code is perhaps the most perplexing problem in evolutionary biology. The existing translation machinery is at the same time so complex, so universal and so essential that is hard to see how it could have come into existence, or how life could have existed without it” Smith and Szathmary, “The Major Transitions in ” Oxford university Press, New York (1995).

• Is it possible to obtain new insight on this problem on a first principles basis?

• “The genetic code is not immediately dictated by any known physics or chemistry…it evokes the scary spectra of irreducible complexity” Wolf and Kooning, “On the origin of the translation system and the genetic code…”, Biol Direct 2, 14 (2007).

• We present here a mathematical model of the genetic code that furnishes new first principles insight on the origin of the genetic code and protein coding

• The main motivation of our model is the search for error detection/correction mechanisms that should use the redundancy of genetic information

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 2

Fundamental Dogma of Molecular Biology

DNA molecules GENETIC CODE

PROTEIN Messenger RNA

Thymine (T) Uracil (U) Protein Synthesis

Adenine, Thymine, Guanine, Cytosine REPLICATION TRANSCRIPTION TRANSLATION

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 3 Symbolic Coding of Genetic Information

DNA (T,C,A,G) TACGGCATGGTGATAGCCCTTA ATGCCGTACCACTATCGGGAAT Thymine » Uracil TRANSCRIPTION (mRNA Synthesis) mRNA (U,C,A,G) AUGCCGUACCACUAUCGGGAAU Three-letter groups Codons AUG CCG UAC CAC UAU CGG GAA U

Amino acids Met Pro Tyr Gln Tyr Arg Stop TRANSLATION (Protein Synthesis)

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 4 Protein Synthesis

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 5 The Nuclear Genetic Code

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 6 The Genetic Code as a Mapping

64 codons; 4x4x4 = 64 (Words of three letters from an alphabet of four, i.e., A, T, C, G) 20 amino acids + Stop codon (Methyonine represents also the synthesis start signal)

Redundancy and Degeneracy follow

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 7 Degeneracy Distribution of the Genetic Code

Degeneracy distribuon inside quartets

Cys

Euplotes nuclear genec code

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 8 Outline

1. Description of the degeneracy distribution of the Euplotes nuclear genetic code with a redundant integer number representation system

2. Isomorphisms and models, the role of symmetries in the construction of a non-power model of the Euplotes nuclear genetic code

3. Modelling of the vertebrate mitochondrial genetic code and the origin of degeneracy in amino acid’s coding

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 9 Outline

1. Description of the degeneracy distribution of the Euplotes nuclear genetic code with a redundant integer number representation system

2. Isomorphisms and models, the role of symmetries in the construction of a non-power model of the Euplotes nuclear genetic code

3. Modelling of the vertebrate mitochondrial genetic code and the origin of degeneracy in amino acid’s coding

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 10 Outline

1. Description of the degeneracy distribution of the Euplotes nuclear genetic code with a redundant integer number representation system

2. Isomorphisms and models, the role of symmetries in the construction of a non-power model of the Euplotes nuclear genetic code

3. Modelling of the vertebrate mitochondrial genetic code and the origin of degeneracy in amino acid’s coding

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 11 Outline

1. Description of the degeneracy distribution of the Euplotes nuclear genetic code with a redundant integer number representation system

2. Isomorphisms and models, the role of symmetries in the construction of a non-power model of the Euplotes nuclear genetic code

3. Modelling of the vertebrate mitochondrial genetic code and the origin of degeneracy in amino acid’s coding

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 12 Mathematical model: integer number representation systems

Usual positional notation – power representation systems – base k

d5 d4 d3 d2 d1 d0 Digits: di (0, (k-1))

k5 k4 k3 k2 k1 k0

5 4 3 2 1 0 R (integer) = d5k + d4k + d3k + d2k + d1k + d0k m Univocity condition: (k −1)∑k n = k m+1 −1 n=0

Example 1: k=10; decimal system Digits: di (0, 9)

0 0 0 0 1 9

105 104 103 102 101 100 R = 1.101 + 9.100 = 19

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 13 Redundant representation systems

Example 2: Binary power system

Digits: di (0, 1) 0 1 0 0 1 1

25 24 23 22 21 20 R = 0.25 + 1.24 + 0.23 + 0.22 + 1.21 + 1.20 = 19

Redundant Power Representations Using Out-of-Range Digits Example 3: Binary signed digits with three possible values: -1, 0, 1

1 -1 0 0 1 1

25 24 23 22 21 20 R = 1.25 + 0.24 - 1.23 + 0.22 + 1.21 - 1.20 = 19 Redundant

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 14 Non-power redundant representation systems

posional bases grow slowly than the powers of k

Example 4: k=2; Fibonacci system

1 1 1 1 0 1 Digits: di (0, 1) 8 5 3 2 1 1 R = 1.8 + 1.5 + 1.3 + 1.2 + 0.1 + 1.1 = 19 Non-power representation systems are redundant, for example, the number 19 can be represented in the Fibonacci system in another alternative way:

Maya 1 1 1 1 1 0 serpent numbers 8 5 3 2 1 1

R = 1.8 + 1.5 + 1.3 + 1.2 + 1.1 + 0.1 = 19

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 15 Fibonacci’s non-power representation system

Degeneracy Number Signed Binary 1 5 2 3 3 4 4 2 5 2 Fibonacci System 1 2 2 4 3 8 4 5 5 2 Genetic Code 1 2 2 12 3 2 4 8

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 16 Non-power representation system 1,1,2,4,7,8

Represented) Length 6 binary strings Degeneracy distribution number! Non-power representation system ) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) 1,1,2,4,7,8 0) ) 0) 0) 0) 0) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) # of integer Degeneracy 1) ) 0) 0) 0) 0) 0) 1) ) 0) 0) 0) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) numbers 2) ) 0) 0) 0) 0) 1) 1) ) 0) 0) 0) 1) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 2 1 3) ) 0) 0) 0) 1) 0) 1) ) 0) 0) 0) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 4) ) 0) 0) 1) 0) 0) 0) ) 0) 0) 0) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 12 2 5) ) 0) 0) 1) 0) 0) 1) ) 0) 0) 1) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 2 3 6) ) 0) 0) 1) 1) 0) 0) ) 0) 0) 1) 0) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 8 4 7) ) 0) 0) 1) 1) 0) 1) ) 0) 0) 1) 1) 1) 0) ) 0) 1) 0) 0) 0 ) 0) ) ) ) ) ) ) ) 8) ) 0) 1) 0) 0) 0) 1) ) 0) 1) 0) 0) 1) 0) ) 1) 0) 0) 0) 0) 0) ) 0) 0) 1) 1) 1) 1) Unique solution 1,1,2,4,7,8 9) ) 1) 0) 0) 0) 0) 1) ) 1) 0) 0) 0) 1) 0) ) 0) 1) 0) 1) 0) 0) ) 0) 1) 0) 0) 1) 1) 10) ) 0) 1) 0) 1) 0) 1) ) 0) 1) 0) 1) 1) 0) ) 1) 0) 0) 1) 0) 0) ) 1) 0) 0) 0) 1) 1) 11) ) 1) 0) 0) 1) 0) 1) ) 1) 0) 0) 1) 1) 0) ) 0) 1) 1) 0) 0) 0) ) 0) 1) 0) 1) 1) 1) 12) ) 0) 1) 1) 0) 0) 1) ) 0) 1) 1) 0) 1) 0) ) 1) 0) 1) 0) 0) 0) ) 1) 0) 0) 1) 1) 1) 13) ) 1) 0) 1) 0) 0) 1) ) 1) 0) 1) 0) 1) 0) ) 0) 1) 1) 1) 0) 0) ) 0) 1) 1) 0) 1) 1) 14) ) 0) 1) 1) 1) 0) 1) ) 0) 1) 1) 1) 1) 0) ) 1) 0) 1) 1) 0) 0) ) 1) 0) 1) 0) 1) 1) 15) ) 1) 0) 1) 1) 0) 1) ) 1) 0) 1) 1) 1) 0) ) 1) 1) 0) 0) 0) 0) ) 0) 1) 1) 1) 1) 1) Degeneracy distribution 16) ) 1) 1) 0) 0) 0) 1) ) 1) 1) 0) 0) 1) 0) ) 1) 0) 1) 1) 1) 1) ) ) ) ) ) ) ) Euplotes nuclear genetic code 17) ) 1) 1) 0) 0) 1) 1) ) 1) 1) 0) 1) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) # of amino acids Degeneracy 18) ) 1) 1) 0) 1) 0) 1) ) 1) 1) 0) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 19) ) 1) 1) 1) 0) 1) 1) ) 1) 1) 0) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 2 1 20) ) 1) 1) 1) 0) 0) 1) ) 1) 1) 1) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 12 2 21) ) 1) 1) 1) 1) 0) 0) ) 1) 1) 1) 0) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 2 3 22) ) 1) 1) 1) 1) 0) 1) ) 1) 1) 1) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 23) ) 1) 1) 1) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 8 4 ! Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 17 Outline

1. Description of the degeneracy distribution of the Euplotes nuclear genetic code with a redundant integer number representation system

2. Isomorphisms and models, the role of symmetries in the construction of a non-power model of the Euplotes nuclear genetic code

3. Modelling of the vertebrate mitochondrial genetic code and the origin of degeneracy in amino acid’s coding

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 18 From a structural isomorphism to a true model

GENETIC CODE

64 24 Codons (aa + signs)

SYMMETRY NON-POWER REPRESENTATION

64 24 Binary strings Integer numbers

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 19 Symmetry of U çè C exchange

U C A G UUU UCU UAU UGU U NNU and NNC Phe Tyr UUC UCC UAC Cys UGC C codify the same Ser U UUA UCA UAA UGA A amino acid Leu Stop UUG UCG UAG Trp UGG G CUU CCU CAU CGU U 16 pairs of codons His CUC CCC CAC CGC C NNU - NNC Leu Pro Arg C CUA CCA CAA CGA A Gln CUG CCG CAG CGG G AUU ACU AAU AGU U Asn Ser Ile AUC ACC AAC AGC C Thr A AUA ACA AAA AGA A Lys Arg Met AUG ACG AAG AGG G GUU GCU GAU GGU U Asp GUC GCC GAC GGC C Val Ala Gly G GUA GCA GAA GGA A Glu GUG GCG GAG GGG G

Common to all known versions of the genetic code

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 20 Symmetry of U çè C exchange

U C A G UUU UCU UAU UGU U NNU and NNC Phe Tyr UUC UCC UAC Cys UGC C codify the same Ser U UUA UCA UAA UGA A amino acid Leu Stop UUG UCG UAG Trp UGG G CUU CCU CAU CGU U 16 pairs of codons His CUC CCC CAC CGC C NNU - NNC Leu Pro Arg C CUA CCA CAA CGA A Gln CUG CCG CAG CGG G AUU ACU AAU AGU U Asn Ser Ile AUC ACC AAC AGC C Thr A AUA ACA AAA AGA A Lys Arg Met AUG ACG AAG AGG G GUU GCU GAU GGU U Asp GUC GCC GAC GGC C Val Ala Gly G GUA GCA GAA GGA A Glu GUG GCG GAG GGG G

Common to all known versions of the genetic code

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 21 Non-power representation system 1,1,2,4,7,8

Represented) Length 6 binary strings Degeneracy distribution number! Non-power representation system ) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) 1,1,2,4,7,8 0) ) 0) 0) 0) 0) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) # of integer Degeneracy 1) ) 0) 0) 0) 0) 0) 1) ) 0) 0) 0) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) numbers 2) ) 0) 0) 0) 0) 1) 1) ) 0) 0) 0) 1) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 2 1 3) ) 0) 0) 0) 1) 0) 1) ) 0) 0) 0) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 4) ) 0) 0) 1) 0) 0) 0) ) 0) 0) 0) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 12 2 5) ) 0) 0) 1) 0) 0) 1) ) 0) 0) 1) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 2 3 6) ) 0) 0) 1) 1) 0) 0) ) 0) 0) 1) 0) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 8 4 7) ) 0) 0) 1) 1) 0) 1) ) 0) 0) 1) 1) 1) 0) ) 0) 1) 0) 0) 0 ) 0) ) ) ) ) ) ) ) 8) ) 0) 1) 0) 0) 0) 1) ) 0) 1) 0) 0) 1) 0) ) 1) 0) 0) 0) 0) 0) ) 0) 0) 1) 1) 1) 1) Unique solution 1,1,2,4,7,8 9) ) 1) 0) 0) 0) 0) 1) ) 1) 0) 0) 0) 1) 0) ) 0) 1) 0) 1) 0) 0) ) 0) 1) 0) 0) 1) 1) 10) ) 0) 1) 0) 1) 0) 1) ) 0) 1) 0) 1) 1) 0) ) 1) 0) 0) 1) 0) 0) ) 1) 0) 0) 0) 1) 1) 11) ) 1) 0) 0) 1) 0) 1) ) 1) 0) 0) 1) 1) 0) ) 0) 1) 1) 0) 0) 0) ) 0) 1) 0) 1) 1) 1) 12) ) 0) 1) 1) 0) 0) 1) ) 0) 1) 1) 0) 1) 0) ) 1) 0) 1) 0) 0) 0) ) 1) 0) 0) 1) 1) 1) 13) ) 1) 0) 1) 0) 0) 1) ) 1) 0) 1) 0) 1) 0) ) 0) 1) 1) 1) 0) 0) ) 0) 1) 1) 0) 1) 1) 14) ) 0) 1) 1) 1) 0) 1) ) 0) 1) 1) 1) 1) 0) ) 1) 0) 1) 1) 0) 0) ) 1) 0) 1) 0) 1) 1) 15) ) 1) 0) 1) 1) 0) 1) ) 1) 0) 1) 1) 1) 0) ) 1) 1) 0) 0) 0) 0) ) 0) 1) 1) 1) 1) 1) Degeneracy distribution 16) ) 1) 1) 0) 0) 0) 1) ) 1) 1) 0) 0) 1) 0) ) 1) 0) 1) 1) 1) 1) ) ) ) ) ) ) ) Euplotes nuclear genetic code 17) ) 1) 1) 0) 0) 1) 1) ) 1) 1) 0) 1) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) # of amino acids Degeneracy 18) ) 1) 1) 0) 1) 0) 1) ) 1) 1) 0) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 19) ) 1) 1) 1) 0) 1) 1) ) 1) 1) 0) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 2 1 20) ) 1) 1) 1) 0) 0) 1) ) 1) 1) 1) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 12 2 21) ) 1) 1) 1) 1) 0) 0) ) 1) 1) 1) 0) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 2 3 22) ) 1) 1) 1) 1) 0) 1) ) 1) 1) 1) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 23) ) 1) 1) 1) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 8 4 ! Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 22 Symmetry of xxxx01 çè xxxx10 exchange

Represented) Length 6 binary strings number! xxxx01 and ) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) 0) ) 0) 0) 0) 0) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) xxxx10 codify 1) ) 0) 0) 0) 0) 0) 1) ) 0) 0) 0) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) the same 2) ) 0) 0) 0) 0) 1) 1) ) 0) 0) 0) 1) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) integer 3) ) 0) 0) 0) 1) 0) 1) ) 0) 0) 0) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) number 4) ) 0) 0) 1) 0) 0) 0) ) 0) 0) 0) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 5) ) 0) 0) 1) 0) 0) 1) ) 0) 0) 1) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 6) ) 0) 0) 1) 1) 0) 0) ) 0) 0) 1) 0) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 16 pairs of strings 7) ) 0) 0) 1) 1) 0) 1) ) 0) 0) 1) 1) 1) 0) ) 0) 1) 0) 0) 0) 0) ) ) ) ) ) ) ) xxxx01 – xxxx10 8) ) 0) 1) 0) 0) 0) 1) ) 0) 1) 0) 0) 1) 0) ) 1) 0) 0) 0) 0) 0) ) 0) 0) 1) 1) 1) 1) 9) ) 1) 0) 0) 0) 0) 1) ) 1) 0) 0) 0) 1) 0) ) 0) 1) 0) 1) 0) 0) ) 0) 1) 0) 0) 1) 1) 10) ) 0) 1) 0) 1) 0) 1) ) 0) 1) 0) 1) 1) 0) ) 1) 0) 0) 1) 0) 0) ) 1) 0) 0) 0) 1) 1) 11) ) 1) 0) 0) 1) 0) 1) ) 1) 0) 0) 1) 1) 0) ) 0) 1) 1) 0) 0) 0) ) 0) 1) 0) 1) 1) 1) 12) ) 0) 1) 1) 0) 0) 1) ) 0) 1) 1) 0) 1) 0) ) 1) 0) 1) 0) 0) 0) ) 1) 0) 0) 1) 1) 1) 13) ) 1) 0) 1) 0) 0) 1) ) 1) 0) 1) 0) 1) 0) ) 0) 1) 1) 1) 0) 0) ) 0) 1) 1) 0) 1) 1) 14) ) 0) 1) 1) 1) 0) 1) ) 0) 1) 1) 1) 1) 0) ) 1) 0) 1) 1) 0) 0) ) 1) 0) 1) 0) 1) 1) 15) ) 1) 0) 1) 1) 0) 1) ) 1) 0) 1) 1) 1) 0) ) 1) 1) 0) 0) 0) 0) ) 0) 1) 1) 1) 1) 1) 16) ) 1) 1) 0) 0) 0) 1) ) 1) 1) 0) 0) 1) 0) ) 1) 0) 1) 1) 1) 1) ) ) ) ) ) ) ) 17) ) 1) 1) 0) 0) 1) 1) ) 1) 1) 0) 1) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 18) ) 1) 1) 0) 1) 0) 1) ) 1) 1) 0) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 19) ) 1) 1) 1) 0) 1) 1) ) 1) 1) 0) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 20) ) 1) 1) 1) 0) 0) 1) ) 1) 1) 1) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 21) ) 1) 1) 1) 1) 0) 0) ) 1) 1) 1) 0) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 22) ) 1) 1) 1) 1) 0) 1) ) 1) 1) 1) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 23) ) 1) 1) 1) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ! Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 23 Symmetry of xxxx01 çè xxxx10 exchange

Represented) Length 6 binary strings number! xxxx01 and ) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) 0) ) 0) 0) 0) 0) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) xxxx10 codify 1) ) 0) 0) 0) 0) 0) 1) ) 0) 0) 0) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) the same 2) ) 0) 0) 0) 0) 1) 1) ) 0) 0) 0) 1) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) integer 3) ) 0) 0) 0) 1) 0) 1) ) 0) 0) 0) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) number 4) ) 0) 0) 1) 0) 0) 0) ) 0) 0) 0) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 5) ) 0) 0) 1) 0) 0) 1) ) 0) 0) 1) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 6) ) 0) 0) 1) 1) 0) 0) ) 0) 0) 1) 0) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 16 pairs of strings 7) ) 0) 0) 1) 1) 0) 1) ) 0) 0) 1) 1) 1) 0) ) 0) 1) 0) 0) 0) 0) ) ) ) ) ) ) ) xxxx01 – xxxx10 8) ) 0) 1) 0) 0) 0) 1) ) 0) 1) 0) 0) 1) 0) ) 1) 0) 0) 0) 0) 0) ) 0) 0) 1) 1) 1) 1) 9) ) 1) 0) 0) 0) 0) 1) ) 1) 0) 0) 0) 1) 0) ) 0) 1) 0) 1) 0) 0) ) 0) 1) 0) 0) 1) 1) 10) ) 0) 1) 0) 1) 0) 1) ) 0) 1) 0) 1) 1) 0) ) 1) 0) 0) 1) 0) 0) ) 1) 0) 0) 0) 1) 1) 11) ) 1) 0) 0) 1) 0) 1) ) 1) 0) 0) 1) 1) 0) ) 0) 1) 1) 0) 0) 0) ) 0) 1) 0) 1) 1) 1) 12) ) 0) 1) 1) 0) 0) 1) ) 0) 1) 1) 0) 1) 0) ) 1) 0) 1) 0) 0) 0) ) 1) 0) 0) 1) 1) 1) 13) ) 1) 0) 1) 0) 0) 1) ) 1) 0) 1) 0) 1) 0) ) 0) 1) 1) 1) 0) 0) ) 0) 1) 1) 0) 1) 1) 14) ) 0) 1) 1) 1) 0) 1) ) 0) 1) 1) 1) 1) 0) ) 1) 0) 1) 1) 0) 0) ) 1) 0) 1) 0) 1) 1) 15) ) 1) 0) 1) 1) 0) 1) ) 1) 0) 1) 1) 1) 0) ) 1) 1) 0) 0) 0) 0) ) 0) 1) 1) 1) 1) 1) 16) ) 1) 1) 0) 0) 0) 1) ) 1) 1) 0) 0) 1) 0) ) 1) 0) 1) 1) 1) 1) ) ) ) ) ) ) ) 17) ) 1) 1) 0) 0) 1) 1) ) 1) 1) 0) 1) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 18) ) 1) 1) 0) 1) 0) 1) ) 1) 1) 0) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 19) ) 1) 1) 1) 0) 1) 1) ) 1) 1) 0) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 20) ) 1) 1) 1) 0) 0) 1) ) 1) 1) 1) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 21) ) 1) 1) 1) 1) 0) 0) ) 1) 1) 1) 0) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 22) ) 1) 1) 1) 1) 0) 1) ) 1) 1) 1) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 23) ) 1) 1) 1) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ! Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 24 Structural Isomorphism

STRUCTURAL ISOMORPHISM GC-LIKE NON-POWER INTEGER NUMBER REPRESENTATION

STARTING SET ARRIVING SET MAPPING BINARY STRINGS INTEGER NUMBERS OF LENGTH 6 (8,7,4,2,1,1) FROM 0 TO 23 CARDINALITY = 64 CARDINALITY = 24

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 25 Model SYMMETRY

STRUCTURAL ISOMORPHISM GC-LIKE NON-POWER INTEGER NUMBER REPRESENTATION

STARTING SET ARRIVING SET MAPPING BINARY STRINGS INTEGER NUMBERS OF LENGTH 6 (8,7,4,2,1,1) FROM 0 TO 23 CARDINALITY = 64 CARDINALITY = 24

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 26 The Model of the Euplotes Nuclear Genetic Code

“Can the genetic code be mathematically described?”, Diego L. Gonzalez, Medical Science Monitor, v.10, n.4, HY11-17 (2004). “The Mathematical Structure of the Genetic Code” D.L. Gonzalez, The Codes of Life, M.. Barbieri Editor, Springer Verlag (2008)

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 27 THE MODEL

Puts in evidence the role played by symmetries which are associated to conserved quantities in a complete analogy with their role in physics.

Because such symmetries are highly conserved in the genetic code they must be associated to important biological functions!

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 28 Parity Dichotomic Class

The parity of the strings can be described in terms of biochemical properties

Parity of a string = parity of the # of 1’s, i.e., 0,1,1,0,1,0 = odd string The complete set of parity rules: Codons ending in A are odd (grey boxes); codons ending in G are even (white boxes) Codons ending in T or C are odd if the second letter is T or G (Keto) Codons ending in T or C are even if the second letter is A or C (Amino) Dichotomic classes: Parity, Rumer, Hidden Actual sequences can be binary coded: short-range correlations, circular codes, etc.

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 29 Rumer’s Dichotomic Class

Degeneracy Class 4 «» Degeneracy Class 1,2,3

“Strong Short-Range Correlations and Codon Class Dichotomies classes in Coding DNA Sequences”, Diego L. Gonzalez, Simone Giannerini and Rodolfo Rosa, Physical Review E,78, n.5, 08481, (2008). “Circular codes revisited: a statistical approach” Diego Luis Gonzalez, Simone Giannerini and Rodolfo Rosa, Journal of Theoretical Biology, vol. 275, n.1, pp21-28, (2011). "DNA, circular codes and dichotomic classes: a quasi-crystal framework", Diego Luis Gonzalez, Simone Giannerini and Rodolfo Rosa, Phil Trans A of the Royal Society, Beyond Crystals: the dialectic of information and structure, theme issue, 370, 2987-3006; doi: 10.1098/rsta.2011.0387, (2012). “Genome characterization through dichotomic classes: an analysis of the whole chromosome 1 of A. Thaliana, Enrico Properzi, Simone Giannerini, Diego L. Gonzalez, and Rodolfo Rosa, Mathematical Biosciences and Engineering, v. 10, n. 1, pp 199-219, (2013). “Circular codes, symmetries and transformations” Elena Fimmel, Simone Giannerini, Diego Luis Gonzalez, Lutz Strüngmann, submitted to Journal of Mathematical Biology, (2013).

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 30 Outline

1. Description of the degeneracy distribution of the Euplotes nuclear genetic code with a redundant integer number representation system

2. Isomorphisms and models, the role of symmetries in the construction of a non-power model of the Euplotes nuclear genetic code

3. Modelling of the vertebrate mitochondrial genetic code and the origin of degeneracy in amino acid’s coding

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 31 Information Processing in the Eukaryotic Cell

Eukaryotic cell

Nucleus

E

Cytoplasm

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 32 Information Processing in the Eukaryotic Cell

Eukaryotic cell

Nucleus

E

Cytoplasm

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 33 Error detection/correction hypothesis

Why exists a strong and conserved mathematical structure inside the genetic code?

• Error detection/correction hypothesis: not the unique possibility (protein synthesis regulation, , etc.) • A difficult problem in the framework of nuclear genetic information

A more simpler case: mitochondrial genetic information Nuclear Genetic Code Mitochondrial Genetic Code

Nuclear Information: 3.109 bases Mitochondrial Information: 2.104 bases D.L. Gonzalez, Error Detection and Correction Codes in The Codes of Life, chapter 6, Marcello Barbieri Editor, Springer Verlag (2008). Elebeoba E. May, Mladen A. Vouk, Donald L. Bitzer, and David I. Rosnick. An error-correcting code framework for genetic sequence analysis. Journal of the Franklin Institute, 341:89-109, (2004).

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 34 Vertebrate mitochondrial genetic code

Distribution of Degeneracy inside Quartets

Degeneracy Number of (number of amino acids synonimous sharing this codons) degeneracy 2 16 4 8 Total: 24 different objects

In yellow are evidenced the differences with the standard nuclear genetic code

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 35 Non-power representation system 1,1,2,4,7,8

Represented) Length 6 binary strings Degeneracy distribution number! Non-power representation system ) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) ) 8) 7) 4) 2) 1) 1) 1,1,2,4,7,8 0) ) 0) 0) 0) 0) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) # of integer Degeneracy 1) ) 0) 0) 0) 0) 0) 1) ) 0) 0) 0) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) numbers 2) ) 0) 0) 0) 0) 1) 1) ) 0) 0) 0) 1) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 2 1 3) ) 0) 0) 0) 1) 0) 1) ) 0) 0) 0) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 4) ) 0) 0) 1) 0) 0) 0) ) 0) 0) 0) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 12 2 5) ) 0) 0) 1) 0) 0) 1) ) 0) 0) 1) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 2 3 6) ) 0) 0) 1) 1) 0) 0) ) 0) 0) 1) 0) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 8 4 7) ) 0) 0) 1) 1) 0) 1) ) 0) 0) 1) 1) 1) 0) ) 0) 1) 0) 0) 0 ) 0) ) ) ) ) ) ) ) 8) ) 0) 1) 0) 0) 0) 1) ) 0) 1) 0) 0) 1) 0) ) 1) 0) 0) 0) 0) 0) ) 0) 0) 1) 1) 1) 1) Unique solution 1,1,2,4,7,8 9) ) 1) 0) 0) 0) 0) 1) ) 1) 0) 0) 0) 1) 0) ) 0) 1) 0) 1) 0) 0) ) 0) 1) 0) 0) 1) 1) 10) ) 0) 1) 0) 1) 0) 1) ) 0) 1) 0) 1) 1) 0) ) 1) 0) 0) 1) 0) 0) ) 1) 0) 0) 0) 1) 1) 11) ) 1) 0) 0) 1) 0) 1) ) 1) 0) 0) 1) 1) 0) ) 0) 1) 1) 0) 0) 0) ) 0) 1) 0) 1) 1) 1) 12) ) 0) 1) 1) 0) 0) 1) ) 0) 1) 1) 0) 1) 0) ) 1) 0) 1) 0) 0) 0) ) 1) 0) 0) 1) 1) 1) 13) ) 1) 0) 1) 0) 0) 1) ) 1) 0) 1) 0) 1) 0) ) 0) 1) 1) 1) 0) 0) ) 0) 1) 1) 0) 1) 1) 14) ) 0) 1) 1) 1) 0) 1) ) 0) 1) 1) 1) 1) 0) ) 1) 0) 1) 1) 0) 0) ) 1) 0) 1) 0) 1) 1) 15) ) 1) 0) 1) 1) 0) 1) ) 1) 0) 1) 1) 1) 0) ) 1) 1) 0) 0) 0) 0) ) 0) 1) 1) 1) 1) 1) Degeneracy distribution 16) ) 1) 1) 0) 0) 0) 1) ) 1) 1) 0) 0) 1) 0) ) 1) 0) 1) 1) 1) 1) ) ) ) ) ) ) ) Euplotes nuclear genetic code 17) ) 1) 1) 0) 0) 1) 1) ) 1) 1) 0) 1) 0) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) # of amino acids Degeneracy 18) ) 1) 1) 0) 1) 0) 1) ) 1) 1) 0) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 19) ) 1) 1) 1) 0) 1) 1) ) 1) 1) 0) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 2 1 20) ) 1) 1) 1) 0) 0) 1) ) 1) 1) 1) 0) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 12 2 21) ) 1) 1) 1) 1) 0) 0) ) 1) 1) 1) 0) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 2 3 22) ) 1) 1) 1) 1) 0) 1) ) 1) 1) 1) 1) 1) 0) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 23) ) 1) 1) 1) 1) 1) 1) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) 8 4 ! Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 36 The 8,8,4,2,1,0 non-power solution for mitochondrial degeneracy

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 37 Half the Degeneracy of the Mitochondrial Genetic Code

Half the degeneracy of the genetic code Obtained by excluding the 0 non-power base of the representation

(8,8,4,2,1)

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 38 Dinucleotide Coding

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 39 One Half of the Tesserae Set: Symmetric Tesserae

Palindromic Self-complementary

Wu HL, Bagby S, van den Elsen JM. Evolution of the genetic triplet code via two types of doublet codons, J Molecular Evolution, 61(1), (2005) 54-64.

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 40 Reversible Ancient tRNAs

S. Nikolajewa. M. Friedel, A. Beyer, and T. Wilhelm, The new classification scheme of the genetic code, its early evolution, and tRNA usage, Journal of Bioinformatics and Cmputational Biology, 12, 54 (2005) 1-12

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 41 Reading the Symmetric set of Tesserae

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 42 How can be Completed the Tesserae Set?

Palindromic Self-complementary

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 43 The Complete Tesserae Representation

Group properties of the four symmetric transformations, i.e., I, C, YR and KM Klein 4-group V

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 44 Origin of the mitochondrial genetic code

Distribution of Degeneracy Distribution of Degeneracy Distribution of Degeneracy Vertebrate Mitochondrial Non-power system Tesserae 8,8,4,2,1,0 Degeneracy Number of Degeneracy Number of number of amino acids Degeneracy # of integers Number of amino acids synonymous sharing this synonymous sharing this codons degeneracy tesserae degeneracy 2 16 2 16 2 16 4 8 4 8 4 8

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 45 Origin of degeneracy in amino acid coding

Degeneracy as plurality of states characterized by the same interaction energy D.L. Gonzalez, S. Giannerini, and R. Rosa, On the origin of the mitochondrial genetic code: Towards a Unified mathematical framework for the management of genetic information, Nature Precedings, (2012) H. Seligman, Pocketknife tRNA hypothesis: anticodons in mammal mitochondrial tRNA side-arm loops translate ? Biosystems (2013)

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 46 The Complete Tesserae Representation

Palindromic Self-complementary Non symmetric tesserae

Completely immune to point

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 47 How we can pass from tesserae to codons?

Tesserae Model Present Code

# Tesserae = 4.4.4.4 = 256 # Codons = 4.4.4 = 64 # Valid Tesserae = 64 # Valid Codons = 64

MAPPING?

Tesserae suggest an origin of proteins Present codons, instead, are read based in direct template synthesis by the ribosome

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 48 The ribosome as a dynamical error-correcting molecular machine

The ribosome mediated protein synthesis should compensate to some extent the loss of information involved in passing from codons of length four (tesserae) to codons of length three (present codons). The ribosome is in fact a dynamical molecular machine able to incorporate until 30 amino acids in a second (human cell).

The process of protein synthesis can be though as a chaotic synchronization: the input represented by the symbolic sequence of bases in the mRNA molecule and the output by the symbolic sequence of complementary bases in tRNA molecules (or, equivalently, by the sequence of corresponding amino acids)

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 49 Consequences

NON-POWER REPRESENTATION OF THE MITOCHONDRIAL GENETIC CODE

- PRIMEVAL FOUR-BASES CODONS (TESSERAE) (64 tesserae – 64 codons)

- DEGENERACY EXPLAINED ON THE BASIS OF PRIMEVAL CHEMICAL SYMMETRIES (palindromic and self-complementary)

-ERROR DETECTION/CORRECTION CAPABILITIES (point mutations)

-REVERSE AND REVERSE COMPLEMENTED TESSERAE CODES THE SAME AA

- RUMER’S TRANSFORMATION (changes degeneracy if applied on the first two bases of a codon – changes degeneracy if applied to the first two letters of a tesserae)

- ORIGIN OF THE GENETIC CODE ( to point mutations)

- THE RIBOSOME AS A DYNAMICAL ERROR-CORRECTING MOLECULAR MACHINE

P.V. Baranov, M. Venin, G. Provan, Codon Size Reduction as the Origin of the Triplet Genetic Code, PLOS ONE 4(5): e5708. doi:10.1371, (2009).

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 50 Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 51 Collaborations

Oreste Piro Departamento de Fisica, Universidad de las Islas Baleares, Palma de Mallorca, Spain Julyan Cartwright CSIC- Instituto Andaluz de Ciencias de la Tierra, Universidad de Granada, Spain Simone Giannerini Dipartimento di Statistica, Universidad di Bologna, Italy Rodolfo Rosa Dipartimento di Statistica, Universidad di Bologna, CNR-IMM, Italy Alberto Danieli Dipartimento di Farmacia e Biotecnologie, Università di Bologna, Italy Elena Fimmel Hochschule Mannheim/Institut für Angewandte Mathematik, Mannheim, Germany Lutz Strüngmann Hochschule Mannheim/Institut für Angewandte Mathematik, Mannheim, Germany Ivo Wolf Hochschule Mannheim/Institut für Angewandte Mathematik, Mannheim, Germany Markus Kumbel Hochschule Mannheim/Institut für Angewandte Mathematik, Mannheim, Germany Enrico Properzi Biotecnologie, Università di Bologna, Italy

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 52 Publications

“Una Nuova Descrizione Matematica del Codice Genetico” D.L. Gonzalez and M. Zanna, Systema Naturae, Annali di Biologia Teorica, V. 5, pp. 219-236, (2003). “Can the genetic code be mathematically described?”, Diego L. Gonzalez, Medical Science Monitor, v.10, n.4, HY11-17 (2004). “Detecting Structure in Parity Binary Sequences: Error Correction and Detection in DNA”, Diego Luis Gonzalez, Simone Giannerini and Rodolfo Rosa, IEEE-EMB Magazine, Special Issue on Communication Theory, Coding Theory and Molecular Biology, pp. 69-81, January/February (2006). “Error Detection and Correction Codes” D.L. Gonzalez, in “The Codes of Life”, chapter 6, Marcello Barbieri Editor, Springer Verlag (2008). “The Mathematical Structure of the Genetic Code” D.L. Gonzalez, in “The Codes of Life”, chapter 17, Marcello Barbieri Editor, Springer Verlag (2008). “Strong Short-Range Correlations and Codon Class Dichotomies classes in Coding DNA Sequences”, Diego L. Gonzalez, Simone Giannerini and Rodolfo Rosa, Physical Review E,78, n.5, 08481, (2008). “The mathematical structure of the genetic code: a tool for inquiring on the origin of life” Diego L. Gonzalez, S. Giannerini, and R. Rosa, Rivista di Statistica, Anno LXIX, n. 2-3, pp. 143-158,(2009). “Circular codes revisited: a statistical approach” Diego Luis Gonzalez, Simone Giannerini and Rodolfo Rosa, Journal of Theoretical Biology, vol. 275, n.1, pp21-28, (2011). "DNA, circular codes and dichotomic classes: a quasi-crystal framework", Diego Luis Gonzalez, Simone Giannerini and Rodolfo Rosa, Phil Trans A of the Royal Society, Beyond Crystals: the dialectic of information and structure, theme issue, 370, 2987-3006; doi:10.1098/rsta.2011.0387, (2012). “On the origin of the mitochondrial genetic code: Towards a unified mathematical framework for the management of genetic information” Gonzalez, Diego Luis, Giannerini, Simone, and Rosa, Rodolfo. Available from Nature Precedings (2012) “Genome characterization through dichotomic classes: an analysis of the whole chromosome 1 of A. Thaliana, Enrico Properzi, Simone Giannerini, Diego L. Gonzalez, and Rodolfo Rosa, Mathematical Biosciences and Engineering, v. 10, n. 1, pp 199-219, (2013). “Circular codes, symmetries and transformations” Elena Fimmel, Simone Giannerini, Diego Luis Gonzalez, Lutz Strüngmann, submitted to Journal of Mathematical Biology, (2013).

Workshop on Dynamical Systems and Applicaons BCAM 10-11 December 2013 53