The Evolution of Recombination and Genomic Structures: a Modeling Approach
Total Page:16
File Type:pdf, Size:1020Kb
The evolution of recombination and genomic structures: a modeling approach. Alexandra Popa To cite this version: Alexandra Popa. The evolution of recombination and genomic structures: a modeling approach.. Bioinformatics [q-bio.QM]. Université Claude Bernard - Lyon I, 2011. English. tel-00750370 HAL Id: tel-00750370 https://tel.archives-ouvertes.fr/tel-00750370 Submitted on 9 Nov 2012 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. N◦ d'ordre: Ann´ee2011 THESE pr´esent´ee devant l'UNIVERSITE CLAUDE BERNARD - LYON I pour l'obtention du DIPLOME DE DOCTORAT (arr^et´edu 7 ao^ut 2006) par Alexandra Mariela POPA The evolution of recombination and genomic structures: a modeling approach. Directeur de th`ese: Christian GAUTIER Co-directrice de th`ese: Dominique MOUCHIROUD JURY: Laurent DURET Pr´esident du jury Christian GAUTIER Directeur Sylvain GLEMIN Rapporteur Christine MEZARD Rapporteur Dominique MOUCHIROUD Directrice Matthew WEBSTER Rapporteur ii UNIVERSITE CLAUDE BERNARD - LYON 1 Président de l’Université M. A. Bonmartin Vice-président du Conseil d’Administration M. le Professeur G. Annat Vice-président du Conseil des Etudes et de la Vie Universitaire M. le Professeur D. Simon Vice-président du Conseil Scientifique M. le Professeur J-F. Mornex Secrétaire Général M. G. Gay COMPOSANTES SANTE Faculté de Médecine Lyon Est – Claude Bernard Directeur : M. le Professeur J. Etienne Faculté de Médecine et de Maïeutique Lyon Sud – Charles Directeur : M. le Professeur F-N. Gilly Mérieux UFR d’Odontologie Directeur : M. le Professeur D. Bourgeois Institut des Sciences Pharmaceutiques et Biologiques Directeur : M. le Professeur F. Locher Institut des Sciences et Techniques de la Réadaptation Directeur : M. le Professeur Y. Matillon Département de formation et Centre de Recherche en Biologie Directeur : M. le Professeur P. Farge Humaine COMPOSANTES ET DEPARTEMENTS DE SCIENCES ET TECHNOLOGIE Faculté des Sciences et Technologies Directeur : M. le Professeur F. Gieres Département Biologie Directeur : M. le Professeur F. Fleury Département Chimie Biochimie Directeur : Mme le Professeur H. Parrot Département GEP Directeur : M. N. Siauve Département Informatique Directeur : M. le Professeur S. Akkouche Département Mathématiques Directeur : M. le Professeur A. Goldman Département Mécanique Directeur : M. le Professeur H. Ben Hadid Département Physique Directeur : Mme S. Fleck Département Sciences de la Terre Directeur : Mme le Professeur I. Daniel UFR Sciences et Techniques des Activités Physiques et Sportives Directeur : M. C. Collignon Observatoire de Lyon Directeur : M. B. Guiderdoni Ecole Polytechnique Universitaire de Lyon 1 Directeur : M. P. Fournier Ecole Supérieure de Chimie Physique Electronique Directeur : M. G. Pignault Institut Universitaire de Technologie de Lyon 1 Directeur : M. le Professeur C. Coulet Institut de Science Financière et d'Assurances Directeur : M. le Professeur J-C. Augros Institut Universitaire de Formation des Maîtres Directeur : M. R. Bernard 2 iii Abstract Meiotic recombination plays several critical roles in molecular evolution. First, recombina- tion represents a key step in the production and transmission of gametes during meiosis. Second, recombination facilitates the impact of natural selection by shuffling genomic sequences. Furthermore, the action of certain repair mechanisms during recombination affects the frequencies of alleles in populations via biased gene conversion. Lately, the numerous advancements in the study of recombination have unraveled the complexity of this process regarding both its mechanisms and evolution. The main aim of this thesis is to analyze the relationships between the different causes, characteristics, and effects of recombination from an evolutionary perspective. First, we developed a model based on the control mechanisms of meiosis and inter-crossover interference. We further used this model to compare the recombination strategies in multiple vertebrates and invertebrates, as well as between sexes. Second, we studied the impact of the sex-specific localization of recombination hotspots on the evolution of the GC content for several vertebrates. Last, we built a population genetics model to analyze the impact of recombination on the frequency of deleterious mutation in the human population. R´esum´e La recombinaison m´eiotique joue un double r^ole de moteur ´evolutif en participant `ala cr´eation d'une diversit´eg´en´etique soumise `ala s´election naturelle et de contr^ole dans la fabrication des gam`etes lors de la m´eiose. De plus, en association avec certains m´ecanismes de r´eparation, la recombinaison, au travers de la conversion g´enique biais´eemanipule les fr´equences all´eliques au sein des populations. Les connaissances sur le fonctionnement m^eme des ce processus ont consid´erablement augment´ees ces derni`eres ann´ees faisant d´ecouvrir un processus complexe, autant dans son fonctionnement que dans son ´evolution. Le th`eme g´en´eral de la th`eseest l'analyse, dans un contexte ´evolutif, des relations entre les diff´erent r^oles et caract´eristiques fonctionnelles de la recombinaison. Un mod`ele de la recombinaison prenant en compte des contraintes li´eesau contr^ole de la m´eiose et le ph´enom`ene d'interf´erence a permis une comparaison entre esp`ecesau sein des vert´ebr´es et des invert´ebr´esde m^eme qu'un comparaison entre sexes. Par ailleurs, nous avons montr´el'impact de la localisation sp´ecifique aux sexes des points chauds de recombinaison sur l'´evolution du contenu en GC des g´enomes de plusieurs vert´ebr´es. Finalement, nous proposons un mod`ele `al'´echelle de la g´en´etique des populations, permettant d'analyser l'impact de la recombinaison sur la fr´equences de mutations d´el´et`eres dans les populations humaines. Cette th`ese,nous l'esp´erons, apportera sa pierre `al'´etude interdisciplinaire de la recombinaison, `ala fois au sein de la biologie et par ses relations au travers de la mod´elisation avec l'informatique et les math´ematiques. iv Notations General abbreviations A Adenine bp base pair C Cytosine CpG A dinucleotide CG, p standing for a phosphate link. DNA Deoxyribonucleic acid G Guanine Gb Giga base kb kilo base Mb Mega base Myr Million years Ne effective population size SNP single nucleotide polymorphism T Thymine TSS Transcription Start Site Meiosis and recombination-related abbreviations CE Central Element (referring to the SC) cM centimorgan CO Crossover COI CO Interference COR Crossover Rate dHJ double Holliday Junction DSB Double-Strand Break DSBh Double-Strand Break hotspot DSBR Double-Strand Break Repair model dsDNA double stranded DNA F1 First generation of offspring in a crossing experiment F2 Second generation of offspring in a crossing experiment F/M Female/Male ratio HapMap1, 2, and 3 the 1st, 2nd, and 3rd respective phases of HapMap Project HJ Holliday Junction HR Homologous Recombination v vi HS Heterogeneous Stock (for mouse populations) LD Linkage Disequilibrium LE Lateral Element (referring to the SC) NAHR Nonallelic Homologous Recombination NCO Non-crossover NCOR Non-crossover Rate NE Nuclear Envelope NHEJ Nonhomologous End Joining PC Pairing Centres rDNA ribosomal DNA RI Recombinant Inbred lines (in a crossing experiment) SC Synaptonemal Complex SDSA Synthesis-Dependent Strand-Annealing model SEI Single End Invasion ssDNA single stranded DNA TF Transverse Filaments (referring to the SC) Mathematical symbols C coefficient of coincidence C3 Three-point coefficient of coincidence. D0 the difference between the frequency of a two locus haplotype and the product of the component alleles, divided by the most extreme possible value, given the marginal allele frequencies, measure of LD g genetic distance I Identity matrix m In the counting models, m stands for the number of NCO events that separate two consecutive COs. It is a measure of the strength of interference P Physical length (Mb) of an interval or chromosome p The fraction of COs that are not subject to interference under the two-pathway model Housworth and Stahl (2003). Q the substitution matrix along a branch of a phylogenetic tree R frequency of recombinants among the offspring r2 correlation of alleles at different loci, measure of LD y The mean number of DSB events in the counting model of Foss et al. (1993). # Number χ2 Chi-square distribution Γ Gamma distribution λ The rate parameter for Γ ν The shape parameter for Γ vii σ0 Uniform basal tensile stress in the mechanical stress model of Kleckner et al. (2004). ⊗ Tensor product of matrices BGC abbreviations BGC Biased Gene Conversion BER base excision repair gBGC GC Biased Gene Conversion GC* equilibrium or stationary GC-content MMR mismatch repair Other abbreviations AIC Akaike Information Criterion BIC Bayesian Information Criterion CEPH Centre d'Etude du Polymorphism Humain CI Confidence Interval DAF Derived Allele Frequency DT Distance to Telomeres HGMD Human Gene Mutation Database H-W test Hotteling-William's t-test L Likelihood LCR Low Copy Repeat LDT Log Distance to Telomeres LINE Long interspersed nuclear element LOD Logarithm of Odds MHC Major Histocompatibility Complex PAR Pseudoautosomal Region PCR Polymerase Chain Reaction RE Repetitive Element SINE Short Interspersed Nuclear Element TE Transposable Element viii Definitions Information assembled from Stumpf and McVean (2003); Arnheim et al. (2007); Lynch (2007); Paigen and Petkov (2010); DB-NCBI Allele One of the variant forms of a DNA sequence at a particular locus, or location, on a chromosome. Backcross Crossing experiment in which individuals in the first generation are crossed back with one or both their parents to obtain the second generation of offspring. Bouquet formation The clustering of telomeres together on the nuclear membrane early in meiosis.