Optimal Primer Design 84
Total Page:16
File Type:pdf, Size:1020Kb
Approches bioinformatiques pour l’assessment de la biodiversité Tiayyba Riaz To cite this version: Tiayyba Riaz. Approches bioinformatiques pour l’assessment de la biodiversité. Sciences agricoles. Université de Grenoble, 2011. Français. NNT : 2011GRENV076. tel-00716330 HAL Id: tel-00716330 https://tel.archives-ouvertes.fr/tel-00716330 Submitted on 10 Jul 2012 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THÈSE Pour obtenir le grade de DOCTEUR DE L’UNIVERSITÉ DE GRENOBLE Spécialité : Biodiversité Ecologie Environment Arrêté ministériel : 7 août 2006 Présentée par Tiayyba RIAZ Thèse dirigée par Eric COISSAC préparée au sein du Laboratoire d’Ecologie Alpine dans l'École Doctorale Chimie et Science du Vivant Approches bioinformatiques pour l’évaluation de la biodiversité Thèse soutenue publiquement le 23 Novembre, 2011 , devant le jury composé de : M Pierre BREZELLEC MdC HDR, UVSQ, Rapporteur M Guy PERRIÈRE Dr-HDR, CNRS, Rapporteur M Pierre PETERLONGO CR, INRIA, Examinateur M Christian BROCHMANN Prof, Natural History Museum Oslo, Examinateur M Serge AUBERT Prof, UJF, Examinateur M Eric COISSAC MDC-HDR, UJF, Directeur de thèse 1 Bioinformatics Approaches For The Assessment Of Biodiversity 2 Abstract This thesis is concerned with the design and development of bioinformatics techniques facilitating the use of metabarcoding approach for measuring species diversity. Metabar- coding coupled with next generation sequencing techniques have a strong potential for multiple species identification from a single environmental sample. The real strength of metabarcoding resides in the selection of an appropriate markers chosen for a particular study and thus identification at species or higher level taxa can be achieved with care- fully designed markers. Moreover next generation sequencers are producing tremendous amount of data which contains a substantial level of errors that bias biodiversity estimates. In this thesis, we addressed three major problems: evaluating the quality of a barcode region, designing new barcodes and dealing with errors present in DNA sequences. To assess the quality of a barcode region we developed two formal quantitative measures called barcode coverage (Bc) and barcode specificity (Bs). Bc gives a measure of universality of primer pairs, and Bs deals with the ability of barcode region to discriminate between different taxa. These measures are extremely useful for ranking different barcodes and selecting the best markers. To design new barcodes for metabarcoding applications we developed an efficient pro- gram called ecoPrimers . Based on the above two quality indices and with integrated taxonomic information, ecoPrimers 1 enables us to design primers and their corresponding barcode markers for any taxonomic level. Moreover with a large number of tunable parameters it allows us to control the properties of markers. Using efficient algorithms and implemented in C language, ecoPrimers is efficient enough to deal with large data bases including fully sequenced bacterial genomes. Finally to deal with errors present in DNA sequences, we analyzed a simple set of PCR samples obtained from the diet analysis of snow leopard. By measuring correlations be- tween different properties of errors, we observed that most of the errors were introduced during PCR amplification. In order to deal with such errors, we developed an algorithm 1http://www.grenoble.prabi.fr/trac/ecoPrimers 3 using graphs approach, that can differentiate true sequences from PCR induced errors. The results obtained from this algorithm showed that de-noised data gave a realistic estimate of species diversity studied in French Alpes. This algorithm is implemented in program obiclean .2 Key Words: Taxonomy, Species Inventory, Biodiversity, Paleoecology, Diet Analysis, DNA Barcoding, Metabarcoding, Environmental Sample, Barcode Markers, Coverage, Specificity, Con- served Regions, Algorithm Complexity, Metaheuristics, Mutations, High Throughput DNA Sequencing 2https://www.grenoble.prabi.fr/OBITools 4 Resumé Cette thèse s’intéresse à la conception et au développement de méthodes bioinformatiques facilitant l’utilisation de l’approche “DNA metabarcoding” pour estimer la diversité des espèces dans un environement. Le DNA metabarcoding en reprenant l’idée du code barre ADN développée par Hebert et. al (2003) permet grâce au séquençage haut débit l’identification taxonomique des organismes présent dans un échantillon environnemen- tal. Trois problèmes bioinformatiques seront abordés dans ce manuscrit : l’évaluation la qualité d’un code barre dans le cadre du DNA metabarcoding, l’identification de nou- velles régions du génome utilisables comme code barre ADN et l’analyse des données de séquençage afin filtrer les erreurs et de limiter le bruit masquant le signal taxonomique. Contrairement au “DNA barcoding” classique qui utilise des marqueurs standards, le metabarcoding doit utiliser des marqueurs qui sont souvent sélectionnés et adaptés pour chacune des études. La qualité de l’identification des taxons repose donc énormément sur ce choix. Pour évaluer la qualité d’un code barre ADN, j’ai développé deux mesures permettant d’estimer de manière objective la couverture ( Bc) et la spécificité ( Bs) d’un marqueur. La couverture mesure l’universalité d’une paire d’amorces et donc sa capacité à amplifier par PCR (Polymerase chain reaction) un grand nombre de taxons. La spécificité, quant à elle, mesure la capacité de la région amplifiée à discriminer entre les différents taxons. Ces mesures permettent de classer des codes barres ADN et donc de sélectionner a priori le meilleur pour une application donnée. Disposant de ces deux nouveaux indices de qualité d’un code barre ADN, il devenait possible de chercher a identifier la portion d’un génome les maximisant. Pour cela, j’ai développé le logiciel ecoPrimers 3. Basé sur l’optimisation de ces deux mesures, ecoPrimers propose à partir d’une liste de séquences exemples et d’une liste de séquences contre- exemples un ensemble de paires de d’amorces qui permettent l’amplification par PCR de codes barres ADN. ecoPrimers possède un grand nombre de paramètres qui permettent de contrôler les propriétés des amorces et des codes barres suggérés. Ce travail a nécessité de développement d’un algorithme efficace d’identification des mots conservés dans 3http://www.grenoble.prabi.fr/trac/ecoPrimers 5 un quorum des séquences exemples et absent des contre-exemples. Il en résulte que ecoPrimers est suffisamment efficace pour apprendre à partir de grand jeux de données, y compris l’ensemble des génomes bactériens entièrement séquencés. La dernière partie de ce manuscrit résume un ensemble d’observations préliminaires que nous avons réalisées sur les erreurs introduites dans les séquences tout au long du processus allant de l’échantillonnage au fichier final contenant celles-ci. Nous avons utilisée pour cela un ensemble d’échantillons de composition taxonomique simple perme- ttant de séparer aisément le signal du bruit. Ces échantillons sont issus de l’analyse du régime alimentaire du leopard des neiges ( Uncia uncia). La mesure de corrélations entre différents paramètres des erreurs observées dans ces échantillons, nous laisse supposer que la plupart de celles-ci se produisent durant l’amplification par PCR. Pour détecter ces erreurs, nous avons testé un premier algorithme simple basé sur une structure de graphes dirigés acycliques. Les résultats obtenus à partir de cet algorithme ont montré que les données de-bruitée donnent une estimation réaliste de la diversité des espèces pour une série d’échantillons provenant du la vallée de Roche Noire (Alpes françaises). Mots Clés: Taxonomie, Liste d’espèces, Biodiversité, Paléoécologie, Analyse du Régime Alimentaire, Barcoding de l’ADN, Metabarcoding, Échantillons Environnementaux, Amorces PCR, Couverture, Spécificité, Régions Conservées, Complexité Algorithmique, Metaheuristique, Séquençage de l’ADN Haut Débit 6 Preface DNA barcoding has become a fairly useable method of choice for rapid species identifica- tion in the last decade. There are two principal types of DNA barcoding, the conventional barcoding applied to single specimen identification and the sensu lato or metabarcoding used for the identification of multiple species from single environmental samples. Ecological studies mostly require the determination of the list of species involved in the ecological process under study. DNA metabarcoding coupled with next generation sequencing techniques provide the opportunity to produce a large amount of data for measuring biodiversity. Despite its relationship with DNA barcoding, the particularities of the DNA metabarcoding require to develop specific methodologies for data analysis. In this context, this thesis is concerned with the development of bioinformatics techniques which can facilitate the use of DNA metabarcoding for the accurate assessment of bio- diversity. Due to the specific constraints imposed by metabarcoding, selection of the appropriate markers for a given ecological study and designing new optimal barcode regions is