Robustess of Phylogenetic Trees Mahendra Mariadassou

Robustess of Phylogenetic Trees Mahendra Mariadassou To cite this version: Mahendra Mariadassou. Robustess of Phylogenetic Trees. Mathematics [math]. Université Paris Sud - Paris XI, 2009. English. tel-00472052 HAL Id: tel-00472052 https://tel.archives-ouvertes.fr/tel-00472052 Submitted on 9 Apr 2010 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. No d’ordre: 9658 THÈSE Présentée pour obtenir LE GRADE DE DOCTEUR EN SCIENCES DE L’UNIVERSITÉ PARIS-SUD XI Spécialité: Mathématiques par Mahendra Mariadassou Robustesse des arbres phylogénétiques Soutenue le 27 Novembre 2009 devant la Commission d’examen: M. Avner Bar-Hen (Directeur de thèse) M. Philippe Besse (Rapporteur) M. Olivier Gascuel (Rapporteur) M. Hirohisa Kishino (Co-encadrant) M. Pascal Massart (Examinateur) Mme. Patricia Reynaud-Bouret (Examinateur) Thèse préparée au Département de Mathématiques d’Orsay Laboratoire de Mathématiques (UMR 8628), Bât. 425 Université Paris-Sud 11 91 405 Orsay CEDEX Robustness of Phylogenetic Trees Abstract Phylogenetic trees are used daily in many fields of biology, most notably the functional and structural study of genomes. They provide a powerful framework to study evolution but are also an abundant source of statistically challenging issues. Most, if not all, applications of phylogenetics have in common that they require accurate phylogenetic estimates. In general, accurate estimates depend on four factors: (1) appropriate selection of genes, (2) sufficient data size, (3) accurate analytical method, (4) adequate taxon sampling. We present in this thesis four issues directly related to this factors. In the first part, we use concentration inequalities to upper bound the amount of data needed to choose the most accurate of two trees when the analytical model is accurate. Using Edegworth expansions, we then present a procedure to select congruent genes from a list of target genes. In the second part, we propose two procedures, based on influence function and sensitivity curves, to identify influent nucleotides and taxa, which are likely to impede the inference and lead to non-robust estimates. We show that as few as one nucleotide or taxon can have a drastic impact on the estimates, discuss the biological implication of this result and provide methods to achieve greater robustness of the trees. Keywords : Phylogenetics, Robustness, Edgeworth expansions, Concentration inequalities, Influence function, Outliers detection, Taxon Influence Index. Résumé La théorie synthétique de l’évolution a largement diffusé dans tous les domaines de la biologie, notamment grâce aux arbres phylogénétiques. S’ils ont une utilité évidente en gé- nomique comparative, ils n’en sont pas moins utilisés dans de nombreux autres domaines allant de l’étude de la biodiversité à l’épidémiologie en passant par les sciences forensiques. Les arbres phylogénétiques sont non seulement une charactérisation efficace mais aussi un outil puissant pour étudier l’évolution. Cependant, toute utilisation d’arbre dans une étude suppose que l’arbre ait été correctement estimé, tant au niveau de la topologie que des autres paramètres, alors que cette estimation est un problème statistique compliqué et encore très ouvert. On admet généralement qu’on ne peut faire de bonne estimation sans les quatre pré-requis que sont (1) le choix d’un ou plusieurs gènes pertinents pour la question étudiée, (2) une quantité suffisante de données pour s’assurer une bonne précision d’estimation, (3) une méthode de reconstruction efficace qui s’appuie sur une modélisation fine de l’évolution pour minimiser les biais de reconstruction, (4) un bon échantillonnage de taxons. Nous nous intéressons dans cette thèse à quatre thèmes étroitement liés à l’un ou l’autre de ces pré-requis. Dans la première partie, nous utilisons des inégalités de concentration pour étudier le lien entre précision d’estimation et quantité de données. Nous proposons ensuite une méthode basée sur des extensions de Edgeworth pour tester la congruence phylogénétique d’un nou- veau gène avec ses prédécesseurs. Dans la deuxième partie, nous proposons deux méthodes, inspirées des analyses de sensibilités, pour détecter les sites et taxons aberrants. Ces points aberrants peuvent nuire à la robustesse des estimateurs et nous montrons sur des exemples comment quelques observations aberrantes seulement suffisent à drastiquement modifier les estimateurs. Nous discutons les implications de ces résultats et montrons comment augmen- ter la robustesse de l’estimateur de l’arbre en présence d’observations aberrantes. Mots-clefs : Arbres phylogénétiques, robustesse, développement de Edgeworth, inégalités de concentration, détection de points aberrants. Remerciements Comme dit l’adage, “À tout seigneur, tout honneur”, ces remerciements ne pour- raient commencer avec personne d’autre qu’Avner Bar-Hen. Je le remercie pour ces quelques années passées à le côtoyer et à travailler sous sa direction. Sur le plan professionnel, je le remercie de m’avoir amené au domaine de la phylogénie. Il m’a permis par sa disponibilité, sa capacité d’écoute et ses conseils de mener à bien cette grande aventure humaine qu’est la thèse. Ses encouragements et son enthousiasme permanent ont été les meilleurs remèdes contre les doutes et les phases de découra- gement scientifique qui m’ont assailli en cours de thèse. Sur le plan personnel, j’ai beaucoup profité et appris de quatre années de discussions sur des sujets sérieux et d’autres plus légers. Je le remercie chaleureusement pour son coté facétieux et sa curiosité, qui m’ont permis développer la mienne. Enfin, je le remercie pour les nombreuses fois où il m’a fait profiter de sa connaissance des bonnes tables parisiennes. Puissent ses futurs thésards en profiter autant que moi ! Je remercie également chaleureusement Hirohisa Kishino pour son accueil fan- tastique. Non content de me fournir un cadre de travail propice à la réflexion, il m’a appris l’autre moitié de ce que je sais en phylogénie. Ses références justes et sa connaissance encyclopédique du domaine et des gens qui y travaillent se sont avérées précieuses à de nombreuses reprises. Ses méthodes originales, comme le “café des sciences” matinale, et sa gentillesse m’ont permis de travailler dans un environne- ment convivial et stimulant. Enfin, je le remercie tout particulièrement d’avoir fait 24 heures d’avion en trois jours pour participer à mon jury de thèse. Je voudrais remercier les membres du jury. Tout d’abord Philippe Besse et Olivier Gascuel pour m’avoir fait le grand honneur de rapporter ma thèse. Ils ont passé de (longues) heures à lire le manuscrit et, via leurs commentaires, m’ont proposé de nouvelles idées et des perspectives très intéressantes. Je remercie également Patricia Bouret. Du mémoire de maîtrise, où elle m’a fait découvrir les tests, à la fin de la thèse où elle m’a aidé à améliorer le manuscrit, elle a fait preuve à mon égard d’une constante bienveillance. Pascal Massart a accepté de présider mon jury ; qu’il en soit remercié. Ses re- marques ont donné lieu à une discussion scientifique très riche lors de la soutenance. Je voudrais également remercier les chercheurs confirmés ou en formation qui m’ont aidé dans mes recherches, en m’aiguillant, en me fournissant des références ou en initiant une conversation intéressante : Marie-Anne Poursat, Phlippe Vanden- koornhuyse, Leonardo de Oliveira Martins, Ziheng Yang, Jeff Thorne, Elcio Leal. Je remercie également, dans un registre moins lié à la phylogénie mais tout aussi chaleureusement, Stéphane Robin et Jean-Jacques Daudin. Je remercie aussi les collègues qui m’ont encouragé durant la thèse par leur soutien et leur bonne humeur perma- nente, ou en partageant leur expérience (pas toujours lointaine) de thésard. Je pense à Tristan Mary-Huar, Emilie Lebarbier, Michel Koskas, Marie-Laure Martin-Magniette, Liliane Bel, Colette Vuillet, Tae-Kun Seo, Servane Gey et Adeline Samson. J’ai eu la chance d’effectuer ma thèse sur trois laboratoires différents. Cette situation atypique n’a pas été sans poser son lot de problèmes administratifs mais j’ai bénéficié de très bonnes conditions matérielles partout et de l’aide de nombreuses personnes pour résoudre les problèmes : Odile Jalabert et Carole Tiphaine à l’Agro, Mieko Sasaki à Tokyo, Michel Guillemot et Marie-Hélène Gbaguidi au MAP5. Je ne peux qu’être reconnaissant à la clique des thésards, à mi-chemin entre amis et collègues, avec qui j’ai partagé un bureau ou un labo. Je pense évidemment à Alain, son amour du Nord, ses chemises manches courtes par -2 et nos conflits sur la “bonne” température du bureau. Merci à Shun et Leo pour les petits conseils sur les trucs à faire et la vie à Tokyo. Merci aux (nombreux) thésards et assimilés du MAP5 : Cécile, Benjamin, Cheikh, Anne-Cécile, Sandra, Emeline, Nathalie K., Nathalie A., Jean-Patrick, Arno, Georges, Solange, Jean-Pascal et Baptiste (pas forcément dans cet ordre) pour m’avoir fait découvrir le sens profond des mots gentillesse, curiosité, enthousiasme, bonne humeur, ouverture d’esprit, humour, franche rigolade, second degré, ironie, musique classique et cuisine épicée (pas forcément dans cet ordre). Tous ont contribué à rendre la thèse nettement plus sympa. Ensuite, et parce que le labo n’occupe qu’une partie de mes journées, merci à tous les autres, amis et famille, qui m’ont soutenu pendant trois ans. Du côté français, merci à Matthieu et Chloé S. de me supporter depuis les Pays-Bas (10 ans déjà). Merci à Régis, Nico et Seb pour les soirées jeux/pizzas/bières/Wii.

Load more