Contributions to the Statistical Analysis of Microarray Data. Pierre Neuvial

Contributions to the statistical analysis of microarray data. Pierre Neuvial To cite this version: Pierre Neuvial. Contributions to the statistical analysis of microarray data.. Life Sciences [q-bio]. Université Paris-Diderot - Paris VII, 2009. English. tel-00433045 HAL Id: tel-00433045 https://tel.archives-ouvertes.fr/tel-00433045 Submitted on 18 Nov 2009 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Universite´ Paris Diderot — Paris 7 UFR de Mathematiques´ Année2008 These` Spécialité: Mathematiques´ Appliquees´ Present´ ee´ par Pierre NEUVIAL Contributions a` l’analyse statistique des donnees´ de puces a` ADN soutenue le 30 septembre 2008, devant le jury compose´ de: Christophe AMBROISE Univ. Evry´ Examinateur Emmanuel BARILLOT Institut Curie Co-directeur StéphaneBOUCHERON Univ. Paris Diderot Directeur StéphaneROBIN AgroParisTech Rapporteur Terry SPEED Univ. of California, Berkeley Rapporteur Jean-Philippe VERT Mines ParisTech Examinateur Mark van de WIEL Vrije Univ., Amsterdam Examinateur INSERM, U900, Paris, F-75248 Ecole´ des Mines de Paris, ParisTech, Fontainebleau, F-77300 Institut Curie, 26 rue d’Ulm, Paris cedex 05, F-75248 France Laboratoire de Probabilitéset ModèlesAléatoires CNRS-UMR 7599, UFR de Mathématiques,case 7012 UniversitéParis Diderot (Paris 7) 2, place Jussieu, 75251 Paris Cedex 05 Chapter illustrations: courtesy of Prof. David Relman’s lab, Stanford Univ. http://asiago.stanford.edu/RelmanLab/Microarray_art Résumé Cette thèsetraite de questions statistiques soulevéespar l’analyse de donnéesgénomiquesde grande dimension, dans le cadre de la recherche contre le cancer. La premièrepartie est consacréeàl’étude des propriétés asymptotiques de procéduresde tests multiples visant àcontrôlerl’espérance (FDR) du taux de fausses découvertes (FDP) parmi les hypothèses rejetées. On introduit un formalisme flexible qui permet de calculer la loi asymp- totique du FDP et les conditions de régularitéassociéespour une vaste famille de procéduresde tests multiples, et de comparer la puissance de ces procédures. On s’intéresseensuite aux liens en termes de contrôledu FDR entre les bornes intrinsèquesàtrois problèmesde tests multiples: la détection,l’estimation, et la sélection. On relie en particulier la vitesse de convergence dans le problèmed’estimation àla régularitéde la loi des probabilitéscritiques au voisinage de 1. La seconde partie est dédiéeau développement de méthodes d’analyse des donnéesde puces àADN en cancérologie.On propose une méthode de pré-traitement des donnéesde puces àADN combinant une régressionro- buste et un modèlede mélangeavec contrainte spatiale, qui permet d’éliminer les biais spatiaux en préservant le signal biologique. On développe ensuite une méthode d’inférencede régulationsentre gènesàpartir de données d’expression de gènes,qui repose sur des techniques d’apprentissage informatique et de tests multiples. Enfin, on construit un test génomiqueper- mettant de déterminer,pour une patiente traitéepour un cancer du sein, si un second cancer survenant sur le mêmesein est ou non une récidive du premier. Mots-clés: Tests multiples, Méthode du delta fonctionnelle, Taux de fausses découvertes, Puces àADN, Nombre de copies d’ADN, Normalisation, Réseauxde régulation. Abstract This thesis deals with statistical questions raised by the analysis of high- dimensional genomic data for cancer research. In the first part, we study asymptotic properties of multiple testing procedures that aim at control- ling the False Discovery Rate (FDR), that is, the expected False Discovery Proportion (FDP) among rejected hypotheses. We develop a versatile for- malism to calculate the asymptotic distribution of the FDP an the associated regularity conditions, for a wide range of multiple testing procedures, and compare their asymptotic power. We then study in terms of FDR control connections between intrinsic bounds between three multiple testing problems: detection, estimation and selection. In particular, we connect convergence rates in the estimation problem to the regularity of the p-value distribution near 1. In the second part, we develop statistical methods to study DNA microarrays for cancer research. We propose a microarray normalization method that removes spatial biases while preserving the true biological signal; it combines robust regression with a mixture model with spatial constraints. Then we develop a method to infer gene regulations from gene expression data, which is based on learning and multiple testing theories. Finally, we build a genomic score to predict, for a patient treated for a breast tumor, whether or not a second cancer is a true recurrence of the first cancer. Keywords: Multiple testing, Functional Delta method, False Discov- ery Rate, DNA microarrays, DNA copy number, Normalization, Regulation networks. v Remerciements Lorsque j’ai commencéàtravailler àl’Institut Curie en septembre 2003, je me suis trèsvite passionnépour le développement de nouvelles méthodes bioinformatiques et leurs applications biologiques et cliniques. Au bout d’un an environ, j’ai décidéde commencer une thèsepour concilier mon intérêt pour ces questions avec ma curiositépour les problèmesstatistiques plus théoriquesqu’elles soulèvent. C’est grâceàla bienveillance et l’implication de mes directeurs de thèse, StéphaneBoucheron et Emmanuel Barillot, que j’ai pu trouver l’équilibre qui me convenait entre théorieet application. Merci àtous deux de la confiance et de la libertéque vous m’avez accordée.Stéphane,merci d’avoir su t’investir dans le domaine des tests multiples pour m’orienter vers des questions passionnantes, tout en m’aidant àétoffermon bagage théorique. Emmanuel, merci de m’avoir permis de travailler sur des projets aussi variés, du développement de méthodes bioinformatiques et leur implémentation à la collaboration étroiteavec les biologistes et cliniciens de l’Institut Curie. J’espèrecontinuer longtemps àtravailler avec vous. Merci àDominique Picard de m’avoir permis de concrétisermon projet de thèse en m’orientant vers Stéphanepour l’encadrement de ma thèse. Merci àLaure Elie pour son soutien discret et efficace, et àMichèleWasse pour sa gentillesse et son efficacité. Je remercie Stéphane Robin et Terry Speed de m’avoir fait l’honneur de rapporter cette thèse. Merci également àChristophe Ambroise, Jean- Philippe Vert et Mark van de Wiel d’avoir acceptéde faire partie du jury; cela témoignede l’intérêtqu’ils portent àce travail. Merci àl’association “Courir pour la Vie, Courir pour Curie” et au programme ANR blanc TAMIS, qui ont financéma thèse. ⋆ ⋆ ⋆ Merci àtous ceux avec qui j’ai eu la chance de travailler dans l’équipe de bioinformatique, en particulier Isabel Brito, Sabrina Carpentier, Pierre Gestraud, Philippe Hupé,StéphaneLiva, Nicolas Servant et Eric´ Viara. J’ai beaucoup appris àvotre contact, et travailler avec vous est un réelplaisir. Je remercie également Olivier Delattre et les biologistes de l’unitéIN- SERM 830 qui ont réussiàme faire comprendre un peu de biologie, en particulier Isabelle Janoueix-Lerosey et Sarah Fattet; je pense aussi àGaëlle Pierron et Elodie´ Manié,grâceàqui j’ai pu réalisermoi-même(ou presque) une expériencede puce àADN (voir la preuve en annexe E). vii viii REMERCIEMENTS Merci àMohamed Elati, Fran¸coisRadvanyi et CélineRouveirol de m’avoir initiéavec enthousiasme aux applications de l’apprentissage informatique àl’inférencede réseauxde régulationtranscriptionnelle. Je remercie enfin Marc Bollet et Nicolas Servant, pour la collaboration efficace et trèsagréable que nous avons menéesur un projet passionnant. ⋆ ⋆ ⋆ Merci àtous mes collèguesde l’U900, grâceàqui ces cinq années à l’Institut Curie ont passési rapidement et agréablement. Je pense en particulier àStéphane,Sabrina, Franck, Laurence, Gautier et Fantine pour leurs contributions àla bonne ambiance — au travail ou ailleurs. Merci àmes compagnons de route statisticiens ou probabilistes de Chevaleret de m’avoir accueilli dans leur bureau: Mohamed, Karim, Fran¸cois,Julien, Marc, merci pour votre curiositépour mon travail et votre gentillesse. Je remercie également ceux de mes amis qui se sont orientésvers la recherche, et dont l’exemple m’a donnéconfiance en mon propre projet et m’a permis de le mener àbien: Vincent, Romu, Flora, Fred, Hugo, Ismaël, Greg, Cédric,Christelle, et Pierre-Yves, qui m’a initiéaux joies des applications de la statistique àla génomiqueet de leur enseignement. Je remercie mes parents de m’avoir fait confiance quand j’ai choisi de m’orienter vers ce monde inconnu qu’étaitla recherche; merci pour votre présence,votre soutien et votre conseil. Merci àDominique d’avoir souvent aménagéson emploi du temps de fa¸conàsoulager le mien. Mon petit Naël,merci pour “ton rire qui lézarde les murs, qui sait surtout guérirmes blessures”. merci pour ce que tu m’apprends chaque jour. Agathe, merci pour ton écoute, ta compréhensionet ton soutien dans les moments difficiles. Merci de me montrer ce qui est important dans la vie. Par-dessus tout, merci pour ton amour qui me donne des ailes. “— Vous avez beau dire... y’a pas seulement que de la pomme, y’a aut’chose.

Contributions to the Statistical Analysis of Microarray Data. Pierre Neuvial

A Look at Multiparticle Production Via Modified Combinants

Variation in Actual Relationship As a Consequence of Mendelian Sampling and Linkage

Examination of Particle Tails

Acceleration for Statistical Model Checking Benoît Barbot

A Look at Multiparticle Production Via Modified Combinants

Market Expectations and Option Prices: Evidence for the Can$/US$ Exchange Rate by Alejandro García and Andrei Prokopiw

Une Approche De L'identification En Dynamique Des Structures

Market Expectations and Option Prices: Evidence for the Can$/US$ Exchange Rate

Manual to Accompany Agresti's Categorical Data

Développement D'une Nouvelle Technique De Pointé Automatique

A Bose-Einstein Model of Particle Multiplicity Distributions

Lawrence Berkeley National Laboratory Recent Work