Contributions to the Statistical Analysis of Microarray Data. Pierre Neuvial

Contributions to the Statistical Analysis of Microarray Data. Pierre Neuvial

Contributions to the statistical analysis of microarray data. Pierre Neuvial To cite this version: Pierre Neuvial. Contributions to the statistical analysis of microarray data.. Life Sciences [q-bio]. Université Paris-Diderot - Paris VII, 2009. English. tel-00433045 HAL Id: tel-00433045 https://tel.archives-ouvertes.fr/tel-00433045 Submitted on 18 Nov 2009 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Universite´ Paris Diderot — Paris 7 UFR de Mathematiques´ Ann´ee2008 These` Sp´ecialit´e: Mathematiques´ Appliquees´ Present´ ee´ par Pierre NEUVIAL Contributions a` l’analyse statistique des donnees´ de puces a` ADN soutenue le 30 septembre 2008, devant le jury compose´ de: Christophe AMBROISE Univ. Evry´ Examinateur Emmanuel BARILLOT Institut Curie Co-directeur St´ephaneBOUCHERON Univ. Paris Diderot Directeur St´ephaneROBIN AgroParisTech Rapporteur Terry SPEED Univ. of California, Berkeley Rapporteur Jean-Philippe VERT Mines ParisTech Examinateur Mark van de WIEL Vrije Univ., Amsterdam Examinateur INSERM, U900, Paris, F-75248 Ecole´ des Mines de Paris, ParisTech, Fontainebleau, F-77300 Institut Curie, 26 rue d’Ulm, Paris cedex 05, F-75248 France Laboratoire de Probabilit´eset Mod`elesAl´eatoires CNRS-UMR 7599, UFR de Math´ematiques,case 7012 Universit´eParis Diderot (Paris 7) 2, place Jussieu, 75251 Paris Cedex 05 Chapter illustrations: courtesy of Prof. David Relman’s lab, Stanford Univ. http://asiago.stanford.edu/RelmanLab/Microarray_art R´esum´e Cette th`esetraite de questions statistiques soulev´eespar l’analyse de donn´eesg´enomiquesde grande dimension, dans le cadre de la recherche contre le cancer. La premi`erepartie est consacr´ee`al’´etude des propri´et´es asymptotiques de proc´eduresde tests multiples visant `acontrˆolerl’esp´erance (FDR) du taux de fausses d´ecouvertes (FDP) parmi les hypoth`eses rejet´ees. On introduit un formalisme flexible qui permet de calculer la loi asymp- totique du FDP et les conditions de r´egularit´eassoci´eespour une vaste famille de proc´eduresde tests multiples, et de comparer la puissance de ces proc´edures. On s’int´eresseensuite aux liens en termes de contrˆoledu FDR entre les bornes intrins`eques`atrois probl`emesde tests multiples: la d´etection,l’estimation, et la s´election. On relie en particulier la vitesse de convergence dans le probl`emed’estimation `ala r´egularit´ede la loi des probabilit´escritiques au voisinage de 1. La seconde partie est d´edi´eeau d´eveloppement de m´ethodes d’analyse des donn´eesde puces `aADN en canc´erologie.On propose une m´ethode de pr´e-traitement des donn´eesde puces `aADN combinant une r´egressionro- buste et un mod`elede m´elangeavec contrainte spatiale, qui permet d’´eliminer les biais spatiaux en pr´eservant le signal biologique. On d´eveloppe ensuite une m´ethode d’inf´erencede r´egulationsentre g`enes`apartir de donn´ees d’expression de g`enes,qui repose sur des techniques d’apprentissage infor- matique et de tests multiples. Enfin, on construit un test g´enomiqueper- mettant de d´eterminer,pour une patiente trait´eepour un cancer du sein, si un second cancer survenant sur le mˆemesein est ou non une r´ecidive du premier. Mots-cl´es: Tests multiples, M´ethode du delta fonctionnelle, Taux de fausses d´ecouvertes, Puces `aADN, Nombre de copies d’ADN, Normalisation, R´eseauxde r´egulation. Abstract This thesis deals with statistical questions raised by the analysis of high- dimensional genomic data for cancer research. In the first part, we study asymptotic properties of multiple testing procedures that aim at control- ling the False Discovery Rate (FDR), that is, the expected False Discovery Proportion (FDP) among rejected hypotheses. We develop a versatile for- malism to calculate the asymptotic distribution of the FDP an the associated regularity conditions, for a wide range of multiple testing procedures, and compare their asymptotic power. We then study in terms of FDR con- trol connections between intrinsic bounds between three multiple testing problems: detection, estimation and selection. In particular, we connect convergence rates in the estimation problem to the regularity of the p-value distribution near 1. In the second part, we develop statistical methods to study DNA mi- croarrays for cancer research. We propose a microarray normalization method that removes spatial biases while preserving the true biological signal; it combines robust regression with a mixture model with spatial constraints. Then we develop a method to infer gene regulations from gene expression data, which is based on learning and multiple testing theories. Finally, we build a genomic score to predict, for a patient treated for a breast tumor, whether or not a second cancer is a true recurrence of the first cancer. Keywords: Multiple testing, Functional Delta method, False Discov- ery Rate, DNA microarrays, DNA copy number, Normalization, Regulation networks. v Remerciements Lorsque j’ai commenc´e`atravailler `al’Institut Curie en septembre 2003, je me suis tr`esvite passionn´epour le d´eveloppement de nouvelles m´ethodes bioinformatiques et leurs applications biologiques et cliniques. Au bout d’un an environ, j’ai d´ecid´ede commencer une th`esepour concilier mon int´erˆet pour ces questions avec ma curiosit´epour les probl`emesstatistiques plus th´eoriquesqu’elles soul`event. C’est grˆace`ala bienveillance et l’implication de mes directeurs de th`ese, St´ephaneBoucheron et Emmanuel Barillot, que j’ai pu trouver l’´equilibre qui me convenait entre th´eorieet application. Merci `atous deux de la confiance et de la libert´eque vous m’avez accord´ee.St´ephane,merci d’avoir su t’investir dans le domaine des tests multiples pour m’orienter vers des questions passionnantes, tout en m’aidant `a´etoffermon bagage th´eorique. Emmanuel, merci de m’avoir permis de travailler sur des projets aussi vari´es, du d´eveloppement de m´ethodes bioinformatiques et leur impl´ementation `a la collaboration ´etroiteavec les biologistes et cliniciens de l’Institut Curie. J’esp`erecontinuer longtemps `atravailler avec vous. Merci `aDominique Picard de m’avoir permis de concr´etisermon projet de th`ese en m’orientant vers St´ephanepour l’encadrement de ma th`ese. Merci `aLaure Elie pour son soutien discret et efficace, et `aMich`eleWasse pour sa gentillesse et son efficacit´e. Je remercie St´ephane Robin et Terry Speed de m’avoir fait l’honneur de rapporter cette th`ese. Merci ´egalement `aChristophe Ambroise, Jean- Philippe Vert et Mark van de Wiel d’avoir accept´ede faire partie du jury; cela t´emoignede l’int´erˆetqu’ils portent `ace travail. Merci `al’association “Courir pour la Vie, Courir pour Curie” et au programme ANR blanc TAMIS, qui ont financ´ema th`ese. ⋆ ⋆ ⋆ Merci `atous ceux avec qui j’ai eu la chance de travailler dans l’´equipe de bioinformatique, en particulier Isabel Brito, Sabrina Carpentier, Pierre Gestraud, Philippe Hup´e,St´ephaneLiva, Nicolas Servant et Eric´ Viara. J’ai beaucoup appris `avotre contact, et travailler avec vous est un r´eelplaisir. Je remercie ´egalement Olivier Delattre et les biologistes de l’unit´eIN- SERM 830 qui ont r´eussi`ame faire comprendre un peu de biologie, en par- ticulier Isabelle Janoueix-Lerosey et Sarah Fattet; je pense aussi `aGa¨elle Pierron et Elodie´ Mani´e,grˆace`aqui j’ai pu r´ealisermoi-mˆeme(ou presque) une exp´eriencede puce `aADN (voir la preuve en annexe E). vii viii REMERCIEMENTS Merci `aMohamed Elati, Fran¸coisRadvanyi et C´elineRouveirol de m’avoir initi´eavec enthousiasme aux applications de l’apprentissage informatique `al’inf´erencede r´eseauxde r´egulationtranscriptionnelle. Je remercie enfin Marc Bollet et Nicolas Servant, pour la collaboration efficace et tr`esagr´eable que nous avons men´eesur un projet passionnant. ⋆ ⋆ ⋆ Merci `atous mes coll`eguesde l’U900, grˆace`aqui ces cinq ann´ees `a l’Institut Curie ont pass´esi rapidement et agr´eablement. Je pense en parti- culier `aSt´ephane,Sabrina, Franck, Laurence, Gautier et Fantine pour leurs contributions `ala bonne ambiance — au travail ou ailleurs. Merci `ames compagnons de route statisticiens ou probabilistes de Chevaleret de m’avoir accueilli dans leur bureau: Mohamed, Karim, Fran¸cois,Julien, Marc, merci pour votre curiosit´epour mon travail et votre gentillesse. Je remercie ´egalement ceux de mes amis qui se sont orient´esvers la recherche, et dont l’exemple m’a donn´econfiance en mon propre projet et m’a permis de le mener `abien: Vincent, Romu, Flora, Fred, Hugo, Isma¨el, Greg, C´edric,Christelle, et Pierre-Yves, qui m’a initi´eaux joies des appli- cations de la statistique `ala g´enomiqueet de leur enseignement. Je remercie mes parents de m’avoir fait confiance quand j’ai choisi de m’orienter vers ce monde inconnu qu’´etaitla recherche; merci pour votre pr´esence,votre soutien et votre conseil. Merci `aDominique d’avoir souvent am´enag´eson emploi du temps de fa¸con`asoulager le mien. Mon petit Na¨el,merci pour “ton rire qui l´ezarde les murs, qui sait surtout gu´erirmes blessures”. merci pour ce que tu m’apprends chaque jour. Agathe, merci pour ton ´ecoute, ta compr´ehensionet ton soutien dans les moments difficiles. Merci de me montrer ce qui est important dans la vie. Par-dessus tout, merci pour ton amour qui me donne des ailes. “— Vous avez beau dire... y’a pas seulement que de la pomme, y’a aut’chose.

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    224 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us