
D´elivr´epar l'Universit´eMontpellier II Pr´epar´eeau sein de l'´ecoledoctorale I2S∗ Et des unit´esde recherche UMR 5149, UMR AGAP Sp´ecialit´e: Biostatistique Pr´esent´eepar Jean PEYHARDI A new GLM framework for analysing categorical data. Application to plant structure and development. Composition du jury : M. Christophe Biernacki Universit´eLille 1 Rapporteur M. Gerhard Tutz Universit´eMunich Rapporteur Mme H´el`ene Jacqmin Gadda INSERM Bordeaux Examinatrice M. Christian Lavergne Universit´eMontpellier 3 Pr´esident M. Yann Guedon´ CIRAD Montpellier Directeur de th`ese Mme Catherine Trottier Universit´eMontpellier 3 Co-directrice de th`ese M. Pierre-Eric´ Lauri INRA Montpellier Membre invit´e ∗ I2S: Ecole´ doctorale Information Structures Systemes` A` la m´emoire de Damien, un papillon si vite envol´e. Acknowledgements Au del`ad'un travail de recherche de trois ans, cette th`eserepr´esente une p´eriode de transition, cl^oturant mes ann´eesd'´etudes et m'ouvrant les portes du monde de la recherche . d'emploi ! Je passe donc d'une adolescence prolong´ee`al'^ageadulte, accompagn´edurant ce p´eriple par des sages autant que de grands enfants; je tiens ici `ales remercier. Tout d'abord, je tiens `aremercier mes directeurs Yann Gu´edonet Catherine Trottier, pour m'avoir encadr´edurant ces trois ann´ees.Je vous remercie pour la confiance que vous m'avez accord´ee,laissant de cot´ecertaines attentes pr´esentes dans le sujet initial de th`ese: je devais passer trois mois sur ces mod`elespour donn´eescat´egorielles,j'y ai finalement pass´etrois ans ! Yann, tu as su lire entre les lignes de mon CV, qui refl`eteun parcours quelque peu tu- multueux, et me donner l'opportunit´ed'embrasser la carri`erede chercheur. Merci aussi pour tous tes conseils avis´es,ta rigueur et ta disponibilit´e.Tu m'as dit un jour qu'une bonne rela- tion entre un doctorant et son directeur doit ´evoluer d'une situation ´el`eve-professeur vers une situation de collaborateurs ; je crois que nous y sommes parvenus. Catherine, tu as su me mettre en confiance d`esle d´epartet tu n'es pas pour rien dans ma d´ecisiond'entreprendre cette th`ese.Je te remercie pour le temps et l'´energieque tu m'as accord´es,et pour ta patience. Quant `amessieurs Biernacki et Tutz, ils ont accept´ed'^etreles rapporteurs de cette th`ese, et je les en remercie. Je remercie H´el`eneJacqmin Gadda pour sa participation au jury de th`ese ainsi qu'au jury des comit´es de suivi de th`ese. Ma reconnaissance va ´egalement `aChristian Lavergne, qui a accept´ede pr´esider le jury et `aPierre Eric´ Lauri pour sa participation au jury et son regard avis´een tant que botaniste. Je tiens ensuite `aremercier les diff´erents coll`egueset collaborateurs qui ont crois´emon chemin. Je remercie d'abord Christophe Godin pour m'avoir accueilli dans l'´equipe Virtual Plants. Elle r´eunit`ames yeux toutes les qualit´esrequises pour constituer une tr`esbonne ´equipe de recherche : le dynamisme, les diff´erencesau sein d'un m^emegroupe et la bonne humeur. J'esp`ere ne pas trop regretter cette ´equipe. Je remercie Christophe Pradal et Fred Boudon pour l'assistance informatique qu'ils m'ont apport´ee, ainsi qu'Evelyne´ Costes et Yves Caraglio, pour les notions de botanique qu'ils m'ont transmises. Merci enfin aux coll`eguesqui m'ont accompagn´eautour de nombreux caf´es,comme les Juliens, Jean-Philippe `ala Gal´eraet Micka¨el,Angelina, Christophe, Julien et Jojo le teufeur `al'I3M. Je voudrais maintenant souligner toutes les amiti´esqui sont n´eesdurant ces trois ann´eeset qui ont rendu ce parcours plus sympathique. Je tiens d'abord `asaluer Pierre pour toute l'aide qu'il a pu m'apporter au travail et son soutien moral tout au long des ´epreuves travers´ees. Merci `aL´eoqui est toujours `al'´ecouteet avec qui on peut ´echanger de mani`ereconstructive. Je remercie Vincent pour les nombreux chats tout aussi \constructifs" que nous avons ´echang´es mais ´egalement pour son aide administrative. Je remercie aussi Yousri pour sa bonne humeur et son style qui ont boug´ele b^atiment 9, Pierre le Grec pour son franc-parler ainsi que pour son aide pr´e-soutenance,et sa poupounette Val pour sa gentillesse et son aide. Je salue pour finir toute la bande `aZaza pour les nombreuses soir´eespass´ees`arefaire le monde, notamment chez Julien puis l'Indien qui nous ont accueillis et nourris si souvent, quel qu'ai ´et´enotre ´etat. Je terminerai par ceux qui me sont les plus chers. Je remercie d'abord tous mes proches, Cheucheu, le ptit Mat', Nanou, les romanos Cl´ement et Greg, Alex le gras, et la Truie, qui r´epondent pr´esent chaque ann´ee`al'appel du 9 novembre. Je remercie en particulier Greg et Alex qui ont fait le d´eplacement depuis Bordeaux et Paris pour assister `ama soutenance. Je remercie tr`eschaleureusement ma famille pour son soutient sans limite. Je remercie ma m`ere,qui pense avoir mis au monde un deuxi`emeEinstein, et mon p`ere qui se demande si je vais finir par trouver un boulot. Je remercie aussi ma grande sœur qui croit encore que j'´etudieles abeilles ! Je vous embrasse de tout mon cœur et vous remercie encore de croire en moi `achaque instant, sans vous poser de question. Je terminerai en remerciant celle qui m'a suivi tout au long de cette aventure. C'est en elle que je puise ma force. Je te remercie pour toutes les concessions que tu as faites pour me supporter ; notamment dans cette p´eriode de fin de th`eseavec comme bouquet final la date de soutenance qui n'est autre que celle du jour de ta naissance. Je ne voudrais pas te faire de l'ombre, alors je te souhaite un joyeux anniversaire ! Summary in french Depuis les ann´ees60, de nombreux mod`eleset m´ethodes statistiques ont ´et´epropos´espour anal- yser des donn´eescat´egorielles. On rencontre fr´equemment ce type de donn´eedans diff´erents domaines, comme l'´econom´etrie, la psychologie, la m´edecineou encore la botanique par ex- emple. Deux ´echelles sont g´en´eralement distingu´eespour les cat´egories: ordonn´eeet non ordonn´ee. Une variable avec une ´echelle cat´egorielleordonn´eeest dite ordinale. Comme ex- emple de variables ordinale et ses cat´egoriesordonn´eeson compte l'id´eologiepolitique (avec les cat´egoriesgauche, centre, droite), l'´evolution de la douleur apr`esun traitement (avec les cat´egoriespire, semblable, am´elioration,r´etablissement) ou encore la qualification des unit´es de croissance d'une plante (avec les cat´egoriescourt, moyen, long). Une variable avec une ´echelle cat´egoriellenon ordonn´eeest dite nominale. Par exemple on s'int´eresse`ala demande de transport urbain (avec les cat´egoriesbus, car, m´etro, v´elo),le type de musique pr´ef´er´ee(avec les cat´egoriesrock, classique, jazz, autre) ou encore la production axillaire d'une plante (avec les cat´egoriesbourgeon latent, branche ´epineuse, branche non ´epineuse,branche florif`ere). Mais beaucoup de variables cat´egoriellesne sont ni ordinales ni nominales ; on parle alors de variables partiellement ordonn´ees.Elles sont bien souvent le fruit du produit cart´esiende plusieurs variables latentes, dont une au moins est ordinale. La classification de l'anxi´et´e(avec les cat´egoriespas d'anxi´et´e,anxi´et´emoyenne, anxi´et´eaigu¨e,anxi´et´eavec d´epression)est par exemple une variable partiellement ordonn´eeou encore la qualification des unit´esde croissance d'une plante (avec les cat´egoriesflorif`ere,court, moyen, long). Dans le contexte de la r´egressionlin´eaire,la famille des mod`eleslin´eairesg´en´eralis´es(GLM) a ´et´eintroduite par Nelder and Wedderburn(1972) pour prendre en compte une variable r´eponse non gaussienne. Dans le cas d'une variable r´eponse nominale, le GLM le plus connu est le mod`elelogit multinomial. Il a ´et´eintroduit par Luce(1959) comme un mod`elede choix mais il est ´egalement appel´e baseline logit model (Agresti, 2002). Il est aussi d´efinidans plusieurs domaines comme une extension du mod`elelogistique simple pour variable r´eponse binaire. Dans la th´eorie des mod`elesde choix probabilistes, il peut ^etrevu comme une cons´equence de l'axiome de choix de Luce (Luce, 1959) ou bien obtenu en maximisant l'utilit´eal´eatoirede l'individu (Marschak, 1960; McFadden, 1973). On parle alors de mod`eleRUM (Randomize Utility Maximisation). D'autre mod`elesRUM ont ´et´eintroduits comme le mod`elelogit condi- tionnel (McFadden, 1973) ou encore le mod`elelogit emboit´e(McFadden et al., 1978). Lorsque la variable r´eponse est ordinale, le mod`elemultinomial logit n'est plus appropri´e. En fait ce mod`elen'utilise pas l'information d'ordre sur les cat´egories.Trois approches pour construire des mod`elespour variable r´eponse ordinale pr´edominent : l'approche cumulative, s´equentielle et adjacente (Tutz, 2012). Ces trois approches permettent de d´efinirrespectivement le mod`ele logit proportionnel (McCullagh, 1980), le mod`elelogit s´equentiel (Tutz, 1990), et le mod`ele logit adjacent (Masters, 1982; Agresti, 2002). Beaucoup d'extensions du mod`elelogit pro- portionnel et du mod`elelogit s´equentiel ont ´et´econsid´er´e;voir Fahrmeir and Tutz(2001); Tutz(2012) et Agresti(2010). Enfin le cas d'une variable r´eponse partiellement ordonn´eea ´et´eformellement trait´epar Zhang and Ip(2012), qui ont introduit la th´eoriedes ensembles partiellement ordonn´esdans le domaine des GLMs. Dans le cadre de l'analyse de donn´eescat´egorielles,on remarque que le cas de donn´ees nominales et ordinales a ´et´etrait´een profondeur tandis que le cas de donn´eespartiellement ordonn´eesa ´et´ed´elaiss´e.
Details
-
File Typepdf
-
Upload Time-
-
Content LanguagesEnglish
-
Upload UserAnonymous/Not logged-in
-
File Pages151 Page
-
File Size-