Multi-Task Learning Models for Functional Data and Application to the Prediction of Sports Performances Arthur Leroy
Total Page:16
File Type:pdf, Size:1020Kb
Multi-task learning models for functional data and application to the prediction of sports performances Arthur Leroy To cite this version: Arthur Leroy. Multi-task learning models for functional data and application to the prediction of sports performances. Statistics [math.ST]. Université de Paris, 2020. English. NNT : 2020UNIP7089. tel-03226194 HAL Id: tel-03226194 https://tel.archives-ouvertes.fr/tel-03226194 Submitted on 14 May 2021 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Université de Paris École doctorale de Sciences Mathématiques de Paris Centre (ED 386) Laboratoire : Mathématiques Appliquées à Paris 5, MAP5-UMR 8145 CNRS THÈSE DE DOCTORAT Spécialité : Mathématiques appliquées par Arthur Leroy Apprentissage de données fonctionnelles par modèles multi-tâches : application à la prédiction de performances sportives dirigée par Servane Gey Présentée et soutenue publiquement le 9 décembre 2020 devant le jury composé de : Christophe BIERNACKI PR, Université Lille 1 Rapporteur Etienne BIRMELE PR, Université de Strasbourg Examinateur Servane GEY MCF-HDR, Université de Paris Directrice Benjamin GUEDJ CR, Inria et UCL Co-encadrant Julien JACQUES PR, Université Lumière Lyon 2 Examinateur Pierre LATOUCHE PR, Université de Paris Co-encadrant Emilie LEBARBIER PR, Université Paris Nanterre Examinatrice Adeline LECLERCQ-SAMSON PR, Université Grenoble Alpes Rapporteure Présidente du jury : Emilie LEBARBIER Adeline LECLERCQ-SAMSON Après avis des rapporteurs : Christophe BIERNACKI MAP5 - Université de Paris 45 rue des Saints Pères 75006 Paris Abstract The present document is dedicated to the analysis of functional data and the definition of multi-task models for regression and clustering. The purpose of this work is twofold and finds its origins in the problem of talent identification in elite sports. This context providesa leading thread illustrative example for the methods and algorithms introduced subsequently while also raising the problem of studying multiple time series, assumed to share information and generally observed on irregular grids. The central method and the associated algorithm developed in this thesis focus on the aspects of functional regression by using multi-task Gaussian processes (GPs) models. This non-parametric probabilistic framework proposes to define a prior distribution on functions, generating data associated with several individ- uals. Sharing information across those different individuals, through a mean process, offers enhanced modelling compared to a single-task GP, along with a thorough quantification of uncertainty. An extension of this model is then proposed from the definition of a multi-task GPs mixture. Such an approach allows us to extend the assumption of a unique underlying mean process to multiple ones, each being associated with a cluster of individuals. These two methods, respectively called Magma and MagmaClust, provide new insights on GP modelling as well as state-of-the-art performances both on prediction and clustering aspects. From the applicative point of view, the analyses focus on the study of performance curves of young swimmers, and preliminary exploration of the real datasets highlights the exis- tence of different progression patterns during the career. Besides, the algorithm Magma provides, after training on a dataset, a probabilistic prediction of the future performances for each young swimmer, thus offering a valuable forecasting tool for talent identification. Finally, the extension proposed by MagmaClust allows the automatic construction of clus- ters of swimmers, according to their similarities in terms of progression patterns, leading once more to enhanced predictions. The methods proposed in this thesis have been entirely implemented and are freely available. Keywords: Gaussian Processes, multi-task learning, functional data, curve clustering, EM algorithms, variational inference iii Résumé Ce manuscrit de thèse est consacré à l’analyse de données fonctionnelles et la définition de modèles multi-tâches pour la régression et la classification non supervisée. L’objectif dece travail est double et trouve sa motivation dans la problématique d’identification de jeunes sportifs prometteurs pour le sport de haut niveau. Ce contexte, qui offre un fil rouge illus- tratif des méthodes et algorithmes développés par la suite, soulève la question de l’étude de multiples séries temporelles supposées partager de l’information commune, et généralement observées à pas de temps irréguliers. La méthode centrale développée durant cette thèse, ainsi que l’algorithme d’apprentissage qui lui est associé, se concentrent sur les aspects de régression fonctionnelle à l’aide d’un modèle de processus Gaussiens (GPs) multi-tâche. Ce cadre probabiliste non-paramétrique permet de définir une loi a priori sur des fonctions, sup- posées avoir généré les données de plusieurs individus. Le partage d’informations communes entre les différents individus, au travers d’un processus moyen, offre une modélisation plus complète que celle d’un simple GP, ainsi qu’une pleine prise en compte de l’incertitude. Un prolongement de ce modèle est par la suite proposé via la définition d’un mélange de GPs multi-tâche. Cette approche permet d’étendre l’hypothèse d’un unique processus moyen sous- jacent à plusieurs, chacun associé à un groupe d’individus. Ces deux méthodes, nommées respectivement Magma et MagmaClust, offrent de nouvelles perspectives de modélisation ainsi que des performances remarquables vis-à-vis de l’état de l’art, tant sur les aspects de prédiction que de clustering. D’un point de vue applicatif, l’analyse se concentre sur l’étude des courbes de performances de jeunes nageurs, et une première exploration des données réelles met en évidence l’existence de différents patterns de progression au cours de lacar- rière. Par la suite, l’utilisation de l’algorithme Magma, entrainé sur la base de données, at- tribue à chaque sportif une prédiction probabiliste de ses performances futures, offrant ainsi un précieux outil d’aide à la détection. Enfin, l’extension via l’algorithme MagmaClust permet de constituer automatiquement des groupes de nageurs de part les ressemblances de leurs patterns de progression, affinant de ce fait encore les prédictions. Les méthodes détaillées dans ce manuscrit ont également été entièrement implémentées et sont partagées librement. Mots-Clefs : Processus Gaussiens, apprentissage multi-tâche, données fonctionnelles, cluste- ring de courbes, algorithmes EM, méthodes variationnelles iv v Remerciements A l’heure de dresser le bilan de l’aventure que constitue la thèse, parfois solitaire en cette si particulière année 2020, il est bon de se rappeler à quel point celle-ci résulte d’un ef- fort collectif. Que ce soit consciemment ou par un geste anodin, toutes les personnes cités ci-dessous ont contribué à leur manière à l’aboutissement de ce projet, et pourraient légiti- mement revendiquer un mot, une phrase, ou tout un chapitre pour certains. Il était difficile d’évoquer en introduction autre chose que l’esprit d’équipe pour exprimer mon sentiment à l’égard de mes trois encadrants de thèse. Chacun à votre façon et avec une complémentarité remarquable, vous m’avez donné le goût, les outils et l’exigence nécessaire pour tenter de participer au bel effort collectif qu’est la recherche scientifique. Pas une fois en 3 ans vous ne m’avez fait sentir comme un petit doctorant ignorant (ce n’est pas faute d’avoir dit des bêtises en pagaille pourtant). La patience et la confiance que vous m’avez témoigné ont contribué à m’offrir un cadre de travail serein et idéal. Merci tout d’abord à toi Servane, qui m’a fait confiance il y a maintenant plus de trois ans, alors même que je sortais de nul part, pour mener un projet encore bien vague à l’époque. Ton soutien permanent, qu’il soit scientifique ou amical (dont les multiples pauses café, sans café pour moi), aura été essentiel pour m’aider à garder le cap durant les nombreuses tempêtes qui ont émaillé ce voyage, et pour finalement nous amener à bon port. Merci à toi aussi Benjamin, embarqué de la première heure également ! J’espère que tu me pardonneras de t’avoir honteusement pillé des scripts sur GitHub, ton process de rédaction, et quelques unes de tes expressions venues du ’bon côté de la Manche’. Je finis d’essayer de percer le mystère de ton énergie même en l’absence de sommeil, et ta capacité à comprendre les enjeux d’un problème en 7 secondes chrono, et après j’arrête promis. Et pour finir, j’aimerais te remercier, Pierre, très sincèrement. Car j’ai encore dumalà comprendre aujourd’hui où tu as trouvé la bienveillance pour me tendre la main durant une période très compliquée, où tu n’avais probablement pas grand chose à gagner à m’aider, à part des ennuis. Je te dois la découverte de sujets qui m’ont passionné pendant la 2ème partie de cette thèse, une plus grande rigueur, et une bien meilleure connaissance de la forêt de Fontainebleau (et de l’inspiration qu’elle offre pour faire des maths) ! Rarement des séances de travail m’auront paru aussi stimulantes et seront passées aussi vite, au point de trouver les années de thèse presque trop courtes. A l’heure du coup de sifflet final, il m’apparait évident que sans cette équipe, dedeux titulaires indiscutables, et d’une recrue de choc au mercato, le match de mon doctorat aurait été perdu par forfait avant même la mi-temps. Par ailleurs, j’aimerais également remercier chaleureusement Christophe Biernacki et Ade- line Leclercq-Samson pour avoir accepté de rapporter ma thèse. Il me tarde de pouvoir échanger avec vous autour des remarques et questions que vous avez très aimablement pris vi le temps de soulever après lecture de mes travaux.