Machine Learning to Predict Impulse Control Disorders in Parkinson's
Total Page:16
File Type:pdf, Size:1020Kb
Machine learning to predict impulse control disorders in Parkinson’s disease Johann Faouzi To cite this version: Johann Faouzi. Machine learning to predict impulse control disorders in Parkinson’s disease. Artificial Intelligence [cs.AI]. Sorbonne Université, 2020. English. NNT : 2020SORUS048. tel-03090079v2 HAL Id: tel-03090079 https://hal.archives-ouvertes.fr/tel-03090079v2 Submitted on 26 Mar 2021 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Abstract MACHINE LEARNING TO PREDICT IMPULSE CONTROL DISORDERS IN PARKINSON’S DISEASE by Johann Faouzi Impulse control disorders are a class of psychiatric disorders characterized by impul- sivity. These disorders are common during the course of Parkinson’s disease, decrease the quality of life of subjects, and increase caregiver burden. Being able to predict which individuals are at higher risk of developing these disorders and when is of high importance. The objective of this thesis is to study impulse control disorders in Parkinson’s disease from the statistical and machine learning points of view, and can be divided into two parts. The first part consists in investigating the predictive performance of the altogether factors associated with these disorders in the literature. The second part consists in studying the association and the usefulness of other factors, in particular genetic data, to improve the predictive performance. In the first chapter, we present Parkinson’s disease and impulse control disorders, review the literature on impulse control disorders in Parkinson’s disease, introduce the main concepts of machine learning, and describe the databases from which we obtained data and the software used to analyze these data. In the second chapter, we investigate the predictive performance of several machine learning algorithms using features that have been associated with impulse control disorders in Parkinson’s disease. In the third chapter, we investigate the association between impulse control disorders in Parkinson’s disease and genetic risk scores for a broad range of phenotypes. In the last chapter, we investigate different approaches to integrate static data in recurrent neural networks and evaluate their predictive performance in the use case of predicting impulse control disorders in Parkinson’s disease, with genetic data used as static data. Across these works, we highlight the importance of using machine learning algo- rithms, cross-validation and replication cohorts to unbiasedly estimate the predictive power of known and putative risk factors of impulse control disorders in Parkinson’s disease. iii Résumé APPRENTISSAGE AUTOMATIQUE POUR LA PRÉDICTION DES TROUBLES DU CONTRÔLE DE L’IMPULSIVITÉ DANS LA MALADIE DE PARKINSON par Johann Faouzi Les troubles du contrôle de l’impulsivité sont une classe de troubles psychiatriques car- actérisés par des difficultés dans la maîtrise de ses émotions, pensées et comportements. Ces troubles sont courants dans la maladie de Parkinson et associés à une baisse de la qualité de vie des patients ainsi qu’à une augmentation de la charge des aidants. Pou- voir prédire quels sont les sujets les plus à risque de développer ces troubles et quand ces troubles apparaissent est de grande importance. L’objectif de cette thèse est d’étudier les troubles du contrôle de l’impulsivité dans la maladie de Parkinson à partir des approches statistique et de l’apprentissage automa- tique, et se divise en deux parties. La première partie consiste à analyser la performance prédictive de l’ensemble des facteurs associés à ces troubles dans la littérature. La sec- onde partie consiste à étudier l’association et l’utilité d’autres facteurs, en particulier des données génétiques, pour améliorer la performance prédictive. Dans un premier chapitre, nous présentons la maladie de Parkinson et les trou- bles du contrôle de l’impulsivité, effectuons une revue de la littérature sur les trou- bles du contrôle de l’impulsivité dans la maladie de Parkinson, introduisons les prin- cipaux concepts de l’apprentissage automatique et présentons les bases de données sur lesquelles nous avons travaillé et les logiciels utilisés pour analyser ces données. Dans un deuxième chapitre, nous étudions la performance prédictive de plusieurs algorithmes d’apprentissage automatique en utilisant comme variables d’entrée les facteurs asso- ciés aux troubles du contrôle de l’impulsivité dans la maladie de Parkinson. Dans un troisième chapitre, nous étudions l’association entre les troubles du contrôle de l’impulsivité dans la maladie de Parkinson et des scores de risque génétique pour un large panel de phénotypes. Dans un dernier chapitre, nous étudions différentes ap- proches d’intégrer des données statiques dans des réseaux de neurones récurrents et évaluons leur performance dans le cas de la prédiction des troubles du contrôle de l’impulsivité dans la maladie de Parkinson, en utilisant des données génétiques pour les données statiques. À travers ces travaux, nous mettons en avant l’importance d’utiliser des algorithmes d’apprentissage automatique, des méthodes de validation croisée et des cohortes de réplication pour évaluer la puissance prédictive de facteurs de risque connus ou supposés des troubles du contrôle de l’impulsivité dans la maladie de Parkinson. v Remerciements Je souhaite tout d’abord remercier mes directeurs de thèse, Olivier Colliot et Jean- Christophe Corvol, pour m’avoir donné l’opportunité d’effectuer ce doctorat. Je me trouvais à un moment de ma vie où je n’étais pas sûr de ce que je souhaitais faire, et je leur en serai pour toujours reconnaissant. Je les remercie pour leur encadrement et leur disponibilité, mais aussi pour m’avoir laissé la liberté d’avancer à mon rythme et de travailler sur d’autres projets pendant ma thèse. Mes remerciements vont également à l’ensemble des membres du jury pour s’être intéressés à mon travail. Je tiens à remercier Marta Avalos et Mélanie Prague pour avoir accepté d’être examitrices, ainsi que Gérard Biau et Alexandre Gramfort pour avoir accepté d’être examinateurs. Je remercie tout particulièrement Christophe Ambroise et Franck Durif pour avoir accepté d’être rapporteurs et pour avoir suivi mon travail tout au long de ma thèse en tant que membres des comités de suivi. Je remercie les différents membres des équipes cliniques avec qui j’ai travaillés, no- tamment Stéphanie Carvahlo et Carole Dongmo pour leur aide sur la base de données NS-Park. Je remercie tout particulièrement Samir Bekadar pour toute son aide sur le traitement des bases de données et des données génétiques. Je remercie également Lydia Chougar et Stépahne Lehéricy pour m’avoir permis de travailler sur un projet de classification automatique des syndromes parkinsoniens. Je remercie bien évidemment tous les membres de l’équipe Aramis qui ont rendu cette thèse fort agréable. Je souhaite remercier Baptiste pour son encadrement et Ninon pour ses conseils. Je remercie notamment mes plus proches voisins : Vincent pour nos discussions matinales, et Tiziana et Giulia pour avoir essayé de m’apprendre l’italien sans grand succès. Je remercie également Elina, Adam et Simona pour les innombrables discussions. Je tiens à remercier en particulier Pascal (le plus gros fly de France) pour m’avoir fait perdre la raison un bon million de fois et des dizaines d’heures à cause du PvP pour son aide et pour les bons moments passés ensemble sur notre passion commune. Enfin, je souhaite remercier l’ensemble de ma famille, en particulier ma sœur, pour leur soutien indéfectible. vii Scientific production Journal papers • Johann Faouzi and Hicham Janati. “pyts: A Python Package for Time Series Classification”. Journal of Machine Learning Research, 21(46):1–6, 2020. http: //www.jmlr.org/papers/v21/19-763.html • Romain Tavenard, Johann Faouzi, Gilles Vandewiele, Felix Divo, Guillaume Androz, Chester Holtz, Marie Payne, Roman Yurchak, Marc Rußwurm, Kushal Kolar and Eli Woods. “Tslearn, A Machine Learning Toolkit for Time Series Data”. Journal of Machine Learning Research, 21(118):1–6, 2020. http://www. jmlr.org/papers/v21/20-091.html • Lydia Chougar, Johann Faouzi, Nadya Pyatigorskaya, Rahul Gaurav, Emma Biondetti, Marie Villotte, Romain Valabregue, Jean-Christophe Corvol, Alexis Brice, Louise-Laure Mariani, Florence Cormier, Marie Vidailhet, Gwendoline Dupont, Ines Piot, David Grabli, Christine Payan, Olivier Colliot, Bertrand Degos and Stephane Lehericy. “Automated categorization of parkinsonian syndromes using MRI in a clinical setting”. Accepted in Movement Disorders. • Manon Ansart, Stéphane Epelbaum, Giulia Bassignana, Alexandre Bône, Si- mona Bottani, Tiziana Cattai, Raphaël Couronné, Johann Faouzi, Igor Ko- val, Maxime Louis, Elina Thibeau-Sutre, Junhao Wen, Adam Wild, Ninon Bur- gos, Didier Dormont, Olivier Colliot and Stanley Durrleman. “Predicting the Progression of Mild Cognitive Impairment Using Machine Learning : A Sys- tematic and Quantitative Review”. Medical Image Analysis, 67(101848), 2021. https://doi.org/10.1016/j.media.2020.101848. ix x Submitted journal papers • Johann Faouzi, Samir