Conception Et Exploitation D'une Base De Modèles: Application Aux Data
Total Page:16
File Type:pdf, Size:1020Kb
Conception et exploitation d’une base de modèles : application aux data sciences Cyrille Ponchateau To cite this version: Cyrille Ponchateau. Conception et exploitation d’une base de modèles : application aux data sciences. Autre [cs.OH]. ISAE-ENSMA Ecole Nationale Supérieure de Mécanique et d’Aérotechique - Poitiers, 2018. Français. NNT : 2018ESMA0005. tel-01939430 HAL Id: tel-01939430 https://tel.archives-ouvertes.fr/tel-01939430 Submitted on 29 Nov 2018 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THESE pour l’obtention du Grade de DOCTEUR DE L'ÉCOLE NATIONALE SUPÉRIEURE DE MÉCANIQUE ET D'AÉROTECHNIQUE (Diplôme National — Arrêté du 25 mai 2016) Ecole Doctorale : Sciences et Ingénierie des Systèmes, Mathématiques, Informatique (SISMI) Secteur de Recherche : INFORMATIQUE ET APPLICATIONS Présentée par : Cyrille PONCHATEAU ******************************************************** Conception et exploitation d’une base de modèles : application aux data sciences ******************************************************** Directeur de thèse : Ladjel BELLATRECHE Co-encadrant : Mickael BARON Soutenue le 12 octobre 2018 devant la Commission d’Examen JURY Rapporteurs : Djamal BENSLIMANE Professeur, Université de Lyon 1 Abdelkader HAMEURLAIN Professeur, Université Paul Sabatier, Toulouse 3 Examinateurs : Mirian HALFELD FERRARI Professeur, Université d’Orléans ALVES Carlos ORDONEZ Associate professor, Université de Houston, USA Thierry POINOT Professeur, Université de Poitiers Samira SI-SAID CHERFI Professeur, CNAM, Paris Ladjel BELLATRECHE Professeur, ISAE-ENSMA, Poitiers Mickael BARON Ingénieur de recherche, ISAE-ENSMA, Poitiers « Il est grand temps de remplacer l’idéal du succès par celui du service. » Albert Einstein i Remerciements À l’issue de ces longues trois années, qui, pourtant, passent bien plus vite qu’il n’y paraît, il y a des personnes que je souhaite remercier. Je commencerais par remercier mon directeur de thèse Ladjel BELLATRECHE qui a été le professeur avec qui j’ai découvert les bases de données, leurs intérêts et leur complexité, qui m’a présenté un sujet de thèse d’intérêt et par la même occasion l’opportunité de réaliser cette thèse et qui m’a ensuite suivi, conseillé et guidé pendant ces trois années. Ensuite, je voudrais remercier mon encadrant de thèse Mickael BARON pour l’accompa- gnement et les nombreux conseils techniques tout au long de mon travail, pour sa disponibilité, pour son soutient moral et sa bonne humeur. Je remercie aussi Carlos ORDONNEZ pour l’intérêt qu’il a porté à mes travaux, pour le temps qu’il a consacré, malgré la distance et le décalage horaire, à l’écriture de plusieurs articles et les nombreux conseils données à ces occasions. Je remercie également les membres de mon jury : Djamal BENSLIMANE et Abdelkader HAMEURLAIN pour leur rôle de rapporteurs, Mirian HALFELD FERRARI ALVES en tant que présidente ainsi que mes examinateurs Samira SI-SAID CHERFI et Thierry POINOT. Merci pour cet honneur et pour les remarques très encourageantes. Je remercie aussi le Directeur adjoint du laboratoire Emmanuel GROLLEAU, pour l’ac- cueil dans le laboratoire et pour les quelques mots de soutiens, qui aident à continuer. Je remercie également Claudine RAULT sans qui j’aurais eu beaucoup de mal finaliser mon dossier d’inscription en temps et en heure. Pour avoir guidé mes premiers pas dans l’enseignement, je remercie Laurent GUITTET, Brice CHARDIN, Stéphane JEAN et Allel HADJALI. Je remercie aussi l’ensemble des permanents du laboratoire Amin MESMOUDI, Yassine OUHAMMOU, Henry BAUER, Antoine BERTOUT et Bénédicte BOINOT. Je remercie également ceux avec qui j’ai pu partager les diverses contingences du quotidien : — ceux qui sont déjà partis : Guillaume, Lahcène, Thomas, Géraud, Ives, Selma, Nassima, Okba, Olga, Zouhir et Nadir ; — ceux qui sont encore là : Anh Toan, Ibrahim, Abdallah, Jorge et Thanh Dat ; — et ceux qui voyagent : Fayçal, Simon-Pierre et Sana. Je remercie l’ADIIS et ses membres, et en particuliers les membres du bureau, pour les évènements et les activités qu’ils ont organisés durant ces trois années. Et enfin, à ma famille, pour tout leur soutient, pour m’avoir redonné de l’optimisme lorsque j’en manquais. iii « C’est le devoir de chaque homme de rendre au monde au moins autant qu’il en a reçu. ». Albert Einstein iv Table des matières Table des sigles et acronymes xi 1 Introduction générale1 1.1 Motivation et Objectifs..............................4 1.2 Contributions....................................6 1.3 Organisation de la thèse..............................7 1.4 Publications.....................................9 I État de l’Art 11 2 Évolution de la technologie de stockage de données 13 2.1 Les bases de données relationnelles (BDR).................... 14 2.2 Les entrepôt de données.............................. 23 2.3 Remise en question du standard relationnel................... 29 2.4 Conclusion..................................... 36 3 Modèles Mathématiques et Séries Chronologiques dans le Monde des Bases de Données 39 3.1 La nécessité d’avoir des gestionnaires spécifiques aux séries chronologiques.. 40 3.2 Stockage des séries chronologiques dans les bases de données traditionnelles, décisionnelles et NoSql............................... 48 3.3 Stockage de modèles mathématiques....................... 55 3.4 Formats d’échange de modèles mathématiques.................. 58 3.5 Conclusion..................................... 63 II Nos propositions 65 4 Modélisation Conceptuelle et Structures de Données Dédiées aux Modèles Mathématiques dans une Approche Entreposage 67 4.1 Équations différentielles : définition et description................ 68 4.2 Structure de données et ses différents formats de représentation........ 71 4.3 Conclusion..................................... 88 5 Exploitation des Modèles Mathématiques 89 5.1 Les processus de conversion............................ 89 5.2 La génération de données théoriques....................... 97 5.3 La comparaison de données théoriques et expérimentales (comparaison série- équation)...................................... 103 5.4 Définition d’une architecture fonctionnelle générique pour la base de modèles 106 5.5 Conclusion..................................... 108 v 6 Prototype et expérimentations 111 6.1 Architecture logicielle et détails d’implémentation................ 111 6.2 Tests expérimentaux................................ 118 6.3 Conclusion..................................... 127 III Conclusion et perspectives 129 7 Conclusion & Perspectives 131 7.1 Contributions.................................... 131 7.2 Perspectives..................................... 133 IV Annexes 135 A Résolution d’une équation différentielle linéaire d’ordre 2 137 B XML Schema File 139 C Code Source Java 145 C.1 Définition de la classe FunctionKey ....................... 145 C.2 Implémentation des algorithmes de traitement numérique........... 146 C.3 Implémentation Java des algorithmes de conversions Arbre-XML....... 155 C.4 Implémentation Java des algorithmes de conversions XML-Flat........ 160 C.5 Implémentation des processus d’insertion et d’extractions (conversions Flat- Tuple)........................................ 167 Bibliographie 183 vi Table des figures 1.1 Méthode de travail scientifique..........................6 1.2 Séquencement des chapitres de notre Thèse...................8 2.1 Exemple d’arbre hiérarchique [Cha]........................ 15 2.2 Exemple de diagramme (E/A)........................... 19 2.3 Architecture d’un entrepôt de données, source :[Ell13]............. 25 2.4 Exemple de cube OLAP [BHS+98]........................ 27 2.5 Schéma en étoile [BFG+06]............................ 28 2.6 Exemple de schéma en flocon [BHS+98]..................... 29 3.1 Exemple de CD, pour la fonction log ...................... 60 4.1 Exemple d’arbre de représentant les NPI de 4.5 et 4.6............. 74 4.2 Description de la structure d’arbre et exemple.................. 76 4.3 Exemple d’arbre non-linéaire........................... 76 4.4 Diagramme (E/A) représentant une équation différentielle........... 78 4.5 Représentation XML de l’équation 4.3...................... 85 4.6 Schéma XML de la balise differential-equation ............... 87 4.7 Schéma XML de la balise binary-operator ................... 87 4.8 Restriction par le schéma XML des valeurs d’un attribut............ 87 5.1 Série chronologique correspondant à l’équation 4.3............... 102 5.2 Valeurs régénérées à l’aide de la méthode de Runge-Kutta d’ordre 4..... 102 5.3 Exemples de séries chronologiques, représentées graphiquement........ 103 5.4 Diagramme de l’algorithme de comparaison................... 105 5.5 Processus global de gestion des séries chronologiques (Comparaison/Génération)107 5.6 Schéma générique du gestionnaire de modèles.................. 107 6.1 Architecture des services.............................. 112 6.2 Aperçu de la fenêtre d’exploration/affichage................... 114 6.3 Ajout d’une équation dans la base de modèles.................. 115 6.4 Aperçu de la fenêtre de préparation de