Ce Document Est Le Fruit D'un Long Travail Approuvé Par Le Jury De Soutenance Et Mis À Disposition De L'ensemble De La Communauté Universitaire Élargie
Total Page:16
File Type:pdf, Size:1020Kb
AVERTISSEMENT Ce document est le fruit d'un long travail approuvé par le jury de soutenance et mis à disposition de l'ensemble de la communauté universitaire élargie. Il est soumis à la propriété intellectuelle de l'auteur. Ceci implique une obligation de citation et de référencement lors de l’utilisation de ce document. D'autre part, toute contrefaçon, plagiat, reproduction illicite encourt une poursuite pénale. Contact : [email protected] LIENS Code de la Propriété Intellectuelle. articles L 122. 4 Code de la Propriété Intellectuelle. articles L 335.2- L 335.10 http://www.cfcopies.com/V2/leg/leg_droi.php http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm THESE` pr´esent´eepar NGUYEN Manh Cuong en vue de l'obtention du grade de DOCTEUR DE L'UNIVERSITE´ DE LORRAINE (arr^et´eminist´eriel du 7 Ao^ut 2006) Sp´ecialit´e: INFORMATIQUE LA PROGRAMMATION DC ET DCA POUR CERTAINES CLASSES DE PROBLEMES` EN APPRENTISSAGE ET FOUILLE DE DONEES.´ Soutenue le 19 mai 2014 devant le jury compos´ede Rapporteur BENNANI Youn`es Professeur, Universit´eParis 13 Rapporteur RAKOTOMAMONJY Alain Professeur, Universit´ede Rouen Examinateur GUERMEUR Yann Directeur de recherche, LORIA-Nancy Examinateur HEIN Matthias Professeur, Universit´eSaarland Examinateur PHAM DINH Tao Professeur ´em´erite, INSA-Rouen Directrice de th`ese LE THI Hoai An Professeur, Universit´ede Lorraine Co-encadrant CONAN-GUEZ Brieuc MCF, Universit´ede Lorraine These` prepar´ ee´ a` l'Universite´ de Lorraine, Metz, France au sein de laboratoire LITA Remerciements Cette th`ese a ´et´epr´epar´ee au sein du Laboratoire d'Informatique Th´eorique et Appliqu´ee (LITA) de l'Universit´ede Lorraine - France, sous la co-direction du Madame le Professeur LE THI Hoai An, Directrice du laboratoire Laboratoire d'Informatique Th´eorique et Ap- pliqu´ee(LITA), Universit´ede Lorraine et Ma^ıtre de conf´erence CONAN-GUEZ Brieuc, Institut Universitaire de Technologie (IUT), Universit´ede Lorraine, Metz. J'adresse toute ma gratitude `aMadame le Professeur LE THI Hoai An et Ma^ıtre de conf´erence CONAN-GUEZ Brieuc qui ont accept´ed'^etre mes directeurs de th`ese, pour leur aide, leur patience, leur soutien permanent, leurs conseils pr´ecieux, leurs encourage- ments et leur disponibilit´etout au long de ce travail. Je tiens `aremercier plus particuli`erement Monsieur le Professeur Pham Dinh Tao, Pro- fesseur `aL'INSA de Rouen pour ses conseils, son suivi de mes recherches. Je voudrais lui exprimer toutes mes reconnaissances pour sa sympathie et les discussions tr`esint´eressantes qu'il a men´ees pour me sugg´erer les voies de recherche. Je souhaite exprimer mes vifs remerciements `aMonsieur BENNANI Younes` , Professeur `al'Universit´eParis 13 et `aMonsieur RAKOTOMAMONJY Alain, Professeur `al'Universit´e de Rouen, de m'avoir fait l'honneur d'accepter la charge de rapporteur de ma th`ese, ainsi que d'avoir particip´e`ajuger mon travail. Je tiens `aremercier Monsieur GUERMEUR Yann, Directeur de Recherche, LORIA Nancy et Monsieur HEIN Matthias, Professeur `al'Universit´eSaarland d'avoir particip´e `ajuger mon travail. Je remercie particuli`erement le Docteur LE Hoai Minh pour l'aide inestimable, sa col- laboration et pour les discussions tr`esint´eressantes que nous avons pu avoir. Je remercie tous mes coll`egues Fran¸cais et Vietnamiens rencontr´es `aMetz ainsi qu'`aRouen pour les moments agr´eables lors de mon s´ejour en France. Je remercie particuli`erement tous mes coll`egues `aLITA, l'Universit´ede Lorraine, pour les partages dans le travail et dans la vie. Mes remerciements s'adressent ´egalement au Gouvernement Vietnamien qui a financ´emes ´etudes pendant la th`ese. Je ne devrais pas oublier remercier tout l'´equipe du personnel de l'Universit´ede l'Industrie de Hanoi pour son soutien. Je devrais t´emoigner mon affectation, mes reconnaissances `ama famille pour les sacrifices qu'elle a faites pour me soutenir lors des moments difficiles. Enfin `atous ceux qui m'ont soutenu de pr`es ou de loin et `atous ceux qui m'ont incit´em^eme involontairement `afaire mieux, veuillez trouver ici le t´emoignage de ma profonde gratitude. ii R´esum´e La classification (supervis´ee, non supervis´ee et semi-supervis´ee) est une th´ematique impor- tante de la fouille de donn´ees. Dans cette th`ese, nous nous concentrons sur le d´eveloppe- ment d'approches d'optimisation pour r´esoudre certains types des probl`emes issus de la classification de donn´ees. Premi`erement, nous avons examin´eet d´evelopp´edes algorithmes pour r´esoudre deux probl`emes classiques en apprentissage non supervis´ee : la maximisation du crit`ere de modularit´epour la d´etection de communaut´es dans des r´eseaux complexes et les cartes auto-organisatrices. Deuxi`emement, pour l'apprentissage semi-supervis´ee, nous proposons des algorithmes efficaces pour le probl`eme de s´election de variables en semi-supervis´eeMachines `avecteurs de support. Finalement, dans la derni`ere partie de la th`ese, nous consid´erons le probl`emede s´election de variables en Machines `avecteurs de support multi-classes. Tous ces probl`emes d'optimisation sont non convexe de tr`esgrande dimension en pratique. Les m´ethodes que nous proposons sont bas´ees sur les programmations DC (Difference of Convex functions) et DCA (DC Algorithms) ´etant reconnues comme des outils puis- sants d'optimisation. Les probl`emes ´evoqu´esont ´et´ereformul´escomme des probl`emes DC, afin de les r´esoudre par DCA. En outre, compte tenu de la structure des probl`emes consid´er´es, nous proposons diff´erentes d´ecompositions DC ainsi que diff´erentes strat´egies d'initialisation pour r´esoudre un m^eme probl`eme. Tous les algorithmes propos´es ont ´et´e test´essur des jeux de donn´ees r´eelles en biologie, r´eseaux sociaux et s´ecurit´einformatique. Abstract Classification (supervised, unsupervised and semi-supervised) is one of important research topics of data mining which has many applications in various fields. In this thesis, we focus on developing optimization approaches for solving some classes of optimization problems in data classification. Firstly, for unsupervised learning, we considered and developed the algorithms for two well-known problems: the modularity maximization for community detection in complex networks and the data visualization problem with Self-Organizing Maps. Secondly, for semi-supervised learning, we investigated the effective algorithms to solve the feature selection problem in semi-supervised Support Vector Machine. Finally, for supervised learning, we are interested in the feature selection problem in multi-class Support Vector Machine. All of these problems are large-scale non-convex optimization problems. Our methods are based on DC Programming and DCA which are well-known as power- ful tools in optimization. The considered problems were reformulated as the DC programs and then the DCA was used to obtain the solution. Also, taking into account the structure of considered problems, we can provide appropriate DC decompositions and the relevant choice strategy of initial points for DCA in order to improve its efficiency. All these pro- posed algorithms have been tested on the real-world datasets including biology, social networks and computer security. iii Curriculum Vitae PERSONAL INFORMATIONS First name NGUYEN Last name Manh Cuong Date and place of birth 18/3/1978 at Thai Binh, Vietnam Gender Male Nationality Vietnamese Personal address Résidence Universitaire du Saulcy, 57010 Metz, France Professional address LITA, University of Lorraine, Ile du Saulcy, 57045 Metz, France. Phone number 06 73 71 59 89 Email [email protected] EDUCATION University of Lorraine PhD. Student 2010-2014 Subject of the thesis: La programmation DC et DCA pour certaines classes de problèmes en Apprentissage et fouille de données. Hanoi University of Technology MSc. Student 2001-2003 Subject of the thesis: “Mixed Similarity Measure and Its Applications” Grade: Good Hanoi University of Science BSc. Student 1996-2000 Subject of the thesis: “The Graph Algorithms for the Problems of Traffic in the City” Grade: Good TEACHING EXPERIENCE Hanoi University of Industry, Vietnam • Lecturer 2003-2010 LANGUAGES • French • English • Vietnamese vi Curriculum Vitae Publications Refereed international journal papers [1]. Le Thi, H.A., Nguyen, M.C.: Efficient Algorithms for Feature Selection in Multi- class Support Vector Machine. Submitted. [2]. Le Hoai, M., Nguyen, M.C., Le Thi, H.A.: DCA Based algorithm for feature selection in Semi-Supervised Support Vector Machines. Submitted. [3]. Le Thi, H.A., Nguyen, M.C., Pham Dinh, T.: A DC programming approach for finding Communities in networks. Submitted version to the Neural Computation journal (NECO). [4]. Le Thi, H.A., Nguyen, M.C.: Self-Organizing Maps by Difference of Convex func- tions optimization. Revised version to the Data Mining and Knowledge Discovery journal (DAMI). [5]. Conan-Guez, B., Nguyen, M.C.: Mod-Mullner:¨ An Efficient Algorithm for Hier- archical Community Analysis in Large Networks. Submitted version to the International Journal of Social Network Mining (IJSNM). Refereed papers in books / Refereed international conference papers [1]. Phan, D.N., Nguyen, M.C., Le Thi, H.A.: A DC programming approach for sparse linear discriminant analysis. In Advances in Intelligent Systems and Computing, Volume 282, pp. 65-74, Springer (2014). [2]. Le Thi, H.A., Nguyen, M.C.: Efficient Algorithms for Feature Selection in Multi- class Support Vector Machine. In Advanced Computational Methods for Knowledge En- gineering, Studies in Computational Intelligence, Volume 479, pp. 41-52, Springer (2013). [3]. Le Hoai, M., Le Thi, H.A., Nguyen, M.C.: DCA Based algorithm for feature selection in Semi-Supervised Support Vector Machines. In Machine Learning and Data Mining in Pattern Recognition, Lecture Notes in Computer Science, Volume 7988, pp. 528-542, Springer (2013). [4]. Le, A.V., Le Thi, H.A., Nguyen, M.C.,Zidna, A.: Network Intrusion Detection based on Multi-Class Support Vector Machine.