Ce Document Est Le Fruit D'un Long Travail Approuvé Par Le Jury De Soutenance Et Mis À Disposition De L'ensemble De La Communauté Universitaire Élargie

AVERTISSEMENT Ce document est le fruit d'un long travail approuvé par le jury de soutenance et mis à disposition de l'ensemble de la communauté universitaire élargie. Il est soumis à la propriété intellectuelle de l'auteur. Ceci implique une obligation de citation et de référencement lors de l’utilisation de ce document. D'autre part, toute contrefaçon, plagiat, reproduction illicite encourt une poursuite pénale. Contact : [email protected] LIENS Code de la Propriété Intellectuelle. articles L 122. 4 Code de la Propriété Intellectuelle. articles L 335.2- L 335.10 http://www.cfcopies.com/V2/leg/leg_droi.php http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm THESE` présentéepar NGUYEN Manh Cuong en vue de l'obtention du grade de DOCTEUR DE L'UNIVERSITE´ DE LORRAINE (arrêtéministériel du 7 Août 2006) Spécialité: INFORMATIQUE LA PROGRAMMATION DC ET DCA POUR CERTAINES CLASSES DE PROBLEMES` EN APPRENTISSAGE ET FOUILLE DE DONEES.´ Soutenue le 19 mai 2014 devant le jury composéde Rapporteur BENNANI Younès Professeur, UniversitéParis 13 Rapporteur RAKOTOMAMONJY Alain Professeur, Universitéde Rouen Examinateur GUERMEUR Yann Directeur de recherche, LORIA-Nancy Examinateur HEIN Matthias Professeur, UniversitéSaarland Examinateur PHAM DINH Tao Professeur émérite, INSA-Rouen Directrice de thèse LE THI Hoai An Professeur, Universitéde Lorraine Co-encadrant CONAN-GUEZ Brieuc MCF, Universitéde Lorraine These` prepar´ ee´ a` l'Universite´ de Lorraine, Metz, France au sein de laboratoire LITA Remerciements Cette thèse a étépréparée au sein du Laboratoire d'Informatique Théorique et Appliquée (LITA) de l'Universitéde Lorraine - France, sous la co-direction du Madame le Professeur LE THI Hoai An, Directrice du laboratoire Laboratoire d'Informatique Théorique et Ap- pliquée(LITA), Universitéde Lorraine et Ma^ıtre de conférence CONAN-GUEZ Brieuc, Institut Universitaire de Technologie (IUT), Universitéde Lorraine, Metz. J'adresse toute ma gratitude àMadame le Professeur LE THI Hoai An et Ma^ıtre de conférence CONAN-GUEZ Brieuc qui ont acceptéd'être mes directeurs de thèse, pour leur aide, leur patience, leur soutien permanent, leurs conseils précieux, leurs encourage- ments et leur disponibilitétout au long de ce travail. Je tiens àremercier plus particulièrement Monsieur le Professeur Pham Dinh Tao, Pro- fesseur àL'INSA de Rouen pour ses conseils, son suivi de mes recherches. Je voudrais lui exprimer toutes mes reconnaissances pour sa sympathie et les discussions trèsintéressantes qu'il a menées pour me suggérer les voies de recherche. Je souhaite exprimer mes vifs remerciements àMonsieur BENNANI Younes` , Professeur àl'UniversitéParis 13 et àMonsieur RAKOTOMAMONJY Alain, Professeur àl'Université de Rouen, de m'avoir fait l'honneur d'accepter la charge de rapporteur de ma thèse, ainsi que d'avoir participéàjuger mon travail. Je tiens àremercier Monsieur GUERMEUR Yann, Directeur de Recherche, LORIA Nancy et Monsieur HEIN Matthias, Professeur àl'UniversitéSaarland d'avoir participé àjuger mon travail. Je remercie particulièrement le Docteur LE Hoai Minh pour l'aide inestimable, sa col- laboration et pour les discussions trèsintéressantes que nous avons pu avoir. Je remercie tous mes collègues Fran¸cais et Vietnamiens rencontrés àMetz ainsi qu'àRouen pour les moments agréables lors de mon séjour en France. Je remercie particulièrement tous mes collègues àLITA, l'Universitéde Lorraine, pour les partages dans le travail et dans la vie. Mes remerciements s'adressent également au Gouvernement Vietnamien qui a financémes études pendant la thèse. Je ne devrais pas oublier remercier tout l'équipe du personnel de l'Universitéde l'Industrie de Hanoi pour son soutien. Je devrais témoigner mon affectation, mes reconnaissances àma famille pour les sacrifices qu'elle a faites pour me soutenir lors des moments difficiles. Enfin àtous ceux qui m'ont soutenu de près ou de loin et àtous ceux qui m'ont incitémême involontairement àfaire mieux, veuillez trouver ici le témoignage de ma profonde gratitude. ii Résumé La classification (supervisée, non supervisée et semi-supervisée) est une thématique impor- tante de la fouille de données. Dans cette thèse, nous nous concentrons sur le développe- ment d'approches d'optimisation pour résoudre certains types des problèmes issus de la classification de données. Premièrement, nous avons examinéet développédes algorithmes pour résoudre deux problèmes classiques en apprentissage non supervisée : la maximisation du critère de modularitépour la détection de communautés dans des réseaux complexes et les cartes auto-organisatrices. Deuxièmement, pour l'apprentissage semi-supervisée, nous proposons des algorithmes efficaces pour le problème de sélection de variables en semi-superviséeMachines àvecteurs de support. Finalement, dans la dernière partie de la thèse, nous considérons le problèmede sélection de variables en Machines àvecteurs de support multi-classes. Tous ces problèmes d'optimisation sont non convexe de trèsgrande dimension en pratique. Les méthodes que nous proposons sont basées sur les programmations DC (Difference of Convex functions) et DCA (DC Algorithms) étant reconnues comme des outils puis- sants d'optimisation. Les problèmes évoquésont étéreformuléscomme des problèmes DC, afin de les résoudre par DCA. En outre, compte tenu de la structure des problèmes considérés, nous proposons différentes décompositions DC ainsi que différentes stratégies d'initialisation pour résoudre un même problème. Tous les algorithmes proposés ont été testéssur des jeux de données réelles en biologie, réseaux sociaux et sécuritéinformatique. Abstract Classification (supervised, unsupervised and semi-supervised) is one of important research topics of data mining which has many applications in various fields. In this thesis, we focus on developing optimization approaches for solving some classes of optimization problems in data classification. Firstly, for unsupervised learning, we considered and developed the algorithms for two well-known problems: the modularity maximization for community detection in complex networks and the data visualization problem with Self-Organizing Maps. Secondly, for semi-supervised learning, we investigated the effective algorithms to solve the feature selection problem in semi-supervised Support Vector Machine. Finally, for supervised learning, we are interested in the feature selection problem in multi-class Support Vector Machine. All of these problems are large-scale non-convex optimization problems. Our methods are based on DC Programming and DCA which are well-known as power- ful tools in optimization. The considered problems were reformulated as the DC programs and then the DCA was used to obtain the solution. Also, taking into account the structure of considered problems, we can provide appropriate DC decompositions and the relevant choice strategy of initial points for DCA in order to improve its efficiency. All these pro- posed algorithms have been tested on the real-world datasets including biology, social networks and computer security. iii Curriculum Vitae PERSONAL INFORMATIONS First name NGUYEN Last name Manh Cuong Date and place of birth 18/3/1978 at Thai Binh, Vietnam Gender Male Nationality Vietnamese Personal address Résidence Universitaire du Saulcy, 57010 Metz, France Professional address LITA, University of Lorraine, Ile du Saulcy, 57045 Metz, France. Phone number 06 73 71 59 89 Email [email protected] EDUCATION University of Lorraine PhD. Student 2010-2014 Subject of the thesis: La programmation DC et DCA pour certaines classes de problèmes en Apprentissage et fouille de données. Hanoi University of Technology MSc. Student 2001-2003 Subject of the thesis: “Mixed Similarity Measure and Its Applications” Grade: Good Hanoi University of Science BSc. Student 1996-2000 Subject of the thesis: “The Graph Algorithms for the Problems of Traffic in the City” Grade: Good TEACHING EXPERIENCE Hanoi University of Industry, Vietnam • Lecturer 2003-2010 LANGUAGES • French • English • Vietnamese vi Curriculum Vitae Publications Refereed international journal papers [1]. Le Thi, H.A., Nguyen, M.C.: Efficient Algorithms for Feature Selection in Multi- class Support Vector Machine. Submitted. [2]. Le Hoai, M., Nguyen, M.C., Le Thi, H.A.: DCA Based algorithm for feature selection in Semi-Supervised Support Vector Machines. Submitted. [3]. Le Thi, H.A., Nguyen, M.C., Pham Dinh, T.: A DC programming approach for finding Communities in networks. Submitted version to the Neural Computation journal (NECO). [4]. Le Thi, H.A., Nguyen, M.C.: Self-Organizing Maps by Difference of Convex functions optimization. Revised version to the Data Mining and Knowledge Discovery journal (DAMI). [5]. Conan-Guez, B., Nguyen, M.C.: Mod-Mullner:¨ An Efficient Algorithm for Hier- archical Community Analysis in Large Networks. Submitted version to the International Journal of Social Network Mining (IJSNM). Refereed papers in books / Refereed international conference papers [1]. Phan, D.N., Nguyen, M.C., Le Thi, H.A.: A DC programming approach for sparse linear discriminant analysis. In Advances in Intelligent Systems and Computing, Volume 282, pp. 65-74, Springer (2014). [2]. Le Thi, H.A., Nguyen, M.C.: Efficient Algorithms for Feature Selection in Multi- class Support Vector Machine. In Advanced Computational Methods for Knowledge En- gineering, Studies in Computational Intelligence, Volume 479, pp. 41-52, Springer (2013). [3]. Le Hoai, M., Le Thi, H.A., Nguyen, M.C.: DCA Based algorithm for feature selection in Semi-Supervised Support Vector Machines. In Machine Learning and Data Mining in Pattern Recognition, Lecture Notes in Computer Science, Volume 7988, pp. 528-542, Springer (2013). [4]. Le, A.V., Le Thi, H.A., Nguyen, M.C.,Zidna, A.: Network Intrusion Detection based on Multi-Class Support Vector Machine.

Load more