Université De Montréal Context-Aware Source

UNIVERSITE´ DE MONTREAL´ CONTEXT-AWARE SOURCE CODE IDENTIFIER SPLITTING AND EXPANSION FOR SOFTWARE MAINTENANCE LATIFA GUERROUJ DEPARTEMENT´ DE GENIE´ INFORMATIQUE ET GENIE´ LOGICIEL ECOLE´ POLYTECHNIQUE DE MONTREAL´ THESE` PRESENT´ EE´ EN VUE DE L'OBTENTION DU DIPLOME^ DE PHILOSOPHIÆ DOCTOR (GENIE´ INFORMATIQUE) AOUT^ 2013 ⃝c Latifa Guerrouj, 2013. UNIVERSITE´ DE MONTREAL´ ECOLE´ POLYTECHNIQUE DE MONTREAL´ Cette thèse intitulée: CONTEXT-AWARE SOURCE CODE IDENTIFIER SPLITTING AND EXPANSION FOR SOFTWARE MAINTENANCE présentéepar: GUERROUJ Latifa en vue de l'obtention du diplôme de: Philosophiæ Doctor a étédûment acceptéepar le jury d'examen constituéde: Mme BOUCHENEB Hanifa, Doctorat, présidente M. ANTONIOL Giuliano, Ph.D., membre et directeur de recherche M. GUEH´ ENEUC´ Yann-Gaël, Doct., membre et codirecteur de recherche M. DESMARAIS Michel C., Ph.D., membre Mme LAWRIE Dawn J., Ph.D., membre iii This dissertation is dedicated to my parents. For their endless love, support and encouragement. iv ACKNOWLEDGMENTS I am very grateful to both Giulio and Yann for their support, encouragement, and intellectual input. I worked with you for four years or even less, but what I learned from you will last forever. Giulio, your passion about research was a source of inspiration and motivation for me. Also, your mentoring and support have been instrumental in achieving my goals. Yann, your enthusiasm and guidance have always been a strength for me to keep moving forward. Research would not be as much fun without students and researchers to collaborate with. It has been a real pleasure and great privilege working with Massimiliano Di Penta (University of Sannio), Denys Poshyvanyk (College of William and Mary), and their teams. In particular, I would like to thank Max for being always available to provide help and excellent advice and for hosting me in Europe and sharing with me not only the research expertise but also a joyful time and fun. Many thanks also to Denys and his wonderful team for all the great collaborations we achieved together. Thanks to all present and past SOCCER and Ptidej groups' members, in particular, Foutse Khomh and Bram Adams, for their help, relevant opinions and especially their en- couragements during all the past years of my Ph.D., and to all my friends who inspired me along the way and never hesitated to share ideas and fun. I would also like to thank my professors at Ecole´ Polytechnique de Montréal, the department of Software Engineering and Computer Science (DGIGL), and all the people that helped in the administrative process of this thesis. I am very thankful to Radouane Mrabet and Line Dubéwho always believed in me and gave me excellent advice. And a heartfelt thank to my Mother and Father, who instilled the following in me as a child: an achievement is an achievement when mind, heart and principles agree. The most important thanks goes to my family. My two little nephews: Amine and Omar, and beautiful niece: kawtar. Thanks for your innocent smiles that were my source of motivation in the hard time. You always tried to call at just the right time. To all my friends, students and beloved, thank you for your friendship, love, and appre- ciation. I can not list all your names here but you know well that you are always in my mind. Finally, I would like to gratefully thanks the jury members who accepted to evaluate this thesis. v RESUM´ E´ La compréhension du code source des programmes logiciels est une étape nécessaire pour plusieurs tâches de compréhension de programmes, rétro-ingénierie, ou re-documentation. Dans le code source, les informations textuelles telles que les identifiants et les commentaires représentent une source d'information importante. Le problème d'extraction et d'analyse des informations textuelles utiliséesdans les artefacts logiciels n'a étéreconnu par la communautédu génie logiciel que récemment. Des méthodes de recherche d'information ont étéproposéespour aider les tâches de compréhen- sion de programmes telles que la localisation des concepts et la tra¸cabilitédes exigences au code source. Afin de mieux tirer bénéfice des approches baséessur la recherche d'information, le langage utiliséau niveau de tous les artefacts logiciels doit être le même. Ceci est dûau fait que les requêtes de la recherche d'information ne peuvent pas retourner des documents pertinents si le vocabulaire utilisédans les requêtes contient des mots qui ne figurent pas au niveau du vocabulaire du code source. Malheureusement, le code source contient une proportion élevée de mots qui ne sont pas significatifs, e.g., abréviations, acronymes, ou con- caténation de ces types. En effet, le code source utilise un langage différent de celui des autres artefacts logiciels. Cette discordance de vocabulaire provient de l'hypothèseimplicite faite par les techniques de recherche de l'information et du traitement de langage naturel qui supposent l'utilisation du même vocabulaire. Ainsi, la normalisation du vocabulaire du code source est un grand défi. La normalisation aligne le vocabulaire utilisédans le code source des systèmes logiciels avec celui des autres artefacts logiciels. La normalisation consiste àdécomposer les identifiants (i.e., noms de classes, méthodes, variables, attributs, paramètres, etc.) en termes et à étendre ces termes aux concepts (i.e., mots d'un dictionnaire spécifique) correspondants. Dans cette thèse,nous proposons deux contributions àla normalisation avec deux nou- velles approches contextuelles : TIDIER et TRIS. Nous prenons en compte le contexte car nos études expérimentales ont montrél'importance des informations contextuelles pour la normalisation du vocabulaire du code source. En effet, nous avons effectuédeux études ex- périmentales avec des étudiants de baccalauréat, ma^ıtrise et doctorat ainsi que des stagiaires post-doctoraux. Nous avons choisi aléatoirement un ensemble d'identifiants àpartir d'un corpus de systèmes écrits en C et nous avons demandéaux participants de les normaliser en utilisant différents niveaux de contexte. En particulier, nous avons considéréun contexte interne qui consiste en le contenu des fonctions, fichiers et systèmes contenant les identifiants ainsi qu'un niveau externe sous forme de documentation externe. Les résultats montrent vi l'importance des informations contextuelles pour la normalisation. Ils révèlent également que les fichiers de code source sont plus utiles que les fonctions et que le contexte construit au niveau des systèmes logiciels n'apporte pas plus d'amélioration que celle obtenue avec le contexte construit au niveau des fichiers. La documentation externe, par contre, aide parfois. En résumé,les résultats confirment notre hypothèsesur l'importance du contexte pour la compréhension de programmes logiciels en général et la normalisation du vocabulaire utilisé dans le code source systèmes logiciels en particulier. Ainsi, nous proposons une approche contextuelle TIDIER, inspirée par les techniques de la reconnaissance de la parole et utilisant le contexte sous forme de dictionnaires spécialisés(i.e., contenant des acronymes, abréviations et termes spécifiques au domaine des système logiciels). TIDIER est plus préformante que les approches qui la précédent (i.e., CamelCase et samurai). Spécifiquement, TIDIER atteint 54% de précision en termes de décomposition des identifiants lors de l'utilisation un dictionnaire construit au niveau du système logiciel en question et enrichi par la connaissance du domaine. CamelCase et Samurai atteint seulement 30% et 31% en termes de précision, respectivement. En outre, TIDIER est la première approche qui met en correspondance les termes abrégésavec les concepts qui leurs correspondent avec une précision de 48% pour un ensemble de 73 abréviations. La limitation principale de TIDIER est sa complexitécubique qui nous a motivéàpro- poser une solution plus rapide mais tout aussi performante, nomméeTRIS. TRIS est inspirée par TIDIER, certes elle traite le problème de la normalisation différemment. En effet, elle le considère comme un problème d'optimisation (minimisation) dont le but est de trouver le chemin le plus court (i.e., décomposition et extension optimales) dans un graphe acyclique. En outre, elle utilise la fréquence des termes comme contexte local afin de déterminer la normalisation la plus probable. TRIS est plus performante que CamelCase, Samurai et TIDIER, en termes de précision et de rappel, pour des systèmes logiciels écrits en C et C++. Aussi, elle fait mieux que GenTest de 4% en termes d'exactitude de décomposition d'identifiants. L'amélioration apportée par rapport àGenTest n'est cependant pas statistiquement significa- tive. TRIS utilise une représentation basée sur une arborescence qui réduit considérablement sa complexitéet la rend plus efficace en terme de temps de calcul. Ainsi, TRIS produit rapide- ment une normalisation optimale en utilisant un algorithme ayant une complexitéquadratique en la longueur de l'identifiant ànormaliser. Ayant développédes approches contextuelles pour la normalisation, nous analysons alors son impact sur deux tâches de maintenance logicielle basées sur la recherche d'information, àsavoir, la tra¸cabilitédes exigences au code source et la localisation des concepts. Nous étudions l'effet de trois stratégies de normalisation : CamelCase, Samurai et l'oracle sur deux techniques de localisation des concepts. La première est baséesur les informations textuelles vii seulement, quant àla deuxième, elle combine les informations textuelles et dynamiques (traces d'exécution).

Université De Montréal Context-Aware Source

Details

Download

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

Support