Thesis Proposes a Method for Describing Architectures Instruction Sets Based on a Grammar Formalism

Université de Versailles Saint-Quentin-en-Yvelines École Doctorale “STV” Une approche générique pour la définition de composants bas niveau d’analyse binaire multi-architecture A generic approach to the definition of low-level components for multi-architecture binary analysis THÈSE présentée et soutenue publiquement le 02 Juillet 2014 pour l’obtention du Doctorat de l’Université de Versailles Saint-Quentin-en-Yvelines (spécialité informatique) par Cédric Valensi Composition du jury Directeur de thèse : William Jalby - Professeur, Université de Versailles Président : Denis Barthou - Professeur, Université de Bordeaux Rapporteurs : François Bodin - Professeur, Université de Rennes Henri-Pierre Charles - Chercheur, CEA Examinateur : Jean-Christophe Beyler - Ingénieur expert, Intel Remerciements Voici à présent 6 ans que j’ai quitté le monde de l’entreprise pour rejoindre celui de la recherche. Après 5 années de thèse, me voici enfin arrivé à l’importante étape des remerciements, point d’orgue de la rédaction du manuscrit. Je tiens à exprimer en tout premier ma reconnaissance à mon directeur de thèse M. William Jalby qui m’a accepté dans son équipe d’abord comme ingénieur de recherche puis en tant que thésard. Je remercie ensuite mes rapporteurs, MM. Henri-Pierre Charles et François Bodin, pour leurs relectures de mon manuscrit et leurs précieux conseils. Je remercie également le Président du jury Denis Barthou pour m’avoir fourni les problématiques initiales de ma thèse et m’avoir conseillé tout au long de celle-ci. Je remercie Jean-Christophe Beyler pour avoir accepté de faire partie de mon jury de soutenance, ainsi que pour son soutien lorsque nous travaillions ensemble au sein du laboratoire Exascale. Je remercie également pour leur encadrement les chefs successifs des équipes auxquelles j’ai appartenu, Jean-Thomas Acquaviva pour ses conseils et ses encour- agements, et Andrés Charif-Rubial pour m’avoir poussé à ajouter de nouvelles fonc- tionnalités sur Madras, même au prix de nuits blanches. Je remercie aussi les membres de l’équipe d’analyse des performances pour leur collaboration, en particulier les 3 ingénieurs de recherche qui ont eu chacun à porter une part du fardeau qu’est la maintenance du code de Madras et Minjag: Mathieu Tribalat, qui a réécrit le code du parseur ELF et affronté les 2000 lignes de la fonction scn_reorder, Jean-Baptiste Le Reste qui a eu à résoudre les problématiques plus complexes que prévu du patch statique et les sournoises GNU_IFUNC, et Hugo Bolloré, qui s’occupe de la mise à jour des grammaires binaires et des macros d’assemblages et de désassemblage, et a du plonger dans les méandres des règles de codage ARM, ou plutôt ses exceptions. Je remercie tous les autres membres du laboratoire pour avoir supporté mes plaintes de plus en plus fréquentes au fur et à mesure que la thèse avançait ainsi pour les discussions autour de la machine à café et au Restaurant Universitaire (sur l’utilité de la thèse et la qualité de la nourriture dans le cas de Franck). Une mention particulière à tous mes confrères et consœurs thésard(e)s, aussi bien pour leur accueil lors de mon arrivée pour les plus anciens que pour leur soutien mutuel; celles et ceux qui sont depuis devenus Docteurs, Souad (que je remercie au passage pour son modèle LaTeX de thèse), Stéphane, Julien, Emmanuel, José, Hafid, Yuriyi, Sylvain; et celles et ceux qui le seront bientôt, Sébastien, Jean-Baptiste, Asma, Zakariah, Aurèle, Nicolas, Vincent, Michel : bon courage à vous tous. Je tiens aussi à remercier M. de Feraudy qui m’a conseillé lorsque j’ai décidé de rejoindre le monde de la recherche et m’a recommandé auprès de William Jalby. Je remercie tous mes amis pour leur patience lorsqu’ils tentaient eux aussi de comprendre quel était exactement mon sujet de thèse et combien de temps j’allais encore y travailler et quand j’annulais mes rendez-vous au dernier moment pour cause de thèse (mention spéciale au Groupe du Jeu Dit, qui m’a laissé déserter la scène pour m’occuper de mon manuscrit). Enfin, je tiens à remercier mes parents, pour leur soutien sans faille tout au long de la thèse, et mon frère Flavien, pour m’avoir initialement motivé à rejoindre la recherche par la visite de son laboratoire meublé d’appareils dignes d’un savant fou, puis pour m’avoir fourni les contacts nécessaires pour faire de ce projet une réalité. ii À mes parents et mon frère iii Résumé : L’analyse de performance d’applications pour systèmes hétérogènes requiert de pouvoir gérer la diversité des architectures impliquées. L’analyse des applications au niveau binaire offre une précision optimale mais implique l’utilisation de désassembleurs et patcheurs. Ces outils doivent être capables de supporter les fréquentes évolutions et la variété des architectures impliquées dans ces systèmes. La plupart des désassembleurs et assembleurs utilisent une représentation hard- codée des architectures supportées, dont la maintenance est source d’erreurs et consommatrice de temps. Cette thèse propose une méthode permettant la description des jeux d’instructions des architectures suivant le formalisme des grammaires. Cette approche permet de simplifier la mise en œuvre des encodeurs et décodeurs pour les nouvelles architectures et leurs mises à jours ultérieures. La représentation sous forme de grammaire permet aussi une adaptabilité optimale de la sortie des dé- codeurs. Cette théorie est ensuite validée par la mise en œuvre d’un désassembleur basé sur l’analyseur syntaxique généré. Nous montrons que ce désassembleur répond aux besoins des outils d’analyse en permettant le support d’architectures multiples et en présentant les résultats sous un format unifié. Les tests ont montré que ce désassembleur générique est comparable en terme de vitesse et de précision aux outils hard-codés. Nous présentons ensuite une application des résultats du désassemblage sous forme d’un outil de réécriture binaire. Cet outil utilise un assembleur basé sur l’encodeur généré depuis la représentation de la grammaire et permet d’effectuer des opérations de patch bas niveau sur les fichiers binaires. Les tests ont montré que l’instrumentation de codes basée sur ce patcheur permet d’obtenir un coût en temps réduit par rapport aux outils existants. Le désassembleur et le patcheur sont fonctionnels et intégrés dans l’outil Madras qui est un élément essentiel de l’environnement Maqao. Mots clés : Désassemblage, Décomposition analytique, Grammaires non contextuelles, Automates à états finis, Analyse de performances, Réécriture binaire iv Abstract: Performance analysis of applications running on heterogeneous systems requires the ability to handle the diversity of those architectures. Analysing applications at the binary level offers a better accuracy but implies the use of disassemblers and patchers. These tools must be able to follow the frequent evolutions and variety of the architectures involved in those systems. Most disassemblers and assemblers use a hard coded representation of the supported architectures, which is error-prone and time-consuming to maintain. This thesis proposes a method for describing architectures instruction sets based on a grammar formalism. This approach allows to simplify the implementation of encoder and decoders for new architectures and their subsequent updates. The grammar representation also offers optimal customisation of the decoders outputs. This theory is then validated with the implementation of a disassembler based on the generated parser. We show that this disassembler meets the needs of analysis tools by supporting multiple architectures and presenting its results under a unified format. Tests show that this generic disassembler is comparable to existing hard coded tools in terms of speed and accuracy. We then present an application of the results of the disassembler under the form of a binary rewriting tool. This tool uses an assembler based on the encoder generated from the grammar representation and allows to perform low-level patching operations on binary files. Tests have shown that code instrumentation based on this patcher allows to obtain a reduced overhead compared to existing tools. The disassembler and patcher are functional and integrated into the Madras tool which is an essential element of the analysis framework Maqao. Keywords: Disassembly, Parsing, Context-free grammars, Finite State Au- tomata, Performance Analysis, Binary rewriting Contents 1 Introduction1 1.1 Contribution...............................3 1.2 Organisation...............................3 2 Elements of binary analysis5 2.1 Analysis tools...............................5 2.1.1 Common operations.......................5 2.1.2 Additional constraints......................5 2.1.3 Operating at the binary level..................6 2.2 Assembly language............................6 2.2.1 Binary encoding.........................7 2.2.2 Execution.............................7 2.2.3 Addressing............................8 2.2.4 Overview of different architectures...............8 2.3 Binary executable............................. 11 2.3.1 General structure......................... 12 2.3.2 Contents.............................. 12 2.3.3 Common binary formats..................... 14 3 Generation of a generic binary decoder and encoder 19 3.1 Parsers and architecture representation................. 19 3.1.1 Parsers.............................. 20 3.1.2 Related work........................... 21 3.2 Parsing challenges............................ 23 3.2.1 Constraints on grammar..................... 23 3.2.2 Architecture

Thesis Proposes a Method for Describing Architectures Instruction Sets Based on a Grammar Formalism

ARM Software Development Toolkit Version 2.11 User Guide

ARM Command Line Workbook

Updated Virtualrpc Components for RISC OS 6

Chapter 13 ARM Image Format

ARM Developer Suite Version 1.0.1

AMX 4-ARM Tool Guide KADAK I Copyright © 1997-2007 by KADAK Products Ltd

Developers' Newsletter No 36 December 1994

Arm System-On-Chip Architecture.Pdf

ARM Developer Suite Getting Started

Adobe PDF Version

ARM Processor Core and Instruction Sets

Adobe PDF Version