Identification of Cryptographic Algorithms in Binary Programs Pierre Lestringant

Identification of cryptographic algorithms in binary programs Pierre Lestringant To cite this version: Pierre Lestringant. Identification of cryptographic algorithms in binary programs. Cryptography and Security [cs.CR]. Université Rennes 1, 2017. English. NNT : 2017REN1S067. tel-01699544 HAL Id: tel-01699544 https://tel.archives-ouvertes.fr/tel-01699544 Submitted on 2 Feb 2018 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. ANNÉE 2017 THÈSE / UNIVERSITÉ DE RENNES 1 sous le sceau de l’Université Bretagne Loire pour le grade de DOCTEUR DE L’UNIVERSITÉ DE RENNES 1 Mention : informatique Ecole doctorale Mathématiques et STIC présentée par Pierre Lestringant préparée à l’Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA) UMR 6074 en partenariat avec Amossys Thèse soutenue à Rennes le 12 décembre 2017 Identification devant le jury composé de : d’Algorithmes Jean-Yves MARION Professeur, U. Lorraine - rapporteur Pascal JUNOD Cryptographiques dans Chercheur, Snap Inc. - rapporteur Sandrine BLAZY du Code Natif Professeur, U. Rennes 1 - examinatrice Marion VIDEAU Maître de conférences, U. Lorraine en détachement auprès de Quarkslab - examinatrice Colas LE GUERNIC Ingénieur de recherche, DGA - examinateur Frédéric GUIHÉRY Responsable R&D, Amossys - examinateur Pierre-Alain FOUQUE Professeur, U. Rennes 1 - directeur de thèse Contents Résuméen Fran¸cais 4 1 Identification des Primitives . 4 2 Identification des Modes Opératoires . 6 3 Evaluation´ Expérimentale . 7 4 Organisation du Manuscrit . 8 5 Implémentation . 8 6 Liste des Publications . 8 Introduction 9 1 Reverse Engineering . 9 2 Cryptographic Notions . 10 3 Motivation . 11 4 Solution Overview . 12 5 Layout of the Thesis . 14 1 Related Work 16 1.1 Basic Techniques . 16 1.2 Cryptographic Parameters Retrieval . 18 1.3 Binary Code Comparison . 19 1.4 Primitive Identification . 20 2 Data Flow Graph 33 2.1 DFG Definition . 33 2.2 Sequence of Dynamic Instructions . 37 2.3 Construction . 40 2.4 Built-in Mechanisms . 43 3 Normalization 46 3.1 Formal Presentation . 46 3.2 Practical Aspects . 51 3.3 Common Subexpression Elimination . 52 3.4 Constant Simplification . 54 3.5 Constant Expression Detection . 57 3.6 Memory Access Simplification . 59 3.7 Memory Coalescing . 66 3.8 Commutative and Associative Operation Normalization . 70 3.9 Affine Expression Simplification . 72 3.10 Operation Size Expansion . 73 3.11 Miscellaneous Rewrite Rules . 75 3.12 Conclusion . 75 4 Subgraph Isomorphism for Primitive Identification 77 4.1 Signature . 77 4.2 Signature Detection . 81 4.3 Experimental Evaluation . 88 2 5 Dynamic Slicing for Mode of Operation Identification 105 5.1 Primitive Identification . 105 5.2 Slicing Definition . 108 5.3 Adjustments Based on Semantics . 112 5.4 Slice Construction . 115 5.5 Experimental Evaluation . 117 6 Detailed Use Cases 124 6.1 Automatic Test Vectors Verification . 124 6.2 Complete Analysis of an Instant Messaging Application . 128 A Cryptographic Algorithms Background 133 A.1 Primitives . 133 A.2 Modes of Operation . 136 3 Résuméen Fran¸cais Durant ma thèse,j'ai travailléàla conception de méthodes automatiséespermettant l'identification d'algorithmes cryptographiques dans des programmes compilésen langage machine. Ce besoin bien spécifiquetrouve une partie de son origine dans le domaine de l'évaluation logicielle. L'utilisation d'algorithmes cryptographiques se fait dans le but d'obtenir des fonctions de sécuritételles que la confidentialité,l'intégritéet l'authenticitépour la cryptographie symétrique ou des fonctions plus diverses comme la signature numérique, l'établissement de secrets partagésou le chiffre- ment àclépublique pour la cryptographie asymétrique. Cependant le choix des algorithmes, leur implémentation et leur utilisation au sein d'un programme informatique sont autant de points sensibles pouvant remettre en cause la robustesse de ces fonctions de sécurité.Il est donc primor- dial dans le cadre de l'évaluation logicielle d'analyser les implémentations cryptographiques afin de s'assurer de leur bon niveau de sécurité. Si dans bien des cas il est possible et plus commode de conduire cette analyse àpartir du code source, il n'en demeure pas moins important de pouvoir également opéreràpartir du code machine. En effet le code source n'est ni toujours disponible (évaluation pour le compte d'une tierce partie ou avec des informations limitéesdans le but de simuler un attaquant réel)ni toujours fiable (biais délibéréou non entre le code source et le code machine, dûpar exemple aux optimisations du compilateur [5]). L'idéen'est pas ici d'automatiser un type d'analyse particulier (par exemple: vérifierl'absence de corrélationentre temps d'exécutionet paramètressecrets pour empêcher les attaques par canaux temporels), mais d'automatiser l'identification des algorithmes cryptographiques, premièreétape nécessaireàtoute analyse plus approfondie. A` ce titre, les résultatsobtenus ne permettront pas directement dans bien des cas de juger du bon niveau de sécuritédes mécanismescryptographiques, mais serviront de socle àl'évaluateur pour débuterson analyse. Pour ce travail, je me suis limité àla cryptographie symétrique,proposant deux méthodes: une pour l'identification des primitives cryptographiques et l'autre pour l'identification des modes opératoires.Note: ces deux méthodes n'ayant pas étécon¸cuespour l'analyse de code obfusqué,elles n’offrent aucune garantie de bon fonctionnement dans ce domaine. 1 Identification des Primitives Il est possible, àl'aide d'heuristiques simples (instructions particulières,constantes particulières, taille des blocs de base, fréquenced'exécution,position dans l'arbre d'appels), d'identifier efficace- ment et de fa¸consûreun petit nombre de parties du code comme étant de possibles implémentations cryptographiques [33, 81]. La méthode proposéepour l'identification des primitives a donc été con¸cuepour s'exécuternon sur l'ensemble du programme, mais sur des portions de taille restreinte pouvant êtresélectionnéesàl'aide de ces heuristiques. Elle utilise des signatures. Une approche par signatures est particulièrement adaptéedans le cas des primitives puisque le nombre de primitives fréquemment utiliséesen pratique est faible et que leurs implémentations sont peu sujettes aux variations. 1.1 Graphe de Flot de Données Le code machine est représentépar une structure de donnéesappeléeDFG (pour Data Flow Graph). Bien qu'initialement con¸cuede fa¸conindépendante, cette structure de donnéesse rapproche des Term Graphs [60] et des jungles [39]. Elle permet de représenter une ou plusieurs expressions composéesde symboles d'opérationet de symboles de variable sous forme de multigraphe orienté 4 acyclique. Un sommet v possèdeune étiquettenotée labV (v) qui est soit un symbole d'opération, soit un symbole de variable. Chaque sommet v représente une expression, notée term(v), qui se définitrécursivement de la fa¸consuivante: ( labV (v) si v est étiquetéavec un symbole de variable term(v) = labV (v)(term(v1); :::; term(vn)) si v est étiquetéavec un symbole d'opération Dans le second cas, v1; :::; vn désignent les prédécesseursdirects de v ordonnésd'aprèsles étiquettes des arêtesles reliant respectivement à v. L'organisation sous forme de graphe a l'avantage par rapport àune organisation plus naturelle sous forme d'arbre, de permettre le partage des sous- expressions communes réduisant fortement les besoins en mémoireet les temps de traitement. La portion du programme àanalyser est vue comme une séquenced'instructions. Cette hypothèsesimplificatrice s'explique par le fait que les primitives symétriquescontiennent peu d'instructions conditionnelles et que celles-ci ne dépendent généralement pas des arguments d'entrée et de sortie. Par conséquent, le chemin d'exécutionne varie pas d'une exécutionàl'autre à l'intérieurdu code cryptographique qui peut donc êtreassimiléàune séquenced'instructions. Les DFGs sont construits par compositions successives. Chaque instruction de la séquenceà analyser est convertie vers un petit DFG. Ceux-ci sont ensuite composéspour obtenir le DFG final représentant la totalitéde la séquence. Ce mode de construction se révèleparticulièrement utile par la suite puisque mêmeune fois modifiésil sera toujours possible de composer les DFGs (technique utiliséelors de l'agrandissement de la fenêtred'analyse par exemple). Un effort particulier a étéapportéàla traduction des instructions vectorielles (couramment utiliséespar certaines implémentation cryptographique). L'utilisation de DFGs pour représenter le code machine permet de répondre àun certain nombre de besoins: réécritured'expressions tout en préservant une certaine notion de sémantique appelée similaritéobservable, comparaison d'expressions et recherche de sous-expressions àtravers la notion d'isomorphisme de graphes, slicing, et mêmevisualisation par un opérateurd'une partie du code. Cette représentation sera également utiliséepour l'identification des modes opératoires. 1.2 Normalisation Le but de la phase de normalisation est de supprimer au maximum les différencesqui peuvent exister entre plusieurs implémentations d'une mêmeprimitive afin de pouvoir détecteravec un petit nombre de signatures une grande variétéd'implémentations.

Load more