Formalization of Neural Network Applications to Secure 3D Mobile Applications Paul Irolla
Total Page:16
File Type:pdf, Size:1020Kb
Formalization of Neural Network Applications to Secure 3D Mobile Applications Paul Irolla To cite this version: Paul Irolla. Formalization of Neural Network Applications to Secure 3D Mobile Applications. Quanti- tative Methods [q-bio.QM]. Université Paris Saclay (COmUE), 2018. English. NNT : 2018SACLS585. tel-02047792 HAL Id: tel-02047792 https://tel.archives-ouvertes.fr/tel-02047792 Submitted on 25 Feb 2019 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Formalization of neural 2018SACLS585 network to secure 3D NNT: mobile applications Thèse de doctorat de l’Université Paris-Saclay préparée à l’Université Paris-Sud École doctorale n± 568 Biosigne Spécialité de doctorat: innovation technologique Thèse présentée et soutenue a l’ESIEA Laval, le 19 décembre 2018, par Paul Irolla Composition du jury: Éric Filiol Directeur de recherche — Laboratoire CNS Directeur de thèse Jean-Philippe Deslys Directeur de recherche — Laboratoire CEA/DRF/iMETI/SEPIA Co-directeur de thèse Ludovic Apvrille Professeur — Laboratoire LabSoC (Telecom ParisTech) Rapporteur Antonella Santone Professeur — Università degli Studi del Molise Rapporteur Maroun Chamoun Professeur — Université Saint-Joseph (Beyrouth) Président Akka Zemmari Maître de conférences — Laboratoire LaBRI (CNRS) Examinateur Thèse de doctorat Thèse Titre: Formalisation et applications des réseaux de neurones à la sécurisation d’applications mobiles 3D. Mots clés: Détection de Malware Android, Vulnérabilité, Data Mining, Apprentissage Artificiel, Séquence Résumé: Ce travail de thèse fait partie du pro- l’environnement client et les communications avec le jet 3D NeuroSecure. C’est un Projet d’Investisse- serveur doivent être sécurisés. Cette thèse contribue ment d’Avenir (PIA) qui vise à développer une so- à l’état de l’art dans la domaines suivants: analyse lution collaborative pour l’innovation thérapeutique statique et dynamique d’applications Android; web en utilisant des technologies de traitement haute per- crawling d’applications ; sélection de caractéristique formance (HPC) appliquées au monde biomédical. pour l’apprentissage automatique; algorithme d’en- Cette solution permettra aux experts de différents trainement, d’initialisation et d’anti-saturation des domaines de naviguer intuitivement dans l’Imagerie réseaux de neurones; Algorithmes formels pour l’uti- Big Data avec accès via des terminaux légers 3D. lisation des séquences communes dans un groupe de La protection des données biomédicales contre les séquences afin de le caractériser; des prototypes opé- fuites de données est primordiale. En tant que tel, rationnels ont été conçus pour chaque innovation. Title: Formalization of neural network to secure 3D mobile applications. Keywords: Android Malware Detection, Vulnerability, Data Mining, Machine Learning, Sequence. Abstract: This thesis work is part of the 3D Neu- ment and communications with the server must be roSecure project. It is an investment project, that secured. This thesis contributes to the state of the aims to develop a secure collaborative solution for art in the following areas: Static and dynamic ana- therapeutic innovation using high performance pro- lysis of Android applications; application web craw- cessing (HPC) technology to the biomedical world. ling; Feature selection for Machine Learning; Neural This solution will give the opportunity for experts Network training, initialization and anti-saturation from different fields to navigate intuitively in the algorithm; Formal algorithms to use common se- Big Data imaging with access via 3D light terminals. quences in a sequence group for characterizing it; Biomedical data protection against data leaks is of Production-ready implementations have been desi- foremost importance. As such, the client environne- gned for each innovation. Université Paris-Saclay Espace Technologique / Immeuble Discovery Route de l’Orme aux Merisiers RD 128 / 91190 Saint-Aubin, France TABLEOF CONTENTS TABLEOF CONTENTS 5 LISTOF FIGURES 7 LISTOF TABLES 9 Ackowledgements 11 1 Introduction 13 1.1 3D NeuroSecure............................................... 13 1.2 Research directions............................................. 15 2 Preliminary studies & background in Android Security 21 2.1 Android malware characterization.................................... 22 2.2 Android and infection techniques.................................... 24 2.3 Malware applications in Google PlayStore............................... 30 2.4 Application vulnerabilities......................................... 34 3 Sample & Feature Collection 47 3.1 Sample Collection.............................................. 47 3.2 Static Analysis................................................ 54 3.3 Dynamic Analysis.............................................. 65 4 Neural Networks 83 4.1 Neural Network Theory.......................................... 83 4.2 Problematics of Neural Network Application.............................. 100 4.3 Deep Learning................................................ 115 5 Systematic Characterization of a Sequence Group 125 5.1 Motivations................................................. 126 5.2 Notation & Definitions........................................... 127 5.3 The Embedding Antichain......................................... 128 5.4 The Embedding Antichain Between Two Sequences Without Intra-Repetions.......... 129 5.5 The Embedding Antichain of n Sequences Without Intra-Repetition................ 132 5.6 The Embedding Antichain of Two Sequences.............................. 134 5.7 The Embedding Antichain of n Sequences............................... 137 5.8 Experimental Results............................................ 137 5.9 Conclusion.................................................. 143 6 Experimental Results 147 6.1 Feature Selection.............................................. 147 6.2 Malware Detection with Static and Dynamic Analysis......................... 156 6.3 Conclusion.................................................. 158 Appendix 163 5 LISTOF FIGURES 2.1 Value of personal information on the dark web............................ 23 2.2 (Godless) IDO Alarm Clock, analyzed with Glassbox .......................... 27 2.3 (Godless) Drive-by download attack................................... 28 2.4 (Godless) MoboWIFI app, connected to Glassbox access point................... 29 2.5 Social engineering exploit......................................... 30 2.6 Google PlayStore download protocol.................................. 31 2.7 Cygea crawler architecture........................................ 32 2.8 Facebook user information collection.................................. 36 2.9 Yandex wifi collection........................................... 38 2.10 Interception of an encrypted message.................................. 40 2.11 Abitrary execution of shell commands received from JPMorgan servers.............. 40 2.12 Canara Bank : vulnerable server..................................... 42 2.13 Debug mode enabled in production application............................ 42 3.1 Distribution of application sequence sets (size > 1).......................... 50 3.2 Inaccuracy (%) with and without the duplicates............................ 53 3.3 DEX file format............................................... 55 3.4 How an implicit intent is delivered through the system to start another activity : (1) Activity A creates an Intent with an action description and passes it to startActivity(). (2) The Android System searches all apps for an intent filter that matches the intent. When a match is found, (3) the system starts the matching activity (Activity B) by invoking its onCreate() method and passing it the Intent............................................. 56 3.5 Top 20 permissions............................................. 58 3.6 Top 20 intents................................................ 59 3.7 Egide Control Flow Graph......................................... 62 3.8 Surgical extraction of features in memory................................ 64 3.9 Application pre-execution DVM vs ART ................................. 65 3.10 Glassbox — Architecture overview..................................... 71 3.11 Android architecture overview....................................... 72 4.1 Google Deep Dream............................................ 85 4.2 Manuscript text generation by neural network (Fujitsu — Loïc Behesti from ESIEA)....... 85 4.3 Finding three clusters in gaussian noise input data.......................... 87 4.4 Variety of neurons.............................................. 87 4.5 A close view on a layer of neurons.................................... 88 4.6 Organization of neuron layers....................................... 88 4.7 Neuron internal structure......................................... 88 4.8 Ions movement around the neuron membrane............................ 89 4.9 Potential for action............................................. 89 4.10 Transmission of the potential for action................................. 89 4.11