Context-Aware Credit Card Fraud Detection Johannes Jurgovsky
Total Page:16
File Type:pdf, Size:1020Kb
Context-aware credit card fraud detection Johannes Jurgovsky To cite this version: Johannes Jurgovsky. Context-aware credit card fraud detection. Cryptography and Security [cs.CR]. Université de Lyon; Universität Passau (Deutscheland), 2019. English. NNT : 2019LYSEI109. tel- 02902117 HAL Id: tel-02902117 https://tel.archives-ouvertes.fr/tel-02902117 Submitted on 17 Jul 2020 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. N°d’ordre NNT : 2019LYSEI109 THESE de DOCTORAT DE L’UNIVERSITE DE LYON opérée au sein de INSA de Lyon En cotutelle internationale avec Universität Passau (Faculty of Computer Science and Mathematics) Ecole Doctorale N. 512 InfoMaths Spécialité / discipline de doctorat : Informatique Soutenue publiquement 03/12/2019, par: Johannes JURGOVSKY Context-Aware Credit Card Fraud Detection Devant le jury composé de : Bontempi, Gianluca Professor, Université Libre de Bruxelles Rapporteur Amft, Oliver Professor, Universität Erlangen-Nürnberg Rapporteur Gianini, Gabriele Professor, Università degli Studi di Milano Examinateur Soule-Dupuy, Chantal Professor, Université Toulouse 1 Capitole Examinatrice Kosch, Harald Professor, Universität Passau Examinateur Calabretto, Sylvie Professor, INSA de Lyon Co-directrice de thèse Granitzer, Michael Professor, Universität Passau Co-directeur de thèse Portier, Pierre-Edouard Maître de conférences, INSA de Lyon Encadrant de thèse Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2019LYSEI109/these.pdf © [J. Jurgovsky], [2019], INSA Lyon, tous droits réservés Département FEDORA – INSA Lyon - Ecoles Doctorales – Quinquennal 2016-2020 SIGLE ECOLE DOCTORALE NOM ET COORDONNEES DU RESPONSABLE CHIMIE CHIMIE DE LYON M. Stéphane DANIELE Institut de recherches sur la catalyse et l’environnement de Lyon http://www.edchimie-lyon.fr IRCELYON-UMR 5256 Sec. : Renée EL MELHEM Équipe CDFA Bât. Blaise PASCAL, 3e étage 2 Avenue Albert EINSTEIN [email protected] 69 626 Villeurbanne CEDEX INSA : R. GOURDON [email protected] E.E.A. ÉLECTRONIQUE, M. Gérard SCORLETTI ÉLECTROTECHNIQUE, École Centrale de Lyon AUTOMATIQUE 36 Avenue Guy DE COLLONGUE 69 134 Écully http://edeea.ec-lyon.fr Tél : 04.72.18.60.97 Fax 04.78.43.37.17 Sec. : M.C. HAVGOUDOUKIAN [email protected] [email protected] E2M2 ÉVOLUTION, ÉCOSYSTÈME, M. Philippe NORMAND MICROBIOLOGIE, MODÉLISATION UMR 5557 Lab. d’Ecologie Microbienne Université Claude Bernard Lyon 1 http://e2m2.universite-lyon.fr Bâtiment Mendel Sec. : Sylvie ROBERJOT 43, boulevard du 11 Novembre 1918 Bât. Atrium, UCB Lyon 1 69 622 Villeurbanne CEDEX Tél : 04.72.44.83.62 [email protected] INSA : H. CHARLES [email protected] EDISS INTERDISCIPLINAIRE Mme Emmanuelle CANET-SOULAS SCIENCES-SANTÉ INSERM U1060, CarMeN lab, Univ. Lyon 1 Bâtiment IMBL http://www.ediss-lyon.fr 11 Avenue Jean CAPELLE INSA de Lyon Sec. : Sylvie ROBERJOT 69 621 Villeurbanne Bât. Atrium, UCB Lyon 1 Tél : 04.72.68.49.09 Fax : 04.72.68.49.16 Tél : 04.72.44.83.62 [email protected] INSA : M. LAGARDE [email protected] INFOMATHS INFORMATIQUE ET M. Luca ZAMBONI MATHÉMATIQUES Bât. Braconnier 43 Boulevard du 11 novembre 1918 http://edinfomaths.universite-lyon.fr 69 622 Villeurbanne CEDEX Sec. : Renée EL MELHEM Tél : 04.26.23.45.52 Bât. Blaise PASCAL, 3e étage [email protected] Tél : 04.72.43.80.46 [email protected] MATÉRIAUX DE LYON M. Jean-Yves BUFFIÈRE Matériaux INSA de Lyon http://ed34.universite-lyon.fr MATEIS - Bât. Saint-Exupéry Sec. : Stéphanie CAUVIN 7 Avenue Jean CAPELLE Tél : 04.72.43.71.70 69 621 Villeurbanne CEDEX Bât. Direction Tél : 04.72.43.71.70 Fax : 04.72.43.85.28 [email protected] [email protected] MEGA MÉCANIQUE, ÉNERGÉTIQUE, M. Jocelyn BONJOUR GÉNIE CIVIL, ACOUSTIQUE INSA de Lyon Laboratoire CETHIL http://edmega.universite-lyon.fr Bâtiment Sadi-Carnot Sec. : Stéphanie CAUVIN 9, rue de la Physique Tél : 04.72.43.71.70 69 621 Villeurbanne CEDEX Bât. Direction [email protected] [email protected] ScSo ScSo* M. Christian MONTES Université Lyon 2 http://ed483.univ-lyon2.fr 86 Rue Pasteur Sec. : Véronique GUICHARD 69 365 Lyon CEDEX 07 INSA : J.Y. TOUSSAINT [email protected] Tél : 04.78.69.72.76 [email protected] *ScSo : Histoire, Géographie, Aménagement, Urbanisme, Archéologie, Science politique, Sociologie, Anthropologie Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2019LYSEI109/these.pdf © [J. Jurgovsky], [2019], INSA Lyon, tous droits réservés Context-Aware Credit Card Fraud Detection Dissertation in ”Cotutelle” mit Institut National des Sciences Appliqu´eesde Lyon eingereicht an der Fakult¨atf¨urInformatik und Mathematik Universit¨atPassau Johannes Jurgovsky September, 2019 Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2019LYSEI109/these.pdf © [J. Jurgovsky], [2019], INSA Lyon, tous droits réservés Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2019LYSEI109/these.pdf © [J. Jurgovsky], [2019], INSA Lyon, tous droits réservés To my nephew Leonhard. Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2019LYSEI109/these.pdf © [J. Jurgovsky], [2019], INSA Lyon, tous droits réservés Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2019LYSEI109/these.pdf © [J. Jurgovsky], [2019], INSA Lyon, tous droits réservés Abstract Credit card fraud has emerged as major problem in the electronic payment sector. In this thesis, we study data-driven fraud detection and address several of its intricate challenges by means of machine learning methods with the goal to identify fraudulent transactions that have been issued illegitimately on behalf of the rightful card owner. In particular, we explore several means to leverage contextual information beyond a transaction’s basic attributes on the transaction level, sequence level and user level. On the transaction level, we aim to identify fraudulent transactions which, in terms of their attribute values, are globally distinguishable from genuine transactions. We provide an empirical study of the influence of class imbalance and forecasting horizons on the classification performance of a random forest classifier. We augment transactions with additional features extracted from external knowledge sources and show that external information about countries and calendar events improves classification performance most noticeably on card-not-present transaction. On the sequence level, we aim to detect frauds that are inconspicuous in the back- ground of all transactions but peculiar with respect to the short-term sequence they appear in. We use a Long Short-term Memory network (LSTM) for modeling the se- quential succession of transactions. Our results suggest that LSTM-based modeling is a promising strategy for characterizing sequences of card-present transactions but it is not adequate for card-not-present transactions. On the user level, we elaborate on feature aggregations and propose a flexible concept allowing us define numerous features by means of a simple syntax. We provide a CUDA- based implementation for the computationally expensive extraction with a speed-up of two orders of magnitude. Our feature selection study reveals that aggregates extracted from users’ transaction sequences are more useful than those extracted from merchant sequences. Moreover, we discover multiple sets of candidate features with equivalent performance as manually engineered aggregates while being vastly different in terms of their structure. Regarding future work, we motivate the usage of simple and transparent machine learning methods for credit card fraud detection and we sketch a simple user-focused modeling approach. Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2019LYSEI109/these.pdf © [J. Jurgovsky], [2019], INSA Lyon, tous droits réservés Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2019LYSEI109/these.pdf © [J. Jurgovsky], [2019], INSA Lyon, tous droits réservés R´esum´e La fraude par carte de cr´editest devenue un probl`ememajeur dans le secteur des paiements ´electroniques.Dans cette th`ese, nous ´etudionsla d´etectionde fraude bas´eesur les donn´eestransactionnelles et abordons plusieurs de ces d´efiscomplexes en utilisant des m´ethodes d’apprentissage automatique visant `aidentifier les transactions frauduleuses qui ont ´et´e´emisesill´egitimement au nom du titulaire l´egitimede la carte. En particulier, nous explorons plusieurs moyens d’exploiter les informations contextuelles au-del`ades attributs de base d’une transaction, notamment au niveau de la transaction, au niveau de la s´equenceet au niveau de l’utilisateur. Au niveau des transactions, nous cherchons `aidentifier les transactions frauduleuses qui pr´esentent des caract´eristiquesdistinctes des transactions authentiques. Nous avons men´eune ´etudeempirique de l’influence du d´es´equilibredes classes et des horizons de