Facial Micro-Expression Analysis Jingting Li
Total Page:16
File Type:pdf, Size:1020Kb
Facial Micro-Expression Analysis Jingting Li To cite this version: Jingting Li. Facial Micro-Expression Analysis. Computer Vision and Pattern Recognition [cs.CV]. CentraleSupélec, 2019. English. NNT : 2019CSUP0007. tel-02877766 HAL Id: tel-02877766 https://tel.archives-ouvertes.fr/tel-02877766 Submitted on 22 Jun 2020 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THESE DE DOCTORAT DE CENTRALESUPELEC COMUE UNIVERSITE BRETAGNE LOIRE ECOLE DOCTORALE N° 601 Mathématiques et Sciences et Technologies de l'Information et de la Communication Spécialité : Signal, Image, Vision Par « Jingting LI » « Facial Micro-Expression Analysis » Thèse présentée et soutenue à « Rennes », le « 02/12/2019 » Unité de recherche : IETR Thèse N° : 2019CSUP0007 Rapporteurs avant soutenance : Composition du Jury : Olivier ALATA Professeur, Université Jean Monnet, Président / Rapporteur Saint-Etienne Olivier ALATA Professeur, Fan YANG-SONG Professeur, Université de Bourgogne, Université Jean Monnet, Dijon Saint-Etienne Rapporteuse Fan YANG-SONG Professeur, Université de Bourgogne, Dijon Examinateurs Catherine SOLADIE Maître de Conférence, CentraleSupélec, Rennes Pascal BOURDON Maître de Conférence, Université de Poitiers, Poitiers Wassim HAMIDOUCHE Maître de Conférence, INSA de Rennes, Rennes Directeur de thèse Renaud SEGUIER Professeur HDR, CentraleSupélec, Rennes Titre : L’Analyse de Micro-Expression Faciale Mots clés : Micro-expression, Détection, Motif temporel et local, Augmentation des données, Modèle d’Hammerstein Résumé : Les micro-expressions (MEs) sont En approximant chaque S-pattern par un HM, nous porteuses d'informations non verbales spécifiques. pouvons filtrer les S-patterns réels et générer de Cependant, en raison de leur nature locale et brève, il nouveaux S-patterns similaires. Ainsi, nous effectuons est difficile de les détecter. Dans cette thèse, nous une augmentation et une fiabilisation des S-patterns proposons une méthode de détection par pour l'apprentissage et améliorons ainsi la capacité reconnaissance d'un motif local et temporel de de différencier les MEs d'autres mouvements. mouvement du visage. Ce motif a une forme Lors du premier challenge de détection de MEs, nous spécifique (S-pattern) lorsque la ME apparait. Ainsi, à avons participé à la création d’une nouvelle méthode l'aide de SVM, nous distinguons les MEs des autres d'évaluation des résultats. Cela a aussi été l’occasion mouvements faciaux. Nous proposons également une d’appliquer notre méthode à longues vidéos. Nous fusion spatiale et temporelle afin d'améliorer la avons fourni le résultat de base au challenge. distinction entre les MEs (locaux) et les mouvements Les expérimentions sont effectuées sur CASME I, de la tête (globaux). CASME II, SAMM et CAS(ME)2. Les résultats Cependant, l'apprentissage des S-patterns est limité montrent que notre méthode proposée surpasse la par le petit nombre de bases de données de ME et méthode la plus populaire en termes de F1-score. par le faible volume d'échantillons de ME. Les L'ajout du processus de fusion et de l'augmentation modèles de Hammerstein (HM) est une bonne des données améliore encore les performances de approximation des mouvements musculaires. détection. Title : Facial Micro-expression Analysis Keywords: Micro-expression, Spotting, Local temporal pattern, Data augmentation, Hammerstein model Abstract: The Micro-expressions (MEs) are very By approximating each S-pattern with a HM, we can important nonverbal communication clues. However, both filter outliers and generate new similar S- due to their local and short nature, spotting them is patterns. By this way, we perform a data challenging. In this thesis, we address this problem by augmentation for S-pattern training dataset and using a dedicated local and temporal pattern (LTP) of improve the ability to differentiate MEs from other facial movement. This pattern has a specific shape facial movements. (S-pattern) when ME are displayed. Thus, by using a In the first ME spotting challenge of MEGC2019, we classical classification algorithm (SVM), MEs are took part in the building of the new result evaluation distinguished from other facial movements. We also method. In addition, we applied our method to propose a global final fusion analysis on the whole spotting ME in long videos and provided the baseline face to improve the distinction between ME (local) result for the challenge. and head (global) movements. The spotting results, performed on CASME I and However, the learning of S-patterns is limited by the CASME II, SAMM and CAS(ME)2, show that our small number of ME databases and the low volume of proposed LTP outperforms the most popular spotting ME samples. Hammerstein models (HMs) are known method in terms of F1-score. Adding the fusion to be a good approximation of muscle movements. process and data augmentation improve even more the spotting performance. Acknowledgement There are many people that have earned my gratitude for their contribution to my PhD study. Firstly, I would like to express my sincere gratitude to my advisors Prof. Renaud Séguier and Dr. Catherine Soladié for the continuous support of my PhD study and re- lated research, for their patience, motivation, and immense knowledge. The guidance of Dr. Catherine Soladié helped me in all the time of research and writing of this thesis. She is the best! Besides my advisors, I would like to thank the rest of my thesis committee: Prof. Olivier Alata , Prof. Fan Yang-Song, Dr. Pascal Bourdon, and Dr. Wassim Hamidouche for their great support and invaluable advice, which encourages me to widen my research from various perspectives. I would also like to thank my lab mates that include Siwei Wang, Sarra Zaied, Sen Yan, Nam Duong Duong, Dai Xiang, Amanda Abreu, Raphael Weber, Salah Eddine Kab- bour, Corentin Guezenoc, Adrien Llave, Eloïse Berson, and Lara Younes for making my experience in our small but lovely campus exciting and fun in the last three years. I am also grateful to the following university staffs: Karine Bernard, Bernard Jouga, Cecile Dubois; Catherine Piednoir and Grégory Cadeau for their unfailing support and assistance. Thanks are also due to the China Scholar Council (CSC) and ANR Reflet for their finan- cial support that I otherwise would not have been able to develop my scientific discoveries. Last but not least, I would like to express my deepest gratitude to my big and warm family: my grandparents, my parents, my sister, and my baby nieces, also to my dear friends: Chunmei Xie and Yi Hui. This dissertation would not have been possible without 1 their warm love, continued patience, and endless support. 2 Résumé Français Chapitre 1: Introduction L’expression faciale est l’un des indicateurs externes les plus importants pour connaître l’émotion et le statut psychologique d’une personne [12]. Parmi les expressions faciales, les micro-expressions (MEs) [28] sont des expressions locales et brèves qui apparaissent involontairement, notamment dans le cas de forte pression émotionnelle. Leurs durées varient de 1/25 à 1/5 de seconde [28]. Leur caractère involontaire permet souvent d’affirmer qu’elles représentent des émotions véritables d’une personne [28]. La détection de MEs a des applications nombreuses notamment dans le domaine de la sécurité nationale [26], des soins médicaux [30], des études sur la psychologie politique [108] et la psychologie de l’éducation [17]. L’existence de MEs a d’abord été découverte par Haggard et Isaacs en 1966 [39] puis Ekman et Friesen [28] l’ont nommée en 1969. Plusieurs années plus tard, ils ont développé un outil pour former les personnes à la détection de micro-expressions (METT) [25]. Pour- tant, le taux de reconnaissance global pour les 6 émotions de base à l’œil nu est inférieur à 50%, même par un expert formé [31]. Pour coder les MEs, le système de codage d’actions faciales (FACS) [27] est souvent utilisé. Il a été créé pour analyser la relation entre la déformation du muscle facial et l’expression émotionnelle. Les unités d’action (AUs) sont les composantes faciales du FACS, qui représentent le mouvement musculaire local. L’étiquette de l’AU sur le visage permet d’identifier la ou les régions où la ME se produit. En conséquence, le système FACS peut aider à annoter l’apparence et la dynamique d’une ME dans une vidéo. Depuis les années 2000, la recherche sur la détection et la reconnaissance automatique 3 de micro-expressions (micro-expression spotting and recognition, MESR) s’est dévelop- pée. La figure 0-1 indique l’évolution du nombre d’articles de recherche MESR. Le nom- bre des articles reste faible et les résultats ne sont pas encore très satisfaisants du fait de la nature même des MEs (micro) ainsi que du nombre limité de bases de données (BDDs) publiques de MEs. Cependant, il y a eu de plus en plus d’études émergentes ces dernières années. Nous pouvons remarquer qu’il y a beaucoup plus de papiers qui concernant la reconnaissance de ME que la détection. Le taux de reconnaissance commence à être satis- fisant, par exemple 86.35% de précision pour 5 classes dans [20]. En revanche, les résultats de la détection de ME sont loin d’être bons, certainement à cause de la nature de ME et également du nombre limité de bases de données publiques de ME. En effet, la plupart Figure 0-1: Tendance de la recherche MESR. Le nombre d’articles sur MESR augmente d’année en année, principalement dans le domaine de la reconnaissance de l’ME (colonne du bas).