A Storytelling Machine? Xavier Bost
Total Page:16
File Type:pdf, Size:1020Kb
A storytelling machine? Xavier Bost To cite this version: Xavier Bost. A storytelling machine?: Automatic video summarization: the case of TV series. Computer Science [cs]. Université d’Avignon et des Pays de Vaucluse, 2016. English. tel-01402549 HAL Id: tel-01402549 https://hal.archives-ouvertes.fr/tel-01402549 Submitted on 24 Nov 2016 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. ACADÉMIE D’AIX-MARSEILLE UNIVERSITÉ D’AVIGNON ET DES PAYS DE VAUCLUSE THÈSE présentée à l’Université d’Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT SPÉCIALITÉ : Informatique École Doctorale 536 «Sciences et Agrosciences» Laboratoire Informatique d’Avignon (EA 4128) A storytelling machine? Automatic video summarization: the case of TV series par Xavier BOST Soutenue publiquement le 23 novembre 2016 devant un jury composé de : M. Guillaume GRAVIER Directeur de Recherche, IRISA, Rennes Rapporteur (Président) M. Éric GAUSSIER Professeur, LIG, Grenoble Rapporteur Mme Martha LARSON Senior Researcher, MMC, Delft, Pays-Bas Examinateur M. Hervé BREDIN Chargé de Recherche, LIMSI, Orsay Examinateur M. Vincent LABATUT Maître de Conférences, LIA, Avignon Examinateur M. Georges LINARÈS Professeur, LIA, Avignon Directeur de thèse M. Damien MALINAS Maître de Conférences, CNE, Avignon Encadrant M. Serigne GUEYE Maître de Conférences, LIA, Avignon Encadrant Laboratoire Informatique d’Avignon ii Contents Remerciements vii Personal Bibliography xi Résumé xiv Abstract xv 1 Introduction1 1.1 The “serial paradox”..............................3 1.2 The cold-start phenomenon..........................6 1.3 Automatic summaries for viewer’s re-engagement.............9 1.4 Corpus...................................... 10 1.5 Organization of the document......................... 12 2 Related works 15 2.1 Highlighting summaries based on saliency................. 16 2.1.1 Features for saliency.......................... 16 2.1.2 Use-cases and evaluation....................... 19 2.1.3 Discussion................................ 20 2.2 Synopses based on content coverage..................... 20 2.2.1 Features for content modeling.................... 21 2.2.2 Use-cases and evaluation....................... 23 2.2.3 Discussion................................ 24 2.3 Summary..................................... 25 3 Video segmentation, Feature extraction 27 3.1 Introduction................................... 28 3.2 From video frames to scenes.......................... 28 3.2.1 Shot cut detection............................ 29 3.2.2 Detection of recurring shots...................... 31 3.2.3 Dialogue shot patterns......................... 32 3.2.4 Logical Story Units........................... 35 3.2.5 Scenes.................................. 38 3.2.6 Summary................................ 41 iii Contents 3.3 Shot size..................................... 41 3.4 Background music............................... 42 3.5 Speaker diarization............................... 44 3.5.1 Introduction............................... 44 3.5.2 Acoustic features for local speaker diarization........... 46 3.5.3 Local speaker diarization (1) : mono-modal............. 47 3.5.4 Local speaker diarization (2) : multi-modal alternative...... 48 3.5.5 Constrained global clustering..................... 52 3.5.6 Experiments and results........................ 54 3.5.7 Speaker diarization: conclusion.................... 58 3.6 Conclusion.................................... 59 4 Plot modeling: conversational network of characters 61 4.1 Introduction................................... 62 4.2 Previous works................................. 63 4.2.1 Complete aggregation......................... 63 4.2.2 Time-slices................................ 65 4.3 From speaker diarization to verbal interactions............... 67 4.3.1 Scene co-occurrence.......................... 68 4.3.2 Sequential estimate of verbal interactions.............. 70 4.4 Dynamic conversational network for plot modeling............ 72 4.4.1 Narrative smoothing.......................... 72 4.4.2 Narrative smoothing illustrated................... 75 4.5 Experiments and results............................ 76 4.5.1 Corpus subset.............................. 76 4.5.2 Conversational interactions...................... 77 4.5.3 Narrative smoothing.......................... 82 4.6 Conclusion.................................... 87 5 Character-oriented automatic summaries 89 5.1 Introduction................................... 90 5.2 Previous works................................. 91 5.3 Modeling characters’ storylines........................ 92 5.3.1 Narrative episode............................ 92 5.3.2 Optimal partitioning.......................... 94 5.3.3 Social relevance............................. 98 5.4 Summarization algorithm........................... 98 5.4.1 Relevance weighting scheme..................... 98 5.4.2 Summarization problem........................ 99 5.4.3 Heuristic solution............................ 100 5.5 Experiments and results............................ 102 5.5.1 User study................................ 102 5.5.2 Summaries for evaluation....................... 104 5.5.3 Evaluation protocol........................... 107 5.5.4 Results.................................. 108 5.6 Conclusion.................................... 112 iv Contents 6 Conclusion and perspectives 115 6.1 Conclusion.................................... 116 6.2 Perspectives................................... 117 6.2.1 Subtasks................................. 117 6.2.2 Plot modeling.............................. 117 6.2.3 Summaries................................ 118 A User study 121 B Cumulative networks 159 B.1 Breaking Bad................................... 159 B.2 Game of Thrones................................ 160 B.3 House of Cards................................. 161 C Characters’ social storylines 163 List of Figures 167 List of Tables 171 Bibliography 173 v Contents vi Remerciements Je tiens tout d’abord à remercier l’ensemble des membres de mon jury de thèse, et en particulier les rapporteurs, pour leurs remarques détaillées et constructives. Mes remerciements vont ensuite à mon équipe d’encadrement : Georges en premier lieu, qui m’a proposé un problème de recherche original et ouvert, en adéquation avec mon profil pluridisciplinaire, et qui a su trouver la bonne distance pour m’accompagner pendant ces trois années ; Serigne ensuite, pour sa disponibilité sans faille ; et Damien, pour la nécessaire ouverture aux importantes questions soulevées par la sociologie des publics de la culture. Un remerciement tout particulier enfin à Vincent, qui a rejoint l’aventure en route, et a su apporter à ce travail son expertise en réseaux complexes. Je remercie également Martha, et toute l’équipe du Multimedia Computing Group de l’Université Technologique de Delft, qui m’ont réservé un accueil chaleureux et béné- fique lors de mon séjour de recherche aux Pays-Bas. Une pensée particulière également pour ceux qui m’ont accompagné lors de mes premiers contacts avec la recherche scientifique : Marc El-Bèze et Renato de Mori, qui m’ont beaucoup appris lors de mon stage de Master ; Fabrice Lefèvre, auprès duquel j’ai pris un tout premier contact avec des questions scientifiques ouvertes dans le cadre de mon projet de Master. Je remercie également Laura, Mathilde et Danny, les trois étudiants du Master Publics de la culture et communication qui ont pris une part active à l’élaboration et à la diffusion du questionnaire sur lequel repose l’essentiel de l’apport expérimental de ce travail. D’un point de vue plus institutionnel, mes remerciements vont à la Fédération de Recherche Agorantic de l’Université d’Avignon, qui a financé ce travail, et au Laboratoire Informatique d’Avignon, pour m’avoir offert des conditions de travail très favorables, notamment grâce à l’efficacité de son équipe administrative. Une pensée enfin pour ma famille, qui a su m’accompagner avec bienveillance dans cette aventure qu’a été ma reprise d’études dans un domaine très éloigné de ma forma- tion initiale : d’abord entreprise par curiosité intellectuelle, cette seconde formation a pris en Doctorat une véritable consistance professionnelle, propre à m’ouvrir de nou- velles et stimulantes perspectives. vii Contents viii Personal Bibliography International Journals • Remembering Winter Was Coming: Character-oriented Video Summaries of TV Series Bost Xavier, Gueye Serigne, Labatut Vincent, Larson Martha, Linarès Georges, Malinas Damien, Roth Raphaël IEEE Transactions on Multimedia – [Being submitted] 2016 • Multiple topic identification in human/human conversations Bost Xavier, Senay Grégory, El-Bèze Marc, De Mori Renato Computer, Speech and Language 2015 International Conferences / Workshops • Narrative Smoothing: Dynamic Conversational Network for the Analysis of TV Series Plots Bost Xavier, Labatut Vincent, Gueye Serigne, Linarès Georges International Workshop on Dynamics in Networks DyNo 2016, in conjunction with the 2016 IEEE/ACM International Conference ASONAM August 18–21, 2016, San