Story Understanding Through Semantic Analysis and Automatic Alignment of Text and Video
Total Page:16
File Type:pdf, Size:1020Kb
Story Understanding through Semantic Analysis and Automatic Alignment of Text and Video zur Erlangung des akademischen Grades eines Doktors der Ingenieurwissenschaften der KIT-Fakultät für Informatik des Karlsruher Instituts für Technologie (KIT) genehmigte Dissertation von Makarand Murari Tapaswi aus Goa, Indien Tag der mündlichen Prüfung: 16. Juni 2016 Hauptreferent: Prof. Dr.-Ing. Rainer Stiefelhagen Karlsruher Institut für Technologie Korreferent: Dr. Cordelia Schmid INRIA, Grenoble KIT – Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Abstract Stories are the pinnacle of human creativity, and yet a ubiquitous phenomenon. An important element of human communication consists of telling and listening, reading, and nowadays watching stories enacted on film. Among different means of story-telling, videos (TV series and movies) are a very powerful medium as they have the potential to engage multiple human senses. Artificial Intelligence (AI) has made large strides in the last decade, through which several advances have been achieved in both language and vision. However, these fields have been primarily studied separately, and only in the last few years do we see joint analysis rising to prominence. We argue that the ability to model, analyze, understand, and create new stories is a stepping stone for strong AI – a machine that could perform any intellectual task that a human can. Towards this grander goal of story understanding, we seek to build upon a wave of research in the joint study of vision and language. TV series and movies are perfect candidates for such a study, as they are videos produced for the specific purpose of story-telling. In this thesis, we define machine understanding of stories as the ability to perform human-like tasks upon those stories, such as indexing and searching for story events in large collections, summarizing the stories, and answering questions about them. We address the problem of story understanding from three vantage points. First, we introduce the use of novel sources of natural language text that allow to better learn the content of the videos. Next, we propose a visualization technique to obtain a big picture overview of the story conveyed in a video. Finally, we provide a means to examine machine understanding of stories by using question-answering as a surrogate task. iv Subtitles and transcripts have been an excellent source of low-level information for video understanding, however, they are inadequate to understand the story plot. We introduce the use of two diverse forms of natural language text that focus on the story: plot synopses and books. Plot synopses are concise descriptions of the story in the episodes or movies and are obtained easily through crowd sourcing. On the contrary, books, from which the videos are adapted, are large texts that describe the events (characters, scenes, and interactions) in rich detail. Unlike transcripts, the potential of these text sources needs to be unlocked by first aligning the text units with the video. We propose similarity metrics to bridge the gap between the text and video modalities. Using them, we align plot synopsis sentences with individual video shots, and book chapters with video scenes. To this end, we develop several alignment models that attempt to maximize joint similarity while respecting story progression constraints. We test these approaches on two sets of videos for both plots and books and obtain promising alignment performance. The alignment gives rise to applications such as describing video clips using plot sentences or book paragraphs, story-based video retrieval using plots as intermediaries, and even the ability to predict whether a scene from the video adaptation was present in the original book. Our second approach towards improving story understanding is through visualization. We automatically generate StoryGraphs – charts that depict character interactions in an episode and augment them with information about key events. The graph layout is treated as an optimization problem that trades off functionality with aesthetics. We conduct a user experiment and show that such graphs can aid humans in speeding up the search for story-events in a video. Our third important contribution is in the field of assessing machine understanding. Here, we create a large scale question-answering (QA) data set based on movie stories. The data set not only covers simple visual aspects such as “Who”, “What”, and “Where”, but also requires long-range temporal reasoning to answer “Why” and “How” questions. A unique aspect of our QA data set is that answering can be performed using text sources (e.g. plots, subtitles) or video clips. The data set is made available as part of a benchmark challenge. Further, we analyze data set bias, explore the quality of our multiple-choice questions, and propose several techniques for answering. In addition to the primary contributions, we also work on analyzing and creating better meta-data for the videos. In particular, we propose new techniques for scene boundary detection, and improve person identification in TV series. Kurzzusammenfassung Geschichten sind ein Höhepunkt menschlicher Kreativität und noch immer ein uni- verselles Phänomen. Ein wesentlicher Teil der menschlichen Kommunikation besteht aus dem Lesen, Erzählen und Anhören von Geschichten. Heutzutage geschieht dies meist in einer modernen Form, als Fernsehserien und -filme. Von den verschiedenen Möglichkeiten eine Geschichte zu erzählen, sind diese ein sehr leistungsfähiges Medium, da sie mehrere menschliche Sinne beteiligen können. Im letzten Jahrzehnt hat die Entwicklung der Künstlichen Intelligenz (KI) große Fortschritte gemacht, wodurch mehrere Entwicklungen in der Sprach- und Bildverarbeitung möglich wurden. Dennoch wurden diese Fachgebiete bisher hauptsächlich getrennt voneinander untersucht, erst in den letzten Jahren änderte sich dies. Wir betrachten die Fähigkeit, Geschichten zu analysieren, zu verstehen und neu zu erschaffen, als einen wichtigen Schritt auf dem Weg zur Entwicklung starker KI – das heißt einer Maschine, die jegliche in- tellektuelle Aufgabe wie ein Mensch lösen kann. Für die Analyse und das Verständnis von Geschichten wollen wir dabei auf den großen Fortschritten im Bereich der automatischen Sprach- und Bildanalyse aufbauen. In dieser Dissertation definieren wir Maschinelles Verständnis von Geschichten als die Fähigkeit einer Maschine, wie ein Mensch mit Geschichten umzugehen, das heißt zum Beispiel, die Fähigkeit bestimmte Handlungen und Ereignisse zu erkennen und wieder finden zu können, sowie die Fähigkeit Geschichten zusammen zu fassen und Fragen über die Geschichte beantworten zu können. Als Anwendungsbeispiele betrachten wir dabei Fernsehserien und Spielfilme. Wir betrachten das Problem des Verständnisses von Geschichten aus drei verschiedenen Blickwinkeln. Zuerst führen wir die Nutzung neuartiger Bezugsquellen von Video- vi Beschreibungen in natürlicher Sprache ein, welche uns ein besseres automatisches Ver- ständnis des Videoinhaltes ermöglichen. Dann schlagen wir eine Visualisierungstechnik vor, um einen Überblick der Geschichte zu bekommen. Abschließend stellen wir die automatische Beantwortung von Fragen zu Filmen als eine Methode vor, mit deren Hilfe das maschinelle Verständnis von Geschichten bewertet werden kann. Texte, wie z.B. Untertitel und Filmskripte, sind eine exzellente Quelle an ergänzenden Informationen um Videos zu verstehen. Wir stellen zwei unterschiedliche natürlich- sprachige Textquellen vor: Synopsen (plot synopses) und Bücher. Synopsen sind kurze Zusammenfassungen von Serien oder Filmen, sie sind für viele Filme und Serien erhältlich. Im Gegensatz dazu sind Bücher lange Texte, die Ereignisse (Charaktere, Szenen und Inter- aktionen) mit zahlreichen Details beschreiben. Um ihr Potenzial zur inhaltlichen Analyse der Videos zu entfalten, müssen die einzelnen Textabschnitte dieser Textquellen dabei zunächst den Szenen eines Videos zugeordnet werden. Wir erstellen Ähnlichkeitsfunktio- nen, um diese Lücke zwischen Text und Video schließen. Hiermit ordnen wir die Sätze der Synopsen den einzelnen Video-Einstellungen (shots), sowie einzelne Buchkapitel den Videoszenen, automatisch zu. Wir entwickeln hierzu verschiedene Alignment-Modelle, welche unsere Ähnlichkeitsfunktionen maximieren, dabei aber den Ablauf der Geschichte nicht außer Acht lassen. Wir testen diese Ansätze an zwei Datenquellen, sowohl für Synopsen als auch für Bücher und können dabei vielversprechende Ergebnisse für das Alignment erzielen. Dies ermöglicht eine Fülle von Anwendungen, wie die Beschreibung von Video-Clips durch Teile der Synopse oder dem Buch, das Auffinden von Ereignissen in Videos unter Nutzung der Synopse als Zwischenschritt und auch die Fähigkeit fest zu stellen, ob eine Szene einer Videoadaptierung im Buch vorhanden ist. Unser zweiter Ansatz zur Verbesserung des Verständnisses einer Geschichte erfolgt durch Visualisierung. Wir generieren so gennante StoryGraphs, Diagramme, welche die Interaktionen zwischen Personen in einer Folge darstellen und ergänzen diese mit Informationen zu wichtigen Ereignissen. Die Anordnung der Grafik wird dabei als ein Optimierungsproblem betrachtet, welches funktionale und ästhetische Aspekte abwägt. Wir führen eine Benutzerstudie durch und zeigen, dass derartige Grafiken dem Menschen dabei helfen, gesuchte Ereignisse im Video schneller zu finden. Unser dritter wichtiger Beitrag ist im Bereich der Bewertung von Maschinellem Ver-