Instantiation of a Textual Description Schema of Video Surveillance Scenes Wael Farid Youssef
Total Page:16
File Type:pdf, Size:1020Kb
Instantiation of a textual description schema of video surveillance scenes Wael Farid Youssef To cite this version: Wael Farid Youssef. Instantiation of a textual description schema of video surveillance scenes. Image Processing [eess.IV]. Université Paul Sabatier - Toulouse III, 2019. English. NNT : 2019TOU30249. tel-02965857 HAL Id: tel-02965857 https://tel.archives-ouvertes.fr/tel-02965857 Submitted on 13 Oct 2020 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THESIS For obtaining PHD from University of Toulouse Proposed by: University of Toulouse 3 Paul Sabatier (UT3 Paul Sabatier) Prepared and presented by: Wael F. Youssef Date… Title: Instantiation of a textual description schema of video surveillance scenes Specialty: ED MITT: Image, Information, Hypermedia Unity of research: IRIT Thesis supervisor(s): Philippe Joly Supervisor Prof., UT3 Paul Sabatier Siba Haidar Co-Supervisor Dr., Lebanese University Committee: Sergio Velastin Rapporteur Prof., University of Carlos III de Madrid Nicolas Henri Rapporteur Prof., University of Bordeaux Philippe Joly Supervisor Prof., UT3 Paul Sabatier Siba Haidar Co-Supervisor Dr., Lebanese University 1 | P a g e 3 | P a g e 4 | P a g e Abstract Surveillance systems are important tools for law enforcement agencies for fighting crimes. Surveillance control rooms have two main duties: live monitoring the surveillance areas, and crime solving by investigating the archives. To support these difficult tasks, several significant solutions from the research and market fields have been proposed. However, the lack of generic and precise models for video content representation make the building of fully automated intelligent video analysis and description system a challenging task. Furthermore, the application domain still shows a big gap between the research field and the real practical needs, it also shows a lack between these real needs and the on- market video analytics tools. Consequently, in conventional surveillance systems, live monitoring and investigating the archives still rely mostly on human operators. This thesis proposes a novel approach for textual describing important contents in videos surveillance scenes, based on new generic context-free "VSSD ontology", with focus on two objects interactions. The proposed ontology presents a new generic flexible and extensible ontology dedicated for video surveillance scenes description. While analysing and understanding variety of video scenes, our approach introduces many new concepts and methods concerning mediation and action at a distant, abstraction in the description, and a new manner of categorizing the scenes. It introduces a new heuristic way to discriminate between deformable and non-deformable objects in the scenes. It also highlights and exports important features for better video objects interactions learning classifications and for better description. These features, if used as key parameters in video analytics tools, are much suitable for supporting surveillance systems operators through generating alerts, and intelligent search. Moreover, our system outputs can support police incidents reports, according to investigators needs, with many types of automatic textual description based on new well- structured rule-based schemas or templates. Additionally, in this thesis, many important propositions were made, driven by practical experience, to reduce the existing gaps between the surveillance systems operators’ needs from one side, the research field and the commercial (industry) field from the other side. These propositions encounter the research field, and the practical one, especially at the level of future intelligence video analytics development and integration with other systems. Some of these propositions are innovative yet simple to be applied, which can bring great benefits and optimize the use for surveillance systems operators when live monitoring, investigating, and analysing the crimes. 5 | P a g e Résumé Les systèmes de vidéosurveillance sont des outils importants pour les agences chargées de l'application de la loi dans la lutte contre la criminalité. Les chambres de contrôle de la vidéosurveillance ont deux fonctions principales : surveiller en direct les zones de surveillance et résoudre les infractions en enquêtant les archives. Pour soutenir ces tâches difficiles, plusieurs solutions significatives issues des domaines de la recherche et du marché ont été proposées. Cependant, le manque de modèles génériques et précis pour la représentation du contenu vidéo fait de la construction d'un système intelligent et automatisé capable d’analyser et de décrire des vidéos une tâche ardue. De plus, le domaine d’application montre toujours un écart important entre le domaine de la recherche et les besoins réels, ainsi qu’un manque entre ces besoins réels et les outils d’analyse vidéo dans le marché. Par conséquence, jusqu'à présent dans les systèmes de surveillance conventionnels, la surveillance en direct et la recherche dans des archives reposent principalement sur des opérateurs humains. Cette thèse propose une nouvelle approche pour la description textuelle de contenus importants dans des scènes de vidéosurveillance, basée sur une nouvelle «ontologie VSSD» générique, sans contexte, centrée sur les interactions entre deux objets. L'ontologie proposée est générique, flexible et extensible, dédiée à la description de scènes de vidéosurveillance. Tout en analysant les différentes scènes vidéo, notre approche introduit de nombreux nouveaux concepts et méthodes concernant la médiation et l’action distante, la description synthétique, ainsi qu’une nouvelle façon de segmenter la vidéo et de classer les scènes. Nous introduisons une nouvelle méthode heuristique de distinction entre les objets déformables et non déformables dans les scènes. Nous proposons également des caractéristiques importantes pour une meilleure classification des interactions entre les objets vidéo, basée sur l’apprentissage, et une meilleure description. Ces caractéristiques, si elles sont utilisées comme paramètres clés dans les outils d’analyse vidéo, sont bien adaptées pour aider les opérateurs de systèmes de surveillance à travers des générations d’alertes, et une recherche intelligente. De plus, nos sorties système peuvent prendre en charge les rapports d'incidents de police, selon les besoins des enquêteurs, avec de nombreux types de descriptions textuelles automatiques basées sur de nouveaux schémas ou modèles, bien structurés et basés sur des règles. Enfin, dans cette thèse, de nombreuses propositions importantes ont été faites, s’appuyant sur l’expérience pratique, pour réduire les écarts existants entre les besoins des opérateurs de systèmes de surveillance d’un côté, le domaine de la recherche et le domaine commercial (de l’industrie) de l’autre côté. Ces propositions engagent le domaine de la recherche et le domaine pratique, en particulier au niveau du développement futur des produits intelligents d’analyse de vidéos et de l’intégration avec d’autres systèmes. Certaines de ces propositions sont novatrices mais simples à appliquer, ce qui peut apporter d’importants avantages et optimiser l’utilisation par les opérateurs de systèmes de surveillance lors du suivi en direct, de l’enquête et de l’analyse des crimes. 6 | P a g e Table of Contents Abstract ................................................................................................................................................... 5 Résumé ................................................................................................................................................... 6 Table of Contents .................................................................................................................................... 7 LIST OF TABLES ...................................................................................................................................... 10 LIST OF FIGURES .................................................................................................................................... 12 I. Introduction .................................................................................................................................. 17 I.1. State of the art ...................................................................................................................... 19 I.2. Goals and Challenges ............................................................................................................ 25 I.3. Thesis outline ........................................................................................................................ 27 II. Generic video surveillance description Ontology ......................................................................... 28 II.1. Introduction .......................................................................................................................... 28 II.2. Related Works ......................................................................................................................