Efficient Rate Control Strategies for Scalable Video Coding
Total Page:16
File Type:pdf, Size:1020Kb
Efficient rate control strategies for scalable video coding Thibaud Biatek To cite this version: Thibaud Biatek. Efficient rate control strategies for scalable video coding. Signal and Image process- ing. INSA de Rennes, 2016. English. NNT : 2016ISAR0007. tel-01392735 HAL Id: tel-01392735 https://tel.archives-ouvertes.fr/tel-01392735 Submitted on 4 Nov 2016 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THESE INSA Rennes présentée par sous le sceau de l’Université Bretagne Loire pour obtenir le titre de Thibaud Biatek DOCTEUR DE L’INSA RENNES ECOLE DOCTORALE : MATISSE Spécialité : Traitement du Signal et des Images LABORATOIRE : IETR Thèse soutenue le 25.04.2016 Efficient Rate Control devant le jury composé de : Strategies for Scalable Christine Guillemot Directrice de Recherche à l’INRIA de Rennes (France) / Présidente Video Coding Marco Cagnazzo Maitre de Conférences HDR à Telecom-ParisTech (France) / Rapporteur Mathias Wien Chercheur à l’Université de Aachen (Allemagne) / Rapporteur Frédéric Dufaux Directeur de Recherche au CNRS LTCI, Paris (France) / Examinateur Patrick Le Callet Professeur à Polytech Nantes (France) / Examinateur Wassim Hamidouche Maitre de Conférences à l’INSA de Rennes (France) / Co-encadrant Jean-François Travers Expert Technique Systèmes Audiovisuels à TDF (France) / Co-encadrant Olivier Déforges Professeur à l’INSA de Rennes (France) / Directeur de thèse Stratégies d’Encodage pour Codeur Vidéo Scalable - Efficient Rate Control Strategies for Scalable Video Coding Thibaud Biatek En partenariat avec Document protégé par les droits d’auteur Acknowledgements First of all, I would like to thank one of my PhD supervisors Wassim Hamidouche. He has always been deeply involved, curious and critical about my work. He has always challenged me and helped me to be me more accurrate, meticulous, and ambitious with my research. I feel lucky to have been supervised by Wassim and I am convinced that I could not have achieved all this work without his valuable advice. I would also like to thank Jean-François Travers, my PhD supervisor at TDF. He was extensively helpful in bringing out the industrial relevance of my ideas and encouraged me to experiment my algorithms on pertinent use-cases, compliant with realistic broadcasting requirements. Our pleasant and interesting discussions at TDF were a rewarding experience, and I hope that our paths will cross again in the future. I also feel grateful to Mickael Raulet, who was my first contact in Rennes, and one of my supervisors during the first part of the thesis. His valuable advice helped me to publish and patent my first research results. Last but not least, this work is indebted to Olivier Déforges, my PhD surpervisor at the IETR. He has always been present to support and helped me in academic paper presentations. When I contemplate the progress made, I measure how my supervisors helped to be a better and more rigourous scientist today. I also feel grateful for all my TDF co-workers, especially Imad Alawe, Frederic Beauchamp, Philippe Courboulay, Pape-Abdoulaye Fam and Amelie Kerbellec for their support. I also would like to thank my jury: Marco Cagnazzo, Mathias Wien, Frédéric Dufaux, Christine Guillemot and Patrick Le Callet for accepting to evaluate my work. Their construc- tive feedback helped me improve the manuscript but also to point out new perspectives. During over two years, I worked within the Institute of Research and Technology b<>com, I do wish to thank all my co-workers, particularly Cambodge Bist, Pierre Castel, Franck Chi, Nicolas Dhollande, Antonin Gilles, Victorien Lorcy, Charlène Mouton, David Pesce, Adrien Schadle and Fabrice Templon for all the time spent and for the discussions we had together wether it was in or outside work. I would also like to thank Jean-Yves Aubie, Daniele Cloatre and Xavier Ducloux for their interest in my research. All these people definitely made Bcom a really inspiring and stimulating place towork. Finally, I would like to thank my parents Laurent and Marie-Pierre, my siblings Aurélien and Juliette and my fiancée Félicie for their invaluable support during these three years. Résumé en français Introduction High Efficiency Video Coding, ou HEVC/H.265, est la dernière norme de compression vidéo dont la première version a été publiée en avril 2013. Cette nouvelle norme est le fruit d’un travail collaboratif mené par des experts de l’ITU et de l’ISO/IEC respectivement représenté par les groupes VCEG (Video Coding Experts Group) et MPEG (Moving Pictures Experts Group), formant ainsi JCT-VC (Joint Collaborative Team on Video Coding). L’objectif de HEVC est de remplacer le très populaire Advanced Video Coding (AVC/H.264) dont l’utilisation est très largement répandue, en permettant de réduire son débit de codage de 50% pour une qualité visuelle équivalente. Comme son prédécesseur AVC l’a permis pour l’introduction de la Haute-Définition (HD), le déploiement d’HEVC permettra l’introduction de nouveaux services plus couteux en débit tel que l’Ultra-Haute-Définition (UHD). Actuellement, de nombreux réseaux servent de support à la transmission de contenus vidéo. Les diffuseurs historiques de la télévision numérique terrestre (TNT) perdent leurs fréquences au profit des opérateurs de téléphonie mobile. En France cette réduction du spectre hertzien s’est opéré via deux dividendes numérique au début des années 2000 puis en 2015. En plus du mobile et de la TNT, le réseau internet est devenu un support majeur de diffusion de contenus via les services over-the-top (OTT), la vidéo devrait représenter 80% du trafic en 2019. En plus de ces aspects réseaux, les supports de consommation des contenus vidéo se multiplient drastiquement. La télévision, les smartphones, tablettes, casques de réalités virtuelles et montre connectées sont les nouveaux supports et sont caractérisés par une multitude de formats différents (résolution, gamut de couleurs, dynamique, etc ...). Cette diversité implique une lourde redondance des flux encodés à de nombreux débits, résolution, qualités, et donc un coût supplémentaire selon plusieurs aspects. Premièrement pour la diffusion OTT, un même contenu est encodé de très nombreuses fois en de très nombreuses versions et à différents débits ce qui accroit les besoins de stockage. Du point de viii vue de la TNT, l’introduction de nouveaux formats multimédia est envisageable seulement en assurant une compatibilité avec le parc d’équipements existant. Cette compatibilité est très souvent assurée en opérant une diffusion dite simulcast, où toutes les versions d’un contenu sont transmises dans le canal, le récepteur décodant seulement la version qui le concerne. La compression vidéo scalable est une façon d’éviter tous ces inconvénients, et permet d’encoder un contenu en une couche de base et plusieurs couches d’améliorations de formats différents. Dans ce schéma, la compression est significativement plus efficace que le SimulCast puisque chaque couche est encodée en exploitant des informations provenant des couches inférieures. La norme Scalable High Efficiency Video Coding, ou SHVC, a été introduite dans les Annexes F et H d’HEVC et publié en octobre 2014 dans la version 2 de HEVC. SHVC cou- vre plusieurs types de scalabilité, spatiale, en qualité, en gamut de couleur et en codec en plus du mécanisme de scalabilité temporelle déjà inclus dans la première version d’HEVC. Ces types de scalabilité peuvent être combinés entre eux et peuvent résoudre les problématiques de diffusion actuelles. Parmis ces problèmes, l’introduction de nouveaux services UHD rétrocompatibles avec le parc existant via les scalabilité HD/UHD, BT.709 vers BT.2020, SDR vers HDR. Cette technologie est déjà considérée dans plusieurs groupes de normali- sation tel que l’Advanced Television Systems Committee (ATSC) et le consortium Digital Video Broadcasting (DVB). Dans la norme ATSC3.0, SHVC est la technologie retenue pour la diffusion de programme scalable (limitée à deux couches spatiales). Du côté DVB la scalabilité temporelle est déjà retenue dans la norme ETSI TS-101-154 pour la diffusion de programme UHD, et SHVC est considéré comme candidat pour la diffusion rétro-compatible des futurs formats en cours de normalisation. Pour la diffusion de services scalables dans un environnement industriel, le contrôle de débit sur les flux générés est un enjeu majeur. Pour cette raison, l’objectif de cette thèseaété le développement d’algorithmes de régulation de débit pour SHVC. Dans un premier volet, nous allons explorer des algorithmes d’estimation du paramètre de quantification (QP) basée sur l’approche r-domaine afin d’atteindre un débit cible lors de l’encodage. Deuxièmement, nous développerons des algorithmes d’allocation de débit adaptatifs pour SHVC qui aurons pour but d’ajuster le ratio de débit entre les couches de façon à optimiser les performances de compression. Finalement, nous investiguerons le multiplexage statistique de programmes SHVC encodés dans le contexte d’introduction de services UHD. ix Etat de l’art Dans le Chapitre2, les principes de compression vidéo ainsi qu’HEVC, ses outils et son extension scalable SHVC sont introduits ainsi qu’un aperçu des logiciels de référence utilisés en normalisation. HEVC, comme AVC avant lui, est basé sur un schéma de codage hybride par bloc. Les images en entrée du codeur sont découpées en blocs appelés Coding Tree Unit (CTU) et employant une représentation en arbre de sous-blocs Coding Unit (CU). Chacun de ces CU est partitionné en blocs sur lesquels la prédiction est réalisée (Prediction Units ou PU) et d’autres adaptés aux étapes de transformation et quantification (Transform Units ou TU).