Video Compression for New Formats
Total Page:16
File Type:pdf, Size:1020Kb
ANNÉE 2016 THÈSE / UNIVERSITÉ DE RENNES 1 sous le sceau de l’Université Bretagne Loire pour le grade de DOCTEUR DE L’UNIVERSITÉ DE RENNES 1 Mention : Traitement du Signal et Télécommunications Ecole doctorale Matisse présentée par Philippe Bordes Préparée à l’unité de recherche UMR 6074 - INRIA Institut National Recherche en Informatique et Automatique Adapting Video Thèse soutenue à Rennes le 18 Janvier 2016 devant le jury composé de : Compression to new Thomas SIKORA formats Professeur [Tech. Universität Berlin] / rapporteur François-Xavier COUDOUX Professeur [Université de Valenciennes] / rapporteur Olivier DEFORGES Professeur [Institut d'Electronique et de Télécommunications de Rennes] / examinateur Marco CAGNAZZO Professeur [Telecom Paris Tech] / examinateur Philippe GUILLOTEL Distinguished Scientist [Technicolor] / examinateur Christine GUILLEMOT Directeur de Recherche [INRIA Bretagne et Atlantique] / directeur de thèse Adapting Video Compression to new formats Résumé en français Adaptation de la Compression Vidéo aux nouveaux formats Introduction Le domaine de la compression vidéo se trouve au carrefour de l’avènement des nouvelles technologies d’écrans, l’arrivée de nouveaux appareils connectés et le déploiement de nouveaux services et applications (vidéo à la demande, jeux en réseau, YouTube et vidéo amateurs…). Certaines de ces technologies ne sont pas vraiment nouvelles, mais elles ont progressé récemment pour atteindre un niveau de maturité tel qu’elles représentent maintenant un marché considérable, tout en changeant petit à petit nos habitudes et notre manière de consommer la vidéo en général. Les technologies d’écrans ont rapidement évolués du plasma, LED, LCD, LCD avec rétro- éclairage LED, et maintenant OLED et Quantum Dots. Cette évolution a permis une augmentation de la luminosité des écrans et d’élargir le spectre des couleurs affichables. Le dynamisme des smart phones et des tablettes a alimenté cette tendance tout en popularisant le format « Haute Définition » même pour des petits appareils. Et le format 4K est naturellement devenu incontournable pour la prochaine génération de téléviseurs et dans les salles de cinéma. Inspiré des études menées par NHK sur la Super Hi-Vision, la recommandation ITU-R rec.2020 définit un format de signal vidéo qui pourrait remplir les besoins à la fois en termes de taille d’images (4K et 8K) et de gamut couleur (au-delà des technologies déployées actuellement) pour la décennie avenir. Dans le même temps, la révolution des smart phones et autres nouveaux appareils interconnectés, en coïncidence avec le développement grandissant des services utilisant la vidéo, requiert des technologies capables d’adapter dynamiquement la qualité du service aux capacités du réseau ou du lien de distribution à tout instant. Dans ce contexte d’environnement en perpétuelle évolution, la compatibilité des nouveaux contenus et formats vidéo avec les systèmes existants est un véritable défi. C’est pourtant un des éléments clé du succès lors du déploiement d’un nouveau standard. Car cette compatibilité permet d’opérer les transitions technologiques en douceur et de développer des relations de confiance dans la durée avec les clients. Aujourd’hui, les nouvelles techniques de compression vidéo et les nouveaux formats vidéo doivent être conçus tous les deux avec ce haut niveau d’adaptabilité intrinsèque, à la fois en terme de bande passante réseau, de scalabilité des formats (taille d’images, espace de couleur…) et de compatibilité avec l’existant. C’est pourquoi les comités de standardisation tels que MPEG, DVB, BDA et ATSC ont prévu plusieurs phases de déploiement et recommandent d’examiner les différents outils d’extension scalable disponibles, avant de définir les nouveaux systèmes de distribution de la vidéo. i Adapting Video Compression to new formats Contributions Cette thèse s’inscrit dans ce contexte de formats vidéo en constante évolution, avec des couleurs de plus en plus étendues et une luminosité croissante, qui sont autant d’opportunités pour le développement de nouvelles applications et de services. Si de nouveaux services apparaissent pour un parc d’appareils de plus en plus hétérogène en termes de caractéristiques et de capacités, le besoin en une technique de compression du contenu vidéo efficace et adaptable est devenu de plus en plus nécessaire. Ce document regroupe plusieurs études en lien avec l’évolution de la compression vidéo dans ce contexte. La plupart de ces études ont été menées durant les cinq dernières années, à l’exception de quelques chapitres liés à des travaux plus anciens mais dont les résultats sont toujours d’actualité. Ces études sont donc principalement basées sur des extensions ou des améliorations du standard de compression vidéo HEVC, mais aussi AVC son prédécesseur largement déployé. Elles ont donné lieu à de nombreuses contributions à MPEG. Considérant les différentes étapes d’une chaîne de distribution vidéo, deux types d’adaptation du codage de la vidéo sont distingués : Les adaptations qui exploitent les propriétés du signal et qui sont mises en place lors de la création du bit-stream. Les adaptations réalisées sur des flux vidéo compressés existants et qui s’appuient sur des propriétés de flexibilité intrinsèque de certains bit-streams. Codage vidéo adapté aux propriétés du signal Le développement du standard HEVC a constitué une opportunité pour étudier et proposer des outils de compression permettant un niveau d’adaptation plus important aux propriétés du signal vidéo. Mais l’objectif principal était l’obtention d’un nouveau codec qui soit considérablement plus efficace que AVC. Dans cette perspective, l’étude d’un nouveau partitionnement des images pour améliorer la prédiction inter était une idée prometteuse. Son principe est de mieux s’ajuster aux frontières réelles du mouvement et par conséquent de réduire l’énergie des résidus de prédiction par compensation de mouvement. Des gains significatifs peuvent être obtenus en comparaison d’une segmentation classique construite à partir de blocs rectangulaires, même si la complexité de l’encodeur est augmentée. Nos travaux présentent des adaptations de l’algorithme permettant de réduire cette complexité tout en préservant un haut niveau de performance. Ce principe de segmentation du mouvement est étendu à la modélisation long-terme du mouvement à l’aide de trajectoires. Cependant, les résultats encourageant de cette approche ne peuvent pas encore rivaliser avec les architectures de codec hybride traditionnelles. Probablement parce que cette technique n’est pas encore mature et ce formalisme n’est pas bien adapté aux mesures de distorsions du signal basées sur des métriques de haute-fidélité comme le psnr. Par ailleurs, l’analyse des réponses faites au « Call for Evidence » (CfE) de MPEG confirma que ce nouveau standard n’intègrerait pas de rupture technologique en ce qui concerne les principes généraux de de compression vidéo. Cependant, au regard de la variété des nouveaux formats ii Adapting Video Compression to new formats vidéo, il se pourrait qu’ils réagissent de manière différente aux algorithmes de compression et par conséquent nécessitent des techniques d’adaptation dépendantes des contenus. En effet, en observant des panels de séquences vidéo de test communément utilisées pour la compression vidéo, il s’avère que les composantes couleurs du signal peuvent présenter des niveaux de corrélation importants et une excursion limitée. Nous avons étudié comment exploiter ces propriétés et nous proposons quelques adaptations simples pour augmenter l’efficacité du codec HEVC. Dans le cas où les caractéristiques du signal vidéo varient avec le temps, la prédiction temporelle (inter-images) peut être impactée et les performances du codec vidéo peuvent être dégradées. Nous avons investigué l’efficacité de la prédiction pondérée (« weighted prediction »), ce qui a concouru à son adoption dans HEVC, et nous proposons une nouvelle méthode d’estimation des paramètres explicites. De plus, nous expliquons pourquoi l’ancienne prédiction pondérée implicite (« implicit weighted prediction ») n’est plus efficace dans le cadre de HEVC et nous en déduisons une version modifiée combinant prédiction implicite et explicite. Comme pour toutes les architectures de codec hybrides, la quantification des résidus transformés est l’outil le plus efficace pour ajuster temporellement et localement le niveau de compression. Nous proposons une technique de prédiction du pas de quantification dérivée des similarités des vecteurs de mouvements appartenant aux groupes de quantification voisins, qui obtient des résultats comparables avec la méthode finalement retenue pour HEVC. Le bénéfice de la quantification locale est illustré avec un encodeur intégrant un modèle de perception psycho- visuelle permettant d’obtenir une qualité globalement homogène sur toute l’image. Méthodes de codage vidéo permettant l’adaptation des flux après leur création Toutes ces techniques opèrent lors de l’étape de la création du bit-stream. Pourtant, un certain niveau d’adaptation peut-être nécessaire après que le flux ait été généré. C’est par exemple le cas pour les applications de type vidéo à la demande. Si le transcodage est une technique d’adaptation traditionnellement utilisée par les professionnels, elle demande des capacités de calcul importantes et n’est donc pas appropriée pour des applications grand public impliquant un grand nombre de clients simultanément. Dans le cas du codage « off-line » (non temps réel), les systèmes à flux multiples