Description-Driven Media Resource Adaptation
Total Page:16
File Type:pdf, Size:1020Kb
Beschrijvingsgedreven aanpassing van mediabronnen Description-Driven Adaptation of Media Resources Wesley De Neve Promotor: prof. dr. ir. R. Van de Walle Proefschrift ingediend tot het behalen van de graad van Doctor in de Ingenieurswetenschappen: Computerwetenschappen Vakgroep Elektronica en Informatiesystemen Voorzitter: prof. dr. ir. J. Van Campenhout Faculteit Ingenieurswetenschappen Academiejaar 2006 - 2007 ISBN 978-90-8578-132-5 NUR 980, 986 Wettelijk depot: D/2007/10.500/6 Dankwoord Met het indienen van dit proefschrift sluit ik een periode van ruim vier jaar af. In deze tijdspanne heb ik de mogelijkheid gekregen om in een boeiend domein aan wetenschappelijk onderzoek te doen. Dit is dan ook een uitgelezen kans om de mensen te bedanken zonder wie dit werk niet mogelijk zou zijn geweest. In de eerste plaats wil ik mijn promotor, prof. dr. ir. Rik Van de Walle bedanken. Dankzij zijn onuitputtelijke inzet is het Multimedia Lab als onder- zoeksgroep uitgegroeid tot een gevestigde waarde op nationaal en internatio- naal vlak. Deze omgeving vormde voor mij dan ook het ideale kader voor het behalen van mijn doctoraat. Verder wil ik mijn promotor eveneens bedanken voor de kansen die hij mij geboden heeft om mijn onderzoek voor te stellen op verschillende internationale conferenties. Het bijwonen van deze conferenties heeft me als onderzoeker, maar ook als mens, enorm veel bijgebracht. Ook mijn vroegere (Boris Rogge, Sam Lerouge) en huidige collega’s van het Multimedia Lab wil ik uitgebreid bedanken. Het was voor mij erg aange- naam in een dergelijke open en vriendschappelijke omgeving te kunnen wer- ken. Een aantal collega’s hebben grote delen van dit proefschrift heel grondig nagelezen. Hun opmerkingen en suggesties hebben de kwaliteit van dit werk in grote mate verhoogd. Ik wil hen dan ook in het bijzonder danken voor deze inspanningen. Ook Rita Breems en Ellen Lammens bedank ik van harte voor de administratieve ondersteuning en de leuke babbels tijdens het middageten. Een bijzonder woord van dank gaat ook uit naar Davy Van Deursen voor de bijdrage die hij, als thesisstudent en als collega, tot dit werk heeft gele- verd. Ook Peter Lambert en Davy De Schrijver wens ik te bedanken voor de talrijke en boeiende discussies over H.264/AVC en MPEG-21 BSDL. In deze context zou ik eveneens Gary J. Sullivan (Microsoft Corporation) en Miska M. Hannuksela (Nokia) willen danken, en dit voor de tips en de informatie die zij verstrekt hebben met betrekking tot het gebruik van sub-sequences in de H.264/AVC-standaard. Tevens wens ik Danny Hong (Columbia Universi- ty) te bedanken voor het delen van zijn kennis met betrekking tot de werking van XFlavor. Ook de anonieme reviewers van het door Elsevier gepubliceerde ii manuscript over BFlavor wil ik uitdrukkelijk bedanken voor de uitgebreide en opbouwende feedback. Ik wens ook mijn ouders te bedanken voor de vele kansen die zij mij ga- ven, alsook voor hun raad, steun en vertrouwen in mij. Verder wil ik ook mijn zus Lindsey bedanken voor haar relativerende kijk op haar grote broer. Ook wens ik al mijn vrienden van harte te bedanken voor de vele boeiende en leuke momenten, zowel in de online als offline wereld. Zij zorgden ervoor dat ik regelmatig mijn zinnen kon verzetten en dat de vele uren voor het computer- scherm draagbaar bleven. Tot slot wil ik nog een aantal bijzondere mensen bedanken die ik heb le- ren kennen dankzij mijn onderzoek, zij het in een meer informele context: Charles-Frederik Hollemeersch, Elisabeth Hollemeersch, en Mieke De Kete- laere, voor de onvergetelijke deelname aan de Imagine Cup in Brazilie;¨ R.A. Skip Campbell, voor de avontuurlijke roadtrip in Coloroda; Leyda en Florence (Xiafen Zhang), voor jullie boeiende verhalen over China; en Sehee Lee, voor het gidsen in het Land van de Ochtendkalmte. Wesley M. De Neve 31 Augustus 2006 Summary The last decade has witnessed a significant number of innovative developments in the multimedia ecosystem. Advanced media formats have emerged for the efficient representation, storage, and presentation of digital media resources. New network technologies have been devised, wired and wireless, providing access to audio-visual information services such as online music stores, movie download services, and video blogs. A plethora of networked mobile devices has popped up as well, ranging from cell phones to personal entertainment de- vices, often having sufficient processing power for the playback of multimedia presentations. From these observations, it is clear that the multimedia land- scape is characterized by a vast diversity in terms of media formats, network capabilities, and device properties. The ever-increasing heterogeneity in the multimedia consumption chain poses a number of new challenges. One such challenge is the realization of the Universal Multimedia Access paradigm, which is the notion that multimedia content should be accessible at any place, at any time, and with any device. As acknowledged by the Moving Picture Experts Group (MPEG), the successful realization of ubiquitous and seamless access to multimedia content requires an appropriate reaction from different knowledge domains. • The answer of MPEG’s coding community consists of the specification of scalable or layered coding schemes. Indeed, the picture rate and spa- tial resolution of scalable video resources can for instance be adapted in a straightforward way to meet the different constraints that are imposed by a particular usage context (e.g., constraints in terms of available band- width, screen resolution, and so on). • The answer of MPEG’s metadata community consists of the develop- ment of a number of description tools. These tools are for example used to describe the properties of media resources and the capabilities or con- straints of usage environments. The resulting descriptions enable the construction of a format-agnostic content adaptation system that is able iv to maximize the user experience, for the consumption of a particular multimedia presentation in a well-defined usage environment. In this dissertation, we have first studied a number of concepts and de- sign principles of the state-of-the-art H.264/MPEG-4 Advanced Video Coding standard, typically abbreviated as H.264/AVC. The H.264/AVC specification incorporates the latest advances in standardized video coding technology. As demonstrated by our experiments, as well as by other scientific and technical sources, H.264/AVC provides up to 50% bit rate savings for equivalent per- ceptual quality relative to the performance of prior video coding standards. The design of the H.264/AVC standard is, besides efficiency, also char- acterized by a flexibility for use over a broad variety of network types and application domains1. In this context, we have reviewed several content adap- tation tools that are part of the initial version of the H.264/AVC specification. Examples include the exploitation of multi-layered temporal scalability and the use of Flexible Macroblock Ordering (FMO) for region of interest coding. The emphasis of our review was put on providing a complete and de- tailed picture regarding H.264/AVC’s temporal adaptivity provisions. As such, our overview contains an extensive discussion with respect to the use of sub- sequences and sub-sequence layers, coding patterns based on hierarchical bidi- rectionally coded pictures (B pictures), and Supplemental Enhancement Infor- mation messages (SEI messages) for communicating the bitstream structure to a bitstream extractor or decoder. Sub-sequences are employed to constrain H.264/AVC’s coding flexibility in a minimal way. This allows the execution of meaningful adaptations in the temporal dimension. More powerful adaptivity features and SEI messages are incorporated in a newly developed amendment to the H.264/AVC specification, which is com- monly referred to as H.264/AVC Scalable Video Coding (SVC). This amend- ment includes explicit support for spatial and quality scalability; temporal adaptivity tools are inherited from the first version of the H.264/AVC standard. Further, the principles of Bitstream Syntax Description-driven (BSD- driven) content adaptation were also discussed in this dissertation. A BSD con- tains a description of the high-level structure of a binary media resource, typ- ically expressed using the eXtensible Markup Language (XML). This XML- based description, i.e. the BSD, can be transformed to reflect a desired adap- tation of the binary media resource. The transformed BSD can subsequently be used to automatically create an adapted media resource by relying on a format-independent content adaptation engine. This adapted media resource is then suited for consumption in a particular usage environment. 1Efficient and flexible are two terms that are often used in the context of H.264/AVC. v Two different approaches for BSD-driven content adaptation were studied in more detail: a standardized framework driven by the MPEG-21 Bitstream Syntax Description Language (MPEG-21 BSDL) and a framework based on the use of the Formal Language for Audio-Visual Object Representation, ex- tended with XML features (XFlavor). Both technologies provide different means for the automatic translation of the structure of a binary media resource into an XML-based BSD, and for the subsequent generation of a tailored bit- stream using a transformed BSD. The high-level structure of a number of common video coding and con- tainer formats was described using MPEG-21 BSDL and XFlavor. Particular attention was paid to the construction of a description in MPEG-21 BSDL