Contribuições À Codificação Eficiente De Imagem E Vídeo Utilizando Recorrência De Padrões Multiescala
Total Page:16
File Type:pdf, Size:1020Kb
CONTRIBUIÇÕES À CODIFICAÇÃO EFICIENTE DE IMAGEM E VÍDEO UTILIZANDO RECORRÊNCIA DE PADRÕES MULTIESCALA Nelson Carreira Francisco Tese de Doutorado apresentada ao Programa de Pós-graduação em Engenharia Elétrica, COPPE, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Doutor em Engenharia Elétrica. Orientadores: Eduardo Antônio Barros da Silva Nuno Miguel Morais Rodrigues Rio de Janeiro Novembro de 2012 CONTRIBUIÇÕES À CODIFICAÇÃO EFICIENTE DE IMAGEM E VÍDEO UTILIZANDO RECORRÊNCIA DE PADRÕES MULTIESCALA Nelson Carreira Francisco TESE SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA (COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE DOUTOR EM CIÊNCIAS EM ENGENHARIA ELÉTRICA. Examinada por: Prof. Eduardo Antônio Barros da Silva, Ph.D. Prof. Nuno Miguel Morais Rodrigues, Ph.D Prof. Sérgio Lima Netto, Ph.D. Prof. José Gabriel Rodriguez Carneiro Gomes, Ph.D. Prof. Ricardo Lopes de Queiroz, Ph.D Prof. Carla Liberal Pagliari, Ph.D RIO DE JANEIRO, RJ – BRASIL NOVEMBRO DE 2012 Francisco, Nelson Carreira Contribuições à Codificação Eficiente de Imagem e Vídeo Utilizando Recorrência de Padrões Multiescala/Nelson Carreira Francisco. – Rio de Janeiro: UFRJ/COPPE, 2012. XXII, 270 p.: il.; 29, 7cm. Orientadores: Eduardo Antônio Barros da Silva Nuno Miguel Morais Rodrigues Tese (doutorado) – UFRJ/COPPE/Programa de Engenharia Elétrica, 2012. Referências Bibliográficas: p. 257 – 270. 1. Casamento de Padrões Multiescalas. 2. Compressão de imagens estáticas. 3. Compressão de Documentos Compostos. 4. Compressão de Vídeo. 5. Filtragem de Redução de Efeito de Bloco. I. da Silva, Eduardo Antônio Barros et al. II. Universidade Federal do Rio de Janeiro, COPPE, Programa de Engenharia Elétrica. III. Título. iii Aos meus pais, Lúcia e Isidro. iv Agradecimentos Em primeiro lugar, gostaria de agradecer aos meus orientadores: Prof. Eduardo Silva, Prof. Nuno Rodrigues e Prof. Sérgio Faria, pela sua enorme capacidade de orientação, que ajudou a enriquecer a qualidade do trabalho apresentado nesta tese. Foram os grande responsáveis pelo rumo tomado pelo meu percurso acadêmico, e trabalhar com alguém tão motivador foi sem dúvida um enorme privilégio. Também pela amizade que demons- traram ao longo dos últimos anos, transcendendo em muito o conceito de orientadores. Seguidamente gostaria de expressar os meus agradecimentos à Fundação para a Ciên- cia e a Tecnologia, pelo suporte financeiro prestado. Também ao Instituto de Telecomuni- cações, à Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria e ao Laboratório de Processamento de Sinais da Universidade Federal do Rio de Janeiro, pelas excelentes condições físicas e materiais proporcionadas, que permitiram levar a cabo este trabalho. Uma agradecimento especial aos meus colegas do IT: Danillo, Sylvain, Sandro e Lu- cas, pela amizade e pelas trocas de ideias construtivas que me proporcionaram ao longo destes anos. Também pelo privilégio de termos trabalhado em conjunto nalgumas oca- siões. Do mesmo modo, gostaria de agradecer ao colegas do LPS, pela forma calorosa como me receberam e pela amizade que demonstraram durante os períodos que passei no Rio. Um agradecimento especial ao José Antonio, pela amizade e apoio num dos momentos mais difíceis desta longa jornada. À minha namorada Auridélia, pelo carinho, compreensão e apoio, porque as conquis- tas têm outro sabor quando temos com quem compartilhá-las. "Cause it’s always better together..." Aos meus pais, Isidro e Lúcia, meu muito obrigado pelo seu apoio e amor incondicio- nal. Também pelos valores que me transmitiram, fazendo-me acreditar que grandes feitos podem ser atingidos através de trabalho árduo e muita dedicação. Um agradecimento especial a todos os meus amigos, que pelos momentos de des- contração e lazer me ajudaram a manter o equilíbrio entre o trabalho e uma vida social saudável. Desculpem não mencionar todos, mas foram com certeza lembrados. Por último, gostaria de agradecer aos revisores anônimos e a todos aqueles que, com críticas e sugestões, contribuíram para aumentar a qualidade do trabalho apresentado nesta tese. v Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Doutor em Ciências (D.Sc.) CONTRIBUIÇÕES À CODIFICAÇÃO EFICIENTE DE IMAGEM E VÍDEO UTILIZANDO RECORRÊNCIA DE PADRÕES MULTIESCALA Nelson Carreira Francisco Novembro/2012 Orientadores: Eduardo Antônio Barros da Silva Nuno Miguel Morais Rodrigues Programa: Engenharia Elétrica A crescente utilização do suporte digital como meio privilegiado de partilha e ar- mazenamento motivou a pesquisa apresentada nesta tese, por codificadores eficientes de imagens e vídeo baseados no MMP (do original Multidimentional Multiscale Parser). São propostas várias técnicas inovadoras, que incluem um filtro redutor de efeito de bloco, e técnicas de redução da complexidade computacional, que reduziram a um décimo o tempo de codificação sem perdas significativas de desempenho de compressão. Essas melhorias foram combinadas em novos algoritmos, vocacionados para a compressão de documentos compostos digitalizados e sinais de vídeo. Os resultados do codificador de documentos compostos digitalizados proposto foram comparados com os de alguns dos melhores algoritmos existentes, como os baseados no modelo MRC (do inglês Mixed Raster Content), superando o desempenho destes. Para codificação de vídeo, foram desenvolvidos dois novos algoritmos. O primeiro, denominado MMP-video, é baseado na norma H.264/AVC, com as transformadas sub- stituídas pelo MMP. São usadas algumas das técnicas desenvolvidas para codificação de imagens, conjuntamente com novos métodos otimizados em função das características dos sinais de vídeo. O resultado é um codificador de vídeo totalmente baseado em casamento de padrões, que supera o desenpenho taxa-distorção do H.264/AVC. O segundo, denomi- nado 3D-MMP, combina uma predição hierárquica com uma extensão 3D do MMP, usada na codificação do resíduo. Este algoritmo abriu novas linhas de pesquisa, que incluem a compressão de sinais provenientes de radares meteorológicos ou imagiologia médica. Os resultados obtidos validaram os métodos propostos e demonstraram que apesar da sua ainda elevada complexidade computacional, o MMP pode ser visto como uma alternativa ao tradicional paradigma das transformadas. vi Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Doctor of Science (D.Sc.) CONTRIBUTIONS TO EFFICIENT IMAGE AND VIDEO COMPRESSION USING MULTISCALE RECURRENT PATTERNS Nelson Carreira Francisco November/2012 Advisors: Eduardo Antônio Barros da Silva Nuno Miguel Morais Rodrigues Department: Electrical Engineering Given the increasing popularity of the digital media support as a privileged way for sharing and storing visual information, the present thesis investigates efficient image and video compression frameworks based on MMP (Multidimensional Multiscale Parser). Several new techniques are proposed, including a new post-processing deblocking filter, which increased both the objective and perceptual quality of the reconstructed im- ages and video sequences, as well as complexity reduction techniques, which allowed to reduce to one tenth the time needed to encode an image, without significant perfor- mance losses. These improvements were combined in several compression frameworks for scanned compound documents and video signals. The scanned compound document encoder was evaluated against several state-of-the- art codecs, including some based on the successful MRC (Mixed Raster Content) model, being able to outperform both objectively and perceptually all of them. For the case of video coding, two new encoders were developed. The first, referred to as MMP-video, is based on the H.264/AVC’s reference software, with the original transform being replaced by MMP. This codec uses some of the techniques developed for image compression, together with new procedures optimized to exploit particular features from video signals. The result is a fully pattern-matching based video codec, able to consistently outperform the H.264/AVC. The second codec, named 3D-MMP, combines a hierarchical volumetric prediction with a 3D extension of MMP for residue coding. This compression framework opened several new research lines, including the compression of signals from other sources, such as meteorological radar signals or tomographic scans. The results obtained in this thesis validate the proposed techniques and show that, in spite of its higher computational complexity, MMP can be regarded as an alternative to the traditional transform-based methods. vii Sumário Lista de Figuras xiii Lista de Tabelas xix Lista de Abreviaturas xxi 1 Introdução 1 1.1 Motivações . .1 1.2 Objetivos . .3 1.3 Organização da tese . .5 2 Casamento aproximado de padrões multiescalas: o algoritmo MMP 7 2.1 Introdução . .7 2.2 O algoritmo MMP . .8 2.3 Resultados experimentais . 11 2.4 Conclusões . 12 3 Codificação de documentos compostos usando o MMP 13 3.1 Introdução . 13 3.2 O MMP para codificação de imagens compostas . 14 3.3 Resultados experimentais . 17 3.4 Conclusões . 19 4 Compressão eficiente de vídeo usando o MMP 21 4.1 Introdução . 21 4.2 Fundamentos de compressão de vídeo . 22 4.3 Compressão de vídeo usando casamento de padrões multiescalas - MMP- video . 23 4.3.1 Arquitectura do dicionário para o MMP-video ........... 25 4.3.2 Uso de um símbolo CBP