Rozprawa Doktorska
Total Page:16
File Type:pdf, Size:1020Kb
POLITECHNIKA WARSZAWSKA Wydział Elektroniki i Technik Informacyjnych ROZPRAWA DOKTORSKA mgr inz.˙ Grzegorz Brzuchalski Optymalizacja algorytmów kwantyzacji w kodowaniu d´zwi˛eku Promotor prof. dr hab. inz.˙ Władysław Skarbek Warszawa 2015 Pobrano z http://repo.pw.edu.pl / Downloaded from Repository of Warsaw University of Technology 2021-10-07 Pobrano z http://repo.pw.edu.pl / Downloaded from Repository of Warsaw University of Technology 2021-10-07 Serdecznie dzi˛ekuj˛e: Bogu, memu Panu i Zbawicielowi za zycie˙ i mozliwo˙ s´c´ napisanie tej pracy Zonie˙ Karolinie Dzieciom: Pawełkowi i Asi oraz Rodzicom za cierpliwos´c´ i wsparcie Profesorowi Władysławowi Skarbkowi za pomoc i wskazówki, którymi mnie wspomógł Grzegorzowi Pastuszakowi za inspiracj˛e,motywacj˛ei wszelk ˛aniezb˛edn˛apomoc kolegom z Zakładu Telewizji za wszelk ˛apomoc jakiej udzielili Przyjaciołom za pomoc w odsłuchach Pracownikom Zakładu Elektroakustyki za mozliwo˙ s´c´ przeprowadzenia testów odsłuchowych Fundacji Wspierania Rozwoju Radiokomunikacji i Technik Multimedialnych za przyznane stypendium doktoranckie, które przyspieszyło finalizacj˛eniniejszej rozprawy iii Pobrano z http://repo.pw.edu.pl / Downloaded from Repository of Warsaw University of Technology 2021-10-07 Pobrano z http://repo.pw.edu.pl / Downloaded from Repository of Warsaw University of Technology 2021-10-07 Streszczenie W niniejszej rozprawie przeanalizowano szereg algorytmów modelu psychoakustycznego oraz algorytmów alokacji bitów w koderze audio. Wprowadzono modyfikacje niektórych algorytmów oraz zaproponowano algorytm równych współczynników kwantyzacji (ESF) nie wykorzystuj ˛acy modelu psychoakustycznego. Porównano zaimplementowane algorytmy oraz wykazano, ze˙ ESF uzyskuje podobne wyniki do algorytmów korzystaj ˛acych z modelu psychoakustycznego. Zaproponowano takze˙ algorytm wyrównywania poziomów energii w pasmach cz˛estotliwosciowych´ w kilku odmianach. Dwa warianty – modyfikacji współczynników kwantyzacji i modyfikacji offsetów – pozwalaj ˛ana polepszenie jakosci´ kodowanych sekwencji. Słowa kluczowe: Zaawansowane Kodowanie Audio, AAC, kompresja d´zwi˛eku, MPEG, kwantyzacja, alokacja bitów, wyrównywanie poziomów energii Abstract In this dissertation several algorithms of the psychoacoustic model and the bit allocation in the audio encoder have been analyzed. Some modifications have been introduced into the algorithms and the equal-scale-factor (ESF) algorithm, which does not use psychoacoustic model, has been proposed. Implemented algorithms have been evaluated. The ESF algorithm achieves similar quality results to algorithms based on the psychoacoustic model. Also, energy balance algorithms has been proposed in a few variants. Two of them: balance energy based on the scale factor modification and based on the offset modification enable the audio quality improvement. Keywords: Advanced Audio Coding, AAC, audio compression, MPEG, quantization, bit alocation, balance energy v Pobrano z http://repo.pw.edu.pl / Downloaded from Repository of Warsaw University of Technology 2021-10-07 Pobrano z http://repo.pw.edu.pl / Downloaded from Repository of Warsaw University of Technology 2021-10-07 Spis tresci´ Spis rysunków ....................................... xi Spis tablic .......................................... xiv Wykaz skrótów ....................................... xvi 1 Wprowadzenie ..................................... 1 1.1 Motywacja . 2 1.2 Tezy . 3 1.3 Zawartos´c´ rozprawy . 3 2 Miary jakosci´ d´zwi˛eku ................................. 5 2.1 Obiektywna miara jakosci´ d´zwi˛eku. 5 2.1.1 Miary bazuj ˛acena stosunku szumu do progów słyszenia . 7 2.1.2 Miary bazuj ˛acena szerokosci´ pasma . 14 2.1.3 Miara struktury harmonicznej bł˛edu . 15 2.1.4 Miary modulacji . 17 2.1.5 Miary głosno´ sci´ zniekształcen´ ...................... 19 2.1.6 Miary prawdopodobienstwa´ wykrycia zniekształcen´ . 22 2.2 Analiza parametrów PEAQ . 24 2.3 Sekwencje testowe . 26 2.4 Miary jakosci´ i ich statystyki . 27 2.5 Interpolacja punktów . 29 3 Przegl ˛adkoderów d´zwi˛eku .............................. 33 3.1 Kodery grupy roboczej MPEG . 33 3.1.1 MPEG-1 . 34 3.1.2 MPEG-2/4 . 35 3.1.3 USAC . 46 3.2 Kodery Fundacji XIPH.org . 47 3.2.1 OGG Vorbis . 47 3.2.2 OPUS . 48 vii Pobrano z http://repo.pw.edu.pl / Downloaded from Repository of Warsaw University of Technology 2021-10-07 3.3 Kodery Microsoft Corporation . 50 4 Porównanie efektywnosci´ i mozliwo˙ sci´ koderów d´zwi˛eku ............. 51 4.1 Testy koderów . 51 4.2 Testy kodera FAAC . 54 4.2.1 TNS – kształtowanie szumu kwantyzacji . 54 4.2.2 Kodowanie stereo – MS . 55 4.2.3 Zastosowanie róznych˙ długosci´ okna w FAAC . 58 4.2.4 Filtr dolnoprzepustowy . 58 4.3 Testy kodera Nero . 59 4.3.1 Grupowanie krótkich okien . 59 4.3.2 Tryby kontroli przepływnosci´ bitowej . 59 4.4 Porównianie koderów FAAC i NERO . 61 4.4.1 Wykorzystanie kodera Nero . 61 4.4.2 Wykorzystanie kodera Nero – testy . 62 4.4.3 Wybór długosci´ i kształtu okna . 64 4.4.4 Wpływ wyboru długosci´ okien na jakos´c´ kodowania . 66 5 Model psychoakustyczny ............................... 69 5.1 Podstawy percepcji słyszenia . 69 5.1.1 Ucho zewn˛etrzne . 69 5.1.2 Ucho srodkowe´ . 69 5.1.3 Ucho wewn˛etrzne. 70 5.2 Ogólne zjawiska słuchu wykorzystywane w kodowaniu d´zwi˛eku . 70 5.2.1 Progi słyszenia . 70 5.2.2 Pasma Barkowe . 70 5.2.3 Maskowanie cz˛estotliwosciowe´ . 71 5.2.4 Maskowanie czasowe . 72 5.3 Model psychoakustyczny I . 73 5.4 Model psychoakustyczny II . 73 5.4.1 Sczegółowy przebieg algorytmu wyznaczania progów w modelu psychoakustycznym II . 75 5.4.2 Dodatkowe funkcje . 82 5.5 Zmodyfikowany model psychoakustyczny II . 83 5.6 Model psychoakustyczny w koderze 3gpp . 86 5.7 Model psychoakustyczny bazuj ˛acy na PEAQ . 86 5.8 Moduły skalowania . 88 5.9 Porównanie modeli psychoakustycznych . 88 viii Pobrano z http://repo.pw.edu.pl / Downloaded from Repository of Warsaw University of Technology 2021-10-07 6 Algorytmy alokacji bitów ............................... 91 6.1 Algorytm podwójnej p˛etliprzeszukiwania – Two Loop Search . 91 6.1.1 P˛etlazewn˛etrzna . 92 6.1.2 P˛etlawewn˛etrzna . 93 6.1.3 Warunki stopu . 94 6.2 Zmodyfikowany algorytm TLS . 94 6.3 Algorytm ze stałymi współczynnikami kwantyzacji . 95 6.4 Algorytm optymalizacji na kracie z uzyciem˙ kosztu RD . 96 6.4.1 Przebieg algorytmu dla miary ANMR . 97 6.4.2 Przebieg algorytmu dla miary MNMR . 99 6.4.3 Wyznaczenie optymalnej wartosci´ parametru lambda . 99 6.4.4 Porównanie algorytmów . 100 6.4.5 Modyfikacje algorytmu . 100 6.5 Algorytm BFOS i jego modyfikacje . 104 6.5.1 Algorytm BFOS . 104 6.5.2 Algorytm Enhanced BFOS . 105 6.5.3 Algorytm AEBAS . 106 6.5.4 Algorytm bez uzycia˙ p˛etli . 107 6.6 Realizacja algorytmów alokacji bitów . 108 6.6.1 Badanie algorytmu TRDO . 108 6.6.2 Badanie algorytmu ESF . 111 6.6.3 Porównanie własciwo´ sci´ algorytmów alokacji bitów . 112 6.7 Kodowanie entropijne . 113 6.7.1 Kodowanie współczynników cz˛estotliwosciowych´ . 113 6.7.2 Kodowanie współczynników kwantyzacji Scale Factor . 114 6.7.3 Kodowanie numerów ksi ˛azek˙ kodowych . 114 6.7.4 Porównanie technik optymalizacji kodowania Huffmana . 116 7 Wyrównywanie poziomów energii .......................... 119 7.1 Metoda BESF . 120 7.2 Metoda BEOF . 120 7.2.1 Opis metody . 120 7.2.2 Wł ˛aczniemetody BEOF do algorytmu TRDO . 122 7.3 Metoda BEOFC . 122 7.3.1 Wariant pierwszy . 122 7.3.2 Wariant drugi . 123 7.3.3 Wariant trzeci . 123 7.3.4 Analiza kryteriów wyboru najlepszego wyniku . 124 ix Pobrano z http://repo.pw.edu.pl / Downloaded from Repository of Warsaw University of Technology 2021-10-07 7.4 Zerowanie wybranych pasm . 125 7.5 Testy algorytmów BESF oraz BEOF . 126 8 Porównanie koderów z wybranymi algorytmami alokacji bitów i równowazenia˙ energii .......................................... 131 8.1 Przegl ˛adliteratury . 131 8.2 Obiektywne porównanie . 132 8.3 Subiektywne porównanie . 134 8.3.1 Testy odsłuchowe w warunkach domowych . 134 8.3.2 Testy przeprowadzone w studio . 135 8.3.3 Wnioski . 136 9 Podsumowanie ..................................... 141 Dodatek A — Parametry uruchamianych koderów ................... 142 Dodatek B — Parametry kodera FAAC ......................... 144 Bibliografia ......................................... 147 x Pobrano z http://repo.pw.edu.pl / Downloaded from Repository of Warsaw University of Technology 2021-10-07 Spis rysunków 2.1 Diagram algorytmu wyznaczania NMR w PEAQ . 10 2.2 Przykładowe okna Hanna dla długiego okna . 10 2.3 Charakterystyka filtru ucha zewn˛etrznego i srodkowego´ . 11 2.4 Przebieg funkcji tłumienia szumu wewn˛etrznego w uchu . 12 2.5 Funkcja rozproszenia . 12 2.6 Współczynniki gm . 13 2.7 Schemat obliczania miar szerokosci´ pasm referencyjnego i.