VŠB – TECHNICKÁ UNIVERZITA OSTRAVA Fakulta Elektrotechniky a Informatiky Katedra Informatiky
Total Page:16
File Type:pdf, Size:1020Kb
View metadata, citation and similar papers at core.ac.uk brought to you by CORE provided by DSpace at VSB Technical University of Ostrava VŠB – TECHNICKÁ UNIVERZITA OSTRAVA Fakulta elektrotechniky a informatiky Katedra informatiky Zpracování zvukového signálu na po číta či Processing Sound Signal on Computer 2010 Tereza Moudrá „Prohlašuji, že jsem tuto bakalá řskou práci vypracovala samostatn ě. Uvedla jsem všechny literární prameny a publikace, ze kterých jsem čerpala.“ V Ostrav ě ……………. Podpis Pod ěkování Na tomto míst ě bych cht ěla pod ěkovat vedoucímu své bakalá řské práce panu doc. Ing. Li čevovi, CSc. za rady a p řipomínky k obsahu a form ě zpracování. Abstrakt Ve své práci se zabývám problematikou optického rozpoznávání znak ů. Výsledná aplikace se skládá ze dvou částí. V první části je vy řešen p řevod textu z obrázku na normální text a ve druhé části je tento text p řeveden do audio formy. Aplikace využívá pro p řevod na text freeware program Asprise OCR a pro zvukovou část používá aplikaci z bakalá řské práce p. Brettšnajdra. Řešení p ředkládané bakalá řské práce je rozd ěleno do n ěkolika úkon ů v rámci jednoho celku tak, aby tato aplikace mohla sloužit zejména slabozrakým lidem, kte ří kv ůli svému postižení nemohou plnohodnotn ě získávat textové informace. Dále se tato bakalá řská práce zabývá formátem .jpeg a okrajov ě seznamuje čtená ře s prácí s grafickým uživatelským rozhraním v Jav ě. Klí čová slova Optické rozpoznání znak ů, OCR, JPEG, JPG, Java, Asprise OCR Abstract In my thesis I deal with problems of optical character recognition. The final application consists of two parts. The first part is solved by the transfer of text from an image file to a normal text and in the second part the text is converted into audio form. The application uses freeware Asprise OCR for conversion to a text and for audio section it uses an application from the Bachelor thesis of Mr. Brettšnajdr. Solution of this thesis is divided into several tasks within a single unit so that this particular application could serve especially visually impaired people who cannot efficiently obtain text information due to their disability. This thesis also deals with jpeg format and marginally introduces the work with the graphical user interface in Java. Keywords Optical character recognition, OCR, JPEG, JPG, Java, Asprise OCR Seznam použitých symbol ů a zkratek OCR - Optical Character Recognition JPEG - Joint Photographics Experts Group GUI - Graphical User Interface HTML - HyperText Markup Language PDF - Portable Document Format Obsah 1. ÚVOD.................................................................................................................................... 1 2. OPTICKÉ ROZPOZNÁVÁNÍ ZNAK Ů............................................................................ 2 2.1 VYSV ĚTLENÍ POJMU OPTICKÉHO ROZPOZNÁVÁNÍ ZNAK Ů.............................................. 2 2.2 HISTORIE A VYUŽITÍ OCR .............................................................................................. 2 2.3 PRINCIP OCR .................................................................................................................. 2 2.3.1 Digitalizace dokumentu........................................................................................... 3 2.3.2 Obrazové úpravy ..................................................................................................... 3 2.3.3 Rozd ělení dokumentu na bloky................................................................................ 3 2.3.4 Rozpoznání blok ů .................................................................................................... 4 2.3.5 Lexikální postprocessing......................................................................................... 4 2.3.6 Uložení ve zvoleném formátu .................................................................................. 4 2.4 METODY OCR ................................................................................................................ 4 2.4.1 Porovnání matic ...................................................................................................... 4 2.4.2 Extrakce p říznak ů.................................................................................................... 5 2.5 OCR FONTY .................................................................................................................... 6 2.5.1 OCR-A ..................................................................................................................... 7 2.5.2 OCR-B ..................................................................................................................... 8 3. GRAFICKÉ FORMÁTY .................................................................................................... 9 3.1 JPEG............................................................................................................................... 9 3.2 BEZEZTRÁTOVÉ KOMPRIMA ČNÍ METODY ....................................................................... 9 3.3 ZTRÁTOVÉ KOMPRIMA ČNÍ METODY ............................................................................. 10 3.4 METODY KOMPRESE ..................................................................................................... 10 4. VOLBA SOFTWAROVÝCH PROST ŘEDK Ů .............................................................. 11 4.1 GRAFICKÉ UŽIVATELSKÉ ROZHRANÍ - GUI .................................................................. 11 5. APLIKACE PRO P ŘEVOD POMOCÍ OCR ................................................................. 14 5.1 INSTALACE OCR........................................................................................................... 14 5.2 VYUŽITÍ OCR ............................................................................................................... 14 5.2.1 Rozpoznávání znak ů z obrázku.............................................................................. 14 5.2.2 Rozpoznávání znak ů z části obrázku ..................................................................... 15 5.2.3 Explicitní nastavení nativní knihovny.................................................................... 15 6. NÁVRH A REALIZACE APLIKACE ............................................................................ 16 6.1 VOLBA SOFTWAROVÝCH PROST ŘEDK Ů ........................................................................ 16 6.2 VOLBA TYPU APLIKACE ................................................................................................ 16 6.3 KOREKTURA ................................................................................................................. 17 6.4 ZVUK ............................................................................................................................. 18 6.5 DATOVÉ TOKY .............................................................................................................. 18 6.6 ARCHITEKTURA APLIKACE ........................................................................................... 20 6.7 DOPL ŇUJÍCÍ FUNKCE ..................................................................................................... 22 6.8 TESTOVÁNÍ ................................................................................................................... 22 6.9 GRAFICKÉ UŽIVATELSKÉ ROZHRANÍ ............................................................................. 25 7. ZÁV ĚR ............................................................................................................................... 27 Seznam obrázk ů [1] Roz člen ění bod ů 5 [2] Transformace znaku 6 [3] Geometrický zp ůsob rozložení a popsání znaku 6 [4] ukázka fontu OCR-A 7 [5] ukázka fontu OCR-A Extended 8 [6] ukázka fontu OCR-B 8 [7] Schéma datových tok ů 19 [8] Architektura aplikace 21 [9] Test 1 23 [10] Test 2 23 [11] Test 3 24 [12] Hlavní okno 25 [13] Jízdní řád 26 [14] Vyhledání spoje 26 1. Úvod Dnešní doba klade stále v ětší d ůraz na automatizaci ve všech r ůzných odv ětvích. Automatizace zrychluje a zjednodušuje celý proces, což je v moderní dob ě velmi žádoucí. Tuto automatizaci obstarává často informa ční a výpo četní technika. Jedním z mnoha podobor ů, snažících se o automatizaci je i tzv. optické rozpoznávání znak ů neboli OCR (Optical Character Recognition). Tento podobor se zabývá problematikou rozpoznávání textu z obrazu a jeho různými metodami. OCR m ůžeme využít i v b ěžném život ě. Lidé, kte ří trpí lehkou zrakovou vadou, toto optické rozpoznávání jist ě pln ě využijí. Nabízí jim totiž komfort v podob ě poskytnutí hodnotných informací, kterých nejsou schopni jiným zp ůsobem dosáhnout. Jedná se o textové informace, které jsou špatn ě čitelné. Tito lidé mají poškozený zrak do té míry, že jim čtení d ělá obtížné problémy a lušt ěním textu si ješt ě více namáhají už tak dost namáhané o či. Cílem této bakalá řské práce bylo vyvinout aplikaci, která by pomohla práv ě těmto lidem trpícím špatným zrakem a umožnit jim kvalitn ější p řísun textových informací. Umožnit jim tak, aby si mohli p řečíst jakoukoli knihu, či jízdní řád. Aplikace je implementována v jazyce Java, nebo ť umož ňuje nezávislost platformy a dovoluje tvorbu desktopové i mobilní aplikace. Na základ ě zadání své bakalá řské práce se nejprve seznamuji s technologií optického rozpoznávání, a to v kapitole Optické rozpoznávání znak ů, kde rozebírám jednotlivé pojmy spjaté s tímto tématem. Dále také popisuji metody a principy rozpoznávání a také seznamuji s fonty písma, které jsou vhodné pro dokonalejší rozpoznávání. Dalším