Hur Ser Framtiden Ut För OCR?
Total Page:16
File Type:pdf, Size:1020Kb
Hur ser framtiden ut för OCR? Mikael Lund Maj 2007 Hur ser framtiden ut för OCR? 2 Sammandrag Examensarbetet handlar om OCR (Optical Character Recognition). OCR-tekniken går ut på att konvertera inskannade bilder från maskinskriven eller handskriven text (siffror, bokstäver och symboler) till datorformat. Syftet med detta examensarbete är att utforska OCRs framtid och vilka användningsområden som finns idag för tekniken. Det intressanta är att se hur OCR klarar sig när mer och mer material är digitala. Genomförandet till detta examensarbete har gjorts med information från böcker, Internet, mejl och genom att tittat närmare på ett företag inom den grafiska branschen som använder sig av OCR, nämligen Aftonbladet. Jag har även testat ett OCR-program, ABBYYs FineReader 8 och gjort tester med några testteman, exempelvis matematiktest och olika tester på artiklar från några tidningar. Mina slutsatser är att OCR har en framtid men tekniken har en del förbättringsmöjligheter, exempelvis tolkning av handskrivna texter. OCR kan finnas kvar även när mer och mer material blir digitala om det integreras i befintliga tekniker, som i ett spam-filter för att tolka texten i bilden. Den nuvarande OCR-tekniken fungerar bra om materialet är maskinskrivet och i bra skick men den måste bli bättre på att tolka handskrivna texter för att kunna användas vid arkiveringsbehov av sådana texter. Nyckelord OCR, hur tekniken fungerar, OCR-program, användningsområden, test av FineReader, Raymond Kurzweil Hur ser framtiden ut för OCR? 3 Abstract How is the future of OCR? My examination subject is about OCR (Optical Character Recognition). The idea of OCR- technology is to convert scanned images of machine-printed or handwritten text (numerals, letters and symbols) into a computer-processable format. The purpose of my examination subject is to explore the future of OCR and why to use it today. It’s interesting to see if OCR survives when more and more material is digital. The implementations to the examination subject have been made from books, Internet, e-mail and I have discovered how a company in the graphic industry are using OCR, namely Aftonbladet. I have also tested an OCR-program, ABBYYs FineReader 8, and done some testing with some test themes, for example mathematics test and different tests on articles from a few magazines. My conclusions are that OCR has a future but the technology needs some improvements, for example interpreting handwritten texts. OCR can exist, even when more and more material is digital, if its integrated with existing technologies, for example with a spam-filter to interpret the text within in the picture. The current OCR-technology works fine with machine-printed material, and when the document quality is good. However it needs to be on handwritten text to be used for archiving needs. Keywords OCR, how the technology works, OCR-program, areas of use, test of FineReader, Raymond Kurzweil Hur ser framtiden ut för OCR? 4 Innehållsförteckning 1 Inledning ....................................................................................................................................... 5 1.1 Syfte................................................................................................................................. 5 1.2 Bakgrund ......................................................................................................................... 5 1.3 Frågeställningar .............................................................................................................. 5 1.4 Avgränsningar................................................................................................................. 5 1.5 Målgrupp ......................................................................................................................... 5 1.6 Disposition ...................................................................................................................... 6 2 Metod ............................................................................................................................................ 7 2.1 Litteraturstudie................................................................................................................ 7 2.2 Fallstudie......................................................................................................................... 7 2.3 Prediktion ........................................................................................................................ 7 2.4 Intervju ............................................................................................................................ 7 2.5 Enkät................................................................................................................................ 7 3 Historia.......................................................................................................................................... 9 3.1 Raymond Kurzweil......................................................................................................... 9 3.1.1 Kurzweils läsande maskin........................................................................................... 9 4 Hur tekniken fungerar ................................................................................................................11 4.1 Bildskannern .................................................................................................................11 4.2 Dokumentanalys ...........................................................................................................11 4.3 Teckenigenkänningsalgoritmer....................................................................................12 4.4 Sammanhangsprocess...................................................................................................14 4.5 Utmatningsgränssnittet.................................................................................................14 4.6 Applikationer ................................................................................................................15 5 Användningsområden ................................................................................................................17 5.1 Portabel OCR-läsare för blinda....................................................................................17 5.1.1 Funktioner..................................................................................................................17 5.1.2 Begränsningar ............................................................................................................18 5.2 C-Pen – den läsande pennan ........................................................................................18 5.2.1 Skrivbords C-Pen.......................................................................................................18 5.3 Bärbar C-Pen.................................................................................................................20 5.4 Arkivering .....................................................................................................................20 5.4.1 Register till kyrkoböcker i Stockholms stadsarkiv..................................................20 5.4.2 Svensk tidskrift för musikforskning.........................................................................21 5.5 Fakturering ....................................................................................................................22 5.5.1 OCR-referensnummer ...............................................................................................22 5.5.2 Skatteverkets användning av OCR-referensnummer ..............................................23 5.5.3 Fakturor......................................................................................................................23 5.5.4 Betalningsexempel ....................................................................................................24 6 Framtiden ....................................................................................................................................25 6.1 Mobilkamera med OCR-funktioner ............................................................................25 6.1.1 Hur tekniken fungerar ...............................................................................................25 6.2 Mobilkameror som högprecisionsskanners.................................................................25 Hur ser framtiden ut för OCR? 5 6.2.1 Copyrightproblem .....................................................................................................26 6.3 OCR-teknik som filter mot spam-bilder......................................................................26 6.3.1 Slumpmässigt skapade spam ....................................................................................27 6.3.2 Skannersignatur .........................................................................................................27 7 Fördelar med OCR .....................................................................................................................29 7.1 Sökbara arkiv/dokument ..............................................................................................29 8 Nackdelar med OCR ..................................................................................................................30 8.1 Handskrivna texter........................................................................................................30 8.1.1 Lunds landsarkiv .......................................................................................................30