Gradu04243.Pdf
Total Page:16
File Type:pdf, Size:1020Kb
Paperilomakkeesta tietomalliin Kalle Malin Tampereen yliopisto Tietojenkäsittelytieteiden laitos Tietojenkäsittelyoppi Pro gradu -tutkielma Ohjaaja: Erkki Mäkinen Toukokuu 2010 i Tampereen yliopisto Tietojenkäsittelytieteiden laitos Tietojenkäsittelyoppi Kalle Malin: Paperilomakkeesta tietomalliin Pro gradu -tutkielma, 61 sivua, 3 liitesivua Toukokuu 2010 Tässä tutkimuksessa käsitellään paperilomakkeiden digitalisointiin liittyvää kokonaisprosessia yleisellä tasolla. Prosessiin tutustutaan tarkastelemalla eri osa-alueiden toimintoja ja laitteita kokonaisjärjestelmän vaatimusten näkökul- masta. Tarkastelu aloitetaan paperilomakkeiden skannaamisesta ja lopetetaan kerättyjen tietojen tallentamiseen tietomalliin. Lisäksi luodaan silmäys markki- noilla oleviin valmisratkaisuihin, jotka sisältävät prosessin kannalta oleelliset toiminnot. Avainsanat ja -sanonnat: lomake, skannaus, lomakerakenne, lomakemalli, OCR, OFR, tietomalli. ii Lyhenteet ADRT = Adaptive Document Recoginition Technology API = Application Programming Interface BAG = Block Adjacency Graph DIR = Document Image Recognition dpi= Dots Per Inch ICR = Intelligent Character Recognition IFPS = Intelligent Forms Processing System IR = Information Retrieval IRM = Image and Records Management IWR = Intelligent Word Recognition NAS = Network Attached Storage OCR = Optical Character Recognition OFR = Optical Form Recognition OHR = Optical Handwriting Recognition OMR = Optical Mark Recognition PDF = Portable Document Format SAN = Storage Area Networks SDK = Software Development Kit SLM = Statistical Language Model SOAP = Simple Object Access Protocol iii Sisällys 1. Johdanto ...................................................................................................................... 1 2. Yleiskuvaus paperilomakkeiden digitalisointiprosessista .................................. 4 2.1. Prosessin toteuttaminen ................................................................................. 5 2.2. Varmistus .......................................................................................................... 6 3. Paperilomakkeiden skannaus digitaalisiksi .......................................................... 8 3.1. Kuvanlukija ...................................................................................................... 8 3.2. Kuvan korjaus ................................................................................................ 10 3.2.1. Suoristus ............................................................................................ 10 3.2.2. Artefaktien poisto kuvasta .............................................................. 12 3.3. Tehokkuus ...................................................................................................... 13 4. Lomakerakenteen tunnistaminen .......................................................................... 16 4.1. Automatisoitu tunnistaminen ..................................................................... 17 4.2. Dokumenttitietämys ..................................................................................... 18 4.3. Taulukoiden tunnistaminen......................................................................... 18 4.4. Solujen tunnistaminen .................................................................................. 19 4.5. Värien käyttäminen ....................................................................................... 20 4.6. Editointi........................................................................................................... 20 5. Lomakemallilla tarkennusta lomakerakenteeseen ............................................. 21 6. Tekstintunnistaminen lomakkeen sisällöstä ........................................................ 23 6.1. Historiaa .......................................................................................................... 24 6.2. Esikäsittely ...................................................................................................... 24 6.3. Oikeellisuuden varmistus ............................................................................ 25 6.4. Jälkikäsittely ................................................................................................... 26 6.4.1. Tunnistus- ja kirjoitusvirheet .......................................................... 27 6.4.2. Manuaalinen korjaus ....................................................................... 28 6.5. Käsinkirjoitettu teksti .................................................................................... 29 6.6. Rajapinnat ....................................................................................................... 30 6.6.1. ABBYY FineReader .......................................................................... 30 6.6.2. Asprise OCR...................................................................................... 31 6.6.3. GOCR ................................................................................................. 32 6.6.4. OCR .Net ............................................................................................ 32 6.6.5. Tesseract OCR ................................................................................... 33 6.6.6. TOCR .................................................................................................. 34 6.7. Verkkopalvelut .............................................................................................. 35 6.7.1. OCR Terminal ................................................................................... 36 6.7.2. Online OCR ....................................................................................... 37 6.7.3. Muut verkkopalvelut ....................................................................... 38 iv 6.7.4. Integraatio tiedostonhallintaan ...................................................... 38 6.8. Tiedostoformaateista ..................................................................................... 39 7. Tiedot tietomalliin ................................................................................................... 41 7.1. Tunnettu tietomalli ........................................................................................ 41 7.2. Tuntematon tietomalli .................................................................................. 42 8. Diagnostiikka ja etähallinta prosessissa ............................................................... 43 9. Markkinakatsaus valmisratkaisuihin ................................................................... 45 9.1. ABBYY Finereader ......................................................................................... 45 9.2. FormSuite ........................................................................................................ 47 9.3. OCRopus ......................................................................................................... 48 9.4. SimpleIndex .................................................................................................... 48 9.5. WindFORM .................................................................................................... 49 10. Yhteenveto .............................................................................................................. 51 Viiteluettelo .................................................................................................................. 53 Liite 1 ............................................................................................................................. 62 Liite 2 ............................................................................................................................. 64 1 1. Johdanto Kotona ja toimistoissa on pyöritelty ja käsitelty paperisia lomakkeita jo iät ja ajat. Teknologisen kehityksen myötä paperilomakkeiden käyttötarve on vain kasvanut, vaikka voisi toisin olettaa. Omalta osaltaan lain säädöksetkin vaikut- tavat tarpeeseen, koska tietyissä tapauksissa lomakkeet on arkistoitava määrä- tyksi ajaksi. Suuntauksen kääntämiseksi turhien tulostusten osalta nykypäivänä suositaan paperittoman toimiston konseptia sekä ekologisista syistä että kus- tannustehokkuuden takia. Täydellistä paperittomuutta ei ole kuitenkaan help- po saavuttaa, sillä suuri osa ihmisistä on tottunut käyttämään sekä täyttämään paperilomakkeita. Lisäksi on tilanteita, joissa sähköinen lomake ei myöskään toimi riittävän tehokkaasti tai käyttäminen voi olla mahdotonta. Unohtaa ei myöskään sovi sitä, että paperittomuuden tavoittelun on lähdettävä liikkeelle lomaketta käyttävästä tahosta. Käyttötapauksia, joihin sähköinen lomake ei sovellu kovinkaan hyvin, ovat esim. erilaiset paikan päällä täytettävät kyselyt, esitäytettävät asiointi-, hake- mus- ja arvontalomakkeet. Lomakkeiden sähköinen täyttäminen paikan päällä olisi mahdollista toteuttaa, mutta se vaatisi huomattavia henkilöstö- ja laitteis- toresursseja. Paperilomakkeella saavutetaan myös parempi hyötysuhde, koska paperi on halpaa ja lomake voidaan jakaa useammalle ihmiselle täytettäväksi yhtä aikaa. Lisäksi paperilomake voidaan jakaa “anna ja unohda”-periaatteella: lomake annetaan ihmiselle, ja samalla häntä pyydetään palauttamaan se täyt- tämisen jälkeen palautuslaatikkoon tms. paikkaan. Erillisen laitteen vaativaa sähköistä lomaketta ei voida laitteen hinnan takia käsitellä näin vapaasti, koska laite on kuitenkin saatava takaisin. Täyttämätön paperilomake sen sijaan on hukattavissa. Toimistot toimivat nykyään pitkälti sähköisesti, ja tästä johtuen lomakkeet on saatava digitaaliseen muotoon,