OCR with Printed Text Author: Gerry Kennedy © ICT Consultancy
Total Page:16
File Type:pdf, Size:1020Kb
Load more
Recommended publications
-
OCR Pwds and Assistive Qatari Using OCR Issue No
Arabic Optical State of the Smart Character Art in Arabic Apps for Recognition OCR PWDs and Assistive Qatari using OCR Issue no. 15 Technology Research Nafath Efforts Page 04 Page 07 Page 27 Machine Learning, Deep Learning and OCR Revitalizing Technology Arabic Optical Character Recognition (OCR) Technology at Qatar National Library Overview of Arabic OCR and Related Applications www.mada.org.qa Nafath About AboutIssue 15 Content Mada Nafath3 Page Nafath aims to be a key information 04 Arabic Optical Character resource for disseminating the facts about Recognition and Assistive Mada Center is a private institution for public benefit, which latest trends and innovation in the field of Technology was founded in 2010 as an initiative that aims at promoting ICT Accessibility. It is published in English digital inclusion and building a technology-based community and Arabic languages on a quarterly basis 07 State of the Art in Arabic OCR that meets the needs of persons with functional limitations and intends to be a window of information Qatari Research Efforts (PFLs) – persons with disabilities (PWDs) and the elderly in to the world, highlighting the pioneering Qatar. Mada today is the world’s Center of Excellence in digital work done in our field to meet the growing access in Arabic. Overview of Arabic demands of ICT Accessibility and Assistive 11 OCR and Related Through strategic partnerships, the center works to Technology products and services in Qatar Applications enable the education, culture and community sectors and the Arab region. through ICT to achieve an inclusive community and educational system. The Center achieves its goals 14 Examples of Optical by building partners’ capabilities and supporting the Character Recognition Tools development and accreditation of digital platforms in accordance with international standards of digital access. -
Design and Implementation of a System for Recording and Remote Monitoring of a Parking Using Computer Vision and Ip Surveillance Systems
VOL. 11, NO. 24, DECEMBER 2016 ISSN 1819-6608 ARPN Journal of Engineering and Applied Sciences ©2006-2016 Asian Research Publishing Network (ARPN). All rights reserved. www.arpnjournals.com DESIGN AND IMPLEMENTATION OF A SYSTEM FOR RECORDING AND REMOTE MONITORING OF A PARKING USING COMPUTER VISION AND IP SURVEILLANCE SYSTEMS Albeiro Cortés Cabezas, Rafael Charry Andrade and Harrinson Cárdenas Almario Department of Electronic Engineering, Surcolombiana University Grupo de Tratamiento de Señales y Telecomunicaciones, Pastrana Av. Neiva Colombia, Huila E-Mail: [email protected] ABSTRACT This article presents the design and implementation of a system for detection of license plates for a public parking located at the municipality of Altamira at the state of Huila in Colombia. The system includes also, a module of surveillance cameras for remote monitoring. The detection system consists of three steps: the first step consists in locating and cutting the vehicle license plate from an image taken by an IP camera. The second step is an optical character recognition (OCR), responsible for identifying alphanumeric characters included in the license plate obtained in the first step. And the third step consists in the date and time register operation for the vehicles entry and exit. This data base stores also the license plate number, information about the contract between parking and vehicle owner and billing. Keywords: image processing, vision, monitoring, surveillance, OCR. 1. INTRODUCTION vehicles in a parking and store them in digital way to gain In recent years the automatic recognition plates control of the activity in the parking, minimizing errors numbers technology -ANPR- (Automatic Number Plate that entail manual registration and storage of information Recognition) has had a great development in congestion in books accounting and papers. -
A Survey of Modern Optical Character Recognition Techniques, AMS 2004 2
A survey of modern optical character recognition techniques Eugene Borovikov American Management Systems, Inc. 4831 Walden Lane, Lanham, MD 20706 +1 (301) 306-2800 March 2004 Abstract This report explores the latest advances in the field of digital document recognition. With the focus on printed document imagery, we discuss the major developments in optical character recognition (OCR) and document image enhancement/restoration in application to Latin and non-Latin scripts. In addition, we review and discuss the available technologies for hand-written document recognition. In this report, we also provide some company-accumulated benchmark results on available OCR engines. arXiv:1412.4183v1 [cs.CV] 13 Dec 2014 1 A survey of modern optical character recognition techniques, AMS 2004 2 Contents 1 Introduction 3 1.1 OCR is a successful branchof PatternRecognition . .............. 3 1.2 TwocategoriesofOCRsystems. .......... 3 1.3 MajortrendsinmodernOCR............................ ........ 4 1.4 Main focus and motivation of this report . ........... 5 2 Optical character recognition 5 2.1 EssentialOCRtechniques . .. .. .. .. .. .. .. .. .. .. .. .. ......... 5 2.2 Currently available OCR systems . ......... 6 2.2.1 Commercial OCR solutions . .... 6 2.2.2 Public domain OCR resources . ..... 7 2.3 Why optical character recognition is difficult . ........... 8 2.4 Documentimagetypes................................ ........ 9 2.4.1 Scanneddocuments ................................ ..... 11 2.4.2 Othermedia ....................................... . -
Yelieseva S. V. Information Technologies in Translation.Pdf
The Ministry of Education and Science of Ukraine Petro Mohyla Black Sea National University S. V. Yelisieieva INFORMATION TECHNOLOGIES IN TRANSLATION A STUDY GUIDE PMBSNU Publishing House Mykolaiv – 2018 S. V. Yelisieieva UDC 81' 322.2 Y 40 Рекомендовано до друку вченою радою Чорноморського національного університету імені Петра Могили (протокол № 12 від 03.07.2018). Рецензенти: Демецька В. В., д-р філол. наук, професор, декан факультету перекладознавства Херсонського державного університету; Філіпова Н. М., д-р філол. наук, професор кафедри прикладної лінгвістики Національного морського університету ім. адмірала Макарова; Кондратенко Ю. П., д-р техн. наук, професор, професор кафедри інтелектуальних інформаційних систем факультету коп’ютерних наук Чорноморського національного університету ім. Петра Могили; Бабій Ю. Б., канд. філол. наук, доцент кафедри прикла- дної лінгвістики Миколаївського національного університету ім. В. О. Сухомлинського. Y 40 Yelisieieva S. V. Information Technologies in Translation : A Study Guide / S. V. Yelisieieva. – Мykolaiv : PMBSNU Publishing House, 2018. – 176 р. ISBN 978-966-336-399-8 The basis of the training course Information Technologies in Translation lies the model of work cycle on translation, which describes the sequence of necessary actions for qualified performance and further maintenance of written translation order. At each stage, translators use the appropriate software (S/W), which simplifies the work and allows to improve the quality of the finished documentation. The course familiarizes students with all stages of the translation work cycle and with those components of the software used at each stage. Besides, this training course includes information on working with the latest multimedia technologies that are widely used nowadays for presentations of various information materials. -
PDF Extractor
DELIVERABLE Project Acronym: EuDML Grant Agreement number: 250503 Project Title: The European Digital Mathematics Library D7.1: State of the Art of Augmenting Metadata Techniques and Technology Revision: 1.2 as of 2nd November 2010 Authors: Petr Sojka MU, Masaryk University, Brno Josef Baker UB, University of Birmingham Alan Sexton UB, University of Birmingham Volker Sorge UB, University of Birmingham Contributors: Michael Jost FIZ, Karlsruhe Aleksander Nowinski´ ICM, Warsaw Peter Stanchev IMI-BAS, Sofia Thierry Bouche, Claude Goutorbe CMD/UJF, Grenoble Nuno Freie, Hugo Manguinhas IST, Lisbon Łukasz Bolikowski ICM, Warsaw Project co-funded by the European Comission within the ICT Policy Support Programme Dissemination Level P Public X C Confidential, only for members of the consortium and the Commission Services Revision History Revision Date Author Organisation Description 0.1 31th October 2010 Petr Sojka MU First prerelease. 0.2 2nd November 2010 Josef Baker UB OCR stuff added. 0.3 11th November 2010 PS,JB,AS,VS MU, UB Restructured. 0.4 23th November 2010 Petr Sojka MU TB’s part added. 0.5 27th November 2010 Petr Sojka MU Near to final polishing, TODO removal, release for language and stylistic checking. 1.0 27th November 2010 Petr Sojka MU Release for internal review, with language checked by AS and NER part by ICM. 1.1 28th November 2010 Alan Sexton UB Minor corrections. 1.2 2nd December 2010 Petr Sojka MU Release for EU with com- ments from JR, MBa, and with part added by HM and extended conversions part. Statement of originality: This deliverable contains original unpublished work except where clearly indicated otherwise. -
Extracción Automáticas De Modelos Uml Contenidos En Imágenes
Universidad Carlos III de Madrid Departamento de Informática Doctorado en Ciencia y Tecnología Informática EXTRACCIÓN AUTOMÁTICA DE MODELOS UML CONTENIDOS EN IMÁGENES Tesis Doctoral Autor Valentín Moreno Pelayo Director Prof. Dr. D. Juan Bautista Llorens Morillo Prof. Dr. Gonzalo Génova Fuster Leganés, noviembre de 2015 TESIS DOCTORAL EXTRACCIÓN AUTOMÁTICAS DE MODELOS UML CONTENIDOS EN IMÁGENES Autor: Valentín Moreno Pelayo Director/es: Juan Bautista Llorens Morillo Gonzalo Génova Fuster Firma del Tribunal Calificador: Firma Presidente: (Nombre y apellidos) Vocal: (Nombre y apellidos) Secretario: (Nombre y apellidos) Calificación: Leganés, de de A mi familia y amigos Resumen Aunque parezca extraño, pese a no poder encontrar sitios web especializados en ofertar diseños de software representados mediante diagramas UML, existe una ingente cantidad de documentación a disposición de cualquiera, y que contiene dichos modelos: como imágenes en documentos textuales. Este universo de información no se encuentra fácilmente accesible para los desarrolladores porque no es posible, con la tecnología actual, buscar de forma precisa información semántica dentro de imágenes. Lo único que pueden hacer los desarrolladores es intentar buscar documentos relevantes, leerlos, y decidir si los diseños le sirven a sus intereses. Para evitar este problema, y conseguir poner a disposición de toda la comunidad de desarrolladores centenas de miles de diseños, este trabajo pretende desarrollar la metodología necesaria para poder extraer la información textual y gráfica de las imágenes que representen diagramas UML, y convertirla en información pura UML (es decir, en modelos UML reales). El poner a disposición de los analistas, desarrolladores de software, o interesados tal cantidad de diagramas y modelos de software permitirá la aplicación de técnicas modernas de reutilización de software basadas en la búsqueda de diagramas UML. -
OCR API'leri Ve Gerçek Zamanlı OCR Uygulaması Hüseyin KUTLU1
OCR API’leri ve Gerçek Zamanlı OCR Uygulaması Hüseyin KUTLU1, Ersan YAZAN2 1 Adıyaman Üniversitesi, Besni Meslek Yüksekokulu, Adıyaman 2 Adıyaman Üniversitesi, Besni Meslek Yüksekokulu, Adıyaman [email protected], [email protected], Özet: Optik Karakter Tanıma veya OCR, taranmış kâğıt evrakları, PDF dosyaları veya dijital bir kamerayla çekilen resimler gibi değişik belge türlerini düzenlenebilir ve aranabilir verilere dönüştürmenize olanak sağlayan bir teknolojidir. Bir tarayıcının tüm yapabileceği şey, belgenin resmini oluşturmaktır ki bu raster görüntüsü olarak bilinen siyah beyaz veya renkli noktalar topluluğundan başka bir şey değildir. Taranmış belgelerden, kamera resimlerinden verileri çıkartmak ve başka bir amaç için düzenlemek amacıyla resimlerdeki harfleri seçip ayıracak, onlardan kelimeleri ve kelimelerden de cümleleri oluşturup bu sayede orijinal belgenin içeriğine erişmenize ve düzenlemenize olanak tanıyacak bir OCR yazılımları mevcuttur. Söz konusu yazılımlar çeşitli amaçlar için kullanılmak üzere API’lere dönüşmüşlerdir. Yapılan çalışmada gerçek zamanlı görüntüden OCR API’leri (OCR Motoru - OCR Engines) ile metin okuması gerçekleştirilmiş, OCR API’lerinin kullanım alanları belirtilmiş ve performansları karşılaştırılmıştır. Anahtar Sözcükler: OCR, OCR API, OCR Motoru, Gerçek Zamanlı OCR uygulaması, EmguCV, Tesseract. OCR API’s and Real Time OCR APLİCATİON Abstract: Optical Character Recognition, or OCR scanned paper documents, PDF files , such as pictures taken with a digital camera or a different document types -
HISTORIA DE OCR Reconocimiento Óptico De Caracteres
RECONOCIMIENTO ÓPTICO DE CARACTERES (OCR) CON REDES NEURONALES ESTADO DEL ARTE OPTICAL CHARACTER RECOGNITION (OCR) WITH NEURAL NETWORKS STATE OF THE ART Juan Pablo Ordóñez L. Loja 086244139 [email protected] RESUMEN conversion of written text on paper to text Los sistemas que, a partir de un texto stored in an ASCII file. escrito o impreso en papel o similar, WORKS KEY: Ocr, network neuronal, crean un fichero de texto en un soporte de Recognition of manuscripts. almacenamiento informático, se denominan Sistemas de OCR (Optical Character Recognition), o de HISTORIA DE OCR Reconocimiento óptico de Caracteres. Un sistema OCR cuenta con las siguientes características: de poder "aprender", En 1929, Gustav Tauschek obtuvo una mediante una red neuronal, patrones de patente sobre OCR en Alemania, luego, caracteres que representen las posibles Handel en 1933 obtiene la patente de variaciones (tamaño) de la forma de los diferentes caracteres impresos que pueden OCR en EEUU. En 1935, a Tauschek aparecer en los documentos, para en el también se le concedió una patente en futuro y con la misma red, poder EEUU por su método. "reconocerlos" y realizar la conversión del texto escrito en papel a texto La máquina de Tauschek era un almacenado en un fichero ASCII. dispositivo mecánico que utilizaba PALABRAS CLAVE: Ocr, Redes plantillas. Un foto-detector era colocado neuronales, Reconocimiento de de modo que cuando la plantilla y el manuscritos. carácter que se reconocería estuvieran ABSTRACT alineados, una luz era dirigida hacia ellos. Systems that, from a written or printed on paper or similar, creating a text file on a En 1950, David Shepard, criptoanalista en storage medium for computer systems are la agencia de seguridad de las fuerzas called OCR (Optical Character Recognition). -
Hur Ser Framtiden Ut För OCR?
Hur ser framtiden ut för OCR? Mikael Lund Maj 2007 Hur ser framtiden ut för OCR? 2 Sammandrag Examensarbetet handlar om OCR (Optical Character Recognition). OCR-tekniken går ut på att konvertera inskannade bilder från maskinskriven eller handskriven text (siffror, bokstäver och symboler) till datorformat. Syftet med detta examensarbete är att utforska OCRs framtid och vilka användningsområden som finns idag för tekniken. Det intressanta är att se hur OCR klarar sig när mer och mer material är digitala. Genomförandet till detta examensarbete har gjorts med information från böcker, Internet, mejl och genom att tittat närmare på ett företag inom den grafiska branschen som använder sig av OCR, nämligen Aftonbladet. Jag har även testat ett OCR-program, ABBYYs FineReader 8 och gjort tester med några testteman, exempelvis matematiktest och olika tester på artiklar från några tidningar. Mina slutsatser är att OCR har en framtid men tekniken har en del förbättringsmöjligheter, exempelvis tolkning av handskrivna texter. OCR kan finnas kvar även när mer och mer material blir digitala om det integreras i befintliga tekniker, som i ett spam-filter för att tolka texten i bilden. Den nuvarande OCR-tekniken fungerar bra om materialet är maskinskrivet och i bra skick men den måste bli bättre på att tolka handskrivna texter för att kunna användas vid arkiveringsbehov av sådana texter. Nyckelord OCR, hur tekniken fungerar, OCR-program, användningsområden, test av FineReader, Raymond Kurzweil Hur ser framtiden ut för OCR? 3 Abstract How is the future of OCR? My examination subject is about OCR (Optical Character Recognition). The idea of OCR- technology is to convert scanned images of machine-printed or handwritten text (numerals, letters and symbols) into a computer-processable format. -
HISTORIA DE OCR Reconocimiento Óptico De Caracteres
RECONOCIMIENTO ÓPTICO DE CARACTERES (OCR) CON REDES NEURONALES ESTADO DEL ARTE OPTICAL CHARACTER RECOGNITION (OCR) WITH NEURAL NETWORKS STATE OF THE ART Juan Pablo Ordóñez L. Loja 086244139 [email protected] RESUMEN conversion of written text on paper to text Los sistemas que, a partir de un texto stored in an ASCII file. escrito o impreso en papel o similar, WORKS KEY: Ocr, network neuronal, crean un fichero de texto en un soporte de Recognition of manuscripts. almacenamiento informático, se denominan Sistemas de OCR (Optical Character Recognition), o de HISTORIA DE OCR Reconocimiento óptico de Caracteres. Un sistema OCR cuenta con las siguientes características: de poder "aprender", En 1929, Gustav Tauschek obtuvo una mediante una red neuronal, patrones de patente sobre OCR en Alemania, luego, caracteres que representen las posibles Handel en 1933 obtiene la patente de variaciones (tamaño) de la forma de los diferentes caracteres impresos que pueden OCR en EEUU. En 1935, a Tauschek aparecer en los documentos, para en el también se le concedió una patente en futuro y con la misma red, poder EEUU por su método. "reconocerlos" y realizar la conversión del texto escrito en papel a texto La máquina de Tauschek era un almacenado en un fichero ASCII. dispositivo mecánico que utilizaba PALABRAS CLAVE: Ocr, Redes plantillas. Un foto-detector era colocado neuronales, Reconocimiento de de modo que cuando la plantilla y el manuscritos. carácter que se reconocería estuvieran ABSTRACT alineados, una luz era dirigida hacia ellos. Systems that, from a written or printed on paper or similar, creating a text file on a En 1950, David Shepard, criptoanalista en storage medium for computer systems are la agencia de seguridad de las fuerzas called OCR (Optical Character Recognition). -
Aplicación De Visión Por Computador Para El Reconocimiento Automático De Placas Vehiculares Utilizando OCR’S Convencionales
Aplicación de Visión por Computador para el Reconocimiento Automático de Placas Vehiculares utilizando OCR’s Convencionales. Richard Gutierrez1 Ma. Fernanda Frydson2 Phd. Boris Vintimilla3 Fac. Ing. en Electricidad y Computación Escuela Superior Politécnica del Litoral Campus Gustavo Galindo Km. 30.5 vía Perimetral Guayaquil, Ecuador 1 2 3 [email protected]; [email protected]; [email protected] Resumen En este artículo se presenta el desarrollo de una solución a problemas que se presentan en el reconocimiento óptico de caracteres (OCR), particularmente en una placa vehicular. Se utiliza Tesseract como algoritmo OCR por ser robusto, potente y por su capacidad de ser entrenado; se muestran los principales problemas al momento de reconocer una placa vehicular, así como una serie de métodos de corrección de caracteres en los cuales se presentan dificultades al realizar el reconocimiento y así generar una librería de modelos que pueda ser utilizada como base teórica en la generación de otras librerías. A pesar de enfocarse únicamente en el reconocimiento de las matrículas del Ecuador, los métodos y técnicas de corrección son válidos para el reconocimiento de placas de cualquier otro país. Se establece también una clasificación de placas por su estado, así como también diferentes medidas de ángulos de rotación de una placa (horizontal y vertical), para determinar sus límites y considerarlos al momento del reconocimiento. Palabras Claves: OCR, ANPR, Algoritmos, Reconocimiento, Placas, Vehículos, Técnicas OCRs. Abstract This article presents the development of a solution to problems encountered in optical character recognition (OCR), particularly in one license plate. Tesseract algorithm is used as OCR to be robust, powerful and his ability to be trained, showing the main problems when a license plate recognition, as well as a number of correction methods in which characters have difficulty performing recognition and generate a library of models that can be used as a theoretical basis in the generation of other libraries. -
Dokumentenkamera Und Belegleser Für „SISI“
Die approbierte Originalversion dieser Diplom-/ Masterarbeit ist in der Hauptbibliothek der Tech- nischen Universität Wien aufgestellt und zugänglich. http://www.ub.tuwien.ac.at The approved original version of this diploma or master thesis is available at the main library of the Vienna University of Technology. http://www.ub.tuwien.ac.at/eng Dokumentenkamera und Belegleser für „SISI“ DIPLOMARBEIT zur Erlangung des akademischen Grades Diplom-Ingenieur im Rahmen des Studiums Medizinische Informatik eingereicht von Christian Hinterer Matrikelnummer 0927843 an der Fakultät für Informatik der Technischen Universität Wien Betreuung Betreuer: Ao.Univ.Prof. Dipl.-Ing. Dr. techn. Wolfgang Zagler Mitwirkung: Projektass. Dipl.-Ing. Christian Beck Wien, 02.11.2016 (Unterschrift Verfasser) (Unterschrift Betreuer) Technische Universität Wien A-1040 Wien ▪ Karlsplatz 13 ▪ Tel. +43-1-58801-0 ▪ www.tuwien.ac.at i Erklärung zur Verfassung der Arbeit Hiermit erkläre ich, dass ich diese Arbeit selbstständig verfasst habe, dass ich die verwendeten Quellen und Hilfsmittel vollständig angegeben habe und dass ich die Stellen der Arbeit – ein- schließlich Tabellen, Karten und Abbildungen –, die anderen Werken oder dem Internet im Wortlaut oder dem Sinn nach entnommen sind, auf jeden Fall unter Angabe der Quelle als Entlehnung kenntlich gemacht habe. Christian Hinterer 7022 Schattendorf, 02.11.2016 Ort, Datum, Unterschrift ii Kurzzusammenfassung Bargeldloser Zahlungsverkehr, speziell e-banking, birgt für viele Menschen, insbesondere äl- tere, die es zeitlebens gewohnt waren, bar zu bezahlen und ihre Bankgeschäfte direkt mit einem bzw. einer Bankangestellten abzuwickeln, große Probleme. Im Rahmen dieser Diplom- arbeit wird gezeigt, wie das am Zentrum für Angewandte Assistierende Technologien der TU Wien entwickelte „Senioren Terminal - SISI“ bzw.