¿Qué Ofrece Autentia Real Business Solutions S.L? Somos Su Empresa De Soporte a Desarrollo Informático
Total Page:16
File Type:pdf, Size:1020Kb
Avenida de Castilla,1 - Edificio Best Point - Oficina 21B 28830 San Fernando de Henares (Madrid) tel./fax: +34 91 675 33 06 [email protected] - www.autentia.com ¿Qué ofrece Autentia Real Business Solutions S.L? Somos su empresa de Soporte a Desarrollo Informático. Ese apoyo que siempre quiso tener... 1. Desarrollo de componentes y proyectos a medida 2. Auditoría de código y recomendaciones de mejora 3. Arranque de proyectos basados en nuevas tecnologías 1. Definición de frameworks corporativos. 2. Transferencia de conocimiento de nuevas arquitecturas. 3. Soporte al arranque de proyectos. 4. Auditoría preventiva periódica de calidad. 5. Revisión previa a la certificación de proyectos. 6. Extensión de capacidad de equipos de calidad. 7. Identificación de problemas en producción. 3a RFP Concurso Verificación Gran Empresa previa Consultora 1 Producción Tecnología Consultora 2 Certificación Desarrollo o Pruebas Consultora 3 Sistemas 3b Piloto Equipo propio desarrollo autentia 4. Cursos de formación (impartidos por desarrolladores en activo) JPA-Hibernate, MyBatis Spring MVC, JSF-PrimeFaces /RichFaces, Control de autenticación y Motor de búsqueda empresarial (Solr) HTML5, CSS3, JavaScript-jQuery acceso (Spring Security) UDDI ETL (Talend) Web Services Rest Services Dirección de Proyectos Informáticos. Gestor portales (Liferay) Social SSO Metodologías ágiles Gestor de contenidos (Alfresco) SSO (Cas) Patrones de diseño Aplicaciones híbridas TDD Tareas programadas (Quartz) BPM (jBPM o Bonita) Gestor documental (Alfresco) Generación de informes (JasperReport) Inversión de control (Spring) ESB (Open ESB) Compartimos nuestro conociemiento en: Para más información visítenos en: www.adictosaltrabajo.com www.autentia.com Tutoriales en AdictosAlTrabajo: Java, J2EE, Visual C++, Linux, UML, OOP y mucho m ás Página 1 de 14 Home | Quienes Somos | Empleo | Tutoriales | Contacte Tutorial desarrollado por: Alberto Carrasco Montenegro Puedes encontrarme en Autentia Somos expertos en Java/J2EE Contacta en [email protected] Descargar este documento en formato PDF ocr.pdf Firma en nuestro libro de Visitas OCR Software Reisswolf Catalunya PDF Writer & PDF2Word Hebrew OCR toolkit Download a Free Evaluation Copy! Destrucción Confidencial Convert PDFs to Word, HTML files. OCR, ICR, Barcode and form Creates Super-Compressed PDF Documentos y Archivos. Professional quality, easy to use. recognition SDK Files. Destrucción Certificada Anuncios Goooooogle Anunciarse en este sitio En Autentia nos involucramos diariamente en el desarrollo de proyectos software de diversos tipos, según reclama el propio mercado actualmente. Un tipo de aplicaciones bastante popular son aquellas destinadas a la gestión documental. El abanico de funcionalidades que pueden englobar este tipo de aplicaciones puede ser bastante amplio. Entre otras, son de especial importancia aquellas destinadas a la búsqueda y extracción de información desde los documentos gestionados. Hoy os queremos mostrar una pequeña introducción a la tecnología OCR como una herramienta muy útil para realizar algunas de estas funciones de extracción de información desde documentos. 1. Aspectos b ásicos sobre OCR OCR ( Optical Character Recognition ) es una tecnología que permite transformar el contenido de una imagen en texto plano. Normalmente, el contenido de una imagen que suele transformarse es aquél asociado a cadenas de texto, si bien algunas aplicaciones para OCR permiten transformar otro tipo de objetos gráficos contenidos en una imagen, como pueden ser, por ejemplo, códigos de barras. Esta tecnología tiene especial aplicabilidad en sistemas informáticos de gestión documental, como puede intuirse. Muchas aplicaciones de gestión documental suelen manejar documentos escritos, almacenados en archivos con diversos formatos de imagen (pdf, jpg, tiff, etc). Esto es debido fundamentalmente a que la base documental de este tipo de aplicaciones suele obtenerse tras realizar un proceso de digitalización (escaneo, etc) de los documentos impresos en papel, a fin de poder ser manejados por dicha aplicación. El uso de aplicaciones OCR permite extraer el contenido textual de documentos contenidos en formato de imagen, a fin de realizar diversas funciones de gestión documental, tales como: Búsqueda de documentos con cierta información. Extracción de la información concreta de un documento. Pasar de un documento escrito contenido en un archivo de imagen, a un archivo con formato de texto plano. Un ejemplo sencillo de aplicación de la tecnología OCR podría ser el siguiente. Se tiene la siguiente imagen y desea extraerse el texto contenido en la misma: Idealmente, aplicando OCR se obtendría la cadena de texto asociada: Autentia Real Business Solutions. Soporte al desarrollo. http://www.adictosaltrabajo.com/tutoriales/tutoriales.php?pagina=ocr 23/03/2006 Tutoriales en AdictosAlTrabajo: Java, J2EE, Visual C++, Linux, UML, OOP y mucho m ás Página 2 de 14 Se dice idealmente porque, como puede suponerse, la eficacia total del OCR en la vida real a veces es tarea difícil. El porcentaje de recuperación del contenido textual de una imagen puede estar limitado a aspectos como el tipo, tamaño o color de la letra, “ruido” del documento (manchas, contraste, mezcla de caracteres entre sí o con otros objetos gráficos), etc. En este documento se ilustrará la utilización de la tecnología OCR utilizando las librerías de la compañía Asprise , así como la aplicación de libre distribución GOCR. En los siguientes apartados se comentará como obtener este software y utilizarlo para realizar reconocimiento de caracteres desde archivos de imágenes. 2. Utilizando las librer ías de Asprise Las librerías de Asprise para utilizar tecnología OCR están disponibles en diversos lenguajes de programación tales como C/C++, Java, Delphi, Visual, etc. Son capaces de realizar reconocimiento de caracteres sobre infinidad de formatos de imágenes, tales como: Aparte de reconocimiento de caracteres alfanuméricos, estas librerías incorporan la funcionalidad de reconocimiento de códigos de barras. 2.1. Instalaci ón y requisitos Los ejemplos que se estudiarán con estas librerías, se desarrollaron y ejecutaron en un entorno Windows XP . En este caso, para emplear la tecnología OCR se utilizó la versión 3.0 de Asprise OCR SDK para Windows. Más concretamente, se opt ó por las librerías para trabajar en C/C++/Delphi, cuya distribución de evaluación asociada (archivo ocr-eval-c.zip ) puede obtenerse gratuitamente desde el siguiente enlace: http://asprise.net/download/software/ocr/ocr -eval -c.zip Una vez descomprimido dicho archivo (supóngase, al directorio OCR-C), es necesario copiar al directorio del sistema operativo (habitualmente C:\Windows) las siguientes librerías dinámicas: OCR-C\ AspriseOCR.dll OCR-C\ DevIL.dll OCR-C\ ILU.dll Como entorno de desarrollo se eligió Visual C++ 2005 Express Edition, que puede instalarse gratuitamente desde la dirección: http://msdn.microsoft.com/vstudio/express/visualc/download/default.aspx Una vez creado un nuevo proyecto con este entorno, deberán copiarse los siguientes archivos a las carpetas de proyecto indicadas: OCR-C\AspriseOCRLib\include\ AspriseOCR.h a Header Files OCR-C\AspriseOCRLib\lib\ AspriseOCR.lib a Resource Files http://www.adictosaltrabajo.com/tutoriales/tutoriales.php?pagina=ocr 23/03/2006 Tutoriales en AdictosAlTrabajo: Java, J2EE, Visual C++, Linux, UML, OOP y mucho m ás Página 3 de 14 Con estos pocos pasos, ya se tiene preparado un entorno para realizar programas en C que utilicen la tecnología OCR, tal como se mostrará a continuación. 2.2. La funci ón OCR La función fundamental de estas librerías para realizar OCR sobre imágenes es OCR , cuya interfaz es la siguiente: [char *] OCR([char *] imagePath, [int] imageFileType) El significado de sus argumentos de entrada es el siguiente: imagePath es una cadena de caracteres que contiene la ruta completa de la imagen sobre la que se desea hacer OCR. imageFileType indica el tipo de imagen que contiene el archivo indicado en imagePath . Las constantes definidas por defecto para indicar el tipo de imagen en imageFileType se encuentran en el fichero AspriseOCR.h (ubicado en la carpeta de proyecto Header Files). Son las siguientes: En general, puede utilizarse la constante IMAGE_TYPE_AUTO_DETECT para dejar que la función OCR detecte automáticamente el formato de la imagen. Esta función realiza OCR tanto sobre caracteres alfanuméricos como sobre códigos de barras, tal como se mostrará. El retorno de esta función es una cadena de caracteres con el resultado del OCR realizado sobre la imagen. Si reconoce un código de barras, la cifra correspondiente la encerrará entre corchetes (“[“, “]”). Se realiza un sencillo programa de prueba de esta función con las siguientes lineas de código: #include <stdio.h> #include "AspriseOCR.h" http://www.adictosaltrabajo.com/tutoriales/tutoriales.php?pagina=ocr 23/03/2006 Tutoriales en AdictosAlTrabajo: Java, J2EE, Visual C++, Linux, UML, OOP y mucho m ás Página 4 de 14 int main(int argc, char* argv[]) { //Cadena que contendra el resultado del OCR char *text = ""; //Ruta de la imagen char *input = "C:/autentia.jpg"; //OCR de la imagen text = OCR(input, IMAGE_TYPE_AUTO_DETECT); //Imprimir por salida estandar el resultado printf("------- RESULTADO -------\n\n"); printf(text); printf("\n\n-------------------------\n\n"); return 0; } El programa simplemente realizará OCR sobre la imagen indicada y mostrará el resultado por pantalla. La imagen autentia.jpg tiene el siguiente contenido: Se edita y guardan las líneas de código anteriores