Antecedentes I: Estado Del Arte
Total Page:16
File Type:pdf, Size:1020Kb
Capítulo 3 Antecedentes I: Estado del arte 3.1. El documento electrónico Con la llegada de la era de la tecnología digital y la extensión masiva del uso de redes informáticas tanto en el ámbito de negocio como el particular, el papel ha sido relegado como método por excelencia para el almacenamiento y transmisión de la información para dar paso al documento electrónico [41]. Según Michael Buckland 1, un documento se define como un contenedor de información [39], es decir, todo aquello que permite organizar, presentar y gestionar información relativa a una temática determinada. Así, un documento se califica como electrónico si se encuentra físicamente almacenado en un dispositivo electrónico o unidad externa de un dispositivo de este tipo, comprensible sin ningún procesamiento adicional, excepto la representación de las propias páginas. Hoy en día es más que habitual que cualquier tipo de documento (cartas, facturas, libros, etc.) tenga su origen en un medio informático previo a su impresión y que se haga llegar, gracias a su formato digital, a través de la red telemática a múltiples destinatarios en un tiempo muy reducido, empleando por ejemplo el correo electrónico o e-mail. La ubicuidad de este tipo de documentos provoca que cada vez sean más numerosas las técnicas para la gestión de documentos electrónicos y que la demanda de calidad sea más exigente. Los documentos electrónicos pueden agruparse en dos grandes bloques: los de formato de texto y los de formato de audio. En este estudio nos centraremos en el primero de estos grupos, si bien es cierto que los avances en la tecnología hacen que cada vez más se diluyan las fronteras entre ambos en el llamado formato multimedia. En general, los documentos electrónicos con formato de texto más habituales usan códigos de 8 bits ya sean ASCII o ANSI/ISO y se dividen a su vez en dos categorías: de texto plano y texto estructurado [17]: 1Licenciado en computación. Profesor Instructor de la Universidad de Berkeley. 12 CAPÍTULO 3. ANTECEDENTES I: ESTADO DEL ARTE 13 Documentos de texto plano Los textos generados por las aplicaciones procesadoras de texto más corrientes como Block de notas, WordPerfect o Microsoft Word, se presentan en texto plano. Entre sus inconvenientes destacan su limitada capacidad para navegar entre los elementos del texto y su estructura diseñada para la lectura secuencial, dado que las posibles marcas que puedan contener no sirven para indicar la estructura conceptual del documento. Todas estas características y el hecho de que no se ha llegado a desarrollar un estándar sobre las marcas de formato a usar y que además, son textos generados por aplicaciones propietarias, los hacen no adecuados para la publicación digital. Así, los formatos RTF (Rich Text Format) y DOC del MS Word se crean con aplicaciones concretas y por lo tanto, no tienen la universalidad que se requiere en el mercado actual. Documentos de texto estructurado Los textos estructurados, a diferencia de los textos planos, contienen datos que per- miten su manipulación automática, es decir, su transformación con distintos fines, como por ejemplo visualización en pantalla, impresión, traducción a otro idioma, lec- tura en voz sintética o incluso su conversión a Braille. Para afrontar estos objetivos, los textos estructurados añaden "marcas" o "etiquetas" que aportan información más allá del propio contenido. Estas marcas informan de la función de un determinado fragmento dentro del documento como por ejemplo título, autor, párrafo, elemento de una lista, nota a pie de página, etc. Como es comprensible, las marcas pueden ser de múltiples tipos en función del objetivo que se le destine al documento y de ahí que se hayan desarrollado diversos sistemas. Entre estos sistemas destacan PDF y SGML (XML, HTML y XHTML) que se han impuesto en la publicación electrónica actual. • SGML (Standard Generalized Markup Language) SGML es un estándar ISO que surgió en 1986 [40]. Presenta dos características fundamentales: ◦ Se define como un meta lenguaje. Esto es, es un lenguaje que describe la sintaxis para los distintos tipos de marcado o etiquetado que se necesiten y no un lenguaje de marcado único para cualquier tipo de texto. Así, el meta lenguaje se emplea para definir cada uno de los lenguajes dentro de SGML. Esta descripción de cada lenguaje se llama DTD (Document Type Definition) y debe ser conocida por las aplicaciones que manipulen documentos SGML para tener conocimiento de las etiquetas a reconocer y las normas a seguir para el marcado. El marcado flexible de SGML es una gran ventaja sobre el rígido, dado que permite el uso de lenguajes muy simples para documentos con estructura sencilla y lenguajes complejos para documentos más compli- cados. ◦ Define la separación de la estructura del documento de su representación en cada dispositivo. Los aspectos relacionados con la representación del docu- mento no deben definirse en la DTD puesto que el dispositivo final que el usuario emplee para acceder al documento es desconocido a priori. Así, si se desea alterar la presentación por defecto, se deben emplear "hojas de estilo" cuyos estándares no se engloban dentro de SGML. Estas características han provocado que SGML haya triunfado a nivel empresari- al, académico y militar. Entre sus aplicaciones destaca World Wide Web (WWW) CAPÍTULO 3. ANTECEDENTES I: ESTADO DEL ARTE 14 que constituye la causa primera del éxito de Internet. Para la creación de páginas Web se emplea el lenguaje de marcado HTML (HyperText Markup Language) que es una variante especial de SGML. Se dice que es una variante especial porque no cumple con algunas de las características más importantes de SGML. La razón tiene su raíz en los orígenes de HTML, cuando los creadores de WWW y HTML (hoy agrupados en el consorcio WWW o W3 Consortium [13]) evitaron el uso de DTD s y hojas de estilo para conseguir la mayor simplificación posible. Así, los estándares de HTML desde las versiones 1.0 a 4.0 permiten el etiquetado de tanto información estructural como de estilo, lo que viola uno de los principios fundamentales de SGML. Sin embargo, HTML se ha consagrado como el formato principal para textos digitales. Para conseguir recuperar las cualidades de SGML y sin perder la compatibili- dad con los contenidos ya existentes en WWW, W3 desarrolló XML (eXtensible Markup Language) [14]. Desde este momento, los navegadores o programas que manipulen documentos XML deben validar la corrección de su sintaxis, emplean- do la DTD del lenguaje 2 si es necesario, y presentar los contenidos siguiendo las hojas de estilo. Entorno a XML surgen el lenguaje XSL (eXtensible Stylesheet Language) para la definición de estas hojas de estilo y CSS (Cascading Style Sheets) u hojas de estilo en cascada, con las que se puede mantener la compati- bilidad con las viejas normas HTML. La versión de HTML 5.0, XHTML, se define usando ya XML. Dentro de la familia XML han surgido múltiples lenguajes, entre los que señalam- os Open-eBook y DAISY [15]. • PDF (Portable Document Format) Portable Document Format es el formato creado por Adobe System para el inter- cambio de documentos en 1993 [7, 18]. Adobe constituye una de empresas más importantes en la provisión de software en el mercado editorial. Su principal éxito consiste en haber conseguido que sus formatos se hayan erigido como estándares de hecho en todo el mundo. En primer lugar, PostScript se impuso como formato de impresión en papel de alta calidad y posteriormente PDF, que abarca la impre- sión en papel y la visualización de documentos en cualquier dispositivo sin variar sus características visuales, de ahí que se le denomine como formato "portable". PDF proporciona la capacidad para poder visualizar cualquier documento de la misma forma que si se hubiera empleado una impresora de alta calidad y además, su definición como portable, indica su independencia de dispositivo, propio de los formatos multiplataforma. Dado que este proyecto se centra en este formato de documento electrónico en concreto, se le dedica una sección especial a continuación. 3.2. La tecnología PDF Una vez que hemos situado PDF dentro del campo de los documentos electrónicos, se pasa a analizar su tecnología y su estado actual en el mercado. 2Para poder ser publicados en WWW todas los lenguajes deben encontrarse definidos mediante su DTD. CAPÍTULO 3. ANTECEDENTES I: ESTADO DEL ARTE 15 La incorporación de PDF como formato competitivo fue un proceso lento. A principio de los años 90 tanto las herramientas de creación de PDF y las aplicaciones de visualización e im- presión no se podían adquirir de forma gratuita. Además, PDF no soportaba los hiperenlaces externos al documento, lo que reducía de forma considerable su utilidad en la Word Wide Web, y el tamaño adicional de los documentos PDF en comparación con los textos planos significaban tiempos de descarga considerablemente mayores y lentitud en la representación en los dispositivos. Por otro lado, en el mercado existían formatos competitivos como Envoy, Common Ground Digital Paper y el propio antecesor de PDF, el formato PostScript. Sin embargo, con la libre distribución de Acrobat Reader (ahora Adobe Reader), el manten- imiento de la compatibilidad hacia atrás con el formato PDF original y los grandes avances realizados en su tecnología, Portable Document Format es hoy por hoy, indiscutiblemente el estándar de facto por excelencia para documentos imprimibles. 3.2.1. Las capacidades de PDF Entre las características de PDF se encuentran [18]: Multiplataforma e independiente de dispositivo. PDF puede visualizarse e imprimirse en cualquier plataforma: Macintosh, Microsoft Windows, Unix y otras plataformas móviles. Extensible Más de 1.800 vendedores en todo el mundo ofrecen soluciones basadas en PDF como la creación, plug-in, etc. Fiable y de uso extendido La existencia de más de 200 millones de documentos en la red actualmente, prueban el gran número de usuarios y organizaciones que confían en PDF para el intercambio de documentos.