I. Fundamentos

1. ¿Qué son los formatos de archivo implicados en la localización?

En general, un formato de archivo implicado en la localización se puede definir como el diseño y la organización de los datos de un archivo usado para la localización de componentes de software. Al usar herramientas de TAO y de software en un proyecto de localización, los formatos de archivo implicados en la localización se importan como achivos de origen al principio del proyecto. Con el fin de trabajar con los formatos de archivo de localización para localizar componentes de software, primero es necesario distinguir entre texto traducible y no traducible contenido en los archivos. Para ello, es importante considerar que según qué componentes del software se deban localizar (interfaz de usuario, sitios web, archivo de ayuda o documentación impresa), los formatos de archivo implicados en la localización pueden variar.

2. Tipos de formato de archivo implicados en la localización 2.1 Según los componentes de software

Los componentes de software (el software y la documentación) se crean usando distintas aplicaciones informáticas basadas en distintos lenguajes de programación. Como resultado, tienen formatos de archivo distintos. Por ejemplo, con las interfaces de usuario de software, los datos pueden comprender no sólo texto (datos localizables), sino también código de programa, código fuente o código de recursos, una secuencia de instrucciones escritas en un lenguaje de programación legible por el ser humano. En el caso de la documentación, como los sitios web y los archivos de ayuda, el texto traducibles puede estar enmarcado entre etiquetas de diseño. Algunos de los formatos posibles para los distintos componentes de software son: Software:

 Archivos de programa: Archivos RC files y .exe procedentes de distintos entornos de programación, como Borland Delphi, Java, XML, .NET, Visual Basic o archivos en formatos de metalocalización como .po, XLIFF, etc.  Archivos gráficos: .gif, .jpg, .tiff, .psd, .bmp, etc.

Documentación:

 Documentación impresa: .fm, .indd, .doc, .rtf, etc.  Archivos de ayuda: .chm, .hlp, .rtf, ., etc.  Páginas web: ., .html, .php, .js, .pl, etc.

Respecto a los datos, las diferencias entre los formatos de archivo de la localización para los componentes de software dependen de:

 Qué datos se consideran relevantes para la localización  Cómo se distinguen los datos relevantes para la localización de otros datos  Cómo se almacenan los datos  Cómo se usan los "transferibles" y las secuencias de escape

1

2.2 Según el desarrollo de software

2.2.1 Archivos de código fuente y archivos binarios Al desarrollar aplicaciones de software, hay más tipos de formatos de archivo implicados en la localización: archivos de código fuente y archivos binarios. Al escribir aplicaciones de software, los programadores usan conjuntos de archivos de código fuente (que contienen código de programación, código fuente y código de recursos, que se compilan a continuación para crear archivos de programa. Tanto los archivos de código fuente como los binarios son tipos de formatos de archivo implicados en la localización que contienen texto traducible. Archivos de código fuente: Estos archivos, también llamados archivos de código de recursos (archivos RC), contienen componentes de la interfaz de usuario (como menús y cuadros de diálogo) y podrían ser:

 Basados en texto: En estos archivos de formato de texto sin formato, el texto traducible suele estar rodeado por código del programa (como especificaciones de cuadros de diálogo, etc.), que no deben cambiarse durante la traducción. Con el fin de traducir archivos de código fuente que consisten en texto sin formato, pueden usarse editores de texto, herramientas de memorias de traducción o una herramienta específicamente creada para la localización de software.  Basados en HTML/XML: Estos archivos de código fuente basados en HTML o XML pueden editarse o traducirse con un editor de código fuente (herramienta de desarrollo de software utilizado para crear y editar archivos de código fuente), un editor de texto o una herramienta de memorias de traducción, usando un filtro que permita extraer texto traducible y proteger los elementos de código, p.ej. en la mayoría de los editores de los sistemas de MT y herramientas de localización.

Archivos binarios: Se trata de archivos ejecutables que contienen datos "codificados en formato binario (en secuencias de bytes) con fines de almacenamiento y procesamiento informáticos" (trad. de Wikipedia, 2007). Los archivos binarios se utilizan en los programas de ordenador para "ejecutar" las instrucciones de programa contenidas en ellos. Esto quiere decir que son archivos de programa compilados, y, al contrario que los archivos de código fuente, no pueden ser leídos por los seres humanos. Los archivos binarios sólo pueden traducirse con herramientas de localización de software o de memorias de traducción, que son capaces de extraer elementos localizables del código binario. Son ejemplos de archivos binarios los ejecutables (p.ej. .exe, .dll), los gráficos, los de audio y los comprimidos en formato .zip.

2.2.2 Diferencias estructurales

Respecto a su estructura, los archivos de código fuente y los binarios también se distinguen por su:

 Estructura externa: Hay diferentes posibilidades para identificar y editar la información localizable sin destruir/corromper el formato, p.ej. para extraer los

2

elementos localizables, de forma que el traductor no manipula el código del programa  Contexto, alcance, conceptos de programación: La información contextual que falte, la información incompleta o las reglas a seguir por los archivos de destino en los archivos de código fuente pueden ser distintos de los de los archivos binarios.  Comunicación interna: Los elementos como los transferibles, las secuencias de escape y las etiquetas pueden ser distintos en los archivos de código fuente y los binarios.

2.2.3 Archivos de código fuente o binarios implicados en la localización El uso de archivos de código fuente o binarios en la localización tiene ventajas y desventajas que merece la pena mencionar: Archivos de código fuente Ventajas:

 No hace falta ningún editor en especial -- casi cualquier editor puede editar este tipo de archivos  No hacen falta herramientas caras (de localización de software) (estos archivos pueden traducirse usando herramientas de localización de software o de memorias de traducción).  Después de la traducción, hay que compilar los archivos de código fuente, y quizás enlazarlos entre sí para formar una aplicación completa creada para el aseguramiento de la calidad.

Desventajas:

 No es fácil mantener la visión de conjunto al traducir este tipo de archivos. Si no se usan herramientas, los traductores tienen que buscar todas las cadenas de texto traducibles.  Sin herramientas específicamente concebidas para ello, los traductores no pueden ver el aspecto de la interfaz traducida.  Si no se usan herramientas específicamente creadas para ello, hay un alto riesgo de que el traductore sobreescriba partes del programa.  La información contextual (en particular, la relativa a la estructura) puede perderse si se presenta al traductor en forma de lista texto traducible extraído de los archivos de código, en particular si se hace en orden alfabético.  Sin herramientas específicamente pensadas para ello, puede ser difícil (o incluso imposible) reconstruir esta información contextual del archivo original.

Archivos binarios Ventajas:

 Como la mayoría de las herramientas de localización incluyen una opción WYSIWYG, los traductores pueden ver inmediatamente el aspecto de su traducción en la interfaz del software.  Los archivos binarios contienen información contextual  Es la mejor opción para prevenir hacer cambios por error en los archivos de código fuente en formato de texto (Esselink, 2000:59, Sachse, 2005:147).

3

Desventajas:

 Hacen falta editores o herramientas especiales (como las herramientas de localización de software) para editar estos archivos.

3. Elementos localizables

Aunque ya hemos dado una visión general de los tipos de formatos de archivo implicados en la localización que existen, ahora nos concentraremos en dichos formatos de archivo, concretamente en los elementos localizables contenidos en tales formatos. Los elementos localizables en los formatos de archivo implicados en la localización de software (archivos de código fuente o archivos binarios) son los datos que forman la interfaz de usuario. Los siguientes son ejemplos de elementos de la interfaz de usuario que deben ser localizados:

 Menús  Cuadros de diálogo  Teclas de acceso y atajos de teclado (teclas rápidas)  Tablas de cadenas de caracteres  Elementos gráficos

3.1 Menús

Menús

4

Se trata de listas de opciones que se muestran en la pantalla (en forma de menús emergentes o desplegables) en los que los usuarios pueden tomar decisiones. Son:

 Barras de menú  Opciones de menú  Menús contextuales

3.2 Cuadros de diálogo

Se trata de pequeñas ventanas que se superponen al programa, en las que hay campos en los que el usuario puede introducir datos. Pueden contener pestañas, casillas de opciones, texto estático, listas, etc.

3.3 Teclas de acceso y atajos de teclado

También llamadas teclas rápidas, las teclas de acceso son combinaciones de teclas que permiten al usuario acceder a funciones en menús y submenús. Las teclas de acceso suelen ser fáciles de recorder, al incluir normalmente la primera letra de la función correspondiente. Esta aparece subrayada en la línea de menús, p.ej. la "S" en "Save"

5

("guardar"). Los atajos de teclado también son combinaciones de teclado usadas para acceder funciones en menús y submenús. La combinación de teclas es una abreviatura de la instrucción de la opción de menú. En nuestro ejemplo, se usa Ctrl+S como atajo de teclado de la instrucción Save ("guardar"). Cuando se localiza una aplicación de software, no suelen cambiarse los atajos de teclado, especialmente porque a menudo son comunes a otras aplicaciones. Sin embargo, las teclas de acceso sí que deben adaptarse a los nombres de las opciones respectivas en la lengua de destino.

3.4 Tablas de cadenas de caracteres

Tablas de cadenas de caracteres

Se trata de secuencias de símbolos, normalmente ordenadas en forma de tabla.

 Mensajes del sistema  Tooltips  Texto de la barra de estado  Opciones en los campos de listas  Valores de las variables en los mensajes del sistema

6

3.5 Elementos gráficos

Elementos gráficos

Pueden ser:

 Mapas de bits: Es el tipo de formato que suelen tener los gráficos en una interfaz de usuario. Los cursores y los iconos, por ejemplo, pueden estar en este formato. Las imágenes de mapas de bits tienen que localizarse, y esto puede hacerse con un editor gráfico convencional, como Adobe Photoshop o JASC Paint Shop Pro.  Iconos: Se trata de pequeñas imágenes en la pantalla del ordenador que representan objetos o funciones para que las vea el usuario. Su finalidad es hacer el uso de los ordenadores más fácil, y son una de las características de los sistemas basados en interfaces gráficas de usuario.  Cursores: Un cursor es el símbolo en la pantalla del ordenador que indica la posición de la entrada actual o el lugar en el que aparecerá el próximo carácter.

7

Formatos de archivo implicados en la localización

En la sección siguiente, se describen tres tipos de formatos de archivo propios de la localización, de acuerdo con sus características técnicas y los retos que suponen en el proceso de localización de software. Cubriremos:

 Archivos RC,  Archivos HTML y  XML

Archivos RC

Definición Los archivos RC (archivos de Resource Script) son archivos de código fuente estándar en Windows. Normalmente, las aplicaciones de Windows se construyen de tal forma que un compilador de recursos crea un archivo de recursos binario (.res), enlazando un archivo de recursos ASCII (.rc) con un archivo compilado o ejecutable.

Características Los archivos RC normalmente están escritos en ASCII y por líneas, porque contienen líneas que terminan en un carácter de línea nueva (que indica el final de una línea de texto) o par de retorno de carro.

8

Ejemplo de datos contenidos en un archivo RC proveniente de un cuadro de diálogo

Entorno de desarrollo

Los archivos RC se usan en las aplicaciones Windows, que, a su vez, suelen haber sido desarrolladas en entornos de programación orientados a objetos como Visual C++, Visual Basic o un entorno de desarrollo basado en web como Java.

Retos

Los archivos RC contienen información localizable que normalmente procede de cuadros de diálogo, menús y tablas de cadenas de caracteres. Ahora examinaremos una serie de características de los archivos RC que plantean un reto a la localización.

Elementos localizables

Entre los elementos que pueden encontrarse en los archivos RC que pueden o deben ser localizados, están el texto, los botones, las cuestiones de tamaño, las fuentes y el tamaño de las mismas.

9

Ejemplo de elementos que pueden o deben ser localizados en los archivos RC: texto y botones (en rojo), cuestiones de tamaño, fuentes y el tamaño de las mismas (en azul)

Identificadores

Los identificadores o IDs son marcas usadas para distinguir elementos del programa específicos en todo el paquete de software. Los identificadores permiten realizar "conexiones" entre el código del programa y los recursos. Aunque los identificadores se usan muy frecuentemente en los archivos RC, su uso no es muy intuitivo. Realizar cambios en el formato de origen sin el asesoramiento técnico adecuado puede llegar a errores. Por tanto, los identificadores no deberán cambiarse durante la localización.

10

Ejemplo de identificadores (en verde) en un archivo RC

11

Transferibles

Los transferibles se utilizan, por ejemplo, cuando hay que generar un mensaje en pantalla de forma dinámica durante la ejecución. Un ejemplo puede ser el siguiente mensaje: "El documento %s contiene %d palabras", en el que, durante la ejecución del programa, se inserta el nombre del documento en lugar de %s y el número de palabras en lugar de %d. Los transferibles representan los parámetros o valores actuales que hay que insertar. En particular, los caracteres "%s" son transferibles sensibles a la ubicación, utilizados en C y C++. Esto significa que también "%" necesita una secuencia de escape, por ejemplo: "%%" en la cadena "%d %%" donde %d es el número porcentual (p.ej. 50) y %% representa el carácter "%" en un mensaje como "50 %".

Tablas de cadenas de caracteres

Uno de los retos al localizar tablas de caracteres en archivos RC es que la localización se realiza sin información contextual. Las únicas pistas son los identificadores (IDs), que no deben modificarse. Para reducir este problema, se pueden insertar comentarios para los traductores o localizadores en las tablas de cadenas.

Espacio

Respecto al espacio en la interfaz de usuario de un programa, podría suponer un gasto de tiempo enorme ajustarlo en los archivos RC si no se dispone de una herramienta de localización de software. Muy a menudo, los traductores/localizadores tienen que ajustar manualmente el tamaño del texto traducido que aparece en botones y cuadros de

12 diálogo usando un editor gráfico. Las herramientas de localización de software permiten acelerar este proceso.

Editor gráfico

Juegos de caracteres y fuentes

Al localizar las interfaces de usuario a idiomas como el ruso, el griego o el chino, el texto traducido no se muestra siempre en la pantalla en la manera que debería. Esto a menudo tiene que ver con los juegos de caracteres y fuentes utilizados. Los recursos binarios siempre se guardan en formato UNICODE. Sin embargo, los programas pueden estar escritos tanto en UNICODE como en una página de código concreta, porque, dependiendo del sistema operativo, las aplicaciones podrían no funcionar, p.ej. en MS Windows 9x/ME sólo funcionan las aplicaciones basadas en una página de código determinada. Si los juegos de caracteres y las fuentes no se muestran correctamente en la pantalla, esto no significa necesariamente que haya errores de localización. Siempre es buena idea probar el software en un sistema operativo localizado. Finalmente, para simplificar el flujo de trabajo, los localizadores deberían intentar usar las fuentes predeterminadas.

Archivos HTML Se trata de archivos de texto escritos en HTML (HyperText ), un lenguaje de formateado por etiquetas (un lenguaje de marcado) que tiene finalidades específicas y usa un conjunto de etiquetas predefinidas. En su origen, HTML fue desarrollado a partir de SGML (Standard Generalized Markup Language). El término hypertext en HyperText Markup Language se refiere al método de organizar texto o contenidos, de forma que ciertos elementos estén vinculados a otros, como sitios web, formularios interactivos, imágenes incrustadas y otros objetos (hipervínculos). Por tanto, el contenido no sólo puede leerse de forma lineal, sino también navegando por 13 diversos documentos y sitios yendo de un hipervínculo a otro. El término marcado se refiere al proceso de añadir información estructural y de formateado al texto mediante etiquetas predefinidas. Por ejemplo, estas etiquetas permiten la descripción de elementos estructurales en las páginas web como encabezados, tablas, gráficos, hipervínculos, etc. Las etiquetas HTML se usan para el formateado, indicando al navegador web cómo mostrar el texto o contenido. (cf. Zerfaß, 2005).

Entorno de desarrollo

HTML es el lenguaje de marcado más extendido para la creación de páginas web. Hoy en día, cuatro millones de páginas web activas están escritas en HTML, y este formato es comúnmente aceptado como formato estándar para escribir páginas web. En el ámbito de la localización de software, el HTML se ha convertido en el formato de archivo estándar para las páginas web y los archivos de ayuda. Al localizar, los formatos de archivo en HTML suelen ser traducidos con una memoria de traducción o una herramienta de localización de software. Para editar archivos HTML sin usar herramientas, debería usarse un editor apropiado, preferiblemente el mismo que se usó para crear los archivos originales (cf. Esselink 2000:175).

Características

Los formatos de archivo HTML consisten en etiquetas, encerradas por signos de "menor que" (<) y "mayor que" (>). Todos los archivos HTML comienzan con una etiqueta de apertura, , y una de cierre, . Estas etiquetas permiten la definición de la estructura del contenido, del diseño de página, del formato del texto, de la inserción de imágenes, etc. Etiquetas externas frente a internas En el formato de archivo HTML hay dos tipos de etiquetas: internas y externas. Las etiquetas internas están dentro de los segmentos traducibles (p.ej. en frases). Un ejemplo de etiquetas internas son las de apertura y cierre de texto en negrita. Las etiquetas externas se encuentran fuera de los segmentos traducibles, y permiten el marcado del contenido y el formateado de los párrafos (cf. Esselink, 2000:2007). Es importante para los

14 traductores/localizadores distinguir entre ambos tipos de etiquetas, ya que puede que hay que modificar las internas al traducir, mientras que las externas deben mantenerse tal cual. DTD En los formatos de archivo HTML, todas las etiquetas están predefinidas. Esto significa que hay un número concreto de etiquetas que pueden usarse en un documento dado. La especificación de las etiquetas que se pueden usar está contenida en la definición de tipo de documento (DTD), en la que también se especifican las reglas que debe seguir la estructura del documento (cf. Esselink, 2000:2007). Los documentos HTML también incluyen una declaración que especifica la versión de HTML y el tipo de documento. En la declaración, un documento HTML dado se "declara" válido de acuerdo con la DTD de HTML. Casi todas las ediciones actuales de herramientas de MT incluyen un archivo de ajustes para archivos HTML (p.ej. el archivo HTML4.ini de SDL TRADOS), que contiene reglas de segmentación predefinidas. Validación Con el fin de validar la conformidad de los documentos HTML con la norma, hay varias herramientas en Internet (analizadores sintácticos o "parsers") que comprueban la sintaxis del documento respecto a la DTD. Los documentos deberían validarse tras la localización, para verificar que todos los enlaces internos y externos funcionan y que no hay etiquetas corruptas. Algunos ejemplos de herramientas de validación en línea son www.htmlvalidator.com y www.linkbot.com (cf. Esselink, 2000:268).

Ejemplos de DTD

...

XML DTD schema example

Entidades: Las entidades HTML son cadenas de caracteres específicos que pueden tener funciones especiales. Por ejemplo, pueden utilizarse como "secuencias de escape" para representar caracteres extendidos que no están en el juego de caracteres estándar ASCII. El carácter que las introduce indica que los caracteres que siguen hay que interpretarlos de forma alternativa. Algunos ejemplos de caracteres extendidos y las secuencias de escape correspondientes son:

15

 La entidad HTML utilizada para transcribir umlauts alemanes como "ä" es ä  El carácter alemán "ß" se transcribe ß  El carácter alemán "ç" se transcribe ç

Otros caracteres, como '&', '<' y '>' son parte de la sintaxis HTML. Cuando se desea utilizar estos caracteres de otra forma, por ejemplo, como parte del texto, hay que utilizar el mismo sistema. Por ejemplo:

 "Ampersand" ('&') se transcribe &  "Menor que" '<' se transcribe <  "Mayor que" '>' se transcribe >

Ejemplo de caracteres extendidos alemanes con las correspondientes "secuencias de escape" en HTML

Retos

Los archivos HTML contienen código de programa, texto e información metatextual (formateado etc.) Distinguir estos elementos unos de otros plantea un auténtico reto a la localización. En general, los retos al localizar HTML están relacionados con los mismos elementos sintáticos de HTML mencionados en la sección anterior. Por ejemplo, en un documento HTML es posible encontrar documentos hipertextuales; texto, gráficos, archivos de sonido y vídeo; hojas de estilo, formularios, diseños y scripts que tienen que ser localizados o actualizados según cuál sea el mercado de destino. Algunas de estas particularidades de los documentos HTML que pueden suponer un reto para los traductores o localizadores son: Formularios: En HTML puede haber formularios, áreas de entrada de texto o listas de opciones. En este caso, el reto para los traductores y localizadores supone distinguir el texto de los formularios que debe ser traducido. El siguiente gráfico muestra la representación en HTML de un formulario con áreas de entrada de texto y listas para seleccionar opciones:

16

Formularios

Formato: En HTML, formatear se refiere a las especificaciones que definen cómo el texto va a aparecer. Por ejemplo, el tamaño, la familia y el color de la fuente, las indicaciones sobre tamaños y listas son elementos de formateado en HTML. Para los traductores y localizadores, es importante distinguir elementos de formateado, con el fin de modificarlas o adaptarlas según los requisitos del mercado de destino.

Elementos de formateado como la familia, el tamaño, el color y el tamaño de la fuente en el texto HTML

Scripts incrustados: Los scripts son "instrucciones para otros ordenadores", dicho de otra manera: lenguajes de programación que pueden ser interpretados por un ordenador e introducidos por un ser humano usando un teclado. Un script muy extendido en la creación de websites es el JavaScript. Este tipo de script suele estar incrustado y permite el acceso a los objetos de otras aplicaciones. Uno de los retos que plantean los scripts incrustados a los traductores/localizadores es distinguir el subconjunto de datos incrustados: los lugares en los que los datos incrustados comienzan y terminarn, y dónde se encuentra el texto traducible. Por ejemplo, dada la siguiente aplicación JavaScript y su correspondiente código fuente:

17

Alerta en JavaScript

Código fuente en JavaScript

El script incrustado contiene, obviamente, información traducible (en verde).

Archivos XML Definición

Se trata de archivos escritos en XML (eXtensible Markup Language). El XML es un lenguaje d emarcadao que combina texto e información relacionada. Una de sus finalidades principales es facilitar el intercambio de datos entre distintos sistemas de información, en particular a través de Internet. Como el HTML, el XML fue desarrollado originalmente a partir de SGML (Standard Generalized Markup Language). Fue diseñado para ser más fácil de analizar sintácticamente y de procesar que el SGML, y se considera una simplificación del SGML, destinado a aplicaciones de uso general, como el web.

Entorno de desarrollo

Hoy en día, el XML juega un papel creciente en la gestión de datos, al ser "una de las formas más seguras, más potentes y flexibles de almacenar, manipular, localizar y presentar datos en distintos idiomas" (Savourel, 2005). Es por ello que se ha convertido en un compnente importante en ámbitos tales como la internacionalización y la 18 localización. En la localización, por ejemplo, se usa el XML a menudo, independientemente de si el proyecto de localización hay implicados componentes en XML o no. Los archivos XML pueden usarse como archivos de recurso para la localización, y casi todas las herramientas de localización de software trabajan con formatos XML.

Visión de los datos de XML como formato de recursos

Al localizar, los formatos de archivo en XML suelen ser traducidos con una memoria de traducción o una herramienta de localización de software. Para editar formatos de archivo XML sin herramienta, deberá usarse un editor adecuado. Aunque los ámbitos de uso del XML más comunes son la documentación y los sitios web, también puede encontrarse XML en las interfaces de usuario, las capas de transferencia de datos, los mecanismos de exportación/importación de bases de datos y los gráficos. También se usa el XML como formato de intercambio, p.ej. entre distintas aplicaciones como bases de datos, procesadores de textos, hojas de cálculo, etc.

Características

El XML permite la representación estructurada de contenidos y relaciones, separando contenido y forma.

19

Ejemplo de visión de la estructura de un documento XML

Como en HTML, la estructura XML consiste en etiquetas (encerradas entre signos < >) y texto. Cada elemento XML viene marcado por una etiqueta de apertura y otra de cierre, y puede contener texto u otros elementos. Las etiquetas tienen nombres de atributos y pueden contener además atributos, que, a su vez, están compuestos de nombres de atributo y valores, pudiéndose definir ambos libremente. En un documento XML bien escrito, las etiquetas no se solapan, y todas las etiquetas están cerradas. Al contrario que ocurre en HTML, en que los nombres de todas las etiquetas están predefinidos, en XML se pueden definir etiquetas a placer.

UNICODE Una de las razones que hacen que XML esté tan extendido en la industria de la localización y la internacionalización es que el juego de caracteres Unicode de los documentos XML puede incluir caracterers en la mayoría de las lenguas utilizadas hoy en día (cf. Savourel, 2005). Entidades Como en HTML, en XML algunos de los caracteres que corresponden a la sintaxis XML tienen que ser representados con "secuencias de escape", es decir, ser sustituidos por entidades. Por ejemplo, el signo "menor que" "<" debe representarse "<" y el de "mayor que" ">" con ">". Los caracteres extendidos pueden ser tratados de la misma forma en XML. De esta forma, los documentos XML pueden contener caracteres de cualquier tipo, aun cuando la codificación del documento no sea compatible con ellos. Como ejemplo, la letra griega Omega (Ω) puede sustituirse por Ω o Ω, si el documento usa una codificación incompatible con el alfabeto griego (cf. Savourel, 2005). DTD Como en el caso de los archivos HTML, los archivos XML también tienen una definición del tipo de documento (DTD) que contiene información sobre las funciones y las interdependencias jerárquicas de las etiquetas, la estructura, etc. Sin embargo, en

20 contraste con lo que ocurre con las etiquetas HTML, las de XML no están predefinidas. Por tanto, la DTD describe el archivo XML mediante restricciones de la estructura. Contiene las etiquetas y los atributos permitidos en el documento XML y describe algunas construcciones que no son imprescindibles para establecer la estructura, pero que pueden afectar la interpretación de algunos documentos. Cuando la estructura de un documento XML se corresponde con el esquema DTD definido previamente, el documento XML se considera "válido".

Retos

Los retos que plantea la localización de archivos XML están relacionados con la complejidad natural de los archivos XML. DTD: Para los localizadores y los traductores, puede ser difícil obtener el archivo DTD de los clientes. Algunas de las versiones de los sistemas de memorias de traducción (p.ej. en el caso de SLD TRADOS, todas las versiones anteriores a SDL TRADOS 7) necesitan, para traducir archivos XML, el archivo que contiene la DTD, para poder crear el archivo de configuración (en TRADOS, el archivo *.ini), que especifica las reglas de segmentación que se utilizará en el documento XML en particular. De otro modo, hay que crear el archivo de configuración haciendo una lista de las etiquetas y sus funciones manualmente.Algunas versiones recientes de herramientas de memorias de traducción o localización no necesitan forzosamente el archivo DTD, pero tienen sus propios mecanismos para analizar y extraer las etiquetas XML del documento XML, creando así el archivo de configuración de manera semiautomática (el usuario aún puede hacer ajustes). Estructura cambiante: A menudo, la localización de archivos en XML puede ser muy compleja, porque las estructuras cambian, y puede ser difícil determinar qué elementos son localizables.

Distintas estructuras para los mismos datos en XML

Hay distintas posibilidades de estructurar XML como formato de recursos. En estos dos ejemplos, la misma información se presenta con dos estructuras distintas. Por ejemplo, en el primero, todos los valores de los identificadores y los datos traducibles están incrustados directamente entre la etiqueta de apertura y la de cierre correspondiente. En el segundo, los valores de los identificadores están incrustados en la subentidad XML, y los datos traducibles en la subentidad XML, ambas subordinadas a la entidad.

21

XML en el proceso de localización

Situación 1: XML como fuente de datos temporal En esta situación, el formato XML se usa como puente para la localización. Usando filtros especiales, los datos para localizar pueden convertirse, extraerse o mezclarse del formato propietario del desarrollador de la aplicación o del autor de la documentación a un formato XML que será utilizado durante la localización. Después, los archivos XML localizados serán convertidos de nuevo al formato propietario del desarrollador de la aplicación o del autor de la documentación.

Situación 1

Situación 2: XML como fuente de datos alternativa En este escenario, los archivos de origen están en formato XML y tienen que ser traducidos primero y luego convertidos al formato propietario del desarrollador de la aplicación o del autor de la documentación, mediante una herramienta de conversión. De esta forma, no son necesarios datos de extracción o conversión antes de la localización, y es posible conservar las ventajas de proveer datos en XML a los localizadores.

Situación 2

Situación 3: XML como fuente de datos original En este caso, los archivos para localizar son entregados por el desarrollador de la aplicación o el autor de la documentación en formato XMl. No hará falta, por tanto, convertir los archivos antes ni después del proceso de localización.

22

(Gráficos tomados de Savourel, 2005)

Situación 3

HTML frente a XML ¿Qué futuro tienen HTML y XML? En los últimos años, XML ha cobrado importancia hasta el punto de que muchos afirman que está retando el papel de líder que el HTML tuvo hasta ahora. Algunos de los argumentos utilizados en favor de XML tienen que ver con las limitaciones de HTML, por ejemplo:

 HTML consiste en un catálogo fijo de etiquetas y sólo describr documentos de un tipo en concreto  Los datos en HTML son difíciles de procesar para los navegadores  Los documentos HTML utilizados como aplicaciones acaban creando cuellos de botella aumentando el tráfico entre cliente y servidor

Sin embargo, no es realista pensar que el HTML se convertirá en relevante de pronto, especialmente si se tiene en cuenta el número de páginas útiles en activo que hay en Internet hoy en día. Hay algunas propuestas para conservar el HTML y encontrar una forma de integrarlo con el XML. La idea es apoyar la inclusión y el proceso de datos en XML, bien delimitados y definidos, en documentos HTML. Esta estrategia permitirá:

 que el contenido suministrado al web se enriquezca y apoyar futuras mejoras en los modelos de contenido basados en XML  que los desarrolladores de contenido puedan confiar en las capacidades probadas y conocidas de HTML mientras experimentan con XML en sus entornos

(Adaptado de "XML: It's the Future of HTML")

Formatos de archivo en la metalocalización

Los formatos de metalocalización fueron diseñados especialmente para ayudar en el proceso de localización. Son formatos de recursos que pueden contener información sobre diversos formatos de recursos, así como información adicional. Algunas de las razones de mezclar formatos de recursos son:

23

 Uso paralelo de distintos entornos de desarrollo, por ejemplo, recursos en diferentes formatos de recurso (p.ej. el caso del formato de archivo .po)  Minimización del número de formatos de localización en el flujo de trabajo, por lo que se usan metaformatos (p.ej. XLIFF)

Definición XLIFF (XML Localization Interchange File Format) es un formato estándar basado en XML diseñado para guardar texto extraído de archivos similares al software y documentos con etiquetas. XLIFF fue desarrollado a finales de 2000 por un grupo de compañías, entre las cuales estaban Oracle, Novell, Sun e IBM/Lotus, con el objetivo de definir una especificación extensible para el intercambio de información de localización. Como los formatos de localización pueden variar en su estructura, el uso de juegos de caracteres, las marcas sustitutivas, las secuencias de escape, el formateado, etc., se creó XLIFF para unificarlas todas en un solo formato, independientemente de herramientas de localización específicas.

Ejemplo de un archivo XLIFF

Las siguientes características son propias de XLIFF:

 El contenido se describe en forma de esquema, atendiendo a los elementos, sus atributos y su uso. El gráfico siguiente muestra un ejemplo de un esquema XLIFF:

24

Esquema XLIFF

 El elemento más importante en la estructura XLIFF es la , que contiene los datos localizables en y la traducción en .  XLIFF sigue un enfoque bilingüe, porque se prevé un elemento específico para la traducción , y no hace falta sobreescribir el texto en .

Ejemplo de elementos de una en cierta estructura XLIFF

 Es posible incluir información adicional.

25

 Se usa como formato de localización nativo (p.ej. en Macromedia Flash).

En los archivos XLIFF también hay

 Traducciones alternativas. En nuestro ejemplo, los térmions en alemán Extras y Optionen equivalen al inglés Options.

Comentarios para traductores o localizadores

26

Leyendas con información para traductores o localizadores

Leyendas 27

Flujos de trabajo

Flujo de trabajo típico en la localización sin XLIFF En un flujo de localización típico sin XLIFF, habiendo aplicaciones del desarrollador en varios archivos, cada uno en un formato distinto, la localización puede resultar compleja. Con el fin de preparar todos estos archivos para la localización, los gestores de proyecto o localizadores tendrán que usar los filtros de recurso de la herramienta para convertir los archivos a un formato apropiado, de forma que los archivos puedan ser editados y traducidos por traductores usando la herramienta especificada por el cliente (si la indica).

Flujo de trabajo típico en la localización sin XLIFF (Fuente: OASIS)

Flujo de trabajo en la localización con XLIFF En un flujo de trabajo típico en la localización con XLIFF, el proceso de localización se simplifica, porque hay menos pasos en el proceso de localización. Por una parte, las aplicaciones del desarrollador que se van a localizar podrían estar disponibles en el formato XLIFF. En este caso, no hace falta pre-proceso, y los recursos traducibles pueden editarse directamente y ser traducidos utilizando un editor compatible con XLIFF o las herramientas apropiadas de memoria de traducción o localización. Si, por otra parte, las aplicaciones del desarrollador que se van a localizar son proporcionadas en un formato distinto a XLIFF los archivos (p.ej. HTML, RC, Java, etc.) deben ser preprocesados y convertidos al formato XLIFF. Una vez que estén en XLIFF, los recursos traducibles pueden editarse directamente y ser traducidos utilizando un editor compatible con XLIFF o las herramientas apropiadas de memoria de traducción o localización. (Gráficos tomados de Oasis)

28

Flujo de trabajo en la localización con XLIFF (Fuente: OASIS)

Hoy en día, las herramientas de localización de software han ampliado la cantidad de formatos de archivo con los que son compatibles. Son compatibles con formatos tales como:

 Archivos binarios de recursos estándar de Windows (de 16 y 32 bits) (archivos EXE, DLL, SYS) y RC)  Archivos binarios de Microsoft Visual Basic 6  Archivos XML, incluido XLIFF  HTML  Archivos de Microsoft Installer (MSI)  Archivos de texto monolingües

Algunas herramientas son compatibles con otros formatos de archivo, a través de add- ins. Se trata de pequeños programas escritos para extender ciertas características a las herramientas de localización de software. Algunos add-ins opcionales para otros formatos de archivo son:

 Archivos binarios de recursos de Microsoft .NET (EXE, DLLs satélite y ensamblados), archivos de recursos (RESX y RESOURCE), compatibilidad con cuadros de diálogo heredados (WYSIWYG), compatibilidad con controles y propiedades personalizados, compatibilidad de todos los marcos .NET  Archivos binarios de recursos de Borland Delphi / C++ Builder (EXE, DLL, BPL)

29

 Java (todas las plataformas: Archivos J2EE, J2SE y J2ME), archivos de propiedades (PROPERTIES), archivos de código fuente (JAVA), archivos binarios (CLASS), archivos de proyecto Java (JAR)

Formatos de archivo compatibles adicionales:

 Analizador sintáctico de bases de datos ODBC o MS Access, MS Excel o MS SQL Server o Oracle o IBM DB2  Palm OS Parser  .Analizador sintáctico po

30

Introducción.

HTML significa HyperText Markup Language. Es el lenguaje en que se escriben los millones de documentos que hoy existen en el World Wide Web. Cuando accedemos a uno de estos documentos, el cliente (Netscape, IE, Mosaic, Lynx, IBrowse) los interpreta y los despliega. Existen clientes gráficos como Netscape, y otros como el Lynx que solo despliegan texto. Es muy importante no olvidar esto cuando se diseña una página web. Crear una buena página tiene dos aspectos; por un lado el conocimiento técnico para crear código HTML correcto, por otro lado el claro diseño para presentar la información.

El objetivo de este texto es proporcionar un conocimiento básico acerca de la construcción y manejo de etiquetado para la ingeniería aplicada a la traducción de páginas Web y dispositivos móviles, para un conocimiento más profundo de este lenguaje posteriormente se desarrollarán más versiones de este texto, por el momento esperamos que la información aquí proporcionada le sea de utilidad.

Etiquetas de muestra

Los archivos con etiquetas son archivos en los que la disposición o la estructura de la información aparece separada del texto o del contenido y almacenada en códigos que rodean a los elementos de texto. Por ejemplo, las páginas web están codificadas por medio de un sistema de etiquetas llamado HTML (HyperText Markup Language).

Este ejemplo muestra parte de un documento HTML con etiquetas que rodean a los elementos de texto. Las etiquetas contienen información estructural que identifica distintas partes del documento web (p.ej. el título o los encabezamientos). Al traducir documentos como este, el traductor tiene que tener cuidado de no cambiar, sobreescribir

31 o eliminar estas etiquetas, porque los navegadores de Internet las necesitan para mostrar el documento web correctamente.

Etiquetas de protección

A través de un proceso de traducción mediante sistemas de MT, es una tarea importante del editor ser capaz de proteger todas las etiquetas para que no puedan ser eliminadas o modificadas por el(/los) traductor(es). Algunos sistemas lo hacen escondiendo totalmente las etiquetas en el editor, y proporcionando una vista previa del documento web en la lengua de destino, como se muestra en la captura de pantalla del programa across.

Etiquetas como marcas sustitutivas

En otros sistemas, sin embargo, las etiquetas son reemplazadas por marcas sustitutivas en el editor. En DéjàVu, por ejemplo, se representan como números entre corchetes (llamados "códigos incrustados"), lo que significa que hay alguna etiqueta en el

32 documento original. El usuario puede elegir cómo desea que se muestre el significado de estos códigos incrustados.

Según el sistema utilizado, el traductor puede mostrar todas las etiquetas e incluso modificarlas, aunque no fuera recomendable. En un sistema como DéjàVu, es imposible exportar el proyecto sin que todos los códigos sean insertados en los segmentos correspondientes. En tales casos, el sistema alertará al usuario y mostrará el segmento exacto en el que falta un código. El usuario tendrá que volver e insertar los códigos que faltan para poder realizar la exportación.

Etiquetas en Trados

En el TagEditor de Trados, las etiquetas se muestran bien en forma abreviada o completa, y pueden ser desplazadas, editadas o eliminadas durante la traducción. Si es necesario, el traductor también puede añadir una etiqueta.

Es importante saber que hay etiquetas externas e internas:

 Las etiquetas externas tienen, de forma predeterminada, un borde negro; por ejemplo la etiqueta HTML Normalmente representan información estructural. Estas etiquetas se ignoran completamente junto con su contenido durante el proceso de traducción y sólo pueden aparecer fuera de las frases. Rara vez es necesario mover o borrar las etiquetas externas durante la traducción.  Las etiquetas internas presentan un borde rojo, de forma predeterminada; por ejemplo la etiqueta B. Estas etiquetas pueden representar información acerca del 33

formato (como el formato de fuente negrita), rodear hipervínculos u otras marcas, y pueden aparecer dentro del texto. La mayoría de las etiquetas internas se pueden desplazar dentro de la frase para ajustarse a la traducción. Dependiendo del formato de archivo, se pueden añadir o borrar etiquetas internas, si es necesario. De forma predeterminadad, el TagEditor considera las etiquetas desconocidas como internas. Cuando las etiquetas contienen texto que no sea información acerca de la estructura o el formato, TagEditor clasifica el contenido del texto bien como traducible o bien como no traducible.

Convertir formatos de archivos con etiquetas

Con el fin de importar/convertir algunos formatos de archivo con etiquetas como HTML, o archivos con etiquetas creados por filtros de importación desde formatos de autoedición como FrameMaker, InDesign etc., las herramientas de MT suelen ser capaces de reconocer las etiquetas utilizadas en estos formatos. Sin embargo, para los archivos cuyo formato incluye etiquetas definibles por e autor del texto en la lengua de origen, p.ej. XML, el traductor tiene que configurar filtros él mismo, bien a partir de una Definición de Tipo de Documento (DTD) provista por el cliente, o analizando los archivos y determinando la función de las etiquetas, p.ej. si se usan para delimitar segmentos o para hacer que ciertos elementos del texto no sean traducibles.

34

35

Mapa de los lenguajes de marcas

Principales GML --> SGML --> XML --> Dialectos XML

Documentos en general Lenguajes Lenguajes Lenguajes de Lenguajes ligeros descriptivos para manuales presentación  ASN.1  Rich Text  BBCode  DocBook  EBML Format   HelpML  YAML   ReStructuredText  LinuxDoc  TeX   POD   Textile  Microsoft  HTML  Wikitexto Assistance ML

Tecnologías de internet World Wide Interfaz de Sindicación Servicios web Web usuario  HTML  GladeXML  Atom  WSDL  XHTML  MXML  RSS  XINS  Wireless ML (Macromedia)  ICE  WSCL  Handhelp  User Interface  OPML y  WSFL ML ML OML  XML-RPC  RDF  XAML and  SyncML  Webml  Meta Content MyXaml Framework  XForms  XUL / XBL

Lenguajes especializados

 Gráficos 2D: SVG, CGM, VML, InkML.  Gráficos 3D: VRML/X3D, STEP.  Matemática: MathML y OpenMath.  Música: LilyPond y MusicXML.  Taxonomía: DITA  Finanzas: eXtensible Bussiness Reporting Language, Financial products ML.  Geomática: Geography ML.  Aeronáutica: Spacecraft ML.  Multimedia: Synchronized Multimedia Integration Language.  Voz: VoiceXML.  Mensajería instantánea: XMPP.  Videojuegos: BulletML, COLLADA.

36

1. Estructura de un Documento HTML

Una página web es un archivo de texto, se puede crear con cualquier editor de texto como el edit de DOS. El principio esencial del lenguaje HTML (HyperText Markup Language) es el uso de las etiquetas (tags). Funcionan de la siguiente manera:

Este es el inicio de una etiqueta.

Este es el cierre de una etiqueta.

Las letras de la etiqueta pueden estar en mayúsculas o minúsculas, indiferentemente. Por claridad, se usarán en este texto sólamente las mayúsculas.

Lo que haya entre ambas etiquetas estará influenciada por ellas. Por ejemplo, todo el documento HTML debe estar entre las etiquetas y :

[Todo el documento]

El documento en sí está dividido en dos zonas principales:

 El encabezamiento, comprendido entre las etiquetas y  El cuerpo, comprendido entre las etiquetas y

Dentro del encabezamiento hay información del documento, que no se ve en la pantalla principal, principalmente el título del documento, comprendido entre las etiquetas y . El título debe ser breve y descriptivo de su contenido, pues será lo que vean los demás cuando añadan nuestra página a su bookmark (o agenda de direcciones).

Dentro del cuerpo está todo lo que queremos que aparezca en la pantalla principal (texto, imágenes, etc.)

Por tanto, la estructura queda de esta manera:

Título de la página

37

[Aquí van las etiquetas que visualizan la página]

Antes de crear nuestra primera página, unas consideraciones sobre el texto:

 Cuando escribimos en el documento el texto que queremos que aparezca en la pantalla, veremos que éste se acomoda a ella, sin que tengamos que pulsar el retorno del carro. Si queremos separar el texto en distintos párrafos debemos usar la etiqueta

, (que no tiene su correspondiente etiqueta de cierre

) .

 El texto puede tener unas cabeceras, comprendidas entre las etiquetas

y

,

y

, etc. (hasta el número 6), siendo el número indicativo del tamaño. El tamaño mayor es el correspondiente al número 1. Puedes experimentar en el ejemplo que sigue, cambiando el número para comprobar el efecto que se logra.

Una etiqueta muy interesante es la de centrado

y
(no la soportan todos los navegadores, aunque sí la mayoría de ellos). Nos centra todo lo que esté dentro de ella, ya sea texto, imágenes, etc.

También tenemos los separadores (horizontal rules), que se consiguen con la etiqueta


(no existe la correspondiente de cierre). Con ella se obtiene una raya horizontal tan ancha como la pantalla, y con la apariencia de estar embutida sobre el fondo, como se puede observar a continuación:

Práctica 1.

En el procesador de texto copiamos lo siguiente:

Mi pagina del Web - 1

Primera pagina


38

Esta es mi primera pagina, aunque todavia es muy sencilla. Como el lenguaje HTML no es dificil, pronto estare en condiciones de hacer cosas mas interesantes.

Aqui va un segundo parrafo.

Guardamos el fichero en el procesador de textos con el nombre de mipag1.html y lo cargamos en el navegador. Este será el resultado.

2. Dando forma al texto

Como hemos visto en el ejemplo del epígrafe anterior, cuando queremos poner un texto sin ninguna caracterísca especial, lo ponemos directamente. Unicamente, la separación entre párrafos (dejando una línea en blanco) la conseguimos con la etiqueta

.

Si queremos separar los párrafos, o cualquier otra cosa, pero sin dejar una línea en blanco, usamos una etiqueta parecida
(break, o romper). Tampoco tiene etiqueta de cierre.

Si queremos obtener múltiples líneas en blanco no basta con repetir la etiqueta

, sino que hay que combinarla con la etiqueta
. Así por ejemplo, si queremos obtener cuatro líneas en blanco, pondríamos:

39





Al escribir el texto, si ponemos más de un espacio en blanco entre dos palabras observamos que el navegador sólo reconoce uno de ellos. Si queremos forzarle a que lo haga, debemos poner el código " " (non-breaking space).

Para destacar alguna parte del texto se pueden usar:

y para poner algo en negrita (bold). y para poner algo en cursiva (italic).

Otra etiqueta interesante es

 y 
. El texto que se encuentre entre ella estará preformateado, es decir que aparecerá como si hubiera sido escrito con una máquina de escribir, con una fuente de espaciado fijo (tipo Courier). Además se respetarán los espacios en blanco y retornos del carro, tal como estaban en nuestro documento HTML (lo cual no ocurre normalmente, como hemos visto anteriormente). Es muy apropiada para confeccionar tablas y otros documentos similares.

Con la etiqueta y conseguimos también que el texto tenga un tamaño menor y la apariencia de los caracteres de una máquina de escribir (typewriter).

La diferencia con la anterior es que no preformatea el texto, sino que únicamente cambia su apariencia.

La etiqueta

y
se utiliza para destacar una cita textual dentro del texto general.

En las fórmulas matemáticas puede interesar poder escribir índices y subíndices, que se consiguen con las etiquetas y respectivamente. Así, por ejemplo: m2 se consigue de la siguiente manera: m2 vx se consigue con: vx

A menudo nos interesará presentar las cosas en forma de listas. Podemos escoger entre tres tipos distintos:

1.Listas desordenadas (no numeradas) 2.Listas ordenadas (numeradas) 3.Listas de definición.

Las listas desordenadas (unordered lists) sirven para presentar cosas que, por no tener un orden determinado, no necesitan ir precedidas por un número. Su estructura es la siguiente:

  • Una cosa
  • Otra cosa

    40

  • Otra más
  • Etc.

Es decir, toda la lista está dentro de la etiqueta

    y
, y luego cada cosa va precedida de la etiqueta
  • (list item). El resultado de lo anterior es el siguiente:

    Se puede anidar una lista dentro de otra. Por ejemplo:

    • Mamíferos
    • Peces
      • Sardina
      • Bacalao
    • Aves

    Las listas ordenadas (ordered lists) sirven para presentar cosas en un orden determinado. Su estructura es muy similar a la anterior. La diferencia estriba en que en el resultado aparecerá automáticamente un número correlativo para cada cosa.

    1. Primera cosa
    2. Segunda cosa
    3. Tercera cosa
    4. Etc.

    Al igual que las listas desordenadas, también se pueden anidar las listas ordenadas.

    El tercer tipo lo forman las listas de definición. Como su nombre indica, son apropiadas para glosarios (o definiciones de términos). Toda la lista debe ir englobada 41 entre las etiquetas

    y
    . Y a diferencia de las dos que hemos visto, cada renglón de la lista tiene dos partes:

    1. El nombre de la cosa a definir , que se consigue con la etiqueta

    (definition term) 2. La definición de dicha cosa, que se consigue con la etiqueta
    (definition definition).

    Una cosa a definir
    La definición de esta cosa
    Otra cosa a definir
    La definición de esta otra cosa

    Comentarios no visibles en la pantalla

    A veces es muy útil escribir comentarios en el documento HTML sobre el código que escribimos, que nos pueden servir para recordar posteriormente sobre lo que hicimos, y que no queremos que se vean en pantalla.

    Esto se consigue encerrando dichos comentarios entre estos dos símbolos:

    Ejemplo:

    Práctica 2

    En el procesador de textos copiamos:

    Mi pagina del Web - 2

    Mis aficiones


    Sin un orden particular, mis aficiones son las siguientes:
    • El cine 42

    • El deporte
      • Natacion
      • Baloncesto
    • La musica
    La musica que mas me gusta es (en orden de preferencia):
    1. El rock
    2. El jazz
    3. La musica clasica

    Guardamos el fichero de texto con un nombre cualquiera y la extensión .html y lo cargamos en el navegador.

    Este es el resultado.

    3. Enlaces con otras páginas

    La característica que más ha influido en el espectacular éxito del Web (o tela de araña) ha sido, aparte la de su carácter multimedia, la posibilidad de unir los distintos documentos repartidos por todo el mundo por medio de enlaces hipertexto.

    43

    Estructura de los enlaces

    En general, los enlaces tienen la siguiente estructura:

    yyy donde xxx es el destino del enlace (Obsérvese las comillas). yyy es el texto indicativo en la pantalla del enlace (con un color especial y generalmente subrayado)

    Tipos de enlaces

    Vamos a distinguir cuatro tipos de enlaces:

    a) Enlaces dentro de la misma página b) Enlaces con otra página nuestra c) Enlaces con una página fuera de nuestro sistema d) Enlaces con una dirección de email a) Enlaces dentro de la misma página A veces, en el caso de documentos (o páginas) muy extensos, nos puede interesar dar un salto desde una posición a otra determinada. En este caso, lo que antes hemos llamado XXX, es decir, el destino del enlace, en este caso el sitio dentro de la página a donde queremos saltar, se sustituye por #marca (la palabra marca puede ser cualquier palabra que queramos). Lo que hemos llamado antes YYY es la palabra (o palabras) que aparecerán en la pantalla en color (en forma de hipertexto). Su estructura es, entonces: YYY

    Y en el sitio exacto a donde queremos saltar, debemos poner la siguiente etiqueta:

    Por ejemplo, si quiero saltar desde aquí a la pantalla final, pongo la siguiente etiqueta:

    Pulsa para ir al final

    Y en el final del documento he puesto esta otra etiqueta:

    b) Enlaces con otra página nuestra

    Puede ser que tengamos una sola página. Pero lo más frecuente es que tengamos varias páginas, una inicial (o principal) y otras conectadas a ella, e incluso entre ellas mismas. Supongamos que queremos enlazar con la página creada en el ejemplo del epígrafe anterior, que la hemos llamado mipag2.html. En este caso, simplemente sustituimos lo que hemos llamado XXX (el destino del enlace) por el nombre del fichero:

    44

    Ejemplo del epígrafe 2

    Si queremos que vaya a un sitio concreto de otra página nuestra en vez de ir al principio de la página, adonde va por defecto, en ese sitio tenemos que colocar una marca (véase la sección anterior), y completar el enlace con la referencia a esa marca.

    Una observación importante: Estoy suponiendo que la página en la que estoy escribiendo esta etiqueta y la otra página a la que quiero saltar están en el mismo directorio. Porque pudiera ocurrir que he organizado mi sitio del Web con un directorio principal, y otros subdirectorios auxiliares. Si la página a la que quiero saltar está, p. ej. en el subdirectorio subdir, entonces en la etiqueta tendría que haber puesto "subdir/mipag2.html".

    Y a la inversa, si quiero saltar desde una página a otra que está en un directorio anterior, en la etiqueta tendría que haber puesto "../mipag2.html". Esos dos puntos hace que se dirija al directorio anterior. Obsérvese que se debe utilizar el símbolo / para indicar los subdirectorios, y no este otro \, que es propio únicamente de Windows.

    Si nos queremos evitar todas estas complicaciones, podemos tener todo junto en un único directorio, pero esto tiene el inconveniente de que esté todo más desordenado, y sean más difíciles de hacer las futuras modificaciones.

    c) Enlaces con una página fuera de nuestro sistema

    Si queremos enlazar con una página que esté fuera de nuestro sistema (es decir, que esté en un servidor distinto al que soporta nuestra página), es necesario conocer su dirección completa, o URL (Uniform Resource Locator). El URL podría ser, además de la dirección de una página del Web, una dirección de ftp, gopher, etc.

    Una vez conocida la dirección (o URL), lo colocamos en vez de lo que hemos llamado anteriormente xxx (el destino del enlace). Si queremos enlazar con la página de Netscape (cuyo URL es: http://home.netscape.com/), la etiqueta sería:

    Página inicial de Netscape

    Es muy importante copiar estas direcciones correctamente (respetando las mayúsculas y minúsculas, pues los servidores UNIX sí las distinguen) d) Enlaces con una dirección de email

    En este caso, sustituimos lo que se ha llamado antes xxx (el destino del enlace) por mailto: seguido de la dirección de email. La estructura de la etiqueta es:

    Texto del enlace

    Es decir, es conveniente poner también en el texto del enlace la dirección de email.

    Práctica 3. 45

    En el procesador de textos copiamos:

    Mi pagina del Web - 3

    Mis paginas favoritas


    Estas son mis paginas favoritas:

    Netscape
    Microsoft
    Yahoo!

    Guardamos el fichero de texto con el nombre mipag3.html y lo cargamos en el navegador. Este es el resultado:

    4. Imágenes

    La etiqueta que nos sirve para incluir imágenes en nuestras páginas del Web es muy similar a la de enlaces a otras páginas, que hemos visto en el epígrafe anterior. La única diferencia es que, en lugar de indicar al programa navegador el nombre y la localización de un documento de texto HTML para que lo cargue, se le indica el nombre y la localización de un fichero que contiene una imagen. La estructura de la etiqueta es:

    Con el comando IMG SRC (image source, fuente de la imagen) se indica que se quiere cargar una imagen llamada imagen.gif (o el nombre que tenga).

    Dentro de la etiqueta se pueden añadir otros comandos, tal como ALT

    descripción

    46

    Con el comando ALT se introduce una descripción (una palabra o una frase breve) indicativa de la imagen. Este comando, que en principio se puede omitir, es en beneficio de los que accedan a nuestra página con un programa navegador en forma de texto sólo. Ya que no son capaces de ver la imagen, por lo menos pueden hacerse una idea sobre ella. Pero no es sólo por esto. Hay casos, como veremos más adelante, en los que se utiliza una imagen como enlace a otra página. Si se omitiera este comando, los que utilizan dichos navegadores no podrían de ninguna manera acceder a esas páginas.

    Con respecto a la localización del fichero de esa imagen, se puede decir aquí lo mismo que en el epígrafe anterior referente a los enlaces.

    Al igual que una página con la que queremos enlazar puede estar fuera de nuestro sistema, (en cuyo caso había que indicar su URL o dirección completa), podemos cargar una imagen que no esté en nuestro sistema siguiendo el mismo método, es decir, indicar en la etiqueta el URL completo de la imagen. Aunque esto no es muy aconsejable, pues alargaría innecesariamente el tiempo de carga de nuestra página.

    Las imágenes deben estar guardadas en un formato de fichero especial llamado GIF. (Hay también otro formato más avanzado, del que se hablará más adelante). Este formato GIF almacena las imágenes con un máximo de 256 colores, en forma comprimida. Hay programas gráficos (como el Paint Shop Pro para el PC, o el Graphic Converter para el Mac) que nos permiten guardar las imágenes en este formato, además de cumplir otras muchas tareas de manipulación de las mismas.

    Un aspecto muy importante a tener en cuenta es el tamaño de las imágenes, pues una imagen grande supone un fichero grande, y esto puede resultar en un tiempo excesivo de carga.

    Para elegir la posición de la imagen con respecto al texto hay distintas posibilidades. La más sencilla es colocarla entre dos párrafos, con un titular a un lado. Los navegadores más actuales (como el Netscape Navigator y el Microsoft Internet Explorer) permiten que el texto pueda rodear a la imagen (como se verá más adelante, en el Epígrafe 8).

    De momento nos vamos a limitar a escoger la posición del titular con respecto a la imagen (si es que queremos ponerle un titular, claro está). Se puede poner arriba, en medio o abajo del lado de la imagen. Para ello se añade el comando ALIGN a la etiqueta, de la siguiente manera:

    Titular alineado arriba

    Titular alineado en medio

    Titular alineado abajo

    Otra posibilidad muy interesante es la de utilizar una imagen como enlace a otra página. Para estos casos se utilizan generalmente imágenes pequeñas (iconos), aunque se puede usar cualquier tipo de imagen.

    Según vimos en el epígrafe anterior, la estructura general de un enlace es:

    47

    yyy

    En este caso sustituimos xxx por el nombre del fichero de la página a la que queremos acceder. Y en lugar de yyy ponemos la etiqueta completa de la imagen (que queda así englobada dentro de la etiqueta del enlace)

    Como ejemplo vamos a utilizar la imagen (hand.gif) para acceder al ejemplo práctico del epígrafe 2 (mipag2.html):

    que da como resultado:

    Pulsando la imagen comprobamos cómo efectivamente enlaza con la página deseada. Obsérvese además que la imagen está rodeada de un rectágulo del color normal en los enlaces. Si no se desea que aparezca ese rectángulo, hay que incluir dentro de la etiqueta de la imagen el atributo BORDER=0, es decir:

    que da como resultado:

    Posicionando el cursor sobre esta última imagen, comprobamos que actúa también como enlace aunque carezca del rectángulo de color. Esto puede resultar más estético.

    También podemos utilizar una imagen para enlazar con otra imagen. En este caso sustituimos xxx (el destino del enlace) con el nombre del fichero de la imagen a la que queremos acceder e yyy (lo que aparece en pantalla como el enlace) por la etiqueta completa de la imagen que queremos que aparezca en la pantalla como el enlace de la otra.

    Por último, otra posibilidad es la de utilizar un texto para enlazar con una imagen. En este caso sustituimos xxx (el destino del enlace) con el nombre del fichero de la imagen a la que queremos acceder e yyy (lo que aparece en pantalla como el enlace) por el texto. 48

    Supongamos que queremos enlazar con la imagen hand.gif por medio de un texto:

    necesitas una mano?

    Que da como resultado:

    Un tipo de imágenes del que se hace abundante uso y que sirven para mejorar la presentación de la página son los iconos, botones, barras separadoras, etc. A pesar de su tamaño o forma, son imágenes como cualquier otra.

    Por ejemplo utilizamos un boton aceptar y escribimos en el sitio correspondiente:

    Mis aficiones

    Mis paginas favoritas

    Un lugar ideal para mis vacaciones

    isla

    Guardamos el fichero de texto con el nombre mipag4.html y lo cargamos en el navegador. Este es el resultado.

    5. Caracteres especiales

    Existen algunas limitaciones para escribir el texto. Una de ellas es debido a que las etiquetas se forman como un comando escrito entre los símbolos "<" y ">". Por tanto, si se quisieran escribir estos caracteres como parte normal del texto, daría esto lugar a una ambigüedad, ya que el programa navegador podría interpretarlos como el comienzo o final de una etiqueta, en vez de un carácter más del texto.

    Para resolver este problema, existen unos códigos para poder escribir estos caracteres y otros relacionados con las etiquetas.

    < para < (less than, menor que)

    50

    > para > (greater than, mayor que) & para & (ampersand) " para " (double quotation)

    Como se ve, estos códigos empiezan siempre con el signo & y acaban siempre con ; De una manera similar, existen códigos para escribir letras específicas de distintos idiomas. Hay muchos de ellos, pero, lógicamente, los que más nos interesan son los propios del castellano (las vocales acentuadas, la ñ y los signos ¿ y ¡ )

    Los códigos de las vocales acentuadas se forman comenzando con &, seguido de la vocal en cuestión, seguido de la palabra acute (aguda) y terminando con el signo ;

    á para la á é para la é í para la í ó para la ó ú para la ú Á para la Á É para la É Í para la Í Ó para la Ó Ú para la Ú

    El resto de los códigos son:

    ñ para la ñ Ñ para la Ñ ü para la ü Ü para la Ü ¿ para ¿ ¡ para ¡

    Práctica 5. Como ejercicio de este epígrafe vamos a sustituir en el ejemplo práctico del epígrafe anterior (mipag4.html) las vocales acentuadas por sus correspondientes códigos. Quedará de esta manera:

    Mi página del Web - 4

    Mi página del Web


    Esta es mi página del Web. No es muy extensa, pero tiene todos los elementos básicos. Espero que os guste. Poco a poco le iré añadiendo más cosas interesantes.

    Mis aficiones

    Mis páginas favoritas

    51

    Un lugar ideal para mis vacaciones

    isla

    6. Fondos

    Se puede cambiar el fondo de dos maneras distintas:

    a) Con un color uniforme b) Con una imagen

    a) Fondos con un color uniforme

    Se consigue añadiendo el comando BGCOLOR a la etiqueta (situada al principio del documento), de la siguiente manera:

    donde:

    XX es un número indicativo de la cantidad de color rojo YY es un número indicativo de la cantidad de color verde ZZ es un número indicativo de la cantidad de color azul

    Estos números están en numeración hexadecimal. Esta numeración se caracteriza por tener 16 dígitos (en lugar de los diez de la numeración decimal habitual). Estos dígito son:

    0 1 2 3 4 5 6 7 8 9 A B C D E F

    Es decir, que en nuestro caso, el número menor es el 00 y el mayor el FF. Así, por ejemplo, el color rojo es el #FF0000, porque tiene el máximo de rojo y cero de los otro dos colores .

    Los colores primarios son: Otros colores son:

    #FF0000 - Rojo #FFFFFF - Blanco #00FF00 - Verde #000000 - Negro #0000FF - Azul #FFFF00 - Amarillo

    52

     Para hacer un color más oscuro, hay que reducir el número de su componente, dejando los otros dos invariables. Así, el rojo #FF0000 se puede hacer más oscuro con #AA0000, o aún más oscuro con #550000.

     Para hacer que un color tenga un tono más suave (más pastel), se deben variar los otros dos colores haciéndolos más claros (número más alto), en una cantidad igual. Así, podemos convertir el rojo en rosa con #FF7070.

    Colores del texto y de los enlaces

    Si no se variasen los colores habituales del texto y de los enlaces (negro y azul, respectivamente), podría ocurrir que su lectura contra un fondo oscuro fuese muy dificultosa, o incluso imposible, si el fondo fuese precisamente negro o azul.

    Para evitar esto, se pueden escoger los colores del texto y de los enlaces, añadiendo a la etiqueta (si se desea) los siguientes comandos:

    TEXT - color del texto LINK - color de los enlaces VLINK - color de los enlaces visitados ALINK - color de los enlaces activos (el que adquieren en el momento de ser pulsados)

    Los códigos de los colores son los mismos que los que se han visto anteriormente.

    La etiqueta, con todas sus posibilidades, sería:

    < BODY BGCOLOR="#XXYYZZ" TEXT="#XXYYZZ" LINK="#XXYYZZ" VLINK="#XXYYZZ" ALINK="#XXYYZZ">

    Ejemplo.

    El comando TEXT explicado anteriormente (que va englobado dentro de la etiqueta ) cambia el color de la totalidad del texto de la página.

    53

    Tanto el Netscape Navigator 2, como el Microsoft Explorer soportan una etiqueta de color de la fuente con la que se puede cambiar sólo una parte del texto:

    Este texto es de color rojo

    b) Fondos con una imagen

    El fondo de una página puede ser también una imagen, ya sea en formato GIF o JPEG. Esta imagen se repite por toda la página, de una manera análoga al tapiz de Windows. La estructura de la etiqueta es:

    o bien:

    No todos los navegadores soportan este formato

    Hay que prever la posibilidad de que quien acceda a nuestra página haya deshabilitado la carga automática de imágenes, en cuyo caso tampoco cargaría la imagen que sirve como fondo y sólo vería el fondo estándar de color gris. Esto podría ser muy perjudicial si hemos escogido unos colores para el texto y los enlaces que no contrastan bien con ese fondogris. La solución a este problema es poner dentro de la etiqueta los dos comandos BACKGROUND y BGCOLOR (en este orden), teniendo cuidado en escoger un color uniforme de fondo parecido al de la imagen.

    Práctica 6. Vamos a poner como fondo la imagen nubes.jpg, junto con un fondo alternativo de color azul claro y hacer que el texto sea de color rojo oscuro. Para ello es necesario antes capturar la imagen y guardarla en el mismo directorio en donde vamos a guardar el fichero que vamos a crear.

    Cargamos en el editor de textos mipag3.html y sustituimos la etiqueta por esta otra:

    54

    Guardamos este fichero como mipag7.html y lo cargamos en el navegador para visualizarlo. Este es el resultado :

    7. Tablas

    Hasta que no se empezaron a usar las tablas, la única manera de tabular las cosas era utilizar la etiqueta de preformateado, con la que es necesario poner textomente los espacios en blanco para que quede todo alineado formando filas y columnas, con un resultado muy poco estético.

    Estructura de una tabla

    Vamos a ver ordenadamente (de fuera hacia dentro) las etiquetas necesarias para confeccionar las tablas.

    1. La etiqueta general, que engloba a todas las demás es

    y
    . Es decir:

    [resto de las etiquetas]

    Para que los datos vayan dentro de cajas formadas por un borde tenemos que añadir el atributo BORDER a la etiqueta, es decir:

    [resto de las etiquetas]

    2. En el siguiente nivel, dentro de la anterior, están las etiquetas para formar cada fila (row) de la tabla, que son y . Hay que repetirlas tantas veces como filas queremos que tenga la tabla. Es decir, para una tabla con dos filas, sería:

    [etiquetas de las distintas celdas de la primera fila]

    55

    [etiquetas de las distintas celdas de la segunda fila]

    3. En el último nivel (dentro de las anteriores) están las etiquetas de cada celda, que son y , que engloban el contenido de cada celda concreta (texto, imágenes, etc.). Hay que repetirla tantas veces como celdas queremos que haya en esa fila.

    Veamos un ejemplo de una tabla con dos filas. Cada fila va a tener tres celdas. Dentro de cada celda vamos a poner un texto indicativo de la posición de dicha celda:

    fila1-celda1 fila1-celda2 fila1-celda3
    fila2-celda1 fila2-celda2 fila2-celda3

    Que resulta:

    Titular de la tabla

    Se puede añadir un titular (caption) a la tabla, es decir un texto situado encima de la tabla que indica cuál es su contenido. Se consigue con la etiqueta y .

    Variando el espesor de los bordes

    56

    El atributo BORDER (visto más arriba) pone por defecto un borde de espesor igual a la unidad. Pero se puede hacer que este borde sea tan grueso como queramos, poniendo:

    Si en el ejemplo anterior ponemos:

    Celdas de cabecera

    Además de las celdas que contienen datos normales, podemos poner, si nos conviene, celdas de cabecera (header), que se distinguen por estar el texto de dichas celdas en negrita y centrado. Esto se consigue con la etiqueta

    (en vez de la normal )

    Vamos a añadir, en el ejemplo anterior, una fila de estas celdas de cabecera, antes de las otras dos que ya existían:

    Que resulta:

    Contenido de las celdas

    Hasta ahora, en todos los ejemplos se ha puesto un texto normal dentro de las distintas celdas. Pero se puede poner en ellas cualquier otro elemento de los que van en un documento HTML, como imágenes, enlaces, etc. No hay más que poner dentro de la etiqueta de la celda la etiqueta correspondiente a una imagen, un enlace, etc.

    Ejemplo con una imagen:

    y y
    Columna 1 Columna 2 Columna 3

    57

    Ejemplo con un enlace:

    Página principal

    Posicionamiento del contenido dentro de la celda

    Normalmente, el contenido de una celda está alineado a la izquierda. Pero se puede cambiar esto añadiendo dentro de la etiqueta de la celda los siguientes atributos:

    Al centro A la derecha Cabecera a la izquierda (Recuérdese que por defecto están centradas)

    El alineamiento por defecto en el sentido vertical es en el medio. También se puede cambiar,añadiendo dentro de la etiqueta de la celda los siguientes atributos:

    Arriba Abajo

    Variando las dimensiones de la tabla

    El navegador se encarga normalmente de dimensionar el tamaño total de la tabla de acuerdo con el número de filas, de columnas, por el contenido de las celdas, espesor de los bordes, etc.

    A veces nos puede convenir forzarle para que la tabla tenga unas dimensiones totales mayores que las que le corresponden, tanto en anchura como en longitud. Esto se consigue añadiendo dentro de la etiqueta de la tabla los atributos WIDTH y HEIGHT igual a un porcentaje de la dimensión de la pantalla, o a una cifra que equivale al número de pixels.

    Por ejemplo ponemos:

    O ponemos:

    Celdas que abarcan a otras varias

    A veces puede interesarnos que una celda se extienda sobre otras varias. Esto se consigue añadiéndo dentro de la etiqueta de la celda los atributos COLSPAN=número

    58 para extenderse sobre un número determinado de columnas, o ROWSPAN=número para extenderse verticalmente sobre un número determinado de filas.

    Por ejemplo, en la tabla vamos a añadir una fila con una sola celda, que abarca a dos columnas:

    Color de fondo en las tablas

    Podemos conseguir que las tablas tengan un color de fondo, siguiendo un procedimiento totalmente análogo al empleado para que una página tenga un color de fondo uniforme (según vimos en el epígrafe 6). Para ello debemos utilizar el atributo BGCOLOR="#XXYYZZ", visto en dicho epígrafe.

    Se puede conseguir:

    1.Que la totalidad de la tabla tenga un color de fondo. Para ello, colocamos el atributo dentro de la etiqueta TABLE. Por ejemplo, vamos a hacer que la tabla tenga un fondo verde (#00FF00):

    Celda sobre 2 columnas
    fila1-celda1 fila1-celda2
    fila2-celda1 fila2-celda2

    2.Que sólamente una celda determinada tenga un color de fondo. Para ello, colocamos el atributo dentro de la etiqueta de la celda correspondiente. Por ejemplo, vamos a hacer que sólo la celda 1 de la fila 1 tenga un color verde:

    59

    fila1-celda1fila1- celda2
    fila2-celda1 fila2-celda2

    3.Que la generalidad de las celdas tenga un color, pero que alguna celda tenga uno particular. El atributo del color general se coloca en la etiqueta TABLE, y el del color particular en la etiqueta de la celda en cuestión (una combinación de los dos casos anteriores). por ejemplo, vamos a hacer que la generalidad de la tabla sea de color rojo (#FF0000), pero que la celda 1 de la fila 1 sea de color verde (#00FF00):

    fila1-celda1fila1- celda2
    fila2-celda1 fila2-celda2

    Imágenes de fondo en las tablas

    El Explorer de Microsoft soporta la colocación de imágenes de fondo en el interior de las tablas, de una manera análoga a como se hace en una página (según vimos en el epígrafe 6). Para ello debemos utilizar el atributoBACKGROUND="imagen.gif" o BACKGROUND="imagen.jpg", visto en dicho epígrafe.

    Si se utiliza dentro de la etiqueta

    la imagen en cuestión se multiplicará detrás de todas las celdas.

    Separación entre las celdas de una tabla

    Por defecto, la separación entre las distintas celdas de una tabla es de dos pixels. Pero se puede variar esto con el atributo CELLSPACING, que se pone dentro de la etiqueta TABLE.

    Por ejemplo, para obtener una separación de 20 pixels entre celdas ponemos:

    Separación entre el borde y el contenido dentro de las celdas

    Por defecto, la separación entre el borde y el contenido dentro de las celdas es de un pixel. Se puede cambiar esto con el atributo CELLPADDING, que se pone dentro de la etiqueta TABLE.

    Por ejemplo, para obtener una separación de 20 pixels entre el contenido y los bordes, dentro de cada celda:

    60

    Práctica 7. Vamos a crear una tabla de dos filas, con una celda cada una. La primera, como cabecera, con el texto "Un lugar ideal para mis vacaciones", y la segunda con la imagen isla.gif. Además vamos a alargar a lo ancho la tabla al 75% de la pantalla.

    Para ello:

    Un lugar ideal para mis vacaciones
    isla

    El resultado es:

    8. Formularios

    La manera general para que los lectores de nuestra página se puedan comunicar con nosotros es por medio de un enlace a nuestra dirección de email, con lo que recibiríamos un email convencional.

    Pero puede ser que lo que necesitemos sea sólamente una respuesta concreta a unas opciones que presentaremos nosotros mismos, o un comentario del usuario, para lo que le suministraremos un espacio en donde introducirlo.

    Se puede hacer todo esto, además de otras cosas, utilizando los formularios, con los que se pueden confeccionar páginas que contengan los elementos necesarios para ello, tal como botones de radio, listas de selección, cajetines de introducción de texto y de control, etc., como vamos a ver.

    Los formularios permiten que los demás nos envíen la información directamente a nosotros o bien a nuestro servidor, en donde hemos instalado un programa que procese esta información.

    61

    Por ejemplo, vamos a suponer que queremos crear una lista de correo. Los usuarios pueden introducir sus nombres y direcciones de email y pulsar un botón de envío. Esos datos los podemos recibir "en bruto" en nuestro correo, con los que confeccionaríamos textomente dicha lista de correo, sin necesitar ningún programa para ello. Este proceso es el que vamos a comentar en este epígrafe.

    La otra posibilidad, de la que únicamente se va a hacer esta mención, es que hubiéramos instalado en nuestro servidor un programa especial para procesar esos datos y añadirlos a la lista de correo, y que incluso pudiera devolver automáticamente al usuario algún tipo de información. Para conseguir esto, los formularios necesitan ejecutar programas o scripts por medio del CGI (Common Gateway Interface). El CGI permite a los formularios ser procesados por programas escritos en cualquier lenguaje, aunque los más usados en Internet son el y el C.

    NOTA: El tipo de formulario que se describe a continuación podrá ser utilizado por la mayoría de los navegadores, con la notable excepción del Explorer (incluso la versión 3.0), por lo que es conveniente suministrar al final del formulario, como una alternativa para estos casos, un enlace de email ordinario (ver el Epígrafe 3)

    Estructura de un formulario

    La estructura general de un formulario es:

    1. Etiqueta de inicio:

    2. Cuerpo del formulario, con los distintos elementos para poder introducir los datos. 3. Botones de envío y de borrado. 4. Etiqueta de cierre

    Etiqueta de inicio

    El atributo ACTION indica la acción que se debe efectuar y que es que los datos sean enviados por email a la dirección indicada. (Si hiciéramos uso del CGI, sería precisamente aquí donde indicaríamos su localización en el servidor, que habitualmente es el directorio cgi-bin, para que procese los datos).

    El atributo METHOD=POST indica que los datos sean inmediatamente enviados por correo a la dirección de email, nada más pulsar el usuario el botón de envío.

    Con el atributo ENCTYPE="TEXT/PLAIN" se consigue que las respuestas las recibamos como un fichero de texto, perfectamente legible y sin codificar.

    Elementos para introducir los datos

    Los vamos a dividir en tres clases:

    a) Introducción por medio de texto

    62

    b) Introducción por medio de menús c) Introducción por medio de botones

    La introducción de los datos se consigue por medio de la etiqueta:

    En donde: xxx es la palabra que indica el tipo de introducción. yyy es el nombre que le asignamos nosotros a la variable de introducción del dato. zzz es la palabra asociada a un elemento.

    a) Introducción por medio de texto (una línea)

    En este caso es xxx=text, es decir, INPUT TYPE="text". El atributo VALUE no procede en este caso. Vamos a poner un ejemplo: solicitamos el apellido del usuario.

    Escribe tu apellido:

    Que resulta:

    Si el usuario introduce su apellido, p. ej. Ruiz, y pulsa el botón de envío (que veremos más adelante), recibiremos un email suyo con el siguiente texto:

    Apellido=Ruiz

    La longitud de este formulario es por defecto de 20 caracteres. Se puede variar incluyendo en la etiqueta el atributo SIZE="número". Por otra parte, sea cual sea la longitud del formulario, si no se indica nada, el usuario puede introducir el número de caracteres que quiera. Se puede limitar esto, incluyendo en la etiqueta el atributo MAXLENGTH="número".

    También se puede hacer que el texto introducido no sea reconocible, es decir que todos los caracteres se representen por asteriscos. Basta con cambiar en la etiqueta INPUT TYPE="text" por INPUT TYPE="password". En el último ejemplo, podemos cambiar la etiquea correspondiente por:

    63 a-1) Introducción por medio de texto (múltiples líneas)

    Cuando el texto a introducir puede alcanzar una gran longitud, por ejemplo un comentario, es conveniente utilizar un formulario de texto de múltiples líneas.

    Esto se consigue con la etiqueta de inicio:

    Ejemplo: un formulario solicitando los comentarios del usuario:

    Introduce tus comentarios:

    b) Introducción por medio de menús

    Si queremos que el usuario, en vez de introducir un texto, como hemos visto en los casos anteriores, escoja entre varias opciones que le presentamos nosotros, haremos uso de un formulario en forma de menú.

    Se consigue con la etiqueta de inicio . Las distintas opciones a escoger se consiguen con la etiqueta

    Ejemplo: Pedimos al usuario que elija su color preferido:

    ¿Cuál es tu color preferido?

    En el ejemplo anterior, sólo es visible en el formulario una opción. Si queremos que sean visibles múltiples opciones a la vez, añadimos en la etiqueta los atributos MÚLTIPLE SIZE="número", donde especificamos el número de opciones visibles. 64

    Si cambiamos en el ejemplo anterior la etiqueta correspondiente por:

    Ejemplo: Solicitamos al usuario que confirme su inclusión en una lista de correo:

    Sí, deseo ser incluido en la lista de correo.

    Si queremos que el formulario aparezca inicialmente como marcado (el usuario no necesitará hacerlo), basta con añadir el atributo CHECKED dentro de la etiqueta. En el ejemplo anterior sustituimos la etiqueta equivalente por:

    b-2) Botones de radio

    65

    Cuando queremos que el usuario elija una única opción entre varias, podemos hace uso de los botones de radio, que se consiguen con la etiqueta:

    Donde yyy es el nombre que le ponemos a la variable que se trata de elegir, y zzz es el nombre de cada una de las opciones en concreto.

    Ejemplo: solicitamos al usuario que defina cuál es su sistema operativo preferido:

    ¿Cuál es tu sistema operativo preferido?
    Windows MacOs Unix

    Que resulta:

    Obsérvese el atributo opcional CHECKED que se ha añadido en la primera etiqueta. Esa será la opción que aparece marcada por defecto. Obsérvese también que no es posible escoger más de una opción.

    c) Botones de envío y de borrado

    Hasta ahora, en todos los ejemplos que hemos visto, faltaba un elemento esencial en cualquier formulario, y es el botón de envío de los datos, que se consigue con la etiqueta:

    En donde zzz es el texto que queremos que aparezca en el botón.

    66

    Vamos a añadirlo al primer ejemplo, en el que se solicitaba el apellido del usuario:

    Escribe tu apellido:

    Otro botón interesante es el de borrado de los datos introducidos, muy conveniente en un formulario con muchos elementos. Es muy similar al de envío, pues se consigue con la etiqueta:

    En donde zzz es el texto que queremos que aparezca en el botón.

    Si añadimos al ejemplo anterior la etiqueta:

    resulta:

    Práctica 8. Vamos a añadir un "libro de visitas". Para ello, añadimos lo siguiente, entre las etiquetas


    y situadas al final, lo siguiente:

    Libro de visitas

    67

    Tu nombre:

    Escribe tus comentarios:


    El resultado es:

    9. Frames

    Frames (en inglés, marcos o cuadros) es un procedimiento del lenguaje HTML para dividir la pantalla en diferentes zonas, o ventanas, que pueden actuar independientemente unas de otras, como si se trataran de páginas diferentes, pues incluso cada una de ellas pueden tener sus propias barras deslizadoras.

    Una de sus características más importantes es que pulsando un enlace situado en un frame, se puede cargar en otro frame una página determinada. Esto se utiliza frecuentemente para tener un frame estrecho en la parte lateral (o superior) con un índice del contenido en forma de diferentes enlaces, que, al ser pulsados cargan en la ventana principal las distintas páginas.

    De esta manera se facilita la navegación entre las páginas, pues aunque se vaya pasando de unas a otras, siempre estará a la vista el índice del conjunto.

    Para comprender los distintos conceptos vamos a desarrollar un ejemplo, creando una página con dos frames. El de la izquierda va a servir de índice de lo que veamos en el de la derecha, y en éste veremos inicialmente una página de presentación. Se podrá acceder también aquí a la página personal creada en los epígrafes anteriores , si se pulsa un enlace en el frame de la izquierda.

    Documento de definición de los frames

    68

    Lo primero que tenemos que hacer es crear un documento HTML en el que definiremos cuántas zonas va a haber, qué distribución y tamaño van a tener, y cuál va ser el contenido de cada una de ellas.

    En el ejemplo que vamos a desarrollar, la página va a tener dos frames distribuidos en columnas (es decir, uno al lado del otro, en vez de uno encima del otro, lo que sería una distribución en filas).

    Con respecto al tamaño, haremos que el primero (el del izquierda) ocupe el 20% del ancho de la pantalla, y el otro, el 80% restante.

    Y con respecto al contenido, el frame de la izquierda va a contener un documento HTML que va a servir de índice de lo que veamos en el otro (y que vamos a llamar mipagind.html), y el de la derecha otro documento HTML que va a servir de página de presentación (al que llamaremos mipagpre.html).

    Todo lo anterior se refleja en el siguiente documento HTML:

    Mi pagina con frames

    Ya se ha definido el número de frames, su distribución y su tamaño, pero falta por definir el contenido de cada frame. Esto se hace con las etiquetas:

    Con esto se define que el contenido del primer frame (el de la izquierda) sea el documento HTML mipagind.html y el del segundo (el de la derecha) sea el documento HTML mipagpre.html.

    Obsérvese que en la etiqueta del segundo se ha incluido el atributo NAME="principal", pero no así en el primero. El motivo es que se necesita dar un nombre al segundo frame, pues, como veremos a continuación, en el documento del primer frame va a haber unos enlaces que van a ir dirigidos hacia él. En este caso sólo tenemos dos frames, pero podría haber más, y es necesario distinguirlos unos de otros. Y el primero no necesita nombre, pues no va a haber enlaces en el segundo dirigidos hacia él.

    Documentos HTML de cada frame

    69

    Necesitamos ahora confeccionar el documento HTML de cada uno de los frames. Recuérdese que son como páginas independientes, que pueden tener cada una su propio fondo, etc., y todo lo que queramos añadir en ellos y que hemos aprendido hasta ahora.

    Documento del frame de la izquierda

    Va a tener un fondo amarillo, y va a contener dos enlaces dirigidos al frame de la derecha. Además, como muestra de que se puede añadir cualquier cosa en un frame.

    Indice

    Presentación

    Mi página

    Dentro de las etiquetas de los enlaces podemos observar algo nuevo, y es el atributo TARGET (en inglés: objetivo, blanco), que sirve para hacer que al ser activado el enlace no se cargue en el propio frame, sino en otro, precisamente en el que hayamos llamado con ese nombre en el documento de definición de los frames.

    En nuestro caso, le hemos dado el nombre de "principal" al frame de la derecha, y es por tanto ahí donde se van a cargar los documentos HTML. Guardamos este documento con el nombre de mipagind.html. Además, capturamos la imagen y la guardamos junto con el documento.

    Documento del frame de la derecha

    Va a tener un fondo negro, y va a contener sólamente un texto.

    Presentacion

    ESTA ES LA VERSION
    CON FRAMES
    DE MI PAGINA

    Guardamos este documento con el nombre de mipagpre.html

    70

    Si lo cargamos, este es el resultado con frames (para los navegadores que los soportan). Se puede comprobar cómo cambiamos de página en el frame de la derecha, según el enlace que pulsemos en el frame de la izquierda.

    Atributos de la etiqueta

    La etiqueta FRAMESET, como hemos visto en el ejemplo, es la que define la distribución, el número y tamaño de los frames. Tiene dos atributos: COLS (columnas) y ROWS (filas):

    Define la distribución de los frames en columnas o en filas, según se use uno u otro atributo.

    Define el número de frames que habrá, pues, por ejemplo:

    (habrá dos frames en columnas) (habrá tres frames en columnas)

    Define el tamaño de los frames, según el valor que demos a xx, yy, zz.... Este valor se puede expresar en:

     Un porcentaje del ancho del pantalla (para las columnas), o del alto de la pantalla (para las filas). Así, por ejemplo:

    (la columna de la izquierda ocupará el 20% del ancho de la pantalla, y la de la derecha el 80% restante)

    (la fila superior ocupará el 10% del alto de la pantalla, la del medio el 70%, y la inferior el 20%)

    71

     Un número absoluto que representa el número de pixels que ocupará cada frame a lo ancho o a lo alto (según sean filas o columnas). Así, por ejemplo:

    (la columna de la izquierda tendrá 40 pixels de ancho y la de la derecha 600).

    Es peligroso utilizar sólo valores absolutos, pues el tamaño de la pantalla varía de un usuario a otro. Si se va a usar algún valor absoluto para un frame, es mejor mezclarlo con alguno relativo, como los que vamos a ver a continuación, para que se ajuste el total a la pantalla del usuario.

     Un valor relativo que se consigue poniendo un asterisco (*), en vez de un número. Esto se interpreta como que ese frame debe tener el espacio restante. Por ejemplo: (Habrá tres filas, la superior y la inferior de una altura fija de 100 pixels, y la del medio obtendrá el espacio restante).

    Si hay más de un frame con asterisco, ese espacio restante se dividirá por igual entre ellos. Si hay un número antes del asterisco, ese frame obtiene esa cantidad más de espacio relativo. Así "2*,*" daría dos tercios para el primer frame y un tercio para el otro.

    Frames sin bordes

    Si se desea que no haya un borde de separación entre los frames, se deben incluir el atributo FRAMEBORDER=0 dentro de la etiqueta FRAMESET.

    Para que también desaparezcan los huecos de separación entre frames hay que añadir otros dos atributos (el primero es para el Explorer y el segundo para el Netscape): FRAMESPACING=0 y BORDER=0. con lo que la etiqueta completa quedaría:

    Atributos de la etiqueta

    Esta etiqueta define las cararacterísticas de un frame concreto, no del conjunto de los frames, como era el caso con la etiqueta . Puede tener los siguientes posibles atributos, que van dentro de la etiqueta :

    SRC="dirección". Esta dirección puede ser la de un documento HTML (tal como hemos utilizado en el ejemplo), o cualquier otro recurso del Web (o URL). Con este atributo se indica lo que se cargará inicialmente en el frame. Si no se le pone este atributo a la etiqueta , entonces dicho frame aparecerá inicialmente vacío, aunque tendrá las dimensiones asignadas.

    72

    NAME="nombre_de_la_ventana". Este atributo se usa para asignar un nombre a un frame. El atributo NAME es opcional. Por defecto, todas las ventanas carecen de nombre. Los nombres que se escojan deben comenzar por un carácter alfanumérico (una letra o un número, pero no otro tipo de símbolo).

    MARGINWIDTH="número". Se utiliza este atributo cuando se quiere controlar la el ancho de los márgenes dentro de un frame. El número que se ponga representa los pixels de los márgenes. Este atributo es opcional.

    MARGINHEIGHT="número". Igual que el anterior, pero referido a los márgenes en altura.

    SCROLLING="yes|no|auto". Este atributo se utiliza para decidir si el frame tendrá o no una barra deslizadora. Si se escoje "yes" tendrá siempre una barra deslizadora. Si se escoje "no" no la tendrá nunca, y si se escoje "auto", será el navegador quien decida si la tendrá o no. Este atributo es opcional. Su valor por defecto es "auto".

    NORESIZE. A este atributo no se le asigna un valor numérico, como a los demás. Es un indicador para que la ventana no se pueda re-dimensionar (en inglés, resize) por parte del usuario. Es un atributo opcional. Por defecto, todos los frames son re- dimensionables.

    FRAMEBORDER="no". Este atributo elimina el borde en un frame, pero si se quiere que se elimine completamente, también hay que ponérselo al frame contiguo. Si se quiere eliminar los bordes de todos los frames, se debe colocar en la etiqueta FRAMESET, como hemos visto anteriormente.

    El atributo TARGET

    En el ejemplo hemos visto que, como queríamos que los enlaces situados en el frame de la izquierda surtieran efecto no en él mismo, sino en otro frame, teníamos que poner dentro de cada enlace el atributo TARGET="principal", siendo "principal" el nombre que habíamos dado al segundo frame, en el documento de definición de frames. Es decir, hemos utilizado este atributo de esta manera:

    TARGET="nombre_dado_a_otro_frame".

    Estos nombres, que los escogemos nosotros, pueden ser cualquiera, pero con la condición que el primer carácter sea alfanumérico (letra o número).

    Pero hay unos nombres reservados (es decir, que no se pueden usar para denominar a un frame), que hacen que este atributo efectúe unas funciones especiales. Para que cumplan su cometido, es imprescindible escribir estas palabras reservadas (blank, self y top) en minúsculas.

    73

    TARGET="_blank". Hace que se abra una nueva copia del navegador, y el enlace activado se carga en ella, a pantalla completa. Es decir, tendríamos dos copias del navegador (Netscape, Explorer, etc.) funcionando a la vez.

    TARGET="_self". Hace que el enlace se cargue en el propio frame.

    TARGET="_top". Hace que el enlace se cargue a pantalla completa, suprimiendo todos los frames, pero sin que se cargue una nueva copia del navegador. Este es particularmente útil. Un error muy común es olvidarse de poner este atributo en los enlaces que están en un frame, con lo que resulta que al ser activados, la página llamada se carga dentro del propio frame, lo cual es muy molesto si esa página pertenece a otro sitio del Web, y aún más grave si esa página tiene a su vez frames. Este inconveniente se evita poniendo este atributo dentro de las etiquetas de los enlaces.

    Frames anidados dentro de otros frames

    Hasta ahora hemos contemplado sólo la posibilidad de tener una distribución de los frames bien en filas o bien en columnas, (dependiendo que se utilice el atributo ROWS o COLS en la etiqueta FRAMESET), pero no ambos a la vez.

    Se pueden obtener distribuciones más complejas anidando filas dentro de una columna, o a la inversa, columnas dentro de una fila.

    Supongamos que queremos la siguiente distribución:

    Un frame estrecho en horizontal en la parte superior, de lado a lado de la pantalla (altura, el 15%) Otro frame estrecho en vertical en la parte izquierda, debajo del anterior (anchura, el 20%) Un tercero ocupando el resto de la pantalla.

    Vemos que, en realidad, esto equivale a la siguiente distribución:

    Dos filas. La superior ocupa el 15% y la inferior el resto. La fila inferior está a su vez dividida en dos columnas. La primera (la de la izquierda) ocupa el 20% y la otra, el resto.

    El documento de definición de las dos filas (olvidémonos de momento que la de abajo está subdividida), sería:

    Pagina con dos filas

    74

    Como la fila inferior, en realidad, son dos columnas (con una distribución del 20% y resto), sustituimos (anidando) la etiqueta por:

    Con lo que queda el documento definitvo así:

    Pagina con fila superior y dos columnas inferiores

    La distribución quedaría así :

    10. Sonidos.

    Una página del Web puede tener sonidos incorporados, bien sea como un fondo sonoro que se ejecuta automáticamente al cargar la página, o como una opción para que la active el propio usuario.

    Fondo sonoro para el Microsoft Internet Explorer

    75

    Para las versiones 2.0 en adelante, se utiliza la etiqueta:

    El fichero de sonido puede estar en formato .mid o .wav.

    El atributo LOOP (en inglés, lazo) sirve para especificar el número (n) de veces que se debe ejecutar el fichero de sonido. Si se escoje el número n=-1 o se pone LOOP=infinite, el sonido se ejecutará indefinidamente. Se puede omitir este atributo, y entonces el fichero se ejecutará una sola vez.

    Ejemplo 1

    La etiqueta para que se ejecute el fichero prv89.mid dos veces en el Explorer es:

    Fondo sonoro para el Netscape

    La etiqueta básica para el Netscape es:

    donde WIDTH es la anchura y HEIGHT la altura de una consola que aparece, y que tiene diferentes teclas (play, stop, pausa, etc.). Más adelante veremos los valores xxx e yy que debemos atribuirles.

    El fichero de sonido puede estar en formato .mid o .wav, pero recuérdese la advertencia hecha anteriormente, de que estos formatos deben estar configurados como MIME por el servidor donde esté alojada la página.

    Dentro de la etiqueta se pueden añadir los siguientes atributos opcionales:

    AUTOSTART="true" (arranca automáticamente) LOOP="true" (se ejecuta ininterrumpidamente)

    Activación del sonido por el propio usuario

    Hasta aquí hemos visto cómo poner un sonido de fondo en una página. Hay otra opción, mucho más sencilla, y es la de poner un enlace a un fichero de sonido, de tal manera, que al pulsarlo se ejecute el fichero. (Ver el Epígrafe 3, en el que se explica cómo crear enlaces).

    Por ejemplo, vamos a poner un enlace al fichero prv89.mid:

    Escucha esta musica

    76

    Al pulsar el enlace se activa, en una ventana aparte, el programa que ejecuta el sonido. Esto es válido para todos los navegadores, incluso las versiones más antiguas, con la única condición de que se haya configurado un programa auxiliar capaz de ejecutar ficheros .mid o .wav.

    77

    Etiquetamiento(Tagging) Especial Formatos de archivo etiquetado

    Algunos formatos de archivo como el formato HMTL y el XML contienen un tipo de marcas especiales. Las etiquetas contienen información explícita sobre la representación del texto y la estructura del contenido de un documento. Se trata de texto sencillo, generalmente entre paréntesis (del tipo < y >). Una porción de texto o información estructural encerrada entre corchetes constituye una etiqueta (en inglés "tag"). Los formatos de este tipo, Tagged file formats o archivo de formato con etiquetas, pueden ser leídos por cualquier editor de textos.

    Texto de origen en Inglés en formato HMTL en un buscador de Internet:

    78

    El mismo texto presentado en formato de texto sencillo en un editor de texto estándar como el Notepad...:

    79

    ... y el mismo texto en el editor de un sistema de Memoria de Traducción (se ve también la traducción al griego en proceso):

    80

    El resultado del texto traducido al griego como se lo ve en el buscador de Internet:

    Mientras que el HMTL está formado por una serie de etiquetas muy precisas, que no pueden ser modificadas por el usuario, el XML es mucho más flexible. Provee una serie de reglas para desarrollar variedades individuales del XML que se adecúan a distintos documentos y a las necesidades del usuario. Mientras que es relativamente fácil para un programador de software desarrollar un programa que identifique las etiquetas del HMTL automáticamente y las proteja de posibles modificaciones, hacer lo mismo con las etiquetas XML en un archivo de este tipo, puede requerir un poco más de trabajo por parte del usuario. Todas las etiquetas de un archivo XML están definidas en una definición de tipo de documento (DTD). Para identificar correctamente y traducir documentos de XML, es importante obtener la DTD asociada al archivo de XML. El filtro XML que viene incorporado con el sistema de Memoria de Traducción (MT) puede leer esta definición DTD e intentar identificar las etiquetas en el texto de origen. Sin embargo, interpretar la DTD puede requerir la intervención del usuario. Si no hay ninguna DTD disponible, el mecanismo de filtro tendrá que crear una lista de etiquetas (analizando el texto de origen) o, en el peor de los casos, el usuario tendrá que completar una lista con todas las etiquetas contenidas en el documento de origen.

    Cómo convertir otros formatos en un archivo con etiquetas.

    En algunas MT los editores usan un formato de XML personalizado. Esto quiere decir que los documentos de cualquier formato que sea (por ej. documentos de programas DTP del tipo FrameMaker o Interleaf) deben ser convertidos a este formato de

    81 etiquetas, de modo tal que el procesador de texto o editor de marca registrada usado por la MT pueda leer los archivos. El sistema de MT debe ofrecer herramientas especiales de conversión o de filtros de formato. Habría que ejecutar la conversión o usar el filtro de formato en los archivos antes o mientras se los carga en la MT. Cuando se haya finalizado y revisado la traducción, los nuevos archivos traducidos serán reconvertidos al formato original

    Segmentación ¿En qué consiste?

    La segmentación es la subdivisión automática de un texto en unidades más cortas. Un segmento es un elemento del texto que la MT considera la unidad mínima traducible. En general, en el entorno de la MT dichas unidades son oraciones, pero también pueden ser encabezamientos o elementos de una enumeración. Cuando traduce un texto, la MT busca, para cada segmento, una correspondencia en la base de datos de la MT a fin de recuperar posibles traducciones anteriores. Los siguientes elementos de un texto son caracteres típicos que la MT reconoce como separadores de segmentos:

     marcas de final de párrafo  final de oración (punto, signo de interrogación o exclamación seguido de un espacio)  final de celda (en una planilla).

    ¿Qué hacer?

    1. Controlar el texto de origen antes de segmentarlo

    Para lograr que un texto se divida correctamente en segmentos, controle que el texto no contenga ninguno de los siguientes elementos:

    o marcas de final de párrafo en medio de la oración

    EJEMPLO: Ejemplo de formato incoherente entre el texto de partida y el texto de llegada.

    Problema: En este ejemplo, las diferencias entre los separadores de segmentos de ambos textos causan errores de alineación. El título del documento en inglés está dividido en cuatro segmentos debido al uso incorrecto del tabulador.

    Solución: Para que la alineación sea precisa es indispensable que los textos de partida y de llegada usen separadores de segmentos correctos e idénticos. Los textos de partida y de llegada deben ser revisados atentamente antes de comenzar la alineación.

    82

    Parte de un texto de partida en inglés...

    ... y su segmento correspondiente en el texto de llegada en alemán

    83

    Textos de partida y de llegada con alineación errónea (TRADOS WinAlign)

    o guiones mal ubicados o planillas creadas con el tabulador o signos de corrección o señaladores o marcas en el medio de una oración o palabra 2. Si los resultados de la segmentación no son aceptables, modifique las reglas de segmentación

    Los sistemas de memoria de traducción por lo general permiten al usuario cambiar y adaptar estas reglas. Se pueden agregar separadores adicionales y crear archivos que contengan abreviaciones como "Sr." o "ej." en las que el punto no debe ser considerado un separador de segmentos.

    Nota:

    La segmentación es un pre requisito para la alineación de traducciones ya realizadas con sus correspondientes textos de origen para crear una base de datos de la MT. En este caso, ambos textos, el de origen y el traducido, serán divididos en segmentos y deberán controlarse antes de proceder a la alineación.

    Pre Traducción ¿En qué consiste?

    Pre-traducción de segmentos del texto de origen

    La pre-traducción (también llamada traducción por lotes o batch translation) consiste en comparar un texto de origen completo con la base de datos de la Memoria de Traducción (MT) e insertar automáticamente las traducciones de todas las correspondencias exactas que se hayan encontrado en la base de datos. El resultado es 84 un híbrido que contiene segmentos pre-traducidos y segmentos sin traducir. Todos los segmentos para los cuales no se haya encontrado una correspondencia, deberán ser traducidos por un traductor humano o -si se lo tiene a disposición y se lo considera útil- usando un sistema de traducción automática.

    Pre-traducción de términos

    Para aquellos casos en los que no se encuentre una equivalencia en la base de datos de la MT, algunos sistemas de MT permiten pre-traducir términos. Los segmentos del texto de origen serán comparados con la base terminológica y todas las correspondencias equivalentes que se encuentren en dicha base terminológica serán incorporadas automáticamente al texto de origen. El resultado son segmentos híbridos del texto de origen.

    ¿Para qué sirve?

    Algunas compañías de localización prefieren pre-traducir los textos antes de enviárselos a sus traductores. La pre-traducción de segmentos del texto de origen suele ser necesaria para manejar la enorme cantidad de contenidos electrónicos en proyectos de localización. La pre-traducción de términos se podría usar para que los traductores externos que no estén utilizando el sistema de MT puedan acceder a la terminología pertinente. Sin embargo, la pre-traducción de términos generalmente lleva a un exceso de trabajo de post-edición.

    Lo que hay que tener en cuenta:

    En algunas aplicaciones de MT el usuario puede definir el parámetro de correspondencia de una pre-traducción por debajo del 100%. Sin embargo, no es aconsejable usar correspondencias aproximadas en la etapa de pre-traducción, porque esto hará que la etapa de post-edición sea más difícil y lenta.

    Pero aún restringiendo automáticamente la pre-traducción a las equivalencias exactas se pueden crear errores serios. En primer lugar, cualquier error de traducción presente en las unidades de la base de datos de la MT se puede multiplicar y "repetir indefinidamente" a través del proceso de pre-traducción. En segundo lugar, inlcuso las traducciones de las correspondencias exactas podrían no corresponder con contexto del nuevo texto de origen, ya que las bases de datos de la MT son sólo una amalgama de unidades de traducción aisladas de su contexto.

    Ejemplo de Pre-Traducción

    El siguiente ejemplo corto demuestra las dificultades que se presentan durante la pre- traducción automática.

    Mientras que en inglés, una frase como "It may be hot" puede ser reutilizada en la mayoría de los casos, sin saber a qué hace referencia el pronombre it, no sucede lo mismo en las traducciones hacia otros idiomas que tienen distintos géneros gramaticales. Por lo tanto, las referencias pronominales entre oraciones pueden causar problemas graves en la pre-traducción automática.

    85

    Texto de origen en inglés:

    Texto traducido al alemán:

    Los dos pares de oraciones dan lugar a dos entradas en la MT:

    Nuevo texto de origen en inglés: La segunda oración es una correspondencia exacta.

    Nuevo texto de origen: La traducción al alemán de la correspondencia exacta no resulta adecuada en el nuevo contexto:

    86

    Nuevo texto traducido con la equivalencia exacta corregida:

    Aunque algunas aplicaciones de MT estén equipadas con funciones que permiten tener en cuenta el contexto, haciendo referencia a todo el documento traducido previamente como base para la pre-traducción, cualquier texto pre-traducido debe ser controlado cuidadósamente por un traductor humano.

    Algunos sistemas también ofrecen la opción de extraer de un texto solamente los segmentos que no pueden ser pre-traducidos. En este caso, se recibiría un listado de oraciones que no constituye un texto completo. Sería conveniente pedir al cliente que le envíe una copia del texto completo junto con las partes pre-traducidas. De no ser así, en la mayor parte de los casos, es muy difícil lograr una traducción de buena calidad.

    La pre-traducción de términos para los traductores externos no tiene sentido si ellos cuentan con una herramienta de terminología adecuada. En ese caso los traductores deberán recibir la base de datos terminológica en cuestión o una parte de esta que sea relevante al proyecto.

    87

    GLOSARIO DE TÉRMINOS Glosario de términos relacionados con la localización de contenidos electrónicos Alineación

    El proceso de alineación consiste en comparar el texto de origen y su traducción, haciendo coincidir los segmentos correspondientes y uniéndolos como unidades de traducción de una MT.

    Autoedición (en inglés DTP, de "Desktop Publishing")

    El diseño de textos y gráficos por computadora para imprimir revistas, boletines, folletos, etc. Un buen sistema de autoedición por lo general ofrece, entre otras cosas, la posibilidad de adaptar un texto a distintas medidas y formas. (FOLDOC (Free On-Line Dictionary Of Computing): Diccionario de computación gratuito en línea)

    Base de datos terminológica

    Un conjunto de entradas terminológicas en el cual se pueden efectuar búsquedas electrónicamente. (Adaptado de Bowker 2002, 154)

    Concordancia automática

    Es un dispositivo de algunos sistemas de MT que busca automáticamente fragmentos por debajo del nivel oracional. Se puede activar cuando no se encuentra una correspondencia exacta o aproximada en la base de datos de la MT. Esta función busca la correspondencia más larga posible entre el segmento del texto de origen que será traducido y los segmentos presentes en la MT y recupera en la base de datos todas las apariciones de las frases repetidas. Véase también: Herramienta de Concordancia.

    Configuración Terminológica

    Creación de bases de datos terminológicas durante la preparación de un proyecto.

    Contenido Electrónico

    Información digital con una vida útil electrónica, es decir, material creado, distribuido, utilizado y finalmente descartado en forma exclusivamente electrónica. El término es usado con un significado más amplio e incluye material que se crea electrónicamente, aunque su distribución o uso sea en forma impresa, como es el caso de muchos manuales de uso de productos de software.

    Correspondencia aproximada

    Cualquier correspondencia entre dos segmentos, uno de origen que debe ser traducido y un segmento que se encuentra almacenado en la MT, que no sea una correspondencia exacta.

    88

    Correspondencia Exacta

    Una correspondencia exacta, carácter por carácter, entre dos segmentos, uno de origen que debe ser traducido y un segmento que se encuentra almacenado en la Memoria de Traducción.

    Entrada terminológica

    Una entrada o anotación que contiene toda la información terminológica relativa a un único concepto. Esto significa que toda la información relativa al mismo concepto (incluidos, por ejemplo los sinónimos) son recogidos en una única entrada terminológica. La información relativa a conceptos diferentes debe ser archivada bajo entradas distintas.

    Error de Concordancia

    Una penalidad aplicada al valor de concordancia de algunos tipos de unidades de traducción recuperados de una memoria de traducción. Podría tratarse de traducciones hechas por un sistema de traducción automática, unidades creadas por una herramienta de alineación, traducciones de segmentos idénticos del texto de origen para distintos clientes, etc. En algunos sistemas de memoria de traducción los valores de penalidad pueden ser definidos por el usuario, otros aplican automáticamente valores predefinidos.

    Exportar

    Guardar una copia de un archivo bajo el formato requerido por una aplicación distinta de la actual. Es posible que el proceso de conversión no sea siempre perfecto. Véase también: Importar (Bowker 2002, 146)

    Extracción terminológica

    Proceso asistido por ordenador para extraer una lista de términos potenciales de una selección de textos electrónicos. El listado resultante (a veces llamados "téminos candidatos") debe ser revisado por un traductor o lingüista. La extracción de términos puede ser bilingüe o monolingüe.

    Nota: a menudo este proceso se conoce también como reconocimiento de términos. No obstante, la extracción y el reconocimiento de términos son dos tareas distintas que se llevan a cabo en diferentes fases del proceso de localización.

    Filtro de formato de archivo (también: filtro de formato, filtro, rutina o herramienta de conversión)

    Una función del software que cambia un formato de archivo por otro.

    Formato de un Archivo

    89

    La distribución, diseño y organización de la información en un archivo. Existen cientos de formatos patentados y las aplicaciones específicas necesitan que un archivo esté organizado de una cierta manera para poder leer la información que contiene. (Bowker 2002, 146)

    Gestión terminológica

    Todas las actividades relacionadas con la preparación, elaboración, documentación y uso de un léxico especializado. Estas actividades se llevan a cabo usando herramientas especializadas como los sistema de gestión de terminología. (Portal terminológico del alemán)

    Herramienta de concordancia de textos

    En los programas de Memoria de Traducción (MT): Las herramientas de concordancia bilingües permiten recuperar todas las partes de una secuencia específica de búsqueda (palabras sueltas, grupos de palabras, frases, etc.) de una base de datos de una Memoria de Traducción (MT) y visualizar las veces que aparece o se repite, al igual que con su contexto.

    HMTL (Hypertext Markup Language)

    El lenguaje de marcas usado para definir el formato de presentación del documento usado en el World Wide Web. Los sitios en la red se construyen con etiquetas de HMTL, o marcas, incrustados en el texto. El lenguaje HMTL define la disposición de la página, el tipo de carácter y los elementos gráficos así como también los enlaces de hipertexto a otros documentos de la red. (Bowker2002, 147)

    Importar

    Leer el archivo en un formato creado por una aplicación dferente a la que se está usando. Véase también: exportar. (Bowker 2002, 147)

    Kit de traducción o Kit de Localización.

    Conjunto de todo el material relacionado con un proyecto de traducción que compila el Proveedor de Localización. Ademas de los documentos de origen, o sea, el material a ser traducido, el kit incluye todo tipo de información técnica y lingüística, como las memorias de traducción, las bases de datos terminológicas o glosarios, los manuales de estilo, etc.

    Locale

    Término inglés que designa una combinación de idioma y región. En primer lugar esta combinación reconoce que en un país o región tal vez se use más de un idioma. En segundo lugar, también reconoce que aunque en distintas regiones o países se hable oficialmente el mismo idioma, es muy probable que existan amplias diferencias, lingüisticas o no lingüisticas, que requieren un tratamiento especial.

    90

    Localización (L10N)

    Adaptación de un producto para que cumpla los requisitos lingüísticos, culturales, etc. de un mercado específico (lo que se entiende como "locale") (FOLDOC: Free On-Line Dictionary of Computing). Véase también: Localización de contenidos electrónicos

    Localización de contenidos electrónicos

    Traducción y adaptación cultural de la información digital para los mercados locales.

    Memoria de traducción

    La finalidad de una memoria de traducción es guardar los originales y las traducciones de textos de eContent en un ordenador, divididos en unidades manejables, normalmente en frases. A lo largo del tiempo, se va recopilando en el sistema una enorme cantidad de oraciones con sus correspondientes traducciones. Los sistemas de memoria de traducción permiten reciclar estos segmentos ya traducidos proponiendo automáticamente una traducción recuperada de la memoria siempre que aparece la misma frase (correspondencia exacta) o una frase similar (correspondencia aproximada) en el texto que se está traduciendo.

    Objeto incrustado

    Un objeto (por ejemplo, una imagen o un diagrama de flujo) creado mediante el software de una aplicación que luego se incrusta en un documento creado con otra aplicación. Incrustar el objeto, en lugar de simplemente insertarlo o pegarlo, garantiza el mantenimiento del formato original. De hecho, es posible modificar el objeto incrustado con la aplicación original. (Adaptado de Webopedia).

    Post-edición

    Corrección de un texto traducido mediante traducción automática por parte de un traductor o un revisor.

    Pre-traducción (también llamada "batch translation" o traducción por lotes)

    La pre-traducción (también llamada traducción por lotes o batch translation) consiste en comparar un texto de origen completo con la base de datos de la Memoria de Traducción (MT) e insertar automáticamente las traducciones de todas las correspondencias exactas que se hayan encontrado en la base de datos. El resultado es un híbrido que contiene segmentos pre-traducidos y segmentos sin traducir.

    Proveedor de Localización

    Empresa que ofrece servicios de localización de contenidos electrónicos.

    91

    Reconocimiento de términos (también: búsqueda automática de términos)

    Proceso de búsqueda automática, en una base de datos terminológica, de todos los términos que aparecen en el texto con el cual el traductor está trabajando.

    Nota: se trata de un proceso distinto del de extracción de términos.

    Repetición Interna

    Son los segmentos que aparecen más de una vez en el texto de origen pero que aún no han sido traducidos, es decir, aún no están almacenadas como unidades de traducción en una Memoria de Traducción. Véase también: repeticiones internas, correspondencia exacta y análisis estadístico del texto de origen.

    Repeticiones externas

    Segmentos que aparecen más de una vez en dos o más textos de origen pero que aún no han sido traducidos, es decir, todavía no han sido registrados como unidades de traducción en una Memoria de Traducción. Véase también: repeticiones internas, correspondencia exacta y análisis estadístico del texto de origen.

    Revisión

    Todos los pasos llevados a cabo para verificar la precisión de una traducción, con especial atención puesta en el control de errores, omisiones, adiciones, nombres y títulos, cifras y gráficos, etc.

    Segmentación

    El proceso de subdividir un texto en segmentos.

    Segmento

    Una unidad de texto predefinida que puede ser alineada con su traducción correspondiente. Normalmente la unidad básica de segmentación es una frase, aunque otras unidades también se pueden definir como segmentos, por ejemplo titulares, elementos de una lista, celdas de una tabla o párrafos. (Bowker 2002, 152)

    Sistema de gestión de terminología

    Aplicación de software que permite crear, archivar y recuperar entradas terminológicas. (Adaptado de Bowker 2002, 154)

    Sistema de memoria de traducción

    Aplicación que integra una serie de herramientas que ayudan durante el proceso de traducción. Además de la memoria de traducción estos sistemas incluyen

    92

    herramientas de gestión terminológica, procesadores de textos, herramientas de gestión de proyectos y de control de calidad.

    Tag o etiqueta.

    Una especie de etiqueta, adjunta a un elemento, que contiene información relacionada con dicho elemento (por ejemplo, información sobre la presentación gráfica). Un conjunto de etiquetas constituyen el marcado; en los lenguajes de marcado como el HMTL y el XML las etiquetas aparecen escritas entre signos de mayor y menor (por ejemplo, .) (Adaptado de Bowker 2002, 153)

    Término

    La designación de un concepto definido en una lengua particular mediante una expresión linguística. Un término puede estar compuesto por una sola palabra o por dos o más palabras; la característica que distingue al término es que designa un solo concepto, en contraposición con la unidad fraseológica, que combina más de un concepto de manera lexicalizada para expresar situaciones complejas. (ISO 12620 (1999): Computer Applications in Terminology - Data Categories. Geneva: International Organization for Standardization)

    TMX (Formato de intercambio de memorias de traducción)

    Formato estándar para memorias de traducción desarrollado por LISA (Localization Industry Standards Association) con el objetivo de facilitar el intercambio de memorias de traducción entre los distintos programas de software y/o entre los proveedores de servicios de localización. Para mayores detalles véase la página principal TMX.

    Traducción Automática

    Traducción llevada a cabo mediante ordenador. En este proceso el ordenador tiene la responsabilidad principal en la traducción de un texto. un traductor humano puede ayudar durante el proceso con tareas de pre- o post-edición, pero es el ordenador, en lugar de la persona, quien produce la primera traducción en borrador. (Bowker 2002, 147)

    Unidad de traducción

    En una memoria de traducción, segmento del texto de origen y su traducción correspondiente. (adaptado de Bowker 2002, 155).

    Valor de Concordancia

    Se refiere al grado de similaridad entre el segmento del texto de origen a ser traducido y una unidad de traducción recuperada por el sistema de una memoria de traducción; en general se presenta como un porcentaje.

    XML (eXtensible Markup Language)

    93

    Lenguaje de marcado que sirve para mejorar la funcionalidad del Web, ya que ofrece una modalidad de identificación de la información flexible y fácilmente adaptable. Se llama "extensible" ya que no es un formato fijo ni un lenguaje de marcado predefinido único como lo es el HMTL. Al contrario, el XML es en realidad un "metalenguaje", es decir un lenguaje que se utiliza para describir otros lenguajes, y permite definir un marcado personalizado adaptable a un número infinito de tipos de documentos. (Adaptado de Peter Flynn "The XML FAQ".)

    94