Codificación De Caracteres
Total Page:16
File Type:pdf, Size:1020Kb
Codificación de caracteres Morse Baudot CCITT#2 5 bit Codificación binaria Combinaciones posibles 22: 4 23: 8 24: 16 25: 32 26: 64 27: 128 28: 256 216: 65536 ASCII American Standard Code for Information Interchange Desde la década anterior las empresas de comunicaciones como IBM y AT&T presionaban a la ASA, American Standart Asociation, para que adoptara una codificación de caracteres más amplia y eficaz. En 1966 varias compañías americanas de la industria de la comunicación entre las que se encontraban fabricantes de ordenadores y teletipos, optaron por un nuevo código que sustituyera el Baudot y se creó el código ASCII que incorporaría en 1967 las letras de caja baja. Caracteres gráficos Caracteres de control ASCII utilizaba en principio un código de 7 bits que permitía representar 128 caracteres. Con ello era posible un juego de 96 caracteres [letras mayúsculas y minúsculas, números del 0 al 9 y signos de puntuación] que ocupan las posiciones 32 a 126. Los caracteres de control [retorno de carro, salto de línea y retroceso] que ocupaban las primeras 32 posiciones. ASCII American Standard Code for Information Interchange EBCDIC IBM EBCDIC [Extended Binary Coded Decimal Interchange Code]. Se trataba de un código de 8 bits capaz de representar 256 combinaciones si bien sus caracteres alfabéticos no son secuenciales, es decir no se corresponden con números consecutivos como en ASCII. EBCDIC IBM Tarjetas perforadas Jospeh Marie Jacquard Hermann Hollerit ASCII American Standard Code for Information Interchange ISO 2022 Esta norma nació en 1973 y llegó hasta 1994. Es una tabla de 8 bits con 256 caracteres. Fue un sistema para incluir conjuntos de caracteres múltiples en un sistema de codificación de carácter. ISO / IEC 2022 se desarrolló como una técnica para atacar estos dos problemas: para representar los caracteres en varios conjuntos de caracteres dentro de una codificación de carácter individual, y para representar grandes conjuntos de caracteres. ISO 8859 Se trata de complementos para el ASCII con variantes de diversas escrituras. ISO 8859 se caracteriza por poseer la codificación ASCII en su rango inicial (128 caracteres) y otros 128 caracteres para cada codificación, con lo que en total utilizan 8 bits. ASCII American Standard Code for Information Interchange ISO 8859-1, Latin-1 e ISO 8859-15, Latin-9 ISO 8859-1 es una norma de la ISO que define la codificación del alfabeto latino, incluyendo signos diacríticos como letras acentuadas, ñ, ç y letras especiales como ß, Ø, necesarios para la escritura de las siguientes lenguas originarias de Europa occidental: afrikáans, alemán, castellano, español, catalán, euskera, aragonés, asturiano, danés, escocés, feroés, finés, francés, gaélico, gallego, inglés, islandés, italiano, holandés, noruego, portugués y sueco. ASCII American Standard Code for Information Interchange ISO 8859-2, Latin-2 e ISO 8859-16, Latin-10 Otro complemento para el ASCII que incluyó los caracteres necesarios para ciertas lenguas de Europa Central: bosnio, croata, checo, húngaro, polaco, rumano, eslovaco, eslovenio y serbio junto con algunos caracteres para alemán y francés. ASCII American Standard Code for Information Interchange ISO 8859-3, Latin-3 e ISO 8859-9, Latin-5 Otro complemento para el ASCII que incluyó caracteres para turco, maltés y esperanto. ASCII American Standard Code for Information Interchange ASCII American Standard Code for Information Interchange ISO 8859-5 Código para la escritura cirílica derivados de estándares de la Unión Soviética creados en 1987. Eran usados para el ruso, el ucraniano, el búlgaro y el macedonio. ASCII American Standard Code for Information Interchange ASCII American Standard Code for Information Interchange ISO 8859-7 Código para la escritura griega resultado de la reforma iniciada en 1981 que llevó al “sistema monotónico” un sistema de escritura simplificada que eliminó muchos signos para facilitar la adaptación de la escritura griega a los ordenadores y las necesidades de la prensa. Así, por ejemplo, aunque se mantenían las minúsculas iota e ípsilon con una diéresis pero sus versiones en mayúsculas carecían de ellas. ASCII American Standard Code for Information Interchange ISO 8859-7 Código para la escritura griega resultado de la reforma iniciada en 1981 que llevó al “sistema monotónico” un sistema de escritura simplificada que eliminó muchos signos para facilitar la adaptación de la escritura griega a los ordenadores y las necesidades de la prensa. Así, por ejemplo, aunque se mantenían las minúsculas iota e ípsilon con una diéresis pero sus versiones en mayúsculas carecían de ellas. ASCII American Standard Code for Information Interchange ISO 8859-6 Código para la escritura árabe pero que incluía sólo los caracteres básicos y dejaba vacías muchas posiciones. Contaba con los signos de puntuación, punto y coma, algo distintos que sus equivalentes latinos. ASCII American Standard Code for Information Interchange ISO 8859-8 Código esencial para la escritura hebrea moderna conocida como ivrit. ASCII American Standard Code for Information Interchange Japón En 1976, tres años después de la publicación de la norma ISO 2022, los japoneses crearon el primer código con un suplemento de 94 caracteres para el ASCII: el JIS C 6220, que sería rebautizado como JIS X 0201-1976 en 1987. El JIS C 6220, basado en el JISCII de 1969 sólo contenía katakana, algunas marcas de puntuación y signos ideográficos como el punto, la coma o las comillas. Asahi Shimbum ASCII American Standard Code for Information Interchange República Popular China 1981 Big Five Taiwan Hong Kong Singapur ASCII American Standard Code for Information Interchange Apple Apple Desde el principio el Macintosh usó su propio código, una extensión de ASCII que fue completándose poco a poco. Incluía signos matemáticos para el sumatorio tomados del griego y ligaduras para “fi” así como el símbolo de Apple convertido en carácter. La tabla recibía el nombre, un poco equívoco de Standard Roman. Obviamente hubo variantes para completar las necesidades de otras lenguas al modo que lo había hecho Microsoft. Unicode Unicode, que formalmente aparecería en 1993, es un estándar de codificación de caracteres diseñado para facilitar el almacenamiento, la transmisión y la visualización de textos de diversos lenguajes y así como textos clásicos de lenguas muertas. El término Unicode quiere resumir los tres objetivos que animaron el proyecto: Universalidad Uniformidad Unicidad Cuneiform Numbers and Punctuation Unicode Unicode, que formalmente aparecería en 1993, es un estándar de codificación de caracteres diseñado para facilitar el almacenamiento, la transmisión y la visualización de textos de diversos lenguajes y así como textos clásicos de lenguas muertas. El término Unicode quiere resumir los tres objetivos que animaron el proyecto: Universalidad Uniformidad Unicidad Unicode Farsí, Thai El sistema adjudica un nombre y un identificador numérico único para cada carácter o símbolo, el code point o punto de código, además de otros datos necesarios para su uso correcto y entiende los caracteres alfabéticos e ideográficos del mismo modo por lo que hace posible su mezcla en una misma escritura. Unicode Lenguas indoeuropeas Unicode Lenguas indoeuropeas Griego Armenio Latino Celta Eslavo Germánico Unicode Lenguas indoeuropeas Griego y latino en una misma palabra. Unicode Unificación hay caracteres sin glifo como los caracteres de control y glifos [x] que pueden pertenecer a varios caracteres. Así la forma “x” puede ser la letra del alfabeto o un signo matemático. Hay miles de formas de dibujar una misma letra. Y hay glifos que no tienen una única correspondencia como sucede con el ideograma japonés de la imagen que puede ser muchas cosas: entrada, sección, campo, discípulo, escuela y alguna otra. H hache x letra H eta x op. mt Unicode Armenio Unicode Cherokee Unicode Características Tipos de caracteres Caracteres gráficos.Letras, signos diacríticos, cifras, caracteres de puntuación, símbolos y espacios. Caracteres de formato. Caracteres invisibles que afectan al del texto. Ejemplos: U+2028 salto de línea, U+2029 salto de párrafo, U+00A0 espacio de no separación, etc. Códigos de control. 65 códigos definidos por compatibilidad con ISO/IEC 2022. Son los caracteres entre en los rangos [U+0000,U+001F], U+007F y [U+0080.U+009F]. Interpretarlos es responsabilidad de protocolos superiores. Caracteres privados. Reservados para el uso fuera del estándar por fabricantes de software. Caracteres reservados. Códigos reservados para su uso por Unicode cuyas posiciones no han sido asignadas. Puntos de código subrogados. Unicode reserva los puntos de código de U+D800 a U+DFFF para su uso como códigos subrogados en UTF-16, en la representación de caracteres suplementarios. No-caracteres. Son códigos reservados permanentemente para uso interno por Unicode. Los dos últimos puntos de cada plano U+FFFE y U+FFFF. Caracteres descartados. Son caracteres que se retienen por compatibilidad con versiones anteriores, pero se debe evitar su uso. Composición de caracteres y secuencias Unicode Características Composición de caracteres El sistema cuenta con procedimientos para formar caracteres nuevos con la combinación de otros ya existentes. De este modo, una forma básica que constituya un carácter base completa con signos diacríticos, signos de puntuación u otras marcas. Pueden existir varias opciones para representar una mismo forma. Para facilitar la compatibilidad con codificaciones anteriores se han creado caracteres precompuestos. Unicode Open Type Mapa