What Every Programmer Should Know About Unicode

Total Page:16

File Type:pdf, Size:1020Kb

What Every Programmer Should Know About Unicode U+1F4A9 = � What every Programmer should know about � Unicode � 2. Semester Medieninformatik Prof. Dr.-Ing. Carsten Bormann [email protected] © 2008–2013 Carsten Bormann 1 Textuelle Information – Zeichen Primäre Informationsquelle im Web: Text Zeichen: Buchstaben, Ziffern, Zeichensetzung, Sonderzeichen Welche Zeichen gibt es? Zeichenvorrat Wie werden sie digital kodiert? Zeichensatz Wie sehen sie aus? Font (Schrift, Schriftart) © 2008–2013 Carsten Bormann 3 Digitale Kodierung Kodierung über Kette von Bits – 0 oder 1 – n Bits 2n Möglichkeiten (25 = 32, 27 = 128, 28 = 256, ...) Beispiel: Zahlen © 2008–2013 Carsten Bormann 4 Zeichencodes: Baudot (IA2, ITU-T S.1) Telegrafie (50 bit/s): 5 Bits 32 Symbole A-Z = 26 Ziffern + Satzzeichen = 21 6 Symbole eindeutig 26 Symbole doppelt belegt Bu/Zi zum Umschalten © 2008–2013 Carsten Bormann 5 Zeichencodes: 7-Bit-Codes 7 Bit pro Zeichen (eins bleibt frei für Parity) ASCII ISO 646 = IA5 ~ DIN 66003 – Nationale Varianten: nicht alle Codes gleich belegt Steuerzeichen: CR, LF, ... (0 – 31) Schriftzeichen: !“#$...A-Z...a-z... (32* – 127*) © 2008–2013 Carsten Bormann 6 © 2008–2013 Carsten Bormann 7 8-Bit-Codes Problem: Nationale Varianten unhandlich – Europäische Integration… 8. Bit ungenutzt Idee: 2 Tabellen Linke Tabelle ~ ASCII © 2008–2013 Carsten Bormann 8 8-bit-Codes ISO 6937: – Linke Tabelle ISO 646:1973 (ASCII ohne $) – Rechte Tabelle für alle lateinischen Sprachen Diakritische Zeichen Besondere/zusammengesetzte Zeichen ISO 8859-n – Linke Tabelle ASCII (ISO 646:1990) – Rechte Tabelle in ca. 15 Varianten (ISO 8859-1 bis -15) © 2008–2013 Carsten Bormann 9 © 2008–2013 Carsten Bormann 10 © 2008–2013 Carsten Bormann 11 © 2008–2013 Carsten Bormann 12 Klassische Zeichen-Codes Telegrafie: 5-Bit-Code, 25 = 32 – Durch Doppelbelegung 26+26+6 = 58 Zeichen ASCII/ISO 646: 7-Bit-Code, 27 = 128 – C-Set: 32 Steuerzeichen; G-Set: 96 (94) Schriftzeichen ISO 6937: 8-Bit-Code, 28 = 256 – 2 C-Sets, 2 G-Sets; ca. 600 Zeichen durch Zusammensetzen ISO 8859-n: 8-Bit-Code, 28 = 256 – Wirtschaftsraumspezifische Varianten mit je 94+96 = 190 Zeichen (inkl. ASCII) © 2008–2013 Carsten Bormann 13 Probleme mit 8-Bit-Codes Bengali, Devanagari, Tamil, Thai, Tibetanisch, ... Was mit den ideographischen Schriften? – Kanji (Japan), Hanzi (China), Hanja (Korea, neben Hangul) – Tausende von Symbolen Sonstige Symbole – Dingbats, Mathematische Zeichen, E-Technik, ... – halbe Leerzeichen, linke untere Anführungszeichen, ... Kombination von Schriften in einer Anwendung Mehrfachbelegung = ISO 2022 (Codeerweiterung) 16-/32-Bit-Codes = ISO 10646 (Unicode) © 2008–2013 Carsten Bormann 14 © 2008–2013 Carsten Bormann 15 Unicode (ISO 10646) Ziel: alle definierten Zeichen repräsentieren können Idee: 32-Bit-Zeichensatz, effizient kodieren – 231 ~ 2 Milliarden Zeichen (real: bis 0x10FFFF ~ 220 ~ 1 Mio max.) 128 Gruppen, 256 Ebenen, 256 Zeilen, 256 Zellen © 2008–2013 Carsten Bormann 16 Unicode-BMP: 16-Bit-Zeichensatz Idee: Kanji und Hanzi-Varianten überlagern – Ebene 00, Gruppe 00 reicht Basic Multilingual Plane (BMP) UCS-2-Format – MSB first vs. LSB first: Byte Order Marker (BOM) FEFF… © 2008–2013 Carsten Bormann 17 Unicode BMP: A-Zone ASCII und Latin-1 sind code-kompatible Untermengen Andere 8859-n ebenfalls vorhanden (verschoben) Griechisch, Hebräisch, Arabisch, ... Zeichensetzung, Mathematik, Dingbats, ... © 2008–2013 Carsten Bormann 18 Repräsentation von Unicode UCS: UCS-2, UCS-4 – Byte-Order-Probleme FEFF (Byte Order Marker, BOM) UTF: UCS Transformation Format – UTF-7: +ACQ- – UTF-8: Aufteilen, eindeutig auch bei „Quereinstieg“ 0000 – 007F: 0xxx xxxx 0080 – 07FF: 110x xxxx, 10xx xxxx 0800 – FFFF: 1110 xxxx, 10xx xxxx, 10xx xxxx 10000 – 10FFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx – UTF-16: Wie UCS-2, aber mit Surrogat-Zeichen 10000 – 10FFFF: –10000, 1101 10xx xxxxxxxx, 1101 11xx xxxxxxxx UTF-16BE vs. UTF-16LE (oops) BOM... – UTF-32: Wie UCS-4, aber beschränkt auf 0..0x10FFFF © 2008–2013 Carsten Bormann 19 Zeichen vs. Glyphs Zeichencode: Codekombinationen für Schriftzeichen Aussehen kann sich aber unterscheiden: Formvarianten sind abstrahierbar: – z.B.: – Ligaturen: – Arabische Schreibung: initial, medial, terminal, isoliert – Arabisch vs. Europäisch: Glyphregistratur vs. weitere Zeichen in Unicode © 2008–2013 Carsten Bormann 20 © 2008–2013 Carsten Bormann 21 NFD NFC NFKD NFKC Normalisierung: NFD, NFC, NFKD, NFKC © 2008–2013 Carsten Bormann 22 Zeichensätze in der Praxis Industrie im Übergang von ISO 8859 zu Unicode – Windows-1252 (Erweiterung von ISO 8859-1) weit verbreitet Unicode ist Basiszeichensatz für HTML – HTML selbst aber oft in ISO 8859-1 kodiert (Default!) <meta http-equiv="Content-Type" content="text/ html; charset=ISO-8859-1" /> – <?xml version="1.0" encoding="iso-8859-1"?> <meta http-equiv="Content-Type" content="text/ html; charset=UTF-8" /> – <?xml version="1.0"?> © 2008–2013 Carsten Bormann 23 Apache und der Zeichensatz httpd.conf, .htaccess AddCharset UTF-8 .html AddType 'text/html; charset=UTF-8' html Selektiv: <Files "example.html"> AddCharset UTF-8 .html </Files> http://www.w3.org/International/questions/qa-htaccess-charset © 2008–2013 Carsten Bormann 24 Nützliche Unicode-Zeichen „Anführungszeichen“: – Links unten „ &#8222; – Rechts oben “ (englisch: links) &#8220; – Englisch rechts ” &#8221; Gedankenstrich – Halbgeviertstrich (en dash) – heute üblich &#8211; – Geviertstrich (em dash) — traditionell/USA &#8212; Euro-Zeichen € &#8364; Achtung: Zeichen zwischen &#128; und &#159; sind Fehler (Überbleibsel aus Windows-1252) © 2008–2013 Carsten Bormann 25 ASCII-8BIT (BINARY) Big5 (CP950) CP51932 CP850 (IBM850) CP852 CP855 CP949 Emacs-Mule EUC-JP (eucJP) EUC-KR (eucKR) EUC-TW (eucTW) eucJP-ms (euc- jp-ms) GB12345 GB18030 GB1988 GB2312 (EUC-CN, eucCN) GBK (CP936) IBM437 (CP437) IBM737 (CP737) IBM775 (CP775) IBM852 IBM855 IBM857 (CP857) IBM860 (CP860) IBM861 (CP861) IBM862 (CP862) IBM863 (CP863) IBM864 (CP864) IBM865 (CP865) IBM866 (CP866) IBM869 (CP869) ISO-2022-JP (ISO2022-JP) ISO-2022-JP-2 (ISO2022-JP2) ISO-8859-1 (ISO8859-1) ISO-8859-10 (ISO8859-10) ISO-8859-11 (ISO8859-11) ISO-8859-13 (ISO8859-13) ISO-8859-14 (ISO8859-14) ISO-8859-15 (ISO8859-15) ISO-8859-16 (ISO8859-16) ISO-8859-2 (ISO8859-2) ISO-8859-3 (ISO8859-3) ISO-8859-4 (ISO8859-4) ISO-8859-5 (ISO8859-5) ISO-8859-6 (ISO8859-6) ISO-8859-7 (ISO8859-7) ISO-8859-8 (ISO8859-8) ISO-8859-9 (ISO8859-9) KOI8-R (CP878) KOI8-U macCentEuro macCroatian macCyrillic macGreek macIceland MacJapaneseUTF-8 (MacJapan) macRoman in macRomania Programmiersprachen macThai macTurkish macUkraine Shift_JIS (SJIS) stateless-ISO-2022-JP TIS-620 US-ASCII (ASCII, ANSI_X3.4-1968, 646) UTF-16BE (UCS-2BE) UTF-16LE UTF-32BE (UCS-4BE) UTF-32LE (UCS-4LE) UTF-7 (CP65000) UTF-8 (CP65001, locale, external) UTF8- MAC (UTF-8-MAC) Windows-1250 (CP1250) Windows-1251 (CP1251) Windows-1252 (CP1252) Windows-1253 (CP1253) Windows-1254 (CP1254) Windows-1255 (CP1255) Windows-1256 (CP1256) Windows-1257 (CP1257) Windows-1258 (CP1258) Windows-31J (CP932, csWindows31J) Windows-874 (CP874) Ruby 1.8: – Strings sind Byte-Folgen – ASCII-Kompatibilität wird vorausgesetzt Ruby 1.9/2.0: # -*- coding: UTF-8 -*- – String#bytes, #codepoints, #chars DEFAULT IN RUBY 2.0 – String#encoding “a”.encoding ➔ #<Encoding:UTF-8> == Encoding::UTF_8 String.new.encoding ➔ #<Encoding:ASCII-8BIT> == Encoding::BINARY – String#force_encoding(Encoding::UTF_8) String#valid_encoding? – String#encode(Encoding::UTF_8, invalid: :replace) – String#encode(“UTF-8”, “ISO8859-1”) http://yehudakatz.com/2010/05/05/ruby-1-9-encodings-a-primer-and-the-solution-for-rails/ © 2008–2013 Carsten Bormann 25 Being “helpful” rarely helps (“ASCII compatible”) >> u = "a".encode("UTF-8") => "a" >> b = "a".force_encoding("BINARY") => "a" >> u + b => "aa" >> u = "ä".encode("UTF-8") >> => "a" >> b = "ä".force_encoding("BINARY") => "a" >> u + b Encoding::CompatibilityError: incompatible character encodings: UTF-8 and ASCII-8BIT >> © 2008–2013 Carsten Bormann 26 WTF OSX HFS+ NFD Dateisystem von OSX: HFS+ – January 19, 1998 – Apple hatte Unicode noch nicht ganz verstanden HFS+: Dateinamen in NFD – Müller ➔ Mu¨ller alma:tmp cabo$ ls -l *ml*t -rw-r--r-- 1 cabo wheel 13 Feb 26 15:18 ümläut alma:tmp cabo$ irb >> Dir["*ml*t"].first.chars.to_a => ["u", "̈", "m", "l", "a", "̈", "u", "t"] >> Dir["*ml*t"].first.encode("UTF-8", "UTF-8-MAC").chars.to_a => ["ü", "m", "l", "ä", "u", "t"] ⟽ >> “UTF-8-MAC” als Trivialname für UTF-8 in NFD © 2008–2013 Carsten Bormann 27.
Recommended publications
  • 1984 Ausgegeben Zu Bonn Am 4
    Bundesgesetzblatt 809 Teil 1 Z 5702 A 1984 Ausgegeben zu Bonn am 4. Juli 1984 Nr. 27 Tag Inhalt Seite 25. 6. 84 Zweite Verordnung zur Änderung der Bezeichnungsverordnung . 809 2121-50-1-17 ' 26. 6. 84 Verordnung zur Durchführung von regelmäßigen Datenübermittlungen der Meld.~behorden an Behörden oder sonstige öffentliche .~tellen des Bundes (Zweite Meldedaten-Ubermittlungs- verordnung des Bundes - 2. BMeldDUV) .................... ; . 810 neu: 210-4-2 27. 6. 84 Verordnung über die Prüfung zum anerkannten Abschluß Geprüfter Industriemeister/ Geprüfte Industriemeisterin - Fachrichtung Kunststoff und Kautschuk . 847. neu: 800-21-7-27 29.6.84 Achtunddreißigste Bekanntmachung über die Wechsel- und Scheckzinsen 855 neu: 4132-3-1-38 Hinweis auf andere Verkündungsblätter Rechtsvorschriften der Europäischen Gemeinschaften . 855 Die Anlage zur Zweiten Verordnung zur Änderung der Bezeichnungsverordnung vom 25. Juni 1984 wird als Anlageband zu dieser Ausgabe des Bundesgesetzblattes ausgegeben. Abonnenten des Bundesgesetzblattes Teil I wird der Anlageband auf Anforderung kostenlos übersandt. Zweite Verordnung zur Änderung der BezeichnungsverQrdnung Vom 25.Juni 1984 Auf Grund des § 10 Abs. 6 Nr. 1 Satz 2 des Arznei­ Artikel 2 mittelgesetzes vom 24. August 1976 (BGl;3I. 1 S. 2445, Diese Verordnung gilt nach § 14 des Dritten Über• 2448) wird verordnet: leitungsgesetzes in Verbindung mit § 99 des Arznei­ mittelgesetzes auch im Land Berlin. Artikel 1 Die Bezeichnungsverordnung vom 15. September Artikel 3 1980 (BGBI. 1S. 1736), geändert durch die Verordnung vom 15. Dezember 1981 (BGBI. I S. 1417), wird wie folgt (1) Diese Verordnung tritt am 1. Oktober 1984 in geändert: Kraft. 1 . Dem § 1 wird folgender Satz 2 angefügt: (2) Fertigarzneimittel, die wirksame Bestandteile ent­ halten, deren Bezeichnung in der Anlage zu dieser Ver­ „Sofern einer Bezeichnung eine Angabe hinsichtlich ordnung bestimmt ist, und die seit dem 1.
    [Show full text]
  • A Zahlensysteme
    A Zahlensysteme Außer dem Dezimalsystem sind das Dual-,dasOktal- und das Hexadezimalsystem gebräuchlich. Ferner spielt das Binär codierte Dezimalsystem (BCD) bei manchen Anwendungen eine Rolle. Bei diesem sind die einzelnen Dezimalstellen für sich dual dargestellt. Die folgende Tabelle enthält die Werte von 0 bis dezimal 255. Be- quemlichkeitshalber sind auch die zugeordneten ASCII-Zeichen aufgeführt. dezimal dual oktal hex BCD ASCII 0 0 0 0 0 nul 11111soh 2102210stx 3113311etx 4 100 4 4 100 eot 5 101 5 5 101 enq 6 110 6 6 110 ack 7 111 7 7 111 bel 8 1000 10 8 1000 bs 9 1001 11 9 1001 ht 10 1010 12 a 1.0 lf 11 101 13 b 1.1 vt 12 1100 14 c 1.10 ff 13 1101 15 d 1.11 cr 14 1110 16 e 1.100 so 15 1111 17 f 1.101 si 16 10000 20 10 1.110 dle 17 10001 21 11 1.111 dc1 18 10010 22 12 1.1000 dc2 19 10011 23 13 1.1001 dc3 20 10100 24 14 10.0 dc4 21 10101 25 15 10.1 nak 22 10110 26 16 10.10 syn 430 A Zahlensysteme 23 10111 27 17 10.11 etb 24 11000 30 18 10.100 can 25 11001 31 19 10.101 em 26 11010 32 1a 10.110 sub 27 11011 33 1b 10.111 esc 28 11100 34 1c 10.1000 fs 29 11101 35 1d 10.1001 gs 30 11110 36 1e 11.0 rs 31 11111 37 1f 11.1 us 32 100000 40 20 11.10 space 33 100001 41 21 11.11 ! 34 100010 42 22 11.100 ” 35 100011 43 23 11.101 # 36 100100 44 24 11.110 $ 37 100101 45 25 11.111 % 38 100110 46 26 11.1000 & 39 100111 47 27 11.1001 ’ 40 101000 50 28 100.0 ( 41 101001 51 29 100.1 ) 42 101010 52 2a 100.10 * 43 101011 53 2b 100.11 + 44 101100 54 2c 100.100 , 45 101101 55 2d 100.101 - 46 101110 56 2e 100.110 .
    [Show full text]
  • 220 Layout with IBM* Compatibility FTSC Full Tr
    5150 KEYBOARDS & KEYPADS 5150 CHERRY ELECTRICAL PRODUCTS 3600 Sunset Ave., Waukegan, IL 60087 708/360-3500 • FAX 708/360-3566 GSO-1600 & GSO-lS00 GSO-1600 GSO-lS00 mM Compatible Keyboard with Built-In Bar Code Compact, 101 Key, mM Compatible Keyboard with Reader. For PC, XT, AT,andPS/2-Systems. Separate Numeric Keypad. For PC, XT, AT and PS/2 Systems. • Input port for bar code stylus, laser scanning gun, or slot reader. • Fits into 19 inch rack (less than 16 inches wide). • Barcodes are automatically identified and differentiated • 101 keysforPC*. XT*, AT*, and PSI2* systems as well (all resolutions). as ffiM* terminals. • 103 keys (2 keys forprograrnroing mode) conforming to • Switch selection ofPC*, XT*, AT*, and PS/2 * modes. ASCU international key layout per DIN 66003/66303 . LED's indicate the mode selected . • Superior Cherry MX keyswitches with' ' Gold • Superior Cherry MX keyswitches with "Gold Crosspoint" contacts help eliminate input errors. Crosspoint" contacts help eliminate input errors. GSO-1307 DEC VT-220 Layout with • Includes housing and cable. IBM* Compatibility • Rugged construction. • " Deep Dish " for home keys FandJ with dimple on key • 105 keys using superior Cherry MX keyswitches with 5 for touch typing. "Gold Crosspoint" contacts to eliminate input errors. • Mane finished, 2-shot molded keycaps are wear resistant • High reliability: and easy to clean. Keycaps colors are: beige/grey (code MCBF = I x 10' operations. U9), white/grey (code L9) . MTBF = 80,000 hours. • Materials conform to UL 94. MCBF (each keymodule) 50 x 10" operations. > • Separate cu rsor pad. • Ergonomic, low profile design with "cylindrical style" • Full N -key rollover.
    [Show full text]
  • NAA Information Interchange M O D E L Versio
    IPTC IPTC - NAA Information Interchange Model Version 4 Comité International des Télécommunications de Presse IPTC - NAA INFORMATION INTERCHANGE MODEL Version No. 4 Rev 2 July 2014 ALTHOUGH IPTC AND NAA HAVE REVIEWED THE DOCUMENTATION, IPTC AND NAA MAKE NO WARRANTY OR REPRESENTATION, EITHER EXPRESS OR IMPLIED, WITH RESPECT TO THIS DOCUMENTATION, ITS QUALITY, MERCHANTABILITY, OR FITNESS FOR A PARTICULAR PURPOSE. THIS DOCUMENTATION IS SUPPLIED 'AS IS', AND YOU, BY MAKING USE THEREOF, ARE ASSUMING THE ENTIRE RISK AS TO ITS QUALITY AND SUITABILITY FOR YOUR PURPOSE. IN NO EVENT WILL IPTC OR NAA BE LIABLE FOR DIRECT, INDIRECT, SPECIAL, INCIDENTAL, OR CONSEQUENTIAL DAMAGES ARISING OUT OF THE USE OR INABILITY TO USE THE DOCUMENTATION, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGES. This document is copyrighted with rights reserved. This specification document is published under the IPTC license terms at http://www.iptc.org/goto?license By obtaining, using and/or copying this document, you (the licensee) agree that you have read, understood, and will comply with the terms and conditions of the license. Copyright © 1991,1993,1995,1997,1999, 2014 IPTC – International Press Telecommunications Council 25 Southampton Buildings London WC2A 1AL UNITED KINGDOM NAA - Newspaper Association of America Wilson Blvd., Ste 900 Arlington, VA 22203 USA TABLE OF CONTENTS CHAPTER 1. GENERAL 4 CHAPTER 2. INFORMATION INTERCHANGE MODEL 11 CHAPTER 3. RECORDS 13 CHAPTER 4. IMPLEMENTATION GUIDELINES 16 CHAPTER 5. ENVELOPE RECORD 18 CHAPTER 6. AP PLICATION RECORD 24 CHAPTER 7. DIGITAL NEWSPHOTO PARAMETER RECORD NUMBER 3 44 CHAPTER 8. RECORD NUMBER 4 (NOT ALLOCATED) 44 CHAPTER 9.
    [Show full text]
  • Programinės Įrangos Lokalizavimas
    Valentina Dagienė Informatikos daktarė, atliko edukologijos habilitaciją, profesorė. Parašė 60 knygų, paskelbė per Programinės 250 mokslinių ir metodinių straipsnių, vadovavo per 30 projektų. Lietuvos mokslo premijos (informatikos mokymas, mokomosios programinės įrangos kūrimas Valentina Dagienė ir lokalizavimas) laureatė. įrangos Gintautas Grigas Gintautas Grigas Tatjana Jevsikova Technikos mokslų daktaras, docentas, projektavęs pirmąjį lietuvišką kompiuterį „Rūta“. Programavimo mokymo Lietuvoje ir programinės įrangos lietuvinimo pradininkas. Parašė 35 knygas iš kompiuterijos lokalizavimas ir programavimo, paskelbė per 300 mokslinių ir okalizavimas metodinių straipsnių. l Tatjana Jevsikova Informatikos daktarė, disertaciją apgynusi iš programinės įrangos lokalizavimo (vadovė V. Dagienė). Lokalizavo per 10 įvairių kompiuterių programų, domisi elektroninio mokymosi sistemomis, kompiuterinėmis mokomosiomis programomis. įrangos думка значење смисъла תועמשמ ٣ nozīmē arti $ ٢ ¥ думка значење смисъла תועמשמ ٣ ȼ nozīmē arti ٢ ¥ mintis 含義 ๓ le sens 의미 σκέψη mintis 含義 ๓ le sens 의미 σκέψη arti o significado forstand σκέψη arti o significado forstand σκέψη značenje a? ความหมาย שטַייט יד značenje a? ความหมาย prasmė смысл שטַייט יד prasmė смысл £ ๒ 思想 ¤ £ 思想 ¤ it-tifsira अर्थ მნიშვნელობა zmysle իմաստով ý nghĩa Sinne it-tifsira अर्थ მნიშვნელობა ๒ zmysle իմաստով ý nghĩa Sinne на значењето € ang kahulugan մտքի на значењето € ang kahulugan մտքի ¿a? skilningi O! e᷋ ¿a? skilningi O! e᷋ 意味 ¡o! pomen merkitys maana २ विचार 意味 ¡o! pomen merkitys maana २ विचार رکف ३ ๑ رکف ३ ๑ ความหมาย a vle di pensée 含义 yr ystyr την έννοια ეგონა ความหมาย a vle di pensée 含义 yr ystyr την έννοια ეგონა Programinės matematikos ir informatikos institutas Valentina Dagienė Valentina Gintautas Grigas Jevsikova Tatjana PROGRAMINĖS ĮRANGOS LOKALIZAVIMAS PROGRAMINĖS Valentina Dagienė Gintautas Grigas ĮRANGOS Tatjana Jevsikova LOKALIZAVIMAS Matematikos ir informatikos institutas UDK 004.41 Da77 Monografiją spaudai rekomendavo Matematikos ir informatikos instituto taryba, 2010 m.
    [Show full text]
  • Ascii 1 Ascii
    ASCII 1 ASCII El código ASCII (acrónimo inglés de American Standard Code for Information Interchange — (Código Estadounidense Estándar para el Intercambio de Información), pronunciado generalmente [áski], es un código de caracteres basado en el alfabeto latino tal como se usa en inglés moderno y en otras lenguas occidentales. Fue creado en 1963 por el Comité Estadounidense de Estándares (ASA, conocido desde 1969 como el Instituto Estadounidense de Estándares Nacionales, o ANSI) como una refundición o evolución de los conjuntos de códigos utilizados entonces en telegrafía. Más tarde, en 1967, se incluyeron las minúsculas, y se redefinieron algunos códigos de control para formar el Hay 95 caracteres ASCII imprimibles, numerados del 32 al 126. código conocido como US-ASCII. El código ASCII utiliza 7 bits para representar los caracteres, aunque inicialmente empleaba un bit adicional (bit de paridad) que se usaba para detectar errores en la transmisión. A menudo se llama incorrectamente ASCII a otros códigos de caracteres de 8 bits, como el estándar ISO-8859-1 que es una extensión que utiliza 8 bits para proporcionar caracteres adicionales usados en idiomas distintos al inglés, como el español. ASCII fue publicado como estándar por primera vez en 1967 y fue actualizado por última vez en 1986. En la actualidad define códigos para 33 caracteres no imprimibles, de los cuales la mayoría son caracteres de control obsoletos que tienen efecto sobre como se procesa el texto, más otros 95 caracteres imprimibles que les siguen en la numeración (empezando por el carácter espacio). Casi todos los sistemas informáticos actuales utilizan el código ASCII o una extensión compatible para representar textos y para el control de dispositivos que manejan texto.
    [Show full text]
  • Control Characters in ASCII and Unicode
    Control characters in ASCII and Unicode Tens of odd control characters appear in ASCII charts. The same characters have found their way to Unicode as well. CR, LF, ESC, CAN... what are all these codes for? Should I care about them? This is an in-depth look into control characters in ASCII and its descendants, including Unicode, ANSI and ISO standards. When ASCII first appeared in the 1960s, control characters were an essential part of the new character set. Since then, many new character sets and standards have been published. Computing is not the same either. What happened to the control characters? Are they still used and if yes, for what? This article looks back at the history of character sets while keeping an eye on modern use. The information is based on a number of standards released by ANSI, ISO, ECMA and The Unicode Consortium, as well as industry practice. In many cases, the standards define one use for a character, but common practice is different. Some characters are used contrary to the standards. In addition, certain characters were originally defined in an ambiguous or loose way, which has resulted in confusion in their use. Contents Groups of control characters Control characters in standards o ASCII control characters o C1 control characters o ISO 8859 special characters NBSP and SHY o Control characters in Unicode Control characters in modern applications Character list o ASCII o C1 o ISO 8859 Categories Translations Character index Sources This article starts by looking at the history of control characters in standards. We then move to modern times.
    [Show full text]
  • Character Encoding
    Multilingualism on the Web Pascal Vaillant <[email protected]> IUT de Bobigny 1, rue de Chablis — 93017 Bobigny cedex www.iut-bobigny.univ-paris13.fr Writing systems IUT de Bobigny 1, rue de Chablis — 93017 Bobigny cedex www.iut-bobigny.univ-paris13.fr Writing systems • Mankind has been using speech for … as long as it deserves to be called human (definitory statement) e.g. 150 000 – 50 000 years (very approx) • It has been using writing since it has become organized in urban societies e.g. 5 000 years BP (approx) IUT de Bobigny 1, rue de Chablis — 93017 Bobigny cedex www.iut-bobigny.univ-paris13.fr Writing systems • Urban centres ⇒ specialization of economic units ⇒ currency ⇒ a central authority to control and organize ⇒ state and civil servants ⇒ taxes ⇒ accountancy ⇒ counting and writing IUT de Bobigny 1, rue de Chablis — 93017 Bobigny cedex www.iut-bobigny.univ-paris13.fr Development of writing systems • Highly probable origin: iconic (pictograms) • Examples (from Chinese): water: 水 (shuǐ) field: 田 (tián) mountain: 山 (shān) grass: 艸 (cǎo) fire: 火 (huǒ) beast: 豸 (zhì) horse: 馬 (mǎo) ox: 牛 (niú) IUT de Bobigny 1, rue de Chablis — 93017 Bobigny cedex www.iut-bobigny.univ-paris13.fr Development of writing systems • Combination → ideograms • Example (from Chinese): field: 田 (tián) grass: 艸 (cǎo) sprout: 苗 (miáo) IUT de Bobigny 1, rue de Chablis — 93017 Bobigny cedex www.iut-bobigny.univ-paris13.fr Development of writing systems • Rebus → ideophonograms • Example (from Chinese): ten thousands: 萬 (wàn) (orig. scorpion) sprout: 苗
    [Show full text]
  • XML in the Development of Component Systems
    Data-centric XML Character Sets © 2010 Martin v. Löwis 2010© Martin v. Montag, 3. Mai 2010 Character Sets: Rationale •Computer stores data in sequences of bytes – each byte represents a value in range 0..255 •Text data are intended to denote characters, not numbers •Encoding defines a mechanism to associate bytes and characters •Encoding can only cover finite number of character ↠ character set – Many terminology issues (character set, repertoire, encoding, coded character set, …) © 2010 Martin v. Löwis 2010© Martin v. Datenorientiertes XML 2 Montag, 3. Mai 2010 Character Sets: History • ASCII: American Standard Code for Information Interchange – 7-bit character set, 1963 proposed, 1968 finalized • ANSI X3.4-1968 – 32(34) control characters, 96(94) graphical characters – Also known as CCITT International Alphabet #5 (IA5), ISO 646 • national variants, international reference version • DIN 66003: @ vs. §, [ vs. Ä, \ vs. Ö, ] vs. Ü, … © 2010 Martin v. Löwis 2010© Martin v. Datenorientiertes XML 3 Montag, 3. Mai 2010 Character Sets: History (2) • 8-bit character sets: 190..224 graphic characters • ISO 8859: European/Middle-East alphabets – ISO-8859-1: Western Europe (Latin-1) – ISO-8859-2: Central/Eastern Europe (Latin-2) – ISO-8859-3: Southern Europe (Latin-3) – ISO-8859-4: Northern Europe (Latin-4) – ISO-8859-5: Cyrillic – ISO-8859-6: Arabic – ISO-8859-7: Greek – ISO-8859-8: Hebrew – ISO-8859-9: Turkish (Latin-5; replace Icelandic chars with Turkish) – ISO-8859-10: Nordic (Latin-6; Latin 4 + Inuit, non-Skolt Sami) – ISO-8859-11 (1999): Thai – ISO-8859-13: Baltic Rim (Latin-7) – ISO-8859-14: Celtic (Latin-8) – ISO-8859-15: Western Europe (Latin-9, Latin-1 w/o fraction characters, plus Euro sign, Š, Ž, Œ, Ÿ) – ISO-8859-16: European (Latin-10, omit many symbols in favor of letters) © 2010 Martin v.
    [Show full text]
  • Zeichensätze Anlage 15 Inhaltsverzeichnis 1. Zeichenvorrat
    Zeichensätze Anlage 15 Inhaltsverzeichnis 1. Zeichenvorrat / Code ................................................................................. 1 Zeichenvorrat ..................................................................................................................... 2 2. Zeichensatzkonvertierung von verschlüsselten Dateien ................................ 2 3. Zeichensätze.............................................................................................. 3 3.1 Zeichensatz I1 ............................................................................................................ 3 3.2 Zeichensatz I5 ............................................................................................................ 4 3.3 Zeichensatz I7 ............................................................................................................ 5 3.4 Zeichensatz I8 ............................................................................................................ 6 3.5 Zeichensatz EB ............................................................................................................ 7 3.6 Zeichensatz P8 ........................................................................................................... 8 3.7 Zeichensatz UTF-8 ..................................................................................................... 9 1. Zeichenvorrat / Code Die Übertragung von Daten zwischen Rechnern verschiedener Hersteller erfordert die Festlegung auf einen allgemein gültigen Zeichensatz. Aus diesem
    [Show full text]
  • Personenverzeichnis
    Personenverzeichnis Adelstein, T. 1101 Comer, D. E. 1102 Aho, A. V. 33 Conner-Sax, K. 1103 Albitz, P. 1103 Cooper, M. 46 Alkalay, A. 177 Cutler, E. 1102 Allaert, D. 422 Czyborra, R. 177 Almesberger, W. 477 Anderson, G. 30 Dalheimer, M. K. 1100, 1102 Andreasson, O. 764 Dalheimer, T. 1102 Anvin, H. P. 493 Dawson, T. 237, 1102, 1103 Arcomano, R. 308 Delorie, D. J. 451 Aubepin, F. 1100 Deutz, R. 1103 Aznar, G. 418, 797 Dietz, H. 895 Diffie, B. W. 270 Bach, M. J. 1100 Drake, J. 741 Bacon, J. 1101 Badach, A. 1103 Ebersbach, A. 1103 Barrett, D. J. 1104 Emery, V. 578 Barth, W. 1101 Ewing, L. 9, 10 Bauer, F. L. 586, 1104 Bautts, T. 1102 Fawcett, T. 496 Bayes, T. 817 Fenzi, K. 899 Bic, L. 1099 Frisch, Æ. 1101 Bigelow, C. 189 Bishop, A. M. 574 Garfinkel, S. 1100, 1104 Blaze, M. 582 Garrels, M. 46, 59, 1100 Bolsky, M. I. 1100 Ghosh, S. 304 Bourne, S. R. 33, 46, 1100 Goerzen, J. 290 Bovet, D. P. 679, 1100 Gortmaker, P. 722 Bradley, D. J. 36 Grägert, S. 1103 Brouwer, A. 387 Graham, P. 817 Brown, M. A. 238 Guérard, J.-P. 290 Burgiss, H. 223 Gulbins, J. 1100 Burrows, D. 644 Hahn, H. 1103 Buytaert, K. 890 Haible, B. 177 Cameron, J. 883, 1101 Hall, E. 1103 Card, R. 565 Hammers, C. 456, 900 Cesati, M. 679, 1100 Hards, B. 589 Christenson, N. 404 Hassell, J. 1101 Chuvakin, A. 867 Hattenhauer, R. 1100 Claus, V. 1099 Hazel, P. 802 1106 PERSONENVERZEICHNIS Heinlein, P.
    [Show full text]
  • IPTC IIM Specification
    IPTC IPTC - NAA Information Interchange Model Version 4 Comité International des Télécommunications de Presse IPTC - NAA INFORMATION INTERCHANGE MODEL Version No. 4 Rev 1 July 1999 Copy No:0000 ALTHOUGH IPTC AND NAA HAVE REVIEWED THE DOCUMENTATION, IPTC AND NAA MAKE NO WARRANTY OR REPRESENTATION, EITHER EXPRESS OR IMPLIED, WITH RESPECT TO THIS DOCUMENTATION, ITS QUALITY, MERCHANTABILITY, OR FITNESS FOR A PARTICULAR PURPOSE. THIS DOCUMENTATION IS SUPPLIED 'AS IS', AND YOU, BY MAKING USE THEREOF, ARE ASSUMING THE ENTIRE RISK AS TO ITS QUALITY AND SUITABILITY FOR YOUR PURPOSE. IN NO EVENT WILL IPTC OR NAA BE LIABLE FOR DIRECT, INDIRECT, SPECIAL, INCIDENTAL, OR CONSEQUENTIAL DAMAGES ARISING OUT OF THE USE OR INABILITY TO USE THE DOCUMENTATION, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGES. This document is copyrighted with all rights reserved. Under the copyright laws, it may not be copied, photocopied or reproduced, translated or reduced to any electronic medium or machine readable form, in whole or part, without the prior written consent of the International Press Telecommunications Council or the Newspaper Association of America. When supplied in electronic form this document may be printed in single copy for the sole use of the registered purchaser. Copyright © 1991,1993,1995,1997,1999 Comité International des Télécommunications de Presse Newspaper Association of America Sheet Street 1921 Gallows Road Windsor Suite 600 Berks SL4 1BE Vienna UNITED KINGDOM VA 22182-3900 USA All Rights Reserved. Fourth edition Rev 1 1999. Produced in the United Kingdom. TABLE OF CONTENTS CHAPTER 1. GENERAL 4 CHAPTER 2. INFORMATION INTERCHANGE MODEL 11 CHAPTER 3.
    [Show full text]