<<

FACULTEIT LETTEREN DEPARTEMENT OOSTERSE EN SLAVISCHE STUDIES

KATHOLIEKE UNIVERSITEIT LEUVEN

CHINESE TAALVERWERKING OP DE COMPUTER

Deel I : Theoretisch Overzicht

Promotor : Prof. Dr. Fred Truyen Verhandeling aangeboden tot het verkrijgen van de graad van licentiaat in de Sinologie door: Sébastien Bruggeman

- 2001-2002 -

VOORWOORD

Dit theoretische overzicht handelt over de Chinese taalverwerking op de computer. Het heeft de bedoeling om zo volledig mogelijk te zijn, maar zal het helaas nooit kunnen zijn door de uitgebreidheid van dit onderwerp. Hoewel dit deel veel technische details bevat is er geen voorkennis vereist.

Naast dit theoretisch overzicht is er ook nog een praktische handleiding voor mensen die Chinees in de praktijk op hun computer willen gebruiken. Ook voor dit deel is geen voorkennis vereist, wel wordt er gerekend op een basiskennis van Microsoft Windows. Het voorhanden hebben van een computer met internetverbinding maakt het mogelijk om alles onmiddellijk in de praktijk om te zetten.

Het derde luik van deze verhandeling is een website. Op deze website kunnen extra documentatie, voorbeelden en links gevonden worden. Daarnaast kan men ook terecht op het forum voor extra vragen en antwoorden.

Tot slot wens ik U nog veel leesplezier en hoop ik dat U door deze licentiaatsverhandeling een betere kijk krijgt op de Chinese taalverwerking op de computer.

Sébastien Bruggeman

Thesis Sébastien Bruggeman Pagina 2 Thesis Sébastien Bruggeman Pagina 3

INHOUDSTAFEL

0. Gebruikte conventies...... 11

1. Inleiding...... 14 1.1. Talen en schriften...... 14 1.2. Vereenvoudiging van Chinese karakters...... 16 1.3. Typografie...... 18 1.4. Karakters en computers...... 18

2. Karaktersets...... 20 2.1. Westerse talen...... 20 2.2. Oosterse talen...... 22 2.2.1. Traditioneel Chinees...... 23 a) CCCII en EACC...... 23 b) CNS...... 25 c) ...... 28 d) Big5+...... 29 e) Big5E...... 29 f) Hong Kong GCCS en SCS...... 30 2.2.2. Vereenvoudigd Chinees...... 30 a) GB 1988-80...... 30 b) GB 2312-80...... 31 c) GB 6345.1-86...... 31 d) GB 8565.2-88...... 32 e) ISO-IR-165:1992...... 33 f) GB/T 12345-90...... 34 g) GBK...... 34 h) GB 13000.1...... 35 i) GB 18030-2000...... 36 j) Andere GB karaktersets...... 37 2.3. Meertalige karaktersets...... 37 a) en ISO 10646...... 38 2.4. Conversie...... 41

Thesis Sébastien Bruggeman Pagina 4 3. Codering...... 43 3.1. Westerse talen...... 44 3.2. Chinees...... 44 a) HZ en EHZ...... 44 b) ISO 2022...... 46 c) EUC...... 47 d) GBK...... 48 e) Big5 en Big5+...... 48 f) Overzicht...... 48 3.3. Meertalig...... 49 a) UCS...... 49 b) UTF...... 49

4. Hardware...... 52 4.1. Toetsenbord...... 52 a) Uitspraak gebaseerd...... 53 b) Structuur gebaseerd...... 57 c) Combinatie uitspraak – structuur...... 63 d) Directe invoer...... 63 4.2. Andere...... 64

5. Applicaties, toepassingen...... 65 5.1. Dos...... 65 5.2. Microsoft Windows...... 65 a) Native Chinese Windows...... 65 b) Niet-Chinese Windows...... 66 5.3. Unix / Linux...... 66 a) Native Chinese Linux...... 67 b) Niet-Chinese Linux...... 67 c) Linux in & Taiwan...... 68 5.4. Apple...... 69 5.5. Chinees en programmeertalen...... 70 5.6. Chinees en databases...... 72

Thesis Sébastien Bruggeman Pagina 5 6. Het Chinese internet...... 74

7. Appendix...... 78 7.1. Bibliografie...... 78 7.2. Links...... 80 7.3. Tabellen...... 82 7.4. Figuren...... 89 7.5. Dankbetuiging...... 91

Bijlage A: Selectie van National Standards in de PRC Bijlage B: Selectie van Chinese National Standards van de ROC Bijlage C: Selectie van ISO standaarden

Thesis Sébastien Bruggeman Pagina 6 LIJST VAN TABELLEN

Tabel 1 Niet Chinese schriften gebruikt in Zuidoost Azië...... 15 Tabel 2 Verschillende varianten van Chinese karakters...... 15 Tabel 3 Vereenvoudiging van Chinese karakters...... 17 Tabel 4 Typografie...... 18 Tabel 5 ISO 8859...... 22 Tabel 6 CCCII (structuur)...... 24 Tabel 7 CCCII (laag 1)...... 24 Tabel 8 EACC...... 25 Tabel 9 CNS 11643-1986...... 27 Tabel 10 CNS 11643-1992...... 27 Tabel 11 Big5...... 28 Tabel 12 Big5+...... 29 Tabel 13 GB 2312-80...... 31 Tabel 14 GB 6345.1-86...... 32 Tabel 15 GB 8565.2-88...... 32 Tabel 16 ISO-IR-165:1992...... 33 Tabel 17 GB/T 12345-90...... 34 Tabel 18 GBK...... 35 Tabel 19 GB 18030...... 36 Tabel 20 ISO-2022-CN...... 46 Tabel 21 ISO-2022-CN-EXT...... 47 Tabel 22 Coderingen en de ondersteunde karaktersets...... 48 Tabel 23 Karaktersets en ondersteunde coderingen...... 48 Tabel 24 UCS-4 is slechts een 31-bit code...... 49 Tabel 25 UTF-8 codering van UCS-2 en UCS-4...... 50 Tabel 26 Vergelijking tussen de verschillende Pinyin invoer methodes...... 56 Tabel 27 Opdeling van Wubizixing...... 58 Tabel 28 Toewijzing van de cijfers in Wubihua...... 58 Tabel 29 Voorbeeld Wubihua...... 59 Tabel 30 Voorbeeld Cangjie (1)...... 60 Tabel 31 Voorbeeld Cangjie (2)...... 60 Tabel 32 Voorbeeld Cangjie (3)...... 60 Tabel 33 Voorbeeld Cangjie (4)...... 61

Thesis Sébastien Bruggeman Pagina 7 Tabel 34 Voorbeeld Cangjie (5)...... 61 Tabel 35 Voorbeeld Boshiamy...... 62 Tabel 36 Voorbeeld Tze-loi...... 63 Tabel 37 Conversietabel - Pinyin - wade-giles...... 82 Tabel 38 Designator sequences gebruikt in ISO-2022-CN en ISO-2022-CN-EXT...... 83 Tabel 39 Single shift sequences en shifting characters gebruikt in ISO-2022-CN en ISO-2022- CN-EXT...... 83 Tabel 40 EUC-TW...... 83 Tabel 41 Toewijzing van de toetsen voor invoer met de Cangjie methode...... 84 Tabel 42 Internetgebruik in China...... 85 Tabel 43 Internetgebruik in Taiwan...... 85 Tabel 44 Blokken in Unicode 3.2.0...... 86

Thesis Sébastien Bruggeman Pagina 8

LIJST VAN FIGUREN

Figuur 1 Het drie dimensioneel conceptueel model gebruikt bij Han-unificatie...... 39 Figuur 2 Gebruik van de Ideograph Description Sequence...... 41 Figuur 3 Toetsenbord met Pinyin invoermethode layout...... 55 Figuur 4 Toetsenbord met Shuangpin invoermethode layout...... 55 Figuur 5 Toetsenbord met Zhuyin invoermethode layout...... 57 Figuur 6 Toetsenbord met Wubizixing invoermethode layout...... 58 Figuur 7 Toetsenbord met Cangjie invoermethode layout...... 59 Figuur 8 Toetsenbord met Sucheng invoermethode layout...... 61 Figuur 9 Toetsenbord met Dayi invoermethode layout...... 62 Figuur 10 Toetsenbord met Neima invoermethode layout...... 64 Figuur 11 Ruby...... 75 Figuur 12 7-bit en 8-bit code tabel...... 89 Figuur 13 Een Chinese 'typmachine'...... 89 Figuur 14 Boshiamy invoermethode...... 90

Thesis Sébastien Bruggeman Pagina 9 Thesis Sébastien Bruggeman Pagina 10

0. Gebruikte conventies

De karakters gebruikt in deze thesis worden zoveel mogelijk weergegeven volgens de officiële naam en plaats van gebruik. De namen afkomstig uit Taiwan worden in traditionele karakters weergegeven, namen afkomstig uit de Volksrepubliek China met vereenvoudigde karakters (het verschil tussen beide soorten Chinese karakters wordt later in deze thesis uitvoerig beschreven). De transcriptie van de Chinese karakters gebeurt volgens de Pinyin transcriptie met toontekens (zie infra). Deze transcriptie werd gekozen omdat ze het makkelijkst te lezen is voor mensen die geen achtergrond van de Chinese taal hebben. Deze thesis is gemaakt in unicode (zie infra). De lettertypes die gebruikt werden in dit document zijn Times New Roman voor het Romaanse alfabet, 新細明體 voor traditionele Chinese karakters, SimSun voor vereenvoudigde Chinese karakters, MS Mincho voor Japanse karakters en Batang voor Koreaanse karakters. Hexadecimale getallen worden vooraf gegaan door een 0x. Om deze thesis ten volle te begrijpen is het nodig dat vooral enkele termen uitgelegd worden, zodat er over hun inhoud en gebruik geen verwarring is: 1

Karakter (character): een lid van een set van elementen gebruikt voor de organisatie, controle of representatie van data.2 Karakterrepertoire (character repertoire)3: een set van (abstracte) karakters die gecodeerd moeten worden. Het bevat niet noodzakelijk een ordening. In een karakter repertoire wordt meestal een naam gegeven aan het karakter, samen met een referentie of een voorbeeldpresentatie. Soms worden er karakters gedefinieerd die er hetzelfde uit zien, maar die logisch onderscheiden zijn. Bijvoorbeeld “A” kan Latin uppercase A, Cyrillic uppercase A, en Greek uppercase alpha zijn.4

1 Alhoewel de invulling van deze termen niet strikt vast ligt. 2 Het Unicode Consortium geeft volgende definitie: ‘The smallest component of written language that has semantic calues; refers tot he abstract meaning and/or shape, rather than a specific shape (see also glyph), though in code tables some form of visual representation is essential for the reader’s understanding’. Het World Wide Web Consortium beschrijft een karakter als een ‘atoom van informatie’. 3 Chinese term: 字彙 zìhuì 4 ECMA 35 beschrijft een karakter repertoire als ‘a specified set of characters that are each represented by one or more bit combinations of a coded character set’.

Thesis Sébastien Bruggeman Pagina 11 Gecodeerde karakterset (coded character set – CCS)5: Het ‘mappen’ van een abstract karakterrepertoire naar een set van niet-negatieve gehele getallen (integers). 6 Voorbeelden van gecodeerde karaktersets zijn ISO 10646 en US ASCII (zie infra). Karakter coderingsschema ( scheme – CES): Het ‘mappen’ van een gecodeerde karakterset of verschillende gecodeerde karaktersets naar een set van sequenties van octetten. Een CES kan dus verschillende CSS omvatten, zo kan EUC-CN (zie infra) gebruikt worden om zowel de volgende CSS te coderen: ASCII, GB 2312, CNS 11643 (zie infra). Character encoding form (CEF): Het ‘mappen’ van een set van niet-negatieve gehele getalen (van een CCS) naar een set van sequenties van individuele code eenheden van een bepaalde omschreven breedte, zoals bytes. Deze sequenties hebben niet noodzakelijk dezelfde lengte. Het mapt code punten met code eenheden, terwijl een CES de relatie tussen code eenheden en bytes weergeeft. Charset: Een methode om een sequentie van octetten te converteren in een sequentie van karakters. De conversie kan ook extra controle informatie toevoegen, zoals richtingsindicators. Deze notering wordt gebruikt in MIME-headers (Multipurpose Internet Mail Extensions). Codepositie (code position): is een geheel getal dat ook wel codepunt (codepoint) wordt genoemd Een CSS en een codepositie van dezelfde CSS bepalen het karakter. Octet: een element van de set (0, 1, 2, …, 255) Glyph: Een glyph is de eigenlijke representatie van een karakter. Er is geen ‘one-to-one’ relatie tussen karakters en glyphs. Zo heeft het dollar-teken verschillende glyphs: $, $, $, $ (of soms ook met 2 streepjes er door). Verschillende karakters kunnen soms één glyph vormen zoals de karakters f en i samen het glyph vormen.7 Een karakter kan een andere glyph aannemen naar gelang de context (dit gebeurt in bijvoorbeeld het Arabisch). Een ander voorbeeld zijn de volgende karakters, Z, Z, Z deze zijn glyphs van Z (latin capital letter z), maar niet van z (latin small letter z). De term glyph komt van het Griekse woord voor ‘sculptuur’. 8

5 Chinese term: 編碼字符集 biānmǎ zìfújí 6 ECMA 35 beschrijft een CSS als ‘a set of unambiguous rules that establishes a character set and the one-to- one relationship between the characters of the set and their bit combinations’. 7  is een ligatuur: […] in één stuk gegoten letters, b.v.: , syn. koppelletter. 8 Het Unicode Consortium definieert een glyph als volgt: ‘An abstract form that represents one or more glyph images’ en een glyph image wordt gedefinieerd als ‘The actual, concrete image of a glyph representation having been rasterized or otherwise imaged onto some display surface.’ Het ISO hanteert volgende definitie in ISO 9541-1: ‘a recognizable abstract graphic which is independent of a specific design’

Thesis Sébastien Bruggeman Pagina 12 Big & Little Endian: Er zijn 2 manieren om bytes te ordenen (dit is natuurlijk enkel van toepassing op data die meerdere bytes bevat), namelijk little endian en big endian. Bij big endian wordt de meest belangrijk byte (de byte met de hoogste orde of meest linkse bits) in het laagste adres geplaatst met de daarop volgende bytes in de sequentiele hogere adressen. Bij little endian wordt de minst belangrijke byte (de byte met de laagste of meest rechtse bits) in het laagste adres geplaatst. Bijvoorbeeld: het decimaal getal 258 (binair: 0100000010) wordt dan in 16 bit omgeving opgeslagen als volgt: Little Endian : 00000010 00000001 Big Endian : 00000001 00000010 Little endian wordt gebruikt op machines met Vax en Intel processoren (dus dit betekent dat computers met Windows en Linux doorgaans little endian zijn), big endian in computers met Motorola en Sun processoren (UNIX en MacOS). Er bestaan systemen die ‘bi-endian’ zijn en dus met beide overweg kunnen. Het onderscheid tussen big en little endian is van belang bij het ordenen van karakters.

Deze thesis wordt verder aangevuld met een website die terug te vinden is op het volgende internetadres: http://seba.studentenweb.org/thesis/

Thesis Sébastien Bruggeman Pagina 13

1. Inleiding

1.1. Talen en schriften

De Chinese taal is een grotendeels monosyllabische en niet-verbuigende taal en dat maakt een ideografisch9 schrijfsysteem zeer geschikt. Het Chinese schrift is ontstaan omstreeks 2000 voor Christus en heeft een zeer grote invloed gehad op het schrift van de Japanners, Koreanen en Vietnamezen. Omdat ideografische karakters minder geschikt zijn voor het weergeven van de Japanse taal ontwikkelden de Japanners twee syllabische fonetische10 schriften, namelijk het Hiragana en Katakana, deze worden samen met de kanji11 en het Romaanse12 schrift gebruikt. In Korea daarentegen werd een alfabetisch systeem uitgevonden (가모 jamo) dat ‘letters’ groepeert in ideografisch-achtige syllabische blokken, het genaamd (한글 hangul betekent ‘Koreaans schrift’), dit schrift heeft nu bijna het gebruik van hanja13 doen verdwijnen. Het Vietnamees heeft in de 20ste eeuw de chữ hán 14 laten vallen voor een alfabetisch schrift, gebaseerd op het door ons gebruikte Romaanse schrift (ontwikkeld door Westerse missionarissen in de 17de eeuw). De Chinezen ontwikkelden in het begin van de 20ste eeuw ook een fonetisch syllabisch schrift, het Zhuyin (注音符號 zhùyīn fúhào). Een voorbeeld van al deze schriften vindt men in Tabel 1 op pagina 15.

Naast het gebruik van Chinese karakters vonden deze culturen ook nog karakters uit die heel sterk op Chinese karakters lijken15, maar die niet in het Chinese taalgebied gekend zijn (国字 kokuji is de Japanse term, 국자 / 國字 gugja is de Koreaanse term). Deze karakters gebruiken heel vaak een zelfde opbouw en onderdelen als Chinese karakters. Door deze verwantschap is het mogelijk voor de verschillende talen om basisteksten van elkaar te begrijpen indien er Chinese karakters gebruikt worden, maar daarom niet noodzakelijk uit te

9 Ideografie: 1) schrift waarin geen klank-, maar begriptekens worden gebruikt (zoals in het Chinees en in het hiërogliefenschrift); 2) uitdrukking van een idee. 10 Fonetisch: 1) betrekking hebbend op de spraakklanken; 2) volgens de spraakklanken: fonetisch schrift, schrift dat zo nauwkeurig mogelijk de uitspraak benadert, waarin iedere klank door een eigen teken wordt voorgesteld; fonetisch voorgesteld. 11 Kanji, 漢字, Japanse term voor Chinese karakters 12 hiermee wordt het Romaanse alfabet bedoeld, ook wel Latijns of Westers alfabet genoemd. 13 Hanja, 한자 / 漢字, Koreaanse term voor Chinese karakters 14 Chữ hán, Vietnamese term voor Chinese karakters 15 鰯 (iwashi) is het Japanse woord voor sardine. In de Chinese taal is er geen apart karakter voor sardine er is wel het woord 沙㆜魚 shādīngyú. 峠 (tōge) en 岾 (점 jeom) zijn respectivelijk het Japanse en Koreaanse karakter voor ‘bergpas’ en bestaan niet in het Chinees.

Thesis Sébastien Bruggeman Pagina 14 spreken. In de loop der tijd hebben karakters afhankelijk van het gebied ook een andere betekenis gekregen, het Chinese karakter 湯 (tāng in het Chinees, tou of yu in het Japans en thang in het Koreaans) had oorspronkelijk de betekenis ‘warm water’. Vandaag betekent het in het Chinees ‘soep’ terwijl het in het Japans en Koreaans de oorspronkelijke betekenis heeft behouden. Maar ze hebben ook de betekenis van ‘soep’ overgenomen in recentere leenwoorden zoals ‘noodle soep’ (湯麵 Chinees - tāngmiàn, Japans - tanmen, Koreaans - thangmyen).16

De methodes om andere talen en schriften dan het Chinees weer te geven valt buiten het kader van deze thesis en worden dus niet behandeld, soms zal er echter wel verwezen worden naar gelijkenissen of verschillen tussen de Chinese taal en deze andere talen.

Tabel 1 Niet Chinese schriften gebruikt in Zuidoost Azië Niet Chinese karakters Romaans schrift abcdefghijklmnopqrstuvwxyz 1234567890 Zhuyin ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙㄧㄨㄩㄚㄛㄜ ㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦ Hiragana あいうえおかきくけこさしすせそたちつてとなにぬねのはひ ふへほまみむめもやゆよりるれろわゐゑをんゔ Katakana アイウエオカキクケコサシスセソタチツテトナニヌネ ノハヒフヘホマミムメモヤユヨラリルレロワヰ Jamo ᄀᄁᄂᄃᄄᄅᄆᄇᄈᄉᄊᄌᄍᄎᄏᄐᄑᄒ ㅏㅐㅑㅒㅓㅔㅕㅖㅗ Hangul 실시간으로선택한비트에자동으로맞출수있도록하였습니다

Tabel 2 Verschillende varianten van Chinese karakters Chinese karakters Vereenvoudigd 大学之道,在明明德,在亲民,在止于至善。 Traditioneel 大學之道,在明明德,在親民,在止於至善。 Hong Kong 大學之道,在明明德,在親民,在止於至善。 Japan 大学之道,在明明徳,在親民, 在止於至善。 Korea 大學之道,在明明德,在親民,在止於至善。

16 The Unicode Standard, Version 3.0, p.260.

Thesis Sébastien Bruggeman Pagina 15 1.2. Vereenvoudiging van Chinese karakters

Sinds het ontstaan van het Chinese schrift hebben de karakters weinig grote veranderingen ondergaan. Er zijn nieuwe karakters bijgekomen, sommige door het fout kopiëren van karakters, andere werden gemaakt om nieuwe dingen een naam te geven. Het historisch zeer belangrijke werk, Kangxi Zidian (康熙字典 kāngxī zìdiǎn) uit de 18de eeuw bevat 47 035 karakters, de Zhonghua Zihai (中华字海 zhōnghuá zìh ǎ i) uit 1994 telt ongeveer 85 000 karakters. Doorgaans wordt het aantal vaak gebruikte karakters geschat op ongeveer 5 000 (dit is het aantal dat nodig is om een krant vlot te kunnen lezen).

De belangrijkste hervorming van het Chinese schrift is misschien wel de vereenvoudiging van enkele duizenden karakters in het midden van de 20ste eeuw. In 1949 kwamen de Communisten in China aan de macht, nadat ze de Nationalisten hadden verdreven naar Taiwan. Terwijl de nationalisten op Taiwan de Republiek China in stand hielden riepen de communisten de Volksrepubliek China uit en voerden verschillende hervormingen door. Eén daarvan was de vereenvoudiging van de karakters.17 Het doel van de vereenvoudiging was om het aanleren van Chinese karakters te vergemakkelijken en zo het analfabetisme tegen te gaan. In 1952 werd het Chinese Character Reform Committee (中国文字改革委员会, zhōngguó wénzì gaǐgé wěiyuánhuì) opgericht om het probleem van karaktervereenvoudiging te bestuderen en een lijst aan te maken van te vereenvoudigen karakters. Het resultaat van hun werk was het uitvaardigen van een standaard romanisatie18 systeem, Pinyin genaamd (拼音 pīnyīn, waarover later meer), het beperken van het aantal karakters voor dagelijks gebruik en de vereenvoudiging van duizenden karakters. Verschillende lijsten werden gepubliceerd, waaronder lijsten van vaak gebruikte karakters en die aldus moeten onderwezen worden op school, maar ze worden ook gebruikt voor het opstellen van karakter repertoires. Dergelijke lijsten werden ook in Taiwan en Japan gemaakt. Op 28 januari 1956 verscheen het Chinese Character Simplification Scheme (汉字简化方 案 hànzì jiǎnhuà fāng’àn) en in 1964 verscheen de General List of Simplified Characters (简 化字总表 jiǎnhuàzì zǒngbiǎo).

17 Eigenlijk was de vereenvoudigsproces reeds op het eind van de 19de eeuw gestart tijdens de zoektocht naar moderniteit. In 1935 werd er reeds een lijst met vereenvoudigde karakters uitgegeven (第㆒批簡體字表 dìy ī p ī jiǎntǐ zìbiāo) dat 324 vereenvoudigde karakters bevatte. 18 Romaniseren: 1) (overg.) onder de invloed van de Romeinse beschaving brengen, een Romeins karakter doen aannemen; 2) (overg.) Romaanse invloed doen ondergaan, een Romaans karakter doen aannemen; 3) (onoverg.) (bk.) zich richten naar Romeinse (Italiaanse) voorbeelden.

Thesis Sébastien Bruggeman Pagina 16 In 1977 werd er net na de Culturele Revolutie nog een hervorming doorgevoerd (op 12 december werd 第二次汉字简化方案(草案) afgekondigd) maar die werd uiteindelijk in juli 1978 terug afgeblazen omdat ze te drastisch bleek te zijn. De laatste versie van de General list of Simplified Characters werd opgesteld door het ‘National Working Committe on Language and Characters’ (国家语言文字工作委员会, guójiā yǔyán wénzì gōngzuò wěiyuánhuì) en dateert van 10 oktober 1986. Het bevat 2 235 vereenvoudigde karakters (de lijst van 1956 bevatte er slechts 515 vereenvoudigde karakters, de lijst van 1964 bevatte er 2 236), deze karakters zijn opgesplitst in 3 tabellen. De eerste tabel zijn traditionele karakter die wanneer ze vereenvoudigd zijn geen deel uitmaken van andere karakters (350). De tweede tabel zijn vereenvoudigde karakters die deel kunnen uitmaken van andere vereenvoudigde karakters 132 ervan kunnen als volwaardig karakter voorkomen, 14 zijn vereenvoudigde karakters maar die niet zelfstandig kunnen gebruikt worden. De derde tabel zijn vereenvoudigde karakters die traditionele delen uit de vorige tabel bevatten19.

Tabel 3 Vereenvoudiging van Chinese karakters Voor vereenvoudiging Na vereenvoudiging Betekenis 車 车 auto, chē 鄭 郑 plechtig, zhèng 學 学 studeren, xué

Deze vereenvoudiging gebeurde in de Volksrepubliek China. De Republiek China (Taiwan), Hong Kong, Macau en de meerderheid van de overzeese Chinezen behielden de niet-vereenvoudigde karakters, enkel Singapore nam de vereenvoudiging over. Om het onderscheid makkelijker te maken wordt er in deze thesis gesproken over vereenvoudigde karakters (简体字 jiǎntǐzì) en traditionele karakters (繁體字 fántǐzì). Men spreekt van “traditioneel” omdat de karakters teruggaan op de oudste vormen van het Chinese schrift. Ook de Japanners hebben vereenvoudigingen doorgevoerd in hun Chinese karakters, maar deze staan los van de vereenvoudigingen die in de Volksrepubliek China hebben plaatsgevonden.

19 Bron : http://www.sungwh.freeserve.co.uk/hanzi/t-s-intro.htm en http://www.chineseon.net/resources/hzstand/index.php

Thesis Sébastien Bruggeman Pagina 17 1.3. Typografie

Typografisch20 kunnen Chinese teksten op twee manieren georiënteerd zijn. Bij klassieke teksten en proza worden karakters veelal van boven naar onder en van rechts naar links geschreven. De tweede oriëntatie is van links naar rechts en van boven naar onder. Deze oriëntatie is dezelfde als voor de westerse talen, en is nu de meest gebruikte en de standaard voor moderne en wetenschappelijke teksten. De eerste oriëntatie kan problemen geven met niet-Chinese software. Daarnaast zijn er ook nog heel wat stylistische moeilijkheden verbonden met het weergeven van verticale georiënteerde tekst (zoals plaatsing van interpunctietekens en oriëntatie van Westerse letters en cijfers).

Tabel 4 Typografie

大學之道,在明明德,在親民,在止於至 矣 后 始 末 能 能 能 能 有 善 民 明 大 善。知止而后有定,定而后能靜,靜而后 。 , , , 得 慮 安 靜 定 。 , 明 學 能安,安而后能慮,慮而后能得。物有本 。 , , , , 知 在 德 之 則 知 事 末,事有終始,知所先后,則近道矣。 物 慮 安 靜 定 止 止 , 道 近 所 有 有 而 而 而 而 而 於 在 , 道 先 終 本 后 后 后 后 后 至 親 在 Rechts links – boven onder Boven onder – links rechts

1.4. Karakters en computers

In een computer worden karakters gerepresenteerd aan de hand van een binaire code. Het symbool 0 (nul) wordt gebruikt voor de representatie van de afwezigheid van een puls, het symbool 1 (één) voor de aanwezigheid ervan. Wanneer men typt wordt de code van de toets (keycode) doorgestuurd, die code wordt dan gebruikt om in de keyboard mapping table het overeenkomstige karakter op te zoeken. Zo wordt bij de aanslag van ‘A’ de toetscode 14 gegenereerd, in de keyboard mapping table komt dit overeen met karakter 65 (de ASCII code voor A, binair wordt dit gerepresenteerd als 0100 0001). Stel dat men de mapping van het toetsenbord verandert (van bijvoorbeeld querty naar azerty) zal de aanslag van eenzelfde toets een geheel ander resultaat geven. Vervolgens wordt de 'vorm' van de letter A uit een lettertypebestand (font) gehaald en op het beeldscherm afgebeeld. Het voordeel van een dergelijke aanpak is dat het veel meer mogelijkheden creëert. Men hoeft slechts één lettertypebestand te maken waarin men de codes van de verschillende letters associeert met een vorm.

20 Typografie: 1) boekdrukkunst; 2) (m.betr.t. een bepaald boek) het drukken en de wijze van drukken (keuze van lettertype, vormgeving)

Thesis Sébastien Bruggeman Pagina 18 Een karakterset bestaat uit een lijst van alle karakters die weergegeven moeten kunnen worden, geordend in een bepaalde volgorde. Voor de Westerse talen is dit geen probleem want daar kunnen alle karakters makkelijk weergegeven worden. Bij Chinese karakters is het onmogelijk om alle karakters weer te geven, daarom wordt een lijst opgesteld van vaakgebruikte karakters (常用字 chǎngyòngzì). Deze lijsten worden niet enkel opgesteld voor het maken van karaktersets maar ook voor het aanleren van karakters op school.

Codepagina’s (codepages. IBM gebruikt de term Global Identifier) zijn karaktersets die aangepast zijn aan een bepaald besturingssysteem of een codering, die één of meerdere karaktersets aan kan. Zo slaat Microsoft’s Codepage 95021 op de Big5 karakterset, Big5 codering en Microsoft extenties. Microsoft’s Codepage 93622 slaat op GBK en EUC codering.

Er zijn twee plaatsen waar de namen van de karaktersets kunnen geregistreerd worden namelijk in het ECMA-register23 en het IANA-register24, de procedure tot registratie wordt beschreven in RFC 2278 IANA Charset Registration Procedures. Nu worden er nog weinig nieuwe karaktersets geregistreerd met het toenemend belang en gebruik van Unicode (zie infra).

21 http://www.microsoft.com/globaldev/reference/dbcs/950.htm 22 http://www.microsoft.com/globaldev/reference/dbcs/936.htm 23 ECMA: European Computer Manufacturers Association; http://www.ecma.ch 24 IANA: Internet Assigned Numbers Authority; http://www.iana.org

Thesis Sébastien Bruggeman Pagina 19

2. Karaktersets

2.1. Westerse talen

De computer (zoals we die in zijn huidige vorm kennen als pc of mainframe) is ontstaan in de Verenigde Staten van Amerika en het Verenigd Koninkrijk. De oorspronkelijke karaktersets die dus ontwikkeld werden om tekst weer te geven op een scherm zijn dan ook enkel voor de Engelse taal ontwikkeld. Eind jaren ‘50 begon het ASA (American Standard Association, dat later werd hernoemd tot ANSI, American National Standards Institute25) een onderzoek om een nieuwe standaard te ontwikkelen. Er werd besloten om een 7 bit code te ontwikkelen. Een 7 bit code moest namelijk geen ‘verwisseling’ (shifting) toepassen zoals de op dat moment bestaande 5 bit .26 Op 17 juni 1963 werd X3.4-1963 gepubliceerd. Het liet verscheidene posities open, en het duurde tot 1967 eer de ASCII code zoals we die nu kennen vast lag (X3.4-1967 aka ISO-646-US-1972). ASCII laat 128 karakters toe, 94 karakters en 34 controle karakters (op de posities 0 tot en met 32 en positie 127). Het bevat hoofd- en kleine letters Latijn, Arabische getallen, karakters en controle karakters.

Omdat een 8 bit code makkelijker te hanteren is voor een computer27 werd de laatste bit in de 7-bit ASCII code opgevuld met een parity bit, highlight bit of een end-of-string bit. Door het gebruik van een pariteitsbit konden de zeven eerste bits gecontroleerd worden. Een moderne versie hiervoor is de checksum die bij Belgische bankrekeningsnummers gebruikt wordt. Later zou deze achtste bit gebruikt worden om aan internationalisation (i18n) te doen.

In 1967 werd ISO28 Recommendation 646 uitgevaardigd29. Het kwam er op neer dat de ASCII code werd aanvaard zoals die was, met uitzondering van die 10 karakterposities (die overeenkomen met de karakters @ [ \ ] ^ ` { | } ~) die werden gespecificeerd in een versie van de aanbeveling gekend als International Reference Version (IRV).

25 http://www.ansi.org 26 De Baudot code wordt nog steeds voor het nu snel afnemende telexverkeer gebruikt. 27 8 bits zijn 1 byte, computers werken efficiënter wanneer ze data in bytes moeten verwerken. Dit komt omdat het intern circuit ontworpen is met 'data pathways' van 8, 16, 32, of 64 bits breed. Om deze reden is een 10, 15 bit karakter code minder efficiënt in een computer. 28 International Standard Organisation 國際標準組織 guójì biāozhǔn zǔzhī, http://www.iso.org 29 Toen gebruikte ISO nog eerder Recommendations in plaats van Standards. De laatste versie van deze standaard is de derde versie, gepubliceer in 1991.

Thesis Sébastien Bruggeman Pagina 20 De ASCII code werd ook gebruikt als basis voor het creëren van 7 bit karaktercodes (vaak afhankelijk van de computermaker zoals bijvoorbeeld IBM, Apple, Microsoft) voor talen die niet gebruik maakten van het Latijnse alfabet zoals bijvoorbeeld Arabisch en Grieks. Door het slechts gedeeltelijk vastliggen van de ASCII-standaard rezen en rijzen er problemen bij het gebruik op verschillende computersystemen. Zo is de binaire waarde voor “à” op een Macintosh 136, op een Windows pc 133, en een UNIX systeem 224. Dus afhankelijk van het platform kan “à” afgebeeld worden als “à” (Macintosh), “ê” (Windows) of “ “ (unix).30 Tot op vandaag zijn er 180 karaktersets gebaseerd op de ASCII code geregistreerd bij het ISO.

Doordat er in de Europese talen letters worden gebruikt met accenten op, voldeed de ASCII standaard niet. Daarom werd er een 8-bit extensie ontwikkeld voor de 7-bit code (in een eerste fase werd een aangepaste versie van ASCII ontwikkeld zoals het Duitse DIN 66003 of het Deense DS 2089. Dit zorgde er echter wel voor dat in dergelijke karaktersets andere karakters niet meer toegankelijk waren). Een 8-bit code liet toe om bijna alle maar niet alle symbolen en letters te typen.

Om een elektronisch Babel te vermijden creëerde het ISO de standaard ISO 2022 (ISO/IEC 2022: Character code structure and extension techniques) dat vastlegt hoe 7 en 8 bit karaktercodes moet gestructureerd en uitgebreid worden. In deze standaard wordt beschreven hoe de codetabellen er moeten uitzien (zie Figuur 12 op pagina 89). Deze codetabellen worden dan later opgevuld met karakters. Vaak wordt er verwezen naar een bepaalde positie aan de hand van de rij- en kolom nummer.. Deze standaard werd later toegepast om de standaard die officieus gekend is als Latin-1 (officiële naam: ISO 8859-1) te maken, deze laatste is een extensie van ASCII/ISO 646 en wordt meestal gebruikt voor het uitwisselen van informatie op het internet in West-Europa. ISO 8859 is een 8-bit karakterset die vooral gericht is op data processing in West- en Oost- Europa. Er zijn nu reeds zestien varianten op deze karakterset, zie Tabel 5 voor meer informatie.

30 Dedene & Herroelen, Inleiding tot de informatica, Deel A, Wouters, Leuven, p.18-19.

Thesis Sébastien Bruggeman Pagina 21 Tabel 5 ISO 8859 Naam Inhoud Jaar ISO 8859-1 Latin alphabet no.1 (West Europees) 1987 ISO 8859-2 Latin alphabet no.2 (Oost Europees) 1987 ISO 8859-3 Latin alphabet no.3 (Zuid Europees) 1988 ISO 8859-4 Latin alphabet no.4 (Noord Europees) 1988 ISO 8859-5 Latin/Cyrillic alphabet 1988 ISO 8859-6 Latin/Arabic alphabet 1987 ISO 8859-7 Latin/ 1987 ISO 8859-8 Latin/Hebrew alphabet 1988 ISO 8859-9 Latin alphabet no.5 (Turks) 1989 ISO 8859-10 Latin alphabet no.6 (Nordic) 1992 CD 8859-11 Latin/Thai alphabet 2001 ISO 8859-13 Latin alphabet no.7 (Baltic Rim) 1998 ISO 8859-14 Latin alphabet no.8 (Celtic) 1998 ISO 8859-15 Latin alphabet no.9 (aanpassing van Latin1 oa euro ondersteuning) 1999 ISO 8859-16 Latin alphabet no.10 2001

Verschillende computermakers ontwikkelden hun eigen codepagina’s. Hierdoor kreeg men voor eenzelfde taal verschillende codepagina’s, aan de ene kant de particuliere codepagina’s (proprietary code pages) en aan de andere kant de gestandaardiseerde. Dergelijke particuliere code pagina’s werden vooral door OEM’s (Original Equipment Manufacturer) gemaakt zodat tekst gebaseerde PC’s in staat zouden zijn om lijn-karakters af te kunnen printen en af te beelden; ze worden ook nog vaak gebruikt om toegang te hebben tot data gecreëerd door MS-DOS gebaseerde programma’s. Dergelijke particuliere codepagina’s hebben meestal een 3-getals code, bijvoorbeeld. CP 437 voor Amerikaans Engels.

2.2. Oosterse talen

De Japanners waren de eersten die probeerden hun taal weer te geven op de computer. Ze slaagden er in om katakana weer te geven, dit is een set van 63 karakters die gebruikt worden om het Japans fonetisch weer te geven. Er was echter nog geen mogelijkheid om kanji weer te geven. Dit gebeurde met het op 1 juni 1969 vastegelegde JIS C 622031 dat zowel ASCII als katakana kon weergeven. Er werd een oplossing gevonden om kanji weer te geven, namelijk het gebruik van twee bytes om één karakter weer te geven. Dit bracht het totaal van mogelijk

31 JIS: Japanese Industry Standard

Thesis Sébastien Bruggeman Pagina 22 weer te geven karakters op 65 536.32 Op 1 januari 1978 werd JIS C 6226-1978 vastgelegd, het bevatte 6 499 Chinese karakters (kanji) en 453 andere karakters.

Een 2 byte karaktercode wil zeggen dat er 16 bits worden gebruikt voor het weergeven van één karakter, zo wordt het karakter ‘hemel’ (天, tiān) binair als volgt weergegeven, 1101 0001 1010 0100 (Big5). Dit wou echter niet zeggen dat de 1 byte code had afgedaan, ze breidden gewoon het concept van 1 byte uit, dat wil zeggen dat een tekst een mix werd van 1 en 2 byte karakters. Hoe deze uit elkaar worden gehouden hangt af van de codering. Om de ondersteuning en compatibiliteit met 1 byte karakters te bewaren beginnen de 2 byte codes allemaal pas bij hogere posities ( > 0x7F). De eerste byte specificeert de rij en de tweede byte de cel in die rij.

2.2.1. Traditioneel Chinees

Gebied : Taiwan, Hong Kong, Macau, Overzeese Chinezen.

a) CCCII en EACC CCCII staat voor Chinese Character Code for Information Interchange (㆗文資訊交換碼, zhōngwén zīxùn jiāohuàn mǎ). Het werd ontwikkeld in 1980 om aan de Amerikaanse nood om op de computer met Oost-Aziatische talen te kunnen werken te voldoen. Daarom werd er een gezant gestuurd om de mogelijkheden te onderzoeken. Op dat ogenblik was de enige standaard om Aziatische talen weer te geven JIS C 6226-1978 en daarom werd geopteerd om deze standaard over te nemen. Overzeese Chinezen, Amerikaanse Oost-Aziatische bibliotheken en Taiwanese vertegenwoordigers protesteerden echter tegen deze beslissing met de argumentatie dat Kanji niet dezelfde betekenis weergeven als Chinese karakters33.

In Taiwan werd dan een tijdelijk comité CCAG (Chinese Character Analysis Group; 國字 整理小組 guózì zhěnglǐ xiǎozǔ) opgericht dat het Chinees, Japans en Koreaans onderzocht en de verschillende varianten van de Chinese karakters in die talen. Zo kwam het CCCII in 1980 tot stand. De Amerikanen aanvaardden die standaard om Chinees, Japans en Koreaans mee weer te geven. In Taiwan zelf werd de standaard echter fel bekritiseerd. De karakterset werd herzien in 1981 (versie 2), 1982 (versie 2.2), 1985 (versie 2.3) en 1987 (versie 3).

32 2^16 = 65 536 33 http://www.math.ncu.edu.tw/~shann/Chinese/bbs97.html

Thesis Sébastien Bruggeman Pagina 23 CCCII is opgebouwd uit 16 lagen die opgebouwd zijn opeenvolgende 94x94 niveaus, tot 6 na elkaar. Elke laag vertegenwoordigt een parallelle versie van dezelfde karakters. In totaal zijn er zo 94 niveaus. Het resultaat is een 94x94x94 ruimte om karakters in te coderen.

Voor elk groep van variante karakters wordt er een standaard karakter gekozen. Die wordt geplaatst in de eerste laag, de rest van de variante karakters worden in lagen twee tot zeven geplaatst, laag twee wordt wel voorbehouden voor vereenvoudigde karakters. Het gebruikt 3 bytes om één karakter weer te geven. Voor elk variant karakter is de eerste en tweede byte gelijk aan het standaard karakter, de derde byte representeert de laag waar het karakter zich bevindt. De Chinese karakters zijn geordend volgens radicaal en vervolgens volgens het aantal streepjes. De uitgave van 1987 bevat 53 940 karakters. Er wordt nog steeds gewerkt aan een volgende versie die 75 684 karakters zou moeten bevatten.

Er werd ook een Chinese Character Database (CCDB, ㆗國文字資料庫 zhōngguó wénzì z ī liàokù) uitgegeven die van elk karakter de attributen bevat zoals sleutel, aantal streepjes en uitspraak. De CCCII wordt in vele bibliotheken gebruikt omdat het tot nu toe de enige is die voldoet aan de nood van de bibliotheken.

Tabel 6 CCCII (structuur) Laag Niveau Inhoud 1 1-6 Non-hanzi en hanzi 2 7-12 Vervoudigde Chinese karakters (PRC) 3-12 13-72 Variante vormen van Chinese karakters uit laag 1 13 73-78 Japanse kana en kanji 14 79-84 Koreaans jamo, hangul en hanja 15 85-90 Reserved 16 91-94 Andere karakters

Tabel 7 CCCII (laag 1) Range Aantal Controle karakters (niveau 1) Rij 1 0 Chinese punctuatie (niveau 1) Rij 11 35 Klassieke radicalen (niveau 1) Rij 12-14- 214 Chinese nummers en fonetische symbolen (niveau 1) Rij 15 78 Vaak gebruikte Chinese karakters (niveau 1) Rij 16-67 4 808 Minder vaak gebruikte Chinese karakters (niveau 1 – 3) Rij 68-64 17 032 Andere Chinese karakters (niveau 3 – 6) Rij 65-5 20 583 Totaal 42 750

Thesis Sébastien Bruggeman Pagina 24 Een afgeleide karakterset is ANSI Z39.64-1989 (East Asian Character Code Set, afgekort als EACC, oorspronkelijk was de naam RLIN East Asian Character Code, afgekort als REACC), deze bevatte in mei 200134 15 728 karakters. Het werd in 1983 ontwikkeld door Research Libraries Group in samenwerking met het US Library of Congress en Chinese Character Analysis Group. In 1989 werd deze karakterset door het ANSI goedgekeurd. In mei 2001 werd een voorstel ingediend om EACC te ‘mappen’ naar Unicode. Dit voorstel werd in augustus 2001 goedgekeurd.

Tabel 8 EACC Range Aantal Chinese karakters (voor Chinees, Japans en Koreaans) 13 468 Japans Katakana 86 Japans Hiragana 83 Japanse geluidstekens 4 Koreaans Hangul (modern) 1 966 Koreaans Hangul (archaic) 29 Koreaans Jamo 33 Punctuatie tekens (Oost-Azië) 9 Punctuatietekens (Westers) 14 Ideographic "component input method" characters (used in RLIN system) 35 Totaal 15 727

b) CNS CNS 5205 draagt de naam Information processing: 7-Bit Coded Character Set For Information Interchange (資訊處理及交換用七數元碼字元集組 zīxùnchǔlǐ jí jiāohuàn yòng qī shùyuánmǎ zìyuánjíz ǔ ). Het werd uitgevaardigd op 29 februari 1980. Het is de Taiwanese karakterset analoog aan ASCII en ISO 646.

In september 1980 begonnen er besprekingen over het vastleggen van een nationale karakterset, dit leidde tot de oprichting van een speciaal comité op 2 september 1982. In oktober 1983 werd er door verschillende instanties35 de CISCII (Chinese Ideographic Standard Code for Information Interchange, 通用漢字標準交換碼, tōngyòng hànzì biāozhǔn jiāohuàn mǎ) ontwikkeld en op proef vrij gegeven. Na goedkeuring en bekendmaking in maart 1986 door de Executive Yuan werd op 4 augustus 1986 CNS 1164336 (CNS staat voor Chinese National Standard 國家標準碼37, guójiā biāozhǔn mǎ) door het National Bureau of

34 http://www.loc.gov/marc/marbi/2001/2001-09.html 35台灣國家科學委員會、教育部國語推行委員會、㆗央標準局、行政院主計處電子資料處理㆗心 36 http://www.cns11643.gov.tw 37 niet afkorten tot 國標碼 guóbiāomǎ want dit is de naam voor de karakterset die gebruikt wordt in de PRC (zie infra)

Thesis Sébastien Bruggeman Pagina 25 Standards of Taiwan (台灣㆗央標準局, táiwān zhōngyāng biāozhǔnjú) onder de naam Standard Interchange Code for Generally Used (通用漢字標準交換碼 tōngyòng hànzì biāozhǔn jiāohuànmǎ) als nationale karakterset vastgelegd. CNS 11643 is opgebouwd uit verschillende niveaus38. De uitgave van 1986 definieerde enkel karakters in het eerste en tweede niveau. In juni 1988 werd niveau 14 gepubliceerd (通 用漢字標準交換碼-使用者加字區交換碼, tōngyòng hànzì biāozhǔn jiāohuànmǎ – shǐyòngzhě jiāzìq ū jiāohuànmǎ) en in 1990 niveau 15 (戶政用字, hùzhèngyòngzì). Deze standaard bevatte echter te weinig karakters en werd daarom herzien. Een vernieuwde versie werd gepubliceerd op 21 mei 1992 onder de naam Chinese Standard Interchange Code (㆗文標準交換碼, zhōngwén biāozhǔn jiāohuàn mǎ). Het bevat 48 711 karakters waarvan er 48 027 Chinese karakters zijn, een precieze opdeling vindt men in Tabel 10 op pagina 27. De Chinese karakters zijn geordend naar totaal aantal streepjes en vervolgens per radicaal. Het bestaat uit 16 niveaus die elk opgebouwd zijn uit 94 rijen en 94 kolommen (elk niveau kan dus maximaal 8 836 karakters bevatten). Niveau 1 tot 11 zijn gereserveerd voor de definitie van standaard karakters terwijl niveau 12 tot 16 zelf kunnen worden opgevuld (user- defined areas). CNS 11643-1992 maakt slechts gebruik van 7 niveaus. CNS-11643-1992 bevat een aantal fouten, maar deze zijn allemaal een verkeerd tellen van het aantal streepjes. In niveau 1 vallen de karakters tussen A1 en FE voor de eerste byte en tussen A1 en FE voor de 2de byte, in niveau 2 is dat tussen A1 en FE en 21 en 7E. Om de decimale waarde van een karakter te berekenen gaat men dan als volgt te werk. Stel dat het karakter zich op de eerste kolom van de 36ste rij bevindt (㆒ yī) dan is de waarde voor de eerste byte A0 (hex) + 36 = C4 (hex), voor de tweede byte is dit A0 (hex) + 01 = A1 (hex), dus de hexadecimale waarde voor dit karakter is C4A1. Voor een karakter in niveau twee dat zich in de eerste kolom van de 36ste rij bevindt (歈 yú) wordt dit A0 (hex) + 36 = C4 (hex) en 20 (hex) + 01 = 21 (hex) dus C421. Om compatibiliteit met CNS 5205 en CNS 7654 te bewaren zijn de codepunten 0 tot 20 en 7F (127) niet opgevuld.

38 字面 zìmiàn

Thesis Sébastien Bruggeman Pagina 26 Tabel 9 CNS 11643-1986 Range Aantal Symbolen, letters, cijfers, radicalen, … 39 (niveau 1) Rij 1-9,34 684 Chinese karakters (niveau 1) Rij 36-93 5 401 Chinese karakters (niveau 2) Rij 1-82 7 650 Chinese karakters (niveau 14) Rij 1-68 6 319 Chinese karakters (niveau 15) Rij 1-77 7 169 Totaal 27 223 Van niveau 1 zijn rijen 10-33, 35 en 94 niet toegewezen, van niveau 2 83-94, van niveau 14 69-94 en van niveau 15 78-94

Tabel 10 CNS 11643-1992 Range Aantal Symbolen, letters, cijfers, radicalen, … 39(niveau 1) 2121 – 427E 684 Chinese karakters 1 (niveau 1) 4421 – 7D4B 5 401 Chinese karakters 2 (niveau 2) 2121 – 7244 7 650 Chinese karakters 3 (niveau 3) 2121 – 6246 6 148 Chinese karakters 4 (niveau 4) 2121 – 6E5C 7 298 Chinese karakters 5 (niveau 5) 2121 – 7C51 8 603 Chinese karakters 6 (niveau 6) 2121 – 647A 6 388 Chinese karakters 7 (niveau 7) 2121 – 6655 6 539 Totaal 48 711 Van niveau 1 zijn rijen 10-33, 35, 94 niet toegewezen, van niveau 2 83-94, van niveau 3 67-94, van niveau 4 79- 94, van niveau 5 93-94, van niveau 6 69-94 en van niveau 7 71-94.

Niveau 1 bevat vaak gebruikte karakters40, niveau 2 minder vaak gebruikte karakters41, niveau 3 zelden gebruikte karakters (罕用字 hǎnyòngzì)42 en vaak gebruikte variante Chinese karakters (異體字 yìtízì) 43. Niveau 4 bevat onder andere de Chinese karakters van ISO 10646 versie 2.0, niveau 5 zelden gebruikte karakters, niveaus 6 variante vormen van Chinese karakters met 14 of minder streepjes en niveau 7 bevat variante vormen van Chinese karakters met meer dan 14 streepjes. Er wordt steeds een controle karakter meegegeven dat het niveau waarop het karakter zich bevindt weergeeft. Dit controle karakter blijft gelden voor alle volgende karakters tot nog een dergelijk controle karakter wordt tegen gekomen.

39 De precicieze opdeling is als volgt: interval 間隔符號 (1), punctuatietekens 標點符號 (28), grafische tekens 括號及製表符號 (89), symbolen ㆒般符號 (34), wetenschappelijke tekens 學術符號 (51), eenheden 單位符號 (31), cijfers 數字符號 (42), buitenlandse letters 外文字母 (100), 國語注音符號 bopomofo (42), indexering tekens 數字序列符號 (20), klassieke radicalen ㆗國文字部首 (213), grafische presentatie van controle karakters 控制碼符號 (33) 40 4 808 karakters komen uit 常用國字標準字體表 uitgegeven op 2 september 1982 door 教育部 41 6 330 karakters komen uit 次常用國字標準字體表 uitgegeven op 20 december 1982 door 教育部 42 uit 罕用國字標準字體表 bevat 18 414 Chinese karakters en werd uitgegeven in 1983 43 uit 異體字表 uit 1983 bevat 18 069 Chinese karakters

Thesis Sébastien Bruggeman Pagina 27 c) Big5 Big5 (大五 dàwǔ) werd op 1 mei 1984 door het Institute for Information Industry of Taiwan (台灣資訊工業策進會, táiwān zīxùn gōngyè cèjìn huì) bekend gemaakt door de publicatie van Computer Chinese Glyph and Character Code Mapping Table, Technical Report C-26 (電腦用㆗文字型與字碼對照表, 技術通報 C-26, diànnǎo yòng zhōngwén zìxíng yù zìm ǎ duìzhào biǎo, jìshù tōngbào C-26). Deze karakterset wordt zo genoemd omdat 5 grote bedrijven meewerkten aan de ontwikkeling ervan. Het is geen nationale standaard maar een de facto standaard, de officiële karakterset voor Taiwan is CNS 11643-1992. De big5 karakterset bevat in het totaal 13 494 karakters, soms bevat het nog een supplement van 41 ETen karakters (zie infra).

Tabel 11 Big5 Range Aantal Punctuatie, grafische karakters, ASCII, … A140 – A343 466 Grieks A344 – A373 48 Bopomofo A374 – A3BA 37 Toontekens A3BB – A3BF 5 Controle karakters A3C0 – A3E0 33 Vaak gebruikte karakters 常用字 A440 – C67E 5 401 Minder vaak gebruikte karakters 次常用字 C940 – F9D5 7 652 Totaal 13 494 Rijen 39-40 en 90-94 zijn niet toegewezen

Big5 gebruikt een 94x157 matrix en heeft daardoor een maximum capaciteit van 14 758 karakters. De Chinese karakters zijn geordend volgens toenemend aantal streepjes en dan per radicaal. Big5 bevat twee karakters die twee maal voorkomen, namelijk de karakters 兀 wù (op codepunten 0xA461 en 0xC94A) en 嗀 huò (op codepunten 0xDCD1 en 0xDDFC). CNS 11643-1992 bevat deze fouten niet meer, daar is telkens de tweede codering verwijderd. Big5 wordt gebruikt als standaard codering voor de besturingssystemen van Microsoft Corporation en Apple Computer Inc die volledig traditioneel Chinees gelocaliseerd zijn. Elke eerste byte van een dubbel byte Big5 karakter moet liggen in het hexadecimale gebied 0xA1 tot 0xF9 (maar kan ook 0xFA tot 0xFE omvatten) terwijl de tweede byte in de gebieden 0x40 tot 0x7E en 0xA1 tot 0xFE kan vallen. Dit is gedaan om de compatibiliteit met ASCII te bewaren. De codeplaatsen 0x7F, 0xA0 en 0xFF werden opzettelijk blanco gelaten. Big5 is heel gelijkend op de eerste twee niveaus van CNS-11643, de vaak gebruikte karakters zijn namelijk exact hetzelfde alleen de positie is verschillend.

Thesis Sébastien Bruggeman Pagina 28 Een heel belangrijke extensie op Big5 is de “ETen extensie”. ETen44 is een bedrijf dat in de jaren ’80 een Chinees besturingssysteem op de markt bracht. Deze extensie bestaat uit twee blokken. Het eerste blok (C6A1 – C8D3) bevat 365 karakters (o.a. omcirkelde cijfers, kana, Cyrillisch), het tweede blok (F9D6 – F9FE) bestaat uit zeven extra Chinese karakters (碁 銹 裏 墻 恒 粧 嫺) en 34 lijn-karakters. Door de populariteit van het besturingssysteem en de programma’s worden Eten karakters bij de Big5 karakterset gerekend. De zeven extra Chinese karakters zitten ook in CNS 11643-1992 niveau 3..

d) Big5+ Om vereenvoudigde Chinese karakters te ondersteunen werd in juli 1997 Big5+ ontwikkeld. Deze karakterset bevat 23 940 karakters. Big5+ bestaat uit 2 niveaus. Het is eigenlijk zeer gelijkend aan GBK (zie infra). Het bevat ook alle Chinese karakters die in Unicode worden gedefinieerd. Deze codering wordt echter niet wijd ondersteund. De sleutels die alleen kunnen staan zijn weggelaten evenals de dubbel gecodeerde karakters uit Big5, verder zijn er ook verschillende fouten uit CNS verbeterd. De high byte ligt tussen 0x81 – 0xFE en de low byte ligt tussen 0x40 – 0x7E of 0x80 – 0xFE.

Tabel 12 Big5+ Range Aantal Big5 niveau 1 A440 – C67E 5 401 Big5 niveau 2 C940 – F9D5 7 693 Big5 non-hanzi A140 – A3FE 471 Eten karakters C6A1 – C8FE 408 Chinese karakters 8180 – FEA0 4 158 Hanzi en hanzi varianten 8140 – 83FE 471 Hanzi, vereenvoudigde hanzi, kanji en hanja 8E40 – A0FE 2 983 User defined characters FA40 – FEFE 785 User defined characters 8440 – 8DFE 1 570 Totaal 23 940

e) Big5E Big5E staat voor Big5 Extention (Big5 碼補充字集, Big5 mǎ bǔchōng zìjí) is gebaseerd op Big5, Big5+ en CNS 11643. Er werden 3 954 Chinese karakters uit Big5+ en CNS 11643 niveau 3 en 4 geselecteerd om ze in Big5E te coderen in de ‘user defined area’. Ook werden er nog 128 andere codepunten gereserveerd voor latere uitbreiding. Er zijn verschillende ‘tools’ ontwikkeld voor Big5E zoals conversietabellen, conversieprogramma’s en verbeterde ‘input editors’. Big5E werd uitgegeven in 1999.

44 http://www.eten.com.tw

Thesis Sébastien Bruggeman Pagina 29 f) Hong Kong GCCS en SCS De officiële karakterset en codering in Hong Kong is Big5. In Hong Kong zijn er echter in de loop der tijd aparte Chinese karakters ontwikkeld. Doordat deze karakters niet worden ondersteund door het in Taiwan ontwikkelde Big5 heeft de regering van Hong Kong het op Big5 gebaseerde Hong Kong GCCS45 (Government Chinese Character Set) uitgevaardigd in 1994. Hong Kong GCCS bevat 3 049 extra karakters. Ongeveer de helft van deze karakters werden in GBK (en dus ook in Unicode 2.1) opgenomen. Op 28 september 1999 werd HK SCS (Hong Kong Supplementary Character Set46 ) gepubliceerd. Het bevat 4 702 karakters (waarvan er 4 261 Chinese karakters zijn) meer dan Big5, die allemaal in de user defined area zijn gedefinieerd. Er zijn verschillende karakters uit HK GCCS verwijderd of samengevoegd. De codeplaatsen die daardoor vrij kwamen werden niet opgevuld om compatibiliteit te creëren. In december werd HKSCS-2000 gepubliceerd dat nog eens 161 extra karakters bevat.

2.2.2. Vereenvoudigd Chinees

Gebied : Volkrepubliek China, Singapore, overzeese Chinezen

a) GB 1988-80 De officiële naam van deze karakterset is Information technology – 7-bit Coded Character Set for Information Interchange (信息技术 – 信息交换用七位编码字符集 xīnxí jìshù xīnxí jiāohuàn yòng qīwèi biānmǎ zìfújí). Deze karakterset wordt soms ook GB-Roman genoemd (aliassen voor deze karakterset zijn iso-ir-57, ISO646-CN, csISO57GB1988). Dit is de analoge Chinese variant van ASCII en ISO 646. De twee verschillen zijn dat het dollarteken ($) vervangen werd door het symbool voor de Chinese Yuan (¥) en de (~) door een ‘overline’.

45 http://www.info.gov.hk/gccs/ 46 http://www.info.gov.hk/digital21/eng/hkscs/index.html

Thesis Sébastien Bruggeman Pagina 30 b) GB 2312-80 GB 2312 (GB staat voor National Standard, 国标 guóbiāo, afkorting van 国家标准 guójiā biāozhǔn) werd in 1980 gepubliceerd door het State Bureau of Standardization of the People’s Repbulic of China (中华人民共和国国家标准总局, zhōnghuárénmíngònghéguó guójiā bāozhǔn zǒngjú) onder de naam Code of Chinese Ideogram Set for Information Interchange - Basic Set (信息交换用汉字编码字符集 - 基本集, xìnxī jiāohuàn yòng hànzì biānmǎ zìfújí – jīběnjí) en werd van kracht op 1 mei 1981 (aliassen voor deze karakterset zijn iso-ir-58 en csISO58GB231280). De karakterset bevat 7 445 karakters (6 763 Chinese karakters en 682 niet Chinese karakters), de Chinese karakters zijn opgedeeld in vaak gebruikte karakters (3 755) en niet vaak gebruikte karakters (3 008). Hij is gebaseerd op JIS X 0208 en bestaat dus uit een 94x94 rooster. Chinese karakters worden pas ingevuld vanaf de zestiende rij, de eerste vijftien worden opgevuld door andere karakters. De binaire code voor het karakter ‘hemel’ (天, tiān) is hier 1110 1100 1100 1100. Elke byte van een dubbel byte GB karakter valt binnen hexadecimale 0xA1 tot 0xFE gebied. De karakters zijn, net zoals in het Japans, geordend volgens de uitspraak bij de vaak gebruikte Chinese karakters. De niet vaak gebruikte Chinese karakters worden geordend volgens radicaal en vervolgens volgens het aantal streepjes.

Tabel 13 GB 2312-80 Range Aantal Symbolen Rij 1 94 Nummers Rij 2 72 ISO 646-CN (full width characters) Rij 3 94 Hiragana Rij 4 83 Katakana Rij 5 86 Grieks Rij 6 48 Cyrillisch Rij 7 66 Pinyin Rij 8 26 Bopomofo Rij 8 37 Line drawing elements Rij 9 76 Chinese karakters Rij 16-55 3 755 Chinese karakters Rij 56-87 3 008 Totaal 7 445 Rijen 10-15 en 88-94 zijn niet toegewezen

c) GB 6345.1-86 GB 6345.1-86 werd uitgevaardigd op 1 december 1986 en draagt de naam 32x32 Dot Matrix Font Set of Chinese Ideograms for Information Interchange (信息交换用汉字 32x32 点阵字模集 xìnxí jiāohuàn yòng hànzì 32x32 diǎnzhèn zìmújí).

Thesis Sébastien Bruggeman Pagina 31 Deze karakterset bevat aanvullingen en correcties op de GB 2312-80 karakterset. Een g moet anders weergegeven worden (g moest g worden, rij 3 positie 71), er is een karakter dat niet in zijn vereenvoudigde vorm is weergegeven (鍾 moet weergegeven worden als 锺, rij 79 positie 81), het bevat ook 132 extra karakters.

Tabel 14 GB 6345.1-86 Range Aantal Symbolen Rij 1 94 Nummers Rij 2 72 ISO 646-CN (full width characters) Rij 3 94 Hiragana Rij 4 83 Katakana Rij 5 86 Grieks Rij 6 48 Cyrillisch Rij 7 66 Pinyin Rij 8 32 Bopomofo Rij 8 37 Line drawing elements Rij 9 76 Half width GB 1988-89 Rij 10 94 Half width Pinyin characters Rij 11 32 Chinese karakters Rij 16-55 3 755 Chinese karakters Rij 56-87 3 008 Totaal 7 577 Rij 12-15 en 88-94 zijn niet opgevuld. Verschillen met GB2312 in grijs aangeduid.

d) GB 8565.2-88 Deze uitbreiding op GB2312-80 werd op 1 juli 1988 uitgevaardigd en noemt officieel Information Processing – Coded Character Sets for Text Communication – Part 2: Graphic Characters (信息处理 – 文本通信用编码字符集 – 第二部分 – 图形字符集 xìnxí chǔlǐ – wénběn tōngxìn yòng biānmǎ zìfújí – dì’èr bùfēn – túxíng zìfújí). Het bevat 705 karakters meer dan GB 2312-80, het bevat echter niet de extra karakters die in GB 6345.1-86 werden gedefinieerd.

Tabel 15 GB 8565.2-88 Range Aantal Symbolen Rij 1 94 Nummers Rij 2 72 ISO 646-CN (full width characters) Rij 3 94 Hiragana Rij 4 83 Katakana Rij 5 86 Grieks Rij 6 48 Cyrillisch Rij 7 66 Pinyin Rij 8 26 Bopomofo Rij 8 37 Line drawing elements Rij 9 76 Hanzi from GB 7589-87 Rij 13 50

Thesis Sébastien Bruggeman Pagina 32 Range Aantal Hanzi from GB 7590-87 Rij 14 92 Extra non-hanzi Rij 15 69 Extra hanzi Rij 15 24 Chinese karakters Rij 16-55 3 755 Chinese karakters Rij 56-87 3 008 Hanzi from GB 7589-87 Rij 90-94 470 Totaal 8 150 Rij 10-12 en 88-89 zijn niet opgevuld. Verschillen met GB2312 in grijs aangeduid.

e) ISO-IR-165:1992 Deze standaard bevat 8 443 karakters, waaronder alle wijzigingen en toevoegingen van GB 6345.1-86 en GB 8565.2-88. Het draagt de naam ISO International Registery #165 en werd op 13 juli 1992 uitgevaardigd. Ze wordt soms ook de CCITT (Consultative Committee on International Telephone and Telegraph) karakterset genoemd.

Tabel 16 ISO-IR-165:1992 Range Aantal Symbolen Rij 1 94 Nummers Rij 2 72 ISO 646-CN (full width characters) Rij 3 94 Hiragana Rij 4 83 Katakana Rij 5 86 Grieks Rij 6 48 Grieks (background (shading) characters) Rij 6 22 Cyrillisch Rij 7 66 Pinyin Rij 8 32 Bopomofo Rij 8 37 Line drawing elements Rij 9 76 Half width GB 1988-89 Rij 10 94 Half width Pinyin characters Rij 11 32 Hanzi Rij 12 94 Hanzi from GB 7589-87 + extra Rij 13 94 Hanzi from GB 7590-87 Rij 14 92 Karakters voor datum en tijd Rij 15 69 Extra hanzi Rij 15 25 Chinese karakters Rij 16-55 3 755 Chinese karakters Rij 56-87 3 008 Hanzi from GB 7589-87 Rij 90-94 470 Totaal 8 376 Rijen 88-89 zijn niet opgevuld. Verschillen met GB2312 in grijs aangeduid.

Thesis Sébastien Bruggeman Pagina 33 f) GB/T 12345-90 De officiële naam van deze karakterset is Code of Chinese Ideogram Set for Information Interchange Supplementary Set (信息交换用汉字编码字符集 - 辅助集, xìnxī jiāohuàn yòng hànzì biānmǎ zìfújí - fǔzhùjí) en werd op 13 juni 1990 uitgevaardigd door 中华人民共和国 国家技术监督局 (zhōnghuárénmíngònghéguó guójiā jìshù jiāndūjú). Het ging op 1 december 1990 van kracht. De T staat voor Tuijian (推荐 tuījiàn) en betekent aanvulling. Het is identiek aan GB 2312-80 maar alle karakters zijn vervangen door hun traditionele variant, het bevat 7 709 karakters. Daarvan zijn er 843 niet Chinese karakters en 6 866 Chinese karakters (3 755 vaak gebruikte karakters, 3 008 niet vaak gebruikte karakters en een supplement van 103 karakters). In totaal zijn er 2 180 karakters die door hun traditionele variant zijn vervangen. Deze karakterset bevat helaas ook fouten, het gaat om 2 printfouten.

Tabel 17 GB/T 12345-90 Range Aantal Symbolen Rij 1 94 Numerals Rij 2 72 Full width GB 1988-89 Rij 3 94 Hiragana Rij 4 83 Katakana Rij 5 86 Grieks alfabet Rij 6 48 Grieks (voor vertikaal gebruik) Rij 6 29 Cyrillisch Rij 7 66 Full width Pinyin Rij 8 32 Zhuyin Rij 8 37 Line drawing elements Rij 9 76 Half width GB 1988-89 Rij 10 94 Half width Pinyin Rij 11 32 Chinese karakters Rij 16-55 3 755 Chinese karakters Rij 56-87 3 008 Extra Chinese karakters Rij 88-89 103 Totaal 7 709

g) GBK GBK is een superset van GB 2312-80, dat zowel vereenvoudigde als traditionele karakters bevat, maar het is tevens de subset van GB 13000.1-93 (zie infra). De afkorting GBK staat voor Extended National Standard (国家标准扩展, guójiā biāozhǔn kuòzhǎn- de officiële naam is Chinese Internal Code Specification 汉字内码扩展规 范, hànzì nèimǎ kuòzhǎn guīfàn). Het werd op 1 december 1995 door het CITS (中华人民共 和国全国信息技术标准化技术委员会 zhōnghuárénmíngònghéguó quánguó xìnxí jìshù biāozhǔnhuà jìshù wěiyuánhuì) geformuleerd.

Thesis Sébastien Bruggeman Pagina 34 Verschillende bedrijven47 verenigden zich op 15 december 1995 en schaarden zich achter enkele verbeteringen. Deze verbeteringen werden opgenomen en de verbeterde karakterset werd gepubliceerd als versie 1.0. Het laat de karakters en de codes gedefinieerd in GB 2312 ongewijzigd en positioneert alle extra karakters er rond. Deze extra karakters zijn karakters die in ISO 10646 (Unicode Version 2.1) zitten maar niet in GB 2312-80. Op deze manier wordt de GB-compatibiliteit behouden maar worden alle Unihan karakters ter beschikking gesteld. Het bevat 21 886 karakters, maar daarmee zit deze karakter set zo goed als vol (23 940 codepunten) en dus werd er overgeschakeld naar GB 18030.

Tabel 18 GBK Range Codepunten Aantal GB2312-80 en GB/T 12345-90 niet Ch. karakters 0xA1A1 – 0xA9FE 846 717 GB 2312-80 Chinese karakters 0xB0A1 – 0xF7FE 6 768 6 763 Chinese karakters uit ISO 10646-1:1993 0x8140 – 0xA0FE 6 080 6 080 Chinese karakters uit ISO 101646-1+extra karakters 0xAA40 – 0xFEA0 8 160 8 160 Niet Chinese karakters van Big5 e.a. karaktersets 0xA840 – 0xA9A0 192 166 Totaal 23 940 21 886 User Defined Area 0xAAA1 – 0xAFFE 564 User Defined Area 0xF8A1 – 0xFEFE 658 User Defined Area 0xA140 – 0xA7A0 672

h) GB 13000.1 GB 13000.1-93 is het Chinese equivalent van ISO 10646.1-1993/Unicode (zie infra). Telkens als het ISO en Unicode consortium hun karakterset vernieuwen dan worden de aangebrachte veranderingen en aanvullingen overgenomen in GB 13000.1. Het draagt de naam Information technology – Universal multiple-octet coded character set (UCS) – Part 1: Architecture and Basic Multilingual (信息技术 – 通用多八位编码字符集 (UCS) – 第 一部分: 体系结构与基本多文种平面 xìnxíjìshù – tōngyòng duōbāweì biānmǎ zìfújí (UCS) – dìy ī bùfēn: tǐxì jiégòu yú jīběn duōwénzhǒng píngmiàn).

47 国家技术监督局标准化司、电子工业部科技与质量监督司

Thesis Sébastien Bruggeman Pagina 35 i) GB 18030-2000 De meest recente GB coded characterset is het op 17 maart 2000 door het Ministry of Information Industry (中华人民共和国信息产业部 zhōnghuárénmíngònghéguó xìnxí chǎnyè bù) gepubliceerde GB 18030-2000 (Information technology – Chinese Ideograms coded character set for information interchange – Extension for the basic set 信息技术 – 信息交换 用汉字编码字符集 – 基本集的扩充 xìnxíjìshù – xìnxíjiāohuàn yòng hànzì biānmǎ zìfújí – jīběnjí de kuòchōng). De bedoeling van deze karakterset is om de Unihan Extention A te combineren met vorige GB karaktersets, maar ook om genoeg codeplaatsen te creëren voor alle gecodeerde codepunten in unicode’s nieveau 0 (BMP) en plaats voorzien voor 16 extra niveaus. Om dit te realiseren wordt een deel van de karakters (0x00 tot 0x7F) gecodeerd met één byte codering, een deel (0x81 tot 0xFE voor de eerste byte en 0x40 tot 0x7E voor de tweede byte) met twee byte codering, en een laatste deel (0x81308130 tot 0xFE39FE39 of anders gezegd 0x8130 tot 0xFE39 voor de eerste twee bytes en 0x8130 tot 0xFE39 voor de derde en vierde byte) met vier byte codering. GB 18030-2000 vervangt GBK. Het blijft wel compatibel met GBK en GB 2312-80, met uitzondering van de nieuw toegevoegde karakters, maar probeert tevens ook compatibel te zijn met unicode. Vanaf 1 september 2001 moeten alle pc’s in de PRC GB 18030 aankunnen.

Tabel 19 GB 18030 Range Codepunten Aantal

GB 11383 A0 – FE 128 128 B 1 Grafische karakters A1A1 – A9FE 846 718 Grafische karakters A840 – A9A0 192 166

Chinese karakters B0A1 – F7FE 6768 6763 s e

t Chinese karakters 8140 – A0FE 6080 6080 y b

Chinese karakters AA40 – FEA0 8160 8160 2 User defined Area AAA1 – AFFE 564 User defined Area F8A1 – FEFE 658 User defined Area A140 – A7A0 672

GB 13000.1 CJK extension A B 4

Thesis Sébastien Bruggeman Pagina 36 j) Andere GB karaktersets GB 7589-87 en zijn traditionele variant GB/T 13131-9X bevatten 7 237 karakters. Het werd uitgevaardigd op 1 december 1987 en draagt de naam Code of Chinese Ideograms Set for Information Interchange – the Second Supplementary Set (信息交换用汉字编码字符集– 第二辅助集 xīnxí jiāohuàn yòng hànzì biānmǎ zìfújí – dì’èr fǔzhùjí). GB 7590-87 en zijn traditionele variant GB/T 13132-9X bevatten 7 039 karkaters. Het werd uitgevaardigd op 1 december 1987 en draagt de naam Code of Chinese Ideograms Set for Information Interchange – the Fourth Supplementary Set (信息交换用汉字编码字符集– 第四辅助集 xīnxí jiāohuàn yòng hànzì biānmǎ zìfújí – dì sì fǔzhùjí). Ze zijn geordend volgens radicaal en dan volgens het totaal aantal streepjes. Ze beginnen karakters pas in te vullen vanaf rij 16. De karakters die in deze karaktersets zijn gespecificeerd zijn handgeschreven waardoor dat lettertypes die deze karaktersets ondersteunen heel zeldzaam zijn. Daarnaast bestaan er ook nog standaarden voor verschillende andere talen die in de PRC gesproken worden zoals voor het Koreaans, Mongools, Yi en Uighurs. Voor een overzicht van GB standaarden in verband met karkaterset zie Bijlage A.

2.3. Meertalige karaktersets

De eerste echt meertalige karakterset werd ontwikkeld in Japan en droeg de naam JIS C 6226-1978, het was tevens de eerste karakterset dat brak met 8 bits en twee bytes gebruikte. Het bevatte het Romaanse alfabet, Grieks, Cyrillisch, symbolen, hiragana, katakana en kanji (Chinese karakters). De standaard draagt nu de naam JIS X 0208. De karakterset is opgebouwd uit 94 rijen en 94 kolommen (zoals beschreven in de ISO 2022 standaard) en kan 8 836 karakters bevatten. In de eerste helft van de jaren ‘80 werd (ook in Japan) begonnen aan een karakterset dat alle karakters van Azië omvatte, genaamd TRON48 (The Real-time Operating system Nucleus). Het systeem bestaat vandaag nog. Ook de eerder vermelde CCCII en EACC kunnen als meertalige karaktersets worden beschreven.

48 http://www.tron.org

Thesis Sébastien Bruggeman Pagina 37 a) Unicode en ISO 10646 In Amerika werd in de tweede helft van de jaren ’80 begonnen aan meertalige karaktersets en meertalige coderingssystemen. Xerox Corporation (XCCS, Xerox Character Code Standard) en IBM Corporation implementeerden toen reeds met succes dergelijke karaktersets in hun computer systemen. Medewerkers van Xerox en Apple begonnen eind de jaren ’80 aan de ontwikkeling van wat unicode werd genoemd (begon met een database dat de relatie tussen Japanse en Chinese karakters in kaart bracht). De bedoeling was om alle schriften van de wereld in één groot karakterset onder te brengen. 49 In 1989 stapten verschillende andere bedrijven in het project waaronder Sun, Adobe en Hewlett-Packard. In september 1989 werd de eerste ‘draft’ gepubliceerd en in 1991 kwam versie 1.0 uit samen met de oprichting van het Unicode Consortium50.51 In 1983 begon het ISO aan het ontwikkelen van een 32-bit karakterset Universal Multiple- Octet Coded Character Set 52 (UCS) genaamd. De ISO standaard die de officiële naam ISO/IEC DIS 10646 Versie 1 (IEC staat voor International Electro-technical Commission53) kreeg, werd ondersteund door de Japanse en Europese onderzoekers maar helaas niet door de Amerikaanse computer firma's die gelijktijdig aan Unicode werkten. Ze beweerden dat Unicode beter was dan ISO/IEC DIS 10646 Versie 1 omdat het eenvoudiger was. ISO 10646 is namelijk een 32 bit code en daardoor wordt de overdrachtssnelheid en opslagcapaciteit sterk beïnvloed, alhoewel een 3 byte karaktercode (2^24) 16 777 216 karakters aankan en daarmee genoeg om alle talen weer te geven, is het niet efficiënt. Omdat de meeste talen slechts één byte nodig hebben zouden de 2 bijkomende bytes om bijvoorbeeld de letter ‘S’ weer te geven nodeloze plaatsvulling zijn. Maar dit gaat natuurlijk enkel op voor onze westerse talen. Omdat het Unicode consortium bij machte was om parallel met de ISO een eigen standaard te ontwikkelen, door zwaar lobby werk en door onderhandelingen tussen beide partijen werd de ontwikkeling van ISO/IEC DIS 10646 Versie 1 verlaten ten voordele van een op de Unicode gebaseerde ISO/IEC 10646 Version 2, die nu ISO/IEC 10646-1: 1993 wordt genoemd. Het Unicode Consortium noemt hun standaard Unicode en gebruikt standaard een ‘variable-length’ 16-bit codering dat UTF-16 wordt genoemd. Eigenlijk is Unicode een subset van ISO 10646-1:1993 vanuit puur coderingsstandpunt. Het is opgebouwd uit een 256x256

49 zie Tabel 44 voor een overzicht van welke talen allemaal in versie 3.2.0 zitten 50 http://www.unicode.org 51 Een chronologisch overzicht kan men terug vinden op : http://www.unicode.org/unicode/history 52 wordt in Taiwan vertaald als 廣用多八位元編碼字元集 (guǎng yòng duō bā weìyuán biānmǎ zìyuánjí) terwijl het in China als 通用多八位编码字符集 (tōngyòng duō bā weì biānmǎ zìfújí) vertaalt wordt. 53 http://www.iec.ch 國際電工委員會 guójì diàngōng wěiyuánhuì

Thesis Sébastien Bruggeman Pagina 38 matrixen, het eerste niveau (niveau 0) wordt het Basic Multilingual Plane (BMP) genoemd. Unicode geeft voorkeur aan Big Endian ordening. In eerste instantie wou men alle karakters ter wereld in het BMP coderen, maar het BMP beschikt maar over ± 65 000 codepunten. Dit is echter onmogelijk en daarom werden verschillende karakters samengevoegd, meer bepaald de Chinese karakters die gebruikt worden in de Aziatische talen. Het Unicode Consortium heeft hiervoor in juli 1991 een Chinese/Japanese/Korean Joint Research Group (CJK-JRG)54 opgericht, 1993 werd het CJK- JRG hernoemd tot Ideographic Rapporteur Group (IRG). Het doel van dit comité was om de Han-unificatie (Han Unification55) in goede banen te leiden. Het bevat afgevaardigden van de Volksrepubliek China, Hong Kong, Japan, Korea, Singapore, Republiek China (Taiwan), Vietnam, Verenigde Staten van Amerika en Unicode Consortium. In december 1991 werd de UniHan 1.0 database vrijgegeven (een eerste draft was uitgegeven in 1989 en een tweede in december 1990).56 Het heeft zich onder andere gebaseerd op bestaande karaktersets.57 Enkel de verschillende glyphs van een karakter worden samen gevoegd. Bij het samenvoegen wordt er een driedimensieel model gemaakt van drie elementen namelijk semantiek (betekenis, functie), abstracte vorm (algemene vorm) en de werkelijke vorm (type- face vorm).

Figuur 1 Het drie dimensioneel conceptueel model gebruikt bij Han-unificatie

54 Dit is een ad hoc comité van ISO/IEC JTC1/SC2/WG2 (Joint Technical Committee 1, Subcommittee 2, Working Group 2) 55 Het Unicode Consortium geeft volgende definitie van de term: “The process of identifying Han characters that are in common among the writing systems of Chinese, Japanese, Korean, and Vietnamese.” 56 The Unicode Standard, Version 3.0, Addison-Wesley, 2000, Appendix A. 57 Voor Chinees zijn de belangrijkste: GB2312-80, GB 12345-90, GB 7589-90, GB 7590-90, GB 8565-88, CNS 11643-1992 niveau’s 1 tot en met 7 en 15, EACC, Big5.

Thesis Sébastien Bruggeman Pagina 39 De karakters zijn geordend aan de hand van de positie die ze hebben in vier belangrijke woordenboeken. In volgorde van belangrijkheid zijn deze Kangxi Zidian, Dai Kan-Wa Jiten, Hanyu Da Zidian en Dae Jaweon. Als een karakter in de Kangxi Zidian gevonden wordt dan volgt het de volgorde van de Kanxi Zidian, indien het karakter er niet in staat, dan wordt er gekeken naar de Dai Kan-Wa Jiten. Indien het karakter daarin gevonden wordt dan wordt het geplaatst na het karakter dat er voor staat in de Dai Kan-Wa Jiten maar dan volgens de Kangxi Zidian volgorde. Indien het karakter niet gevonden wordt dan wordt er gekeken naar de Hanyu Da Zidian en de Dae Jaweon op eenzelfde manier. Chinese karakters met een vereenvoudigd radicaal worden geplaatst na het laatste karakter met het onvereenvoudigde radicaal. Op dit ogenblik is de laatste Unicode standaard 3.2.0. Een lijst van software producten die unicode ondersteunen is te vinden op de website van het Unicode Consortium.58 Bij Unicode wordt er opnieuw begonnen vanaf 0. Bij de vorig besproken karaktersets werd steeds begonnen aan hogere getallen (>127) om de compatibiliteit met ASCII niet te verliezen. Unicode blijft compatibel met ASCII omdat het de eerste plaatsen opvult met ASCII. Unicode gaat nog iets verder dan de meeste karaktercodes en geeft aan ieder karakter niet alleen een uniek nummer maar ook een officiële Engelstalige naam, die soms heel duidelijk is en soms ook totaal nietszeggend kan zijn. Zo is de naam voor A: ‘Latin Capital Letter A’, terwijl de naam voor 骨 (gǔ, been) ‘CJK Unified Ideograph-9AA8’ is. Daarnaast definieert de standaard ook een groot deel normatieve eigenschappen en bijkomende informatie. Negatieve kanten aan Unicode zijn dat de glyphs samengevoegd worden bijvoorbeeld de glyphs voor 1 (één) zijn in het Chinees, Japans en Koreaans niet volledig hetzelfde maar toch werd maar één codepunt toegewezen. Zo wordt het radicaal “gras” van het karakter gras in het vereenvoudigd Chinees, Japans en Koreaans met drie streepjes geschreven, maar in het traditioneel Chinees met vier. Veel kritiek is echter cultuur gebonden. Velen hebben het gevoel dat de talen verenigd zijn (dit door het feit dat karaktersets vroeger taalgebonden waren), dit is echter totaal niet het geval. Verder zijn veel gespecialiseerde, zelden gebruikte karakters nog niet gecodeerd in Unicode. Daarnaast is het zeer moeilijk om nieuwe karakters in de Unicode standaard te krijgen.59 Het kan via gebruik te maken via Private Use Area (PUA) of door middel van de Ideograph Description Sequence (IDS). Maar het probleem bij PUA is dat het niet echt in de standaard komt, en dat het dus compatibiliteitsproblemen kan

58 http://www.unicode.org/unicode/onlinedat/products.html 59 de procedure is terug te vinden op http://www.unicode.org/pending/proposals.html

Thesis Sébastien Bruggeman Pagina 40 geven bij het uitwisselen van data. Het IDS creëert eigenlijk karakters aan de hand van de twaalf karakters gevonden in de Ideographic Description blok (2FF0 – 2FFB) maar voegt eigenlijk ook geen karakters toe.60 Zie Figuur 2 voor een voorbeeld van hoe het IDS precies werkt.

Figuur 2 Gebruik van de Ideograph Description Sequence

Verder probeert men ook geen symbolen of logo’s van bedrijven er in te plaatsen, dit kan kleine incompatibiliteiten geven met programma’s die voor bijvoorbeeld Mac zijn geschreven en die het Apple-teken ( ) willen weergeven.

2.4. Conversie

Zoals reeds vermeld hebben we twee soorten Chinese karakters, de vereenvoudigde en de traditionele. Soms is het nodig om een Chinese tekst met traditionele karakters om te zetten naar verenvoudigde karakters en visa versa. Zolang men binnen eenzelfde soort Chinese karakters bleef is conversie geen echt probleem (bijvoorbeeld big5 naar CNS 11643-1992). Soms ontstaan er fouten omdat een karakterset niet uitgebreid genoeg is (bijvoorbeeld van GB 12345-90 naar GB 2312-80). Helaas is het probleem nog complexer, omdat één vereenvoudigd karakter soms verschillende traditionele karakters kan omvatten.

Een voorbeeld, we letten hierbij vooral op het tweede karakter, dit wordt in het vereenvoudigd Chinees op eenzelfde manier geschreven maar in het traditioneel Chinees wordt twee maal een ander karakter gebruikt. Het woord voor “hoofdhaar” (tóufà) in vereenvoudigd Chinees ziet er als volgt uit 头发, in het traditioneel Chinees 頭髮, het woord voor “vertrekken” (chūfā) in het vereenvoudigd Chinees ziet er als volgt uit, 出发 en in het traditioneel Chinees 出發.

60 The Unicode Standard, Version 3.0, p.268-271.

Thesis Sébastien Bruggeman Pagina 41 Dit wil dus zeggen dat eenzelfde karakter (en dus eenzelfde code) in het vereenvoudigd Chinees meerdere traditionele karakters (met verschillende codes) omvat. Sommige vereenvoudigde karakters hebben zelfs meer dan twee traditionele varianten bijvoorbeeld 干 kan 幹, 乾, 榦 of 干 worden. 后天 (hòutiān, overmorgen) 王后 (wánghòu, koningin) wordt respectivelijk 後㆝ en 王后. Verder is er ook in de loop van de tijd een verschillend woordgebruik ontstaan of worden namen anders vertaald. Dit stelt het probleem bij het converteren van teksten, namelijk moeten de karakters van woorden gewoon naar hun traditionele variant worden geconverteerd of mogen/moeten de woorden aangepast worden aan het doelpubliek. Zo heet een computer in China een 計算機 (jìsuànjī) terwijl het in Taiwan 電腦 (diànnǎo) heet. Daarnaast zijn de traditionele vormen die in de Volksrepubliek gebruikt worden niet altijd volledig hetzelfde als hun Taiwanese traditionele variant, maar in Taiwan worden ook vereenvoudigde karakters gebruikt (台 vs 臺). Voor Microsofts IIS webserver bestaat er een ActiveX component dat webpagina’s on- the-fly converteert61. In een Traditioneel Chinese windows zit er een tool om bestanden te converteren. Veel programma’s bevatten een converter, bijvoorbeeld TwinBridge. Op Apple bestaat er de Text Encoding Converter (TEC). Verschillende conversieprogramma’s maken gebruik van deze TEC zoals Apple Chinese Converter, Cyclone, Uctrans en Kctrans.

61 http://www.overseas.com.tw/ccccc/

Thesis Sébastien Bruggeman Pagina 42

3. Codering

Er zijn verschillende categorieën van coderingsmethodes: modale, niet-modale en vaste- lengte. Modale coderingsmethodes maken gebruik van escape sequences 62 of andere speciale karakters om te kunnen wisselen tussen karaktersets of verschillende versies van een karakterset en ook om van 1 byte naar 2 byte modus over te gaan. Er bestaan enkelzijdige en dubbelzijdige modale coderingen. Bij enkelzijdige modale coderingsmethodes wordt er enkel een startsequentie aan het begin van de verandering ingevoegd maar niet op het einde. Bij dubbelzijdige modale coderingen wordt er een startsequentie aan het begin van de verandering ingevoegd en een eindsequentie bij het terugschakelen van de verandering. Dit onderscheid kan van belang zijn bij sorteeroperaties. Deze coderingsmethodes gebruiken in het algemeen 7 bits. ISO 2022 en UTF-7 zijn voorbeelden van modale coderingsmethodes. HZ is een voorbeeld van een dubbelzijdige modale coderingsmethode. Niet-modale coderingsmethodes maken gebruik van de numerieke waarde van een byte om te beslissen wanneer we moeten wisselen tussen 1 en 2 byte modus. Deze coderingsmethodes maken meestal gebruik van 8 bits en zijn van variabele lengte. Deze vorm van codering gebruikt meestal minder plaats dan modale en vaste-lengte coderingsmethodes wat betreft het aantal benodigde bytes om eenzelfde karakter weer te geven. Voorbeelden van deze coderingsmethode zijn Big5, Big5+, de verschillende versies van EUC, GBK, UTF-8 en UTF-16. Vaste-lengte coderingsmethodes gebruiken een zelfde aantal van bytes om alle karakters in een karakterset weer te geven. Er is hier dus geen wissel tussen 1 en 2 byte modus nodig. Deze vorm van codering vereenvoudigt tekstintensieve operaties zoals zoeken, indexeren en sorteren van tekst, maar ze kunnen veel plaatsverlies betekenen. Voorbeelden van deze coderingsmethode zijn ASCII, UCS-2 en UCS-4.

62 Escape sequence: ECMA definitie “A string of bit combinations that is used for control purposes in code extension procedures. The first of these bit combinations represents the control function ESCAPE.”. Deze escape sequences zijn geregistreerd bij het ISO. ISO 2375:1985: Data processing – Procedure for registration of escape sequences.

Thesis Sébastien Bruggeman Pagina 43 3.1. Westerse talen

De codering voor de ASCII karakterset staat beschreven in ISO 646:1991 (Information Technology: ISO 7-bit Coded Character Set for Information Interchange). Het gebruikt 7 bits waardoor het 128 unieke te coderen karakters toe laat.63 Slechts 94 van deze karakters in ASCII zijn printbaar, de overige 34 zijn controle karakters64 of ‘white spaces’. Deze ‘white spaces’ zijn karakters zoals een spatie of een tab. ISO 8859 maakt gebruik van 8 bits en laat daardoor 256 uniek gecodeerde karakters toe.65 IBM ontwikkelde zijn eigen enkel-byte karakterset, EBCDIC (Extended Binary Coded Decimal Interchange Code) genaamd. Het aantal en de types printbare karakters zijn dezelfde als bij ASCII, maar de codering ervan is volledig verschillend van ASCII.

3.2. Chinees

Met de uitzondering van Big5 en ISO 10646-1:1993 zijn er twee coderingsmethodes die voor bijna alle Oost-Aziatische talen (maar niet uitsluitend) gebruikt worden namelijk ISO 2022 en EUC (), er zijn echter wel lokale varianten van deze coderingsmethodes.

a) HZ en EHZ HZ (is een afkorting voor 汉字 hànzì) werd in 1989 ontwikkeld door Fung-Fung Lee (李 枫峰 lǐ fēngfēng), een student aan de universiteit van Stanford. Het werd ontwikkeld om GB 2312-80 tekst te coderen speciaal voor het uitwisselen van e-mails en berichten op nieuwsgroepen (maar wordt ook op andere plaatsen gebruikt zoals in bijvoorbeeld terminal elmulators onder Linux). Het is een dubbelzijdige modale coderingsmethode. Het wordt beschreven in RFC 1843 HZ - A Data Format for Exchanging Files of Arbitrarily Mixed Chinese and ASCII characters. Het maakt gebruik van een shift sequence66 van twee printbare karakters (in plaats van een escape sequence) om van de één byte karakters naar de twee byte (Chinese) karakters te verspringen.

63 2^7 = 128 64 Chinese term: 控制碼 kòngzhìm ǎ 65 2^8 = 256 66 Shift sequence: is een escape sequence (zie noot 62) die niet begint met het controle karakter ESC.

Thesis Sébastien Bruggeman Pagina 44 Er wordt uitgegaan van de veronderstelling dat er slechts GB 2312-80 en ASCII bestaat. GB bestaat uit twee bytes waarvan de eerste byte valt in het gebied 0x21 tot 0x77 en de tweede byte in het gebied 0x21 tot 0x7E. Grafische ASCII karakters vallen in het gebied 0x21 tot 0x7E en niet grafische ASCII karakters in het gebied 0x00 tot 0x20 en 0x7F. Aangezien het gebied van een GB byte overlapt met een byte van een grafisch ASCII karakter moet er dus versprongen worden van modus, dit gebeurt via een niet-grafisch ASCII karakter dat in beide sets gelijk is (‘~’ staat op positie 0x7E en valt dus buiten het gebied van een eerste byte van een GB karakter). De standaard modus is ASCII en alles wordt behandeld als ASCII tot dat er een tilde (~) tegengekomen wordt. De tilde moet gevolgd worden door een ~, een {, een } of een /n (nieuwe regel). Het gebruikt een ~{ om het begin aan te duiden van een GB reeks, vanaf dan worden bytes per twee behandeld tot er ~} wordt tegen gekomen dat aanduidt dat er terug naar ASCII mode moet worden overgeschakeld. Om een tilde in ASCII weer te geven moet het dubbel gecodeerd worden (~~), willen we twee bytes behouden terwijl we van lijn verspringen dan moet ~ (~/n) meegegeven worden. Een voorbeeld: Dit is ASCII, wat volgt is in GB .~{<:Ky2;S{#,NpJ}l6HK!#~}Bye. Dit is ASCII, wat volgt is in GB . ~{ <:Ky2;S{#,NpJ}l6HK!# ~} Bye. ASCII Begin GB 己所不欲,勿数於㆟。 Einde GB ASCII

In 1994 werd door Ricky Yeung een superset gecreëerd, Extended HZ (EHZ), dit om HZ ook te kunnen gebruiken met andere karaktersets. De shift sequence werd als volgt vastgelegd ~A voor GB, ~G voor CNS Plane 1, ~H voor CNS Plane 2, ~g voor BIG5 Plane 1, ~h voor BIG5 Plane 2 en ~f voor BIG5 Plane 0. Een zin met verschillende coderingen zou er dan als volgt kunnen uitzien. This is ASCII. This is GB: ~{cccccc~}. This is also GB: ~{~Acccccc~}. This is CNS: ~{~Gcccccc~}. This is also CNS: ~{~Gcccc~Hcccc~Gcccccc~}. This is BIG5: ~{~gcccccc~}. This is also BIG5: ~{~hcc~gcccccccccc~}. This is mixed: ~{gcccc~Gcccccc~gcccccc~Acccc~Hcc~hcc~Acccc~}.

Een gelijkaardige coderingsmethode is zW, het werd ontwikkeld door Ya-Gui Wei en Edmund Lai. Deze codering werkt op een per-lijn basis in plaats van op een per-karakter basis. Iedere lijn die Chinees bevat, moet beginnen met zW, en kan dan alleen maar Chinese karakters bevatten.

Thesis Sébastien Bruggeman Pagina 45 b) ISO 2022 Deze coderingsmethode staat beschreven in ISO 2022:1994, Information Technology – Character code structure and extention techniques.67 Eigenlijk is het niet echt geschikt voor interne opslag of bewerking op computer systemen, het werd ontworpen vor informatie uitwisseling tussen computers, zoals e-mail. Het is een 7 bit modale coderingsmethode. Er zijn slechts enkele programma’s die ISO 2022 intern kunnen verwerken (bv Emacs Version 20), andere programma’s (meestal e-mail programma’s) zijn wel in staat om ISO 2022 gecodeerde tekst te maken maar verwerken de ISO 2022 codering niet noodzakelijk intern. De waarden die gebruikt worden voor het coderen van bytes vallen in de hexadecimale gebied 0x21-0x7E en dit voor zowel de eerste als tweede byte, dit gebied komt overeen met het gebied van printbare ASCII karakters. Het gebruikt speciale karakters of speciale reeksen van karakters namelijk designator sequences 68 , single shift sequences 69 (SSx), shifting characters70 en escape sequences71. Van deze coderingsmethode zijn er twee Chinese varianten (er is ook een Japanse en Koreaanse variant respectivelijk ISO-2022-JP en ISO-2022-KR) namelijk ISO-2022-CN en ISO-2022-CN-EXT, die beiden in RFC 1922 (Chinese Character Encoding for Internet Messages) staan beschreven. Het verschil tussen ISO-2022-CN en ISO-2022-CN-EXT is dat ISO-2022-CN enkel ASCII, GB 2312-80 en niveaus 1 en 2 van CNS 11643-1992 ondersteunt. ISO-2022-CN-EXT is identiek aan ISO-2022-CN maar het biedt ondersteuning voor meer karaktersets. Chinees en ASCII worden van elkaar onderscheiden door designations en shift functies. Het zijn de designations die bepalen welke Chinese karakterset er gebruikt zal worden. Zie tabel Tabel 20 en Tabel 21.

Tabel 20 ISO-2022-CN Designator Karakterset SO GB 2312-80 en CNS 11643-1992 niveau 1 SS2 CNS 11643-1992 niveau 2

67 Standard ECMA-35 is nu identiek aan ISO2022 en is integraal terug te vinden op de ECMA website. 68 Designator sequence: Het geeft aan welke karakterset moet gebruikt worden wanneer er overgeschakeld wordt naar dubbele byte modus. Het zorgt evenwel niet voor de overschakeling. Het moet in iedere lijn voorkomen die karakters van de karakterset bevat, dit zodat de karakters correct zouden weergegeven worden als er terug ‘gescrolled’ wordt in een venster. 69 Single shift sequence: zorgt voor de overschakeling naar dubbele byte modus voor de twee karakters die er op volgen. Wordt aangeduid met SS2 (0x1B 0x4E) of SS3 (0x1B 0x4F) 70 Shifting character: zorgt voor de overschakeling tussen enkele en dubbele byte modus. Een SO (0x0E) duidt het begin aan, een SI (0x0F) duidt het einde aan van een dubbele byte modus. 71 Escape sequence: Duidt niet alleen aan welke karakterset er moet gebruikt worden, maar zorgt ook voor de overschakeling.

Thesis Sébastien Bruggeman Pagina 46 Tabel 21 ISO-2022-CN-EXT Designator Karakterset SO GB 2312-80, GB 12345, ISO-IR-165:1992 en CNS 11643-1992 niveau 1 SS2 GB 7589-87, GB 13131-91 en CNS 11643-1992 niveau 2 SS3 GB 7590-87, GB 13132-91, CNS 11643-1992 niveau 3 tot 7

De invoer van een designator zorgt ervoor dat de vorige sequences ongedaan gemaakt worden voor de karakters die volgen. Hoe deze sequenties er precies uitzien kan men terugvinden in Tabel 38 en Tabel 39. Iedere lijn moet beginnen en eindigen in ASCII, met andere woorden er moet een SI worden meegeven voor het einde van de lijn. Hieronder volgt de hexadecimale representatie van “交换交換” gecodeerd met ISO-2022- CN waarbij 交換 (jiāohuàn, uitwisseling) de eerste maal uit GB 2312-80 karakterset wordt gehaald en de tweede maal uit CNS 11643-1992 niveau 1.72 1B 24 29 41 0E 3D 3B 3B 3B 1B 24 29 47 47 28 5F 50 0F 1B 24 29 41 0E 3D 3B 3B 3B 1B 24 29 47 47 28 5F 50 0F $ ) A 交换 $ ) G 交換 GB 2312-80 Begin 2 bytes CNS 11643-92 Einde 2 bytes

c) EUC EUC staat voor Extended Unix Code. EUC is een niet-modale variable-lengte 8-bit coderingsmethode. Het is ontwikkeld als een methode om verschillende karaktersets te verwerken in één enkele tekststroom. De volledige definitie van EUC codering bestaat uit 4 code sets. Code set 0 is altijd ofwel de ASCII karakterset of een landelijke variant van ISO 646. De andere code sets zijn een set van variabelen waaruit elk land kan kiezen. Om het onderscheid te maken tussen ASCII en een Chinese karakterset wordt de eerste bit van de eerste byte op 1 geplaatst. Karakters uit de derde code set worden voorafgegaan door het controlekarakter SS2 (0x8E), karakters uit de vierde code set worden voorafgegaan door het controlekarakter SS3 (0x8F). Er zijn verschillende code posities die niet kunnen gebruikt worden voor het coderen van printbare karakters namelijk karakters tussen 0x00 – 0x1F en 0x80 – 9F en de karakters op de punten 0x20 (space) en 0x7F (delete). Het gebied 0x21 tot 0x7E wordt gebruikt om enkel-byte ASCII te coderen terwijl het gebied 0xA1 tot 0xFE wordt gebruikt voor het coderen van twee byte Chinese karakters. EUC-CN wordt gebruikt in China. Dit is een codering die gebruik maakt van één en twee byte codering. Het gebruikt enkel de eerste 2 codesets. De eerste is zoals voorgeschreven ASCII en de tweede set is GB 2312-80.

72 http://freebsd.sinica.edu.tw/~statue/hanzi/iso2022-2.htm

Thesis Sébastien Bruggeman Pagina 47 EUC-TW wordt gebruikt in Taiwan. De lengte van de codering van een karakter kan ofwel één, twee of vier bytes lang zijn. Het gebruikt drie codesets. Code set 0 is ASCII, code set 1 bevat CNS 11643-1992 niveau 1, code set 2 bevat CNS 11643-1992 niveaus 2 tot 16. Door het groot aantal karakters in code set 2 wordt die gecodeerd met 4 bytes. Zie Tabel 40 voor het gebruik van de single shift.

d) GBK Deze codering wordt gebruikt voor de GBK karakterset, het is ook de standaard codering voor de Chinese versies van Windows in de Volksrepubliek. Het biedt plaats aan 23 940 code plaatsen waarvan er aan 21 886 karakters zijn toegewezen. Het is compatibel met EUC-CN want GBK nam EUC-CN’s code set 1 als zijn basis.

e) Big5 en Big5+ Zijn niet-modale coderingsmethodes. Big5 en EUC-TW zijn heel verschillend van elkaar, EUC-TW is een gemengd één-, twee-, vier-byte codering dat bestaat uit niveaus, terwijl Big5 een gemengde één- en twee-byte codering is waarvan de waarden van de tweede byte tot in de 7 bit regio reiken (eerste byte: A1 – FE, tweede byte: 0x40 – 0x7E en 0xA1 – 0xFE). Big5+ is een extensie van Big5 en nam daarom Big5 als zijn basis.

f) Overzicht

Tabel 22 Coderingen en de ondersteunde karaktersets Codering Ondersteunde karaktersets ASCII ASCII, GB-Roman, CNS-Roman, ISO 2022 ASCII, GB-Roman, CNS-Roman,GB 2312-80, CNS 11643-1992 EUC ASCII, GB-Roman, CNS-Roman,GB 2312-80, GB/T 12345-90, CNS 11643-1992 GBK ASCII, GB-Roman, GB 2312-80, GB/T 12345-90 HZ ASCII, GB-Roman, GB 2312-80 Big5 ASCII, CNS-Roman, Big5 Big5+ ASCII, CNS-Roman, Big5+

Tabel 23 Karaktersets en ondersteunde coderingen Karakterset Ondersteunde coderingen CCCII, EACC 3 byte ISO 2022 CNS 11643 ISO-2022-CN, ISO-2022-CN-EXT en EUC-TW Big5 Big5 GB ISO 2022, ISO-2022-CN, ISO-2022-CN-EXT, GBK, EUC-CN, HZ, zW GBK GBK

Thesis Sébastien Bruggeman Pagina 48 3.3. Meertalig

a) UCS UCS staat voor Universal Character Set en heeft twee coderingsmethodes namelijk UCS- 2 en UCS-4. UCS-2 gebruikt 2 bytes en UCS-4 gebruikt 4 bytes. Ze gebruiken een vaste- lengte codering. Eigenlijk is UCS-4 geen 32-bit maar slechts een 31-bit code en dit laat dus 2 147 483 648 code punten toe.73

Tabel 24 UCS-4 is slechts een 31-bit code Bits 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx Control 7 2 2 2 2 2 = 17 Data 1 6 6 6 6 6 = 31

b) UTF UTF staat voor UCS Transformation Format, ook hiervan zijn er verschillende versies namelijk UTF-7, UTF-8, UTF-16 en UTF-32.

UTF-7 is zeer gelijkend aan Base64. Het wordt beschreven in RFC 2152 UTF-7: A Mail- Safe Transformation Format of Unicode. Het is een 7 bit codering. Het kan alleen gebruikt worden om UCS-2 en UTF-16 te coderen. Wat het eigenlijk doet is de unicode karakters coderen als US-ASCII bytes samen met shift sequenties (hiervoor wordt ‘+’ gebruikt om het begin van een shift aan te duiden en ‘-’ om het einde ervan aan te duiden) om karakters die buiten dat gebied vallen te kunnen coderen. UTF-7 is enkel ontwikkeld enkel en alleen om in mail-omgeving gebruikt te worden. In andere omstandigheden gaat de voorkeur naar UTF-8 of andere coderingen van Unicode. Om een ‘+’ weer te geven moet ‘+-’ worden ingegeven en voor een ‘-’ moet het twee maal gecodeerd worden (‘--’).

Voorbeeld: Hi Mom ☺! Wordt gecodeerd als ‘Hi Mom +Jjo-!’ Hi Mom + Jjo - ! ASCII Begin codering ☺ Einde codering ASCII 0048 0069 0020 004D 006F 006D 0020 263A 0021

73 2^31 = 2 147 483 648

Thesis Sébastien Bruggeman Pagina 49 UTF-8 werd ontwikkeld om Unicode tekst weer te geven als octets in plaats van als 16-bit eenheden. Het werd beschreven in RFC 2279 UTF-8, a transformation format of ISO 10646. Het is een 8 bit-variabele-lengte codering. Het kan gebruikt worden om UCS-2 en UCS-4 te coderen. Het voordeel is dat iedere geldige ASCII string ook een geldige UTF-8 string is waardoor we terugwaartse compatibiliteit hebben. In UTF-8 worden karakters gecodeerd in 1 tot 6 bytes, wanneer een byte alleen voorkomt dat wordt de eerste bit op 0 gezet, indien een karakter uit meerdere bytes bestaat wordt de eerste bit op 1 gezet en wordt gevolgd door een bit op 0.

Tabel 25 UTF-8 codering van UCS-2 en UCS-4 Range (hex.) UTF-8 octet sequence (binary)

2 0000 0000-0000 007F 0xxxxxxx S

C 0000 0080-0000 07FF 110xxxxx 10xxxxxx

U 0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx

4 0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx S

C 0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

U 0400 0000-7FFF FFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

Voorbeeld: 日本語 日 本 語 HEX 65E5 672C 8A9E UTF-8 E6 97 A5 E6 9C AC E8 AA 9E

UTF-16 codeert normaalgezien enkel UCS-2 maar laat ook toe om de volgende 16 niveaus te coderen die normaalgezien enkel toegankelijk zijn via UCS-4. Het is een variabele- lengte codering dat gebruik maakt van een gemengde 16 en 32 bit code ruimte. In programma’s die geen UTF-16 aankunnen (en dus ieder byte interpreteren als een karakter) zal het woord ‘hallo’ weergegeven worden als ‘h a l l o’. Er bestaat UTF-16BE (Big Endian) en UTF-16LE. (Little Endian). Indien de tekst gelabeld staat als UTF-16 kan er een 0xFEFF worden meegestuurd als Byte Order Mark (BOM) en het heeft enkel die betekenis als het aan het begin van een sequentie staat (anders betekent het zero width non-breaking space), aan de hand daarvan kan men dus de ordening van de bytes afleiden. als 0xFE gevolgd wordt door 0xFF dan is het BE. Indien de eerste bytes 0xFF gevolgd door 0xFE zijn dan is het LE. Indien de tekst gelabeld staat als UTF-16BE of UTF-16BE dan mag er geen BOM meegestuurd worden

Thesis Sébastien Bruggeman Pagina 50 Voorbeeld: (0x12345)=Ra (de hexadecimale code is de code voor het teken Ra) (0x12345)=Ra BE D8 08 DF 45 00 3D 00 52 00 61 LE 08 D8 45 DF 3D 00 52 00 61 00

UTF-32 is de laatste codering. Het kan ook opgedeelt worden in UTF-32 (al dan niet gebruik makende van een BOM), UTF-32BE en UTF-32LE. Het kan alle codepunten van Unicode coderen. UTF-32 is een subset van UCS-4.74

74 http://www.unicode.org/unicode/reports/tr19/

Thesis Sébastien Bruggeman Pagina 51

4. Hardware

4.1. Toetsenbord

Voor het computertoetsenbord werd de typmachine gebruikt. Een Chinese typemachine bestond uit een soort dienblad dat meer dan 2000 karakters kon bevatten, en verschillende duizenden meer in andere platen (zie Figuur 13 op pagina 89). De typist moest eerst de plaat uitlijnen, vervolgens een toets drukken die ervoor zorgde dat een arm het gewenste karakter aandrukte tegen het papier. De machine kon zowel horizontaal als verticaal typen. Het was redelijk traag maar goede typisten haalden toch ongeveer 20 karakters per minuut. Met de komst van de computer was dit toestel totaal achterhaald. Er moest dus gezocht worden naar manieren om Chinees in te voeren via het toetsenbord dat men aan de computer kon aansluiten.

De meest voorkomende toetsenbord layout in Azië is net zoals in Amerika de QWERTY layout. Het probleem is dat een toetsenbord niet alle karakters kan bevatten, zelfs niet een voldoende aantal. Dus werden er twee zaken bedacht: invoermethodes (input methods) en conversie woordenboeken (conversion dictionaries). Concreet houdt dit in dat een gebruiker typt, de computer interpreteert de invoer aan de hand van de invoermethode, (de invoer wordt door een in de invoermethode ingebouwde parser gehaald) en het conversiewoordenboek geeft een lijst van mogelijke karakters die overeenkomen met de invoer weer (zeer gelijkend aan key-value-lookup). Vervolgens moet de gebruiker een keuze maken uit de lijst ofwel meer keuzes opvragen. Hoe groter het conversiewoordenboek hoe langer de lijst van mogelijke kandidaat karakters. De invoermethode moet er wel voor zorgen dat het als eerste de invoer verwerkt, daarom spreken we ook vaak van front-end processor (FEP), ze draaien meestal onafhankelijk van het programma dat de eigenlijke invoer nodig heeft en daarom kunnen ze ook voor meerdere programma’s gebruikt worden.

Er zijn vier soorten ‘input method editing’ namelijk on-the-spot, over-the-spot, off-the- spot en root-window75.

75 http://www.mozilla.org/projects/intl/input-method-spec.html

Thesis Sébastien Bruggeman Pagina 52 Bij on-the-spot (ook wel inline input genoemd) wordt de tekst rechtstreeks in de tekst door het programma ingevoerd. De tekst die eventueel na de positie van invoer staat wordt mee opgeschoven tijdens de invoer. Er wordt eventueel mogelijks nog uit de juiste kandidaten gekozen en vervolgens wordt de tekst werkelijk ingevoegd. Bij over-the-spot wordt de tekst als een soort ‘laag’ ingevoerd en kan aldus over tekst komen die er op volgt. Als de gebruiker de ingevoerde tekst bevestigt wordt het werkelijk ingevoerd. Hier gebeurt de invoer in eenmaal in de tekst. Bij off-the-spot wordt de invoer eerst in een invoerbalk ingegeven die onderaan het scherm staat, pas bij bevestiging wordt het de tekst ingevoerd. Bij root-window (ook wel floating window genoemd) wordt de tekst ingevoerd in een invoerbalk die zijn eigen scherm heeft en los staat van het programma waar tekst ingevoerd wordt. Als de gebruiker de ingevoerde tekst bevestigt, dan wordt de tekst daadwerkelijk ingevoerd.

Er zijn drie manieren om de Chinese taal in te voeren, de eerste is gebaseerd op de uitspraak (拼音法 pīnyīfǎ), de tweede is gebaseerd op structuur van de karakters (拆字法 chāizìf ǎ ) en de derde is een combinatie van beide vorige (混合法 hùnhéfǎ). Uitspraak gebaseerde systemen zijn in het algemeen makkelijker aan te leren. De eerste inputmethodes waren gebaseerd op karakterinvoer, ieder karakter moest afzonderlijk ingegeven worden. Er zijn echter intelligente systemen ontwikkeld die Chinese karakters weergeven naargelang hun frequentie in de Chinese taal, de meest frequente worden dan eerst weergegeven, het eigen typgedrag en systemen die werken aan de hand van associatie, hier wordt gekeken naar welke karakters er voor komen. Hieronder worden een deel invoermethodes besproken, het is onmogelijk om alle invoermethodes te bespreken en daarom wordt slechts een deel op korte wijze behandeld.

a) Uitspraak gebaseerd De twee belangrijkste romanisatie systemen zijn Wade-Giles (韋氏 weíshì) en Pinyin (拼音 pīnyīn). Daarnaast bestaan er ook nog andere zoals Yale, Romanisation de l’Ecole Française d’Extrême-Orient, … Wade-Giles (genoemd naar zijn uitvinders) werd het meest gebruikt in de 19de eeuw en begin 20ste eeuw in internationale gemeenschap. Sinds de erkenning van het Pinyin als officieel romanisatiesysteem door de VN in 1979, heeft het Pinyin veel terrein gewonnen op het Wade-Giles.

Thesis Sébastien Bruggeman Pagina 53 In 1928 werd het door Zhao Yuanren (趙元任 zhào yuánrèn) ontwikkelde Gwoyeu Romatzyh (國語羅馬字 guóyǔ luómǎzì) de officiële standaard in China voor de romanisatie, maar dit heeft nooit echt veel ingang gevonden. Daarnaast hebben we ook nog het fonetisch schrift Zhuyin. In 1913 riep de Chinese regering een Conference on the Unification of Pronounciation samen en in 1918 werd dan een National Phonetic Alphabet afgekondigd, dit was het Zhuyin (注音字母 zhùyīn zìm ǔ ), in 1930 werd een vernieuwde versie uitgegeven onder de naam 注音符號 (zhùyīn fúhào). Het probleem bij de Chinese taal is dat eenzelfde uitspraak verschillende karakters kan hebben (zo geeft de invoer van yì in een Taiwanese MS Windows 133 mogelijke karakters), wat de kans op verkeerd typen groter maakt. Hoe meer mogelijkheden er zijn waaruit gekozen kan worden, hoe slechter het is voor de ogen omdat er meer geconcentreerd naar het scherm moet worden gekeken en de ogen veel meer moeten zoeken. Daarom wordt veel meer op woorden gewerkt, want het aantal woorden met een identieke uitspraak is veel kleiner. Verder wordt er meer en meer artificiële intelligentie ingebouwd zodat bijvoorbeeld namen en plaatsen na verloop van tijd kunnen herkend worden. Daarnaast is de uitspraak van de verschillende dialecten in China enorm verschillend, maar gebruiken ze dezelfde karakters.

§ Pinyin (拼音 pīnyīn – letterlijke betekenis: spellen volgens het geluid) Pinyin is het officiële romanisatiesysteem in de Volksrepubliek China. Het werd uitgevaardigd in 1958. Sinds 1977 is het de VN standaard voor de romanisatie van het Chinees. Pas in 1979 werd het pas de officiële standaard en op 1 augustus 1982 werd het een ISO standaard76. Pinyin is gebaseerd op het Romaanse alfabet en is daarom makkelijk aan te leren voor niet-Chinezen. Voor Chinezen was het in begin moeilijk om het Romaanse alfabet te leren. Vandaag is de kennis van het Romaanse alfabet echter ook zeer sterk ingeburgerd, waardoor Pinyin ook voor de Chinezen zelf toegankelijk is. Het maakt gebruik van tonen die ofwel kunnen geschreven worden (ā), als cijfer op het eind van het woord (a1) of niet kan worden weergegeven (a). Indien de tonen worden weergegeven dan moet het lettertype dit ondersteunen. Het voordeel van Pinyin is dat het op een ‘normaal’ toetsenbord kan getypt worden zonder modificaties uit te voeren. Het nadeel bij het typen is dat men tot 30 of meer mogelijke karakters krijgt voor één enkele uitspraak en dat er voor het invoeren van één karakter er soms tot 6 aanslagen moeten gebeuren. Om het aantal mogelijke karakters te verminderen kan men de toon aangeven (wat weer een extra toetsaanslag is), een andere

76 ISO 7098: Information and documentation -- Romanization of Chinese (laatste versie van 1991)

Thesis Sébastien Bruggeman Pagina 54 manier om het aantal keuzes te verminderen is om meerdere karakters na elkaar, of een ganse zin, te typen. Een ander nadeel is dat Pinyin het karakter ‘ü’ gebruikt, en dit is niet makkelijk in te voeren met een qwerty toetsenbord. In CJK programma’s wordt dat opgelost door een ‘uu’ of ‘v’ in de plaats in te voeren. 中国 (zhōngguó, China): zhong1 + spatie + guo2

Figuur 3 Toetsenbord met Pinyin invoermethode layout

bron: http://www.honco.net/japanese/05/caption/caption-3-04.html

§ Shuang Pinyin (双拼 shuāngpīn) Shuang Pinyin kan men omschrijven als twee letter Pinyin. Om het aantal toetsaanslagen te verminderen werd de invoer van verschillende karakters vervangen door één enkele of twee letters. 中国 (zhōngguó, China): V(zh) + Y (ong) + G(g) + 5(uo)

Figuur 4 Toetsenbord met Shuangpin invoermethode layout

Bron: http://www.honco.net/japanese/05/caption/caption-3-04.html

§ Half Pinyin(简拼 jiǎnpīn) Half Pinyin is een invoermethode dat het midden houdt tussen Pinyin en Shuang Pinyin.

Thesis Sébastien Bruggeman Pagina 55 Tabel 26 Vergelijking tussen de verschillende Pinyin invoer methodes Hanzi Pinyin Shuang Pinyin Half Pinyin 啊 a a a 酷 ku ku ku 處 chu uu iu 汆 cuan cc cuj 張 zhang ag ah 雙 shuang ih uuh

§ Zhuyin (注音 zhùyīn – letterlijke betekenis: annoteren) Deze methode is ook gekend onder de naam BoPoMoFo (dit zijn de eerste 4 klanken van het systeem) of 注音符號 zhùyīnfúhào. Het werd voor het eerst geïntroduceerd in 1913 door het Ministerie van Onderwijs (教育部 jiàoyùbù) van de Republiek China. De methode onderging verschillende veranderingen tussen 1919 en 1922, het werd vastgelegd in 1930, in Taiwan voerden ze in 1986 nog enkele wijzigingen door (deze nieuwe versie kreeg de naam 國語注音符號第㆓式 guóyǔ zhùyīnfúhào dìérshì). Het was bedoeld als een pedagogisch hulpmiddel om het lezen en de uitspraak van het Mandarijns te vergemakkelijken. Deze methode is nu nog steeds de officiële manier in Taiwan om mandarijns (國語 guóyǔ) aan te leren. De karakters zijn gebaseerd op Chinese kalligrafische vormen en sommige zijn rechtstreeks afgeleid van bestaande Chinese karakters. Het bestaat uit 37 symbolen, 21 ‘medeklinkers’ en 16 ‘klinkers’ daarnaast worden ook nog 5 toonsymbolen gebruikt. (zie Tabel 37 op pagina 82). Het voordeel van deze transcriptie is dat de karakters binnen de karakterschrijfwijze passen, zeker als er verticaal wordt geschreven en verder benadrukt het de unieke klanken van de Chinese taal. Het nadeel is echter dat het meer dan 26 karakters bevat, en die moeten allemaal op een toetsenbord komen, daardoor moeten er cijfers en punctuatie karakters gebruikt worden waardoor die niet meer onmiddellijk toegankelijk zijn. Verder moet men bij het wisselen van layout opnieuw nadenken hoe die layout er uit ziet. Deze tekens zitten bevat in volgende karaktersets: GB-2312-80, GB/T-12345-90, CNS 11643-1992 en Big5. Er is echter wel één verschil, het in Taiwan gebruikte ㄧ wordt in GB karakterset als 丨 weergegeven. ㆗國 : 5(ㄓ) + J(ㄨ) + / (ㄥ) + spatie + E (ㄍ) + J (ㄨ) + I (ㄛ) + 6 (ˊ)

Thesis Sébastien Bruggeman Pagina 56 Figuur 5 Toetsenbord met Zhuyin invoermethode layout

b) Structuur gebaseerd Chinese karakters zijn opgebouwd uit radicalen en streepjes, algemeen worden er 214 77 radicalen gebruikt om Chinese karakters te indexeren. Sommige van die radicalen kunnen alleen staan en hebben dan een eigen betekenis, andere kunnen niet op zichzelf gebruikt worden. Na de studie van de Chinese karakters op vlak van de opbouw, werden er invoermethodes ontwikkeld die op dergelijk onderzoek zijn gebaseerd. Een nadeel bij op structuur gebaseerde invoermethodes is dat ze vaak moeilijk aan te leren zijn waardoor men ze dus ook sneller vergeet. Daarnaast moet men eerst weten hoe men het karakter moet schrijven alvorens men het kan typen. Om dergelijke inputmethodes te vergelijken, vergelijkt men vaak de invoer van de volgende soorten karakters: karakters met gelijk aantal streepjes maar waarvan de boven en onder lengte niet gelijk zijn (田 由 ㆙ 申), karakters met een gelijk aantal streepjes maar waarvan de lengte rechts en links niet gelijk zijn (土 士 / 未 末), karakters met een gelijk aantal streepjes maar waarvan de grootte en de breedte niet gelijk zijn (日 曰 / 口 囗), karakters met gelijk aantal streepjes maar waarvan de schrijfrichting niet gelijk is (㆟ 八 入) en tot slot ingewikkelde karakters (鬱 籤).

§ Wubi (五笔字型 wǔbǐzìxíng) Deze methode werd bedacht door Wang Yongmin (王永民 wáng yǒngmín ) uit de Volksrepubliek China. Bijna elk karakter kan ingevoerd worden door slechts 2 toetsaanslagen, het maximum is vier. Het unieke aan dit systeem is dat bijna ieder karakter zijn eigen toetsencombinatie heeft. Deze methode verdeelt de radicalen in 5 secties die op hun beurt verdeeld zijn in 5 niveaus. De 25 categorieën zijn dan toegewezen aan de toetsen A tot Y op

77 de indeling in 214 vindt zijn oorsprong in het in 1716 gepubliceerde Chinese woordenboek 康熙字典 (kāngxī zìdiǎn), de PRC heeft dit aantal op 186 terug gebracht na vereenvoudiging.

Thesis Sébastien Bruggeman Pagina 57 het toetsenbord. De toets Z dient als ‘wildcard’. Hoe deze groepen precies zijn opgedeeld kan men vinden in Tabel 27.

Tabel 27 Opdeling van Wubizixing Toets 1 Toets 2 Toets 3 Toets 4 Toets 5 Groep 1 11 / G 12 / F / 13 / D 14 / S 15 / A Groep 2 21 / H 22 / J 23 / K 24 / L 25 / M Groep 3 31 / T 32 / R 33 / E 34 / W 35 / Q Groep 4 41 / Y 42 / U 43 / I 44 / O 45 / P Groep 5 51 / N 52 / B 53 / V 54 / C 55 / X Figuur 6 Toetsenbord met Wubizixing invoermethode layout

Bron: http://www.honco.net/japanese/05/caption/caption-3-05.html

§ Wubihua (五笔划 wǔbǐhuà) Bij deze methode voert men de karakters in aan de hand van cijfers. Men baseert zich op de schrijfwijze, maar daarbij beperkt men zich enkel tot 5 streepjes. Er zijn 5 soorten streepjes waar men een cijfer aan gegeven heeft en toegewezen aan het cijferblok rechts op het toetsenbord. Bestaat het karakter slechts uit 5 streepjes dan geeft men die in die volgorde weer, bestaat uit minder dan 5 dan moet men nog een ‘0’ ingeven, bestaat het karakter uit meer dan 5 streepjes, dan geeft men de eerste 4 en het laatste in. Hoe deze zijn toegewezen kan men vinden in Tabel 28.

Tabel 28 Toewijzing van de cijfers in Wubihua Keypad nummer Streepje Chinese naam Schrijfwijze 1 ㆒ 橫 héng links → rechts 2 丨 豎 shù boven → onder 3 丿 撇 piě rechts boven → links onder 4 捺 nà links boven → rechts onder 5 ㆚ 拆 chāi Links boven → draaiend → rechts onder

Voor de invoer gebruikt men dezelfde regels als bij het schrijven namelijk van boven naar onder, vervolgens van links naar rechts en tenslotte van buiten naar binnen. Er bestaat ook een ‘wildcard’ namelijk KP nr 6

Thesis Sébastien Bruggeman Pagina 58 Tabel 29 Voorbeeld Wubihua Karakter Aantal streepjes Schrijfwijze Code 用 5 丿 ㆚ ㆒ ㆒ 丨 35112 五 4 ㆒ 丨 ㆚ ㆒ 12510 总 9 丿 丨 ㆚ 43254

§ Cangjie (倉頡 cāngjié) Dit is een zeer snelle invoermethode. Deze werd in 1976 ontwikkeld door Zhu Bangfu (朱邦復 zhū bāngfù) in Taiwan. Het is genoemd naar de legendarische uitvinder van het Chinese schrift. Oorspronkelijk noemde deze invoermethode 意形檢字法 (yìxíng jiǎnzìf ǎ ), daarna ㆝龍輸入法 (tiānlóng shūrùfǎ) en in 1978 kreeg het tenslotte de naam 倉頡 (cāngjié). In 1981 verscheen de tweede versie en in 1983 de derde versie van deze invoermethode, nu zitten we aan versie nummer 5. Het verdeelt 24 radicalen in vier groepen over de toetsen A tot W en Y. § De eerste groep zijn de toetsen A, B, C, D, E, F en G. Het wordt de ‘filosofische groep’ genoemd omdat ze onder andere de vijf elementen (metaal, hout, water, vuur en aarde) representeert. § De tweede groep zijn de toetsen H, I, J, K, L, M, N en wordt de ‘‘pen stroke’ groep’ genoemd. § De derde groep wordt ‘lichaamsdeel groep’ genoemd omdat de radicalen delen van het menselijk lichaam (mens, hart, hand, mond) beschrijven, en bevat de toetsen O, P, Q, R. § De laatste groep is ‘karakter vorm’ groep en bestaat uit de toetsen S, T, U, V, W, Y. De invoer van een karakter gebeurt door het op te delen in zijn verschillende componenten. Zo wordt het karakter 商 (shāng) opgebouwd uit 卜, 金, 月 en 口. Het voordeel is dat het slechts 25 toetsen gebruikt, die dus zonder verlies van punctuatietekens of nummer op het toetsenbord kunnen geplaatst worden. ㆗國 : ㆗ (L) + spatie + 田 (W) + 戈 (I) + 口 (R) + ㆒ (M)

Figuur 7 Toetsenbord met Cangjie invoermethode layout

Thesis Sébastien Bruggeman Pagina 59

Enkele vuistregels78 die van toepassing zijn bij Cangjie: als de vorm van een Chinees karakter wordt gereconstrueerd, wordt dezelfde volgorde als bij het schrijven toegepast. Eerst van links naar rechts, dan van boven naar onder en vervolgens van buiten naar binnen. Een karakter wordt verdeeld in twee delen, head en body. De head krijgt maximaal twee codes, de body drie. Als de head meer dan twee codes bevat dan wordt enkel rekening gehouden met het eerste en het laatste. Indien de body meer dan drie codes omvat, worden enkel de eerste, tweede en laatste code ingevoerd. Bovenstaande regels werken goed met uitzondering van karakters die bestaan uit drie delen. Bij karakters die bestaan uit drie delen worden de drie codes voor het body gedeelte ingevoerd met de eerste en laatste code voor het tweede deel en de laatste code voor het derde deel. Voorbeeld: zie Tabel 30.

Tabel 30 Voorbeeld Cangjie (1) Voorbeeld Correcte vorm Code Incorrecte vorm Code 樹 木土廿戈 DGTI 木土口戈 DGRI 徹 竹㆟卜月大 HOYBK 竹㆟卜戈大 HOYIK 捌 手口尸弓 QRSN 手口竹弓 QRHN 矗 十㆒十㆒㆒ JMJMM 十㆒十月㆒ JMJBM

Als er meerdere combinaties mogelijk zijn om een karakter in te voeren, dan is de combinatie met het minst aantal toetsaanslagen de juiste. Voorbeeld: zie Tabel 31.

Tabel 31 Voorbeeld Cangjie (2) Voorbeeld Correcte vorm Code Incorrecte vorm Code 王 ㆒土 MG ㆒十㆒ MJM 九 大弓 KN 大弓山 KNU 言 卜㆒㆒口 YMMR 戈㆒㆒㆒口 IMMMR

Als er meerdere manieren zijn om een karakter weer te geven die hetzelfde aantal codes gebruikt, kies dan voor de codes die het meest complex zijn. Voorbeeld: zie Tabel 32.

Tabel 32 Voorbeeld Cangjie (3) Voorbeeld Correcte vorm Code Incorrecte vorm Code 夫 手㆟ QO 十大 JK 堇 廿㆗手㆒ TLQM 廿㆗十土 TLJG

78 http://www.fi.muni.cz/usr/wong/teaching/chinese/notes/notes.html

Thesis Sébastien Bruggeman Pagina 60 Kies de vormen die die het best overeen stemmen met de vorm van het karakter. Voorbeeld: zie Tabel 33.

Tabel 33 Voorbeeld Cangjie (4) Voorbeeld Correcte vorm Code Incorrecte vorm Code 力 十尸 KS 十弓 KN 也 心木 PD 廿弓山 TNU 吳 口女弓大 RVNK 口竹弓大 RHNK

Ondanks het feit dat de X niet tot één van de groepen behoort heeft het toch een label namelijk 難 (nán, moeilijk). De X kan gebruikt worden wanneer de invoer te moeilijk lijkt, het kan beschouwd worden als een ‘wildcard’. Voorbeeld : zie Tabel 34.

Tabel 34 Voorbeeld Cangjie (5) Voorbeeld Vorm Code 身 竹難竹 HXH 齊 卜難 YX 臼 竹難 HX

§ Easy Cangjie (速成 sùchéng – easy / soms ook 簡易 jiǎnyì) Dit is een verkorte van de hierboven besproken Cangjie methode. Om het karakter 商 weer te geven moet enkel 卜 en 口 ingegeven worden. ㆗國 : ㆗ (L) + spatie + 田 (W) + ㆒ (M)

Figuur 8 Toetsenbord met Sucheng invoermethode layout

§ Boshiamy (嘸蝦米 wǔxiāmǐ)79 Deze invoermethode werd in Taiwan ontwikkeld door Liu Zhongci (劉重次 líu zhòngcì). Het maakt ook gebruik van radicalen, maar maakt eveneens gebruik van de uitspraak. Het gebruikt slechts 26 toetsen. Het is een zeer snelle invoermethode. Hoe de toetsen toegewezen zijn kan men terugvinden op Figuur 14 op pagina 90. Een voorbeeld vindt men in Tabel 35.

79 http://input.foruto.com/boshiamy/

Thesis Sébastien Bruggeman Pagina 61 Tabel 35 Voorbeeld Boshiamy Karakter Code 淼 WWW betekenis (3 x Water) 命 AOP Vorm 粉 MBD Uitspraak (米 mǐ 八 bā 刀 dāo) 辯 LIL 辛 言 辛 爽 DXXX 大乂乂乂

§ 3 hoeken methode (㆔角 sānjiǎo) Deze invoermethode werd uitgevonden door Jack Huang (黃克東 huáng kèdōng) en is gebaseerd op de 4 hoeken methode die kan gebruikt worden bij het opzoeken van karakters in woordenboeken

§ Dayi (太易 dàyì) 80: Dayi werd uitgevonden door Wang Zanjie (王贊傑 wáng zànjié). Het gebruikt bijna het ganse toetsenbord wat een nadeel is. Om een karakter in te voeren zijn slechts 2 toetsaanslagen nodig. ㆗文 : O (口) + 1 (言) + K (立) + X (水)

Figuur 9 Toetsenbord met Dayi invoermethode layout

§ Zhengma (郑码 zhèngmǎ)81 Zhengma werd uitgevonden door 郑易里 (Zhèng Yìl ǐ ) en 郑龙 (Zhènglóng). Er moeten twee of vier toetsen aangeslagen worden om twee Chinese karakters in te voeren. Deze invoermethode zit standaard in de Microsoft Windows versie bestemd voor de Volksrepubliek.

§ Array (行列 hángliè)82 Bij Array wordt het toetsenbord opgedeeld in tien kolommen en tien rijen. Bijna elk karakter kan door twee of drie toetsen ingevoerd worden.

80 http://www.dayi.com 81 http://www.zhongyicts.com.cn/en/zmsrf/zmsrf.htm 82 http://www.array.com.tw/

Thesis Sébastien Bruggeman Pagina 62

c) Combinatie uitspraak – structuur Invoermethodes die invoer toelaten aan de hand van een combinatie tussen uitspraak en structuur zijn eerder zeldzaam, maar ze bestaan. § Tze-loi (子來 zǐlái) Tze-loi werd uitgevonden door Tze-loi Yeung (楊子來 yang zǐlái). Via deze invoermethode kan men karakters invoeren door slechts drie toetsaanslagen. De eerste twee aanslagen zijn gebaseerd op de structuur van het karakter (de hoek bovenaan links en de hoek onderaan rechts), en de derde aanslag is het eerste geluid van de uitspraak.

Tabel 36 Voorbeeld Tze-loi Hanzi Tze-loi Code Tze-Loi (qwerty) 晶 日 + 日 + J JJJ 品 口 + 口 + B HHB 法 ˋ + ㄙ + F 6ZF

§ Renzhi Code (认知码 rènzhīmǎ) Deze invoermethode bestaat meestal ook uit 3 toetsaanslagen. De eerste is de eerste letter van de Pinyin weergave van het karakter, de tweede aanslag is het eerste streepje, de laatste aanslag is het laatste streepje. Het kan soms ook andere elementen bevatten. Soms zijn er slechts twee of vier toetsaanslagen nodig voor de invoer van een karakter.

d) Directe invoer Met deze invoermethodes voert men karakters onmiddellijk in zonder gebruik te maken van een conversiewoordenboek. § Row-cell (国标区位码 guójīqūwèimǎ) Bij deze invoermethode gebeurt de invoer aan de hand van het rij-cel nummer uit de GB 2310-82 karakterset. Voorbeeld: 啊 heeft als code 1601

§ Neima 內碼 : (nèimǎ) Hier gebeurt de invoer aan de hand van interne code van Big5 of TW-EUC. Deze invoermethode is zeer gelijkend aan de Row-Cell invoer voor GB 2312-80. Voorbeeld: 啊 heeft als code B0DA

Thesis Sébastien Bruggeman Pagina 63 Figuur 10 Toetsenbord met Neima invoermethode layout

§ Dianbaoma (電報碼 / 电报码 diànbàomǎ) Deze invoermethode gebruikt het uit 1911 daterende Chinese telegrafisch codeboek, dit werd vroeger gebruikt voor de elektrische telegraaf (waarbij handmatig via werd geseind). Het is een lijst van ongeveer 9800 karakters die gerangschikt staan volgens radicaal en vervolgens volgens aantal streepjes. Ieder karakter heeft een unieke code bestaande uit 4 cijfers. Voorbeeld: 电报码 wordt weergegeven als 7193, 1032, 4316.

4.2. Andere Naast het toetsenbord zijn er nog andere manieren om Chinees in te voeren. - Stem: Het probleem is dat dergelijke invoer vaak ‘stem gebonden’ is en dat iedere gebruiker het systeem eerst moet trainen. Verder zorgt het feit dat Chinees een toontaal is voor extra moeilijkheden bij het ontwikkelen.

- Optical Character Recognition (OCR): Er kunnen problemen rijzen bij het inscannen van traditionele tekst door de verschillende schrijfrichtingen.

- Pen: Hierbij schrijft de gebruiker met een pen op een plaatje waarna het geschreven karakter op het scherm verschijnt. Invoer via de pen kan gebruik maken van OCR, maar het kan ook kijken naar de volgorde en richting van de streepjes.

Thesis Sébastien Bruggeman Pagina 64

5. Applicaties, toepassingen

We kunnen zeggen dat er 3 mogelijkheden zijn om Chinees te gebruiken op een computer, de eerste is dat het besturingssysteem volledig in het Chinees is gelokaliseerd (localisation83, l10n). Dit wil zeggen dat het systeem Chinese lettertypes bevat en overweg kan met de invoer en het vertonen van Chinese karakters. Algemeen gezien zijn dergelijke besturingssystemen volledig in het Chinees. Een tweede methode is gebruik te maken van extra softwarepakketten. Hier is het de software die Chinese lettertypes bevat en de invoer en vertoning van Chinese karakters behandelt. De derde methode is dat de software zelf overweg kan met Chinese karakters omdat het Unicode gebruikt.

5.1. Dos

Voor MS-DOS bestaan er ook verschillende programma’s om Chinees te bekijken, de bekendste zijn ETen84, ZWDOS en CCDOS (Chinese Character Disk Operating System). CCDOS werd reeds in 1982 ontwikkeld, ETen kwam in november 1985 met 倚㆝㆗文系統 ET2416 (yǐtiān zhōngwén xìt ǒ ng ET2416) op de markt. Chinese programma’s die met een niet-Chinese DOS werken, plaatsen DOS in ‘graphics mode’ en vertonen zo hun karakters.

5.2. Microsoft Windows85

a) Native Chinese Windows China heeft een volledig gelokaliseerde versie van windows uitgebracht voor de Chinese86, Hong Kongse87 en Taiwanese markt88. De Chinese versies gebruiken intern GBK, terwijl de Taiwanese versies Big5 intern gebruiken.

83 Localiseren van een programma houdt in dat men een internationaal gericht programma gaat aanpassen aan de locale markt, meestal op gebied van taal, maar ook van gebruikte munt, aantal decimalen, … 84 http://www.eten.com.tw 85 http://www.microsoft.com/windows/ 86 http://www.microsoft.com/china/index.htm 87 http://www.microsoft.com/HK/default.asp 88 http://www.microsoft.com/taiwan/

Thesis Sébastien Bruggeman Pagina 65 b) Niet-Chinese Windows Microsoft voorziet in Chinese lettertypes en in Chinese Input Method Editors (Microsoft Global IME) voor zowel traditioneel als vereenvoudigd Chinees. Het is op ActiveX gebaseerd. Als de IME geïnstalleerd is dan kan er door het gelijktijdig indrukken op de ctrl-toets en shift- toets gewisseld worden tussen de verschillende talen (en toetsenbord layouts). De IME werkt enkel in programma’s die Unicode ondersteunen. MS Global IME 5.02 werkt op alle besturingssytemen maar kan niet gebruikt worden met Office XP. Wil men MS Global IME gebruiken in Office XP dan moet men Office XP Tool: Global IME downloaden. Het wordt door Netscape ondersteund vanaf Netscape Communicator 4.72. IME’s mogen niet geïnstalleerd worden op een versie van Windows die voor dezelfde taal gelokaliseerd is. Met andere woorden de IME voor traditioneel Chinees mag niet geïnstalleerd worden op een Traditioneel Chinese versie van Windows. Microsoft Windows XP is het eerste besturingssysteem van Microsoft dat volledig op Unicode gebaseerd is. Microsoft heeft sinds de eerste versie van Windows steeds in de richting van internationalisatie gewerkt.

5.3. Unix / Linux Linux is een ‘vrij’89 besturingssyteem dat veel gelijkenissen toont met UNIX. Het werd ontwikkeld door Linus Torvalds en het GNU project90 en is vrijgegeven onder de GNU General Public License91 (wordt ook wel copyleft genoemd). De GNU GPL werd uitgegeven door de FSF (Free Software Foundation). Dat wil zeggen dat de broncode samen met het programma moet vrijgegeven worden en voor iedereen toegankelijk moet zijn. Iedereen mag er stukken uit gebruiken maar moet dan software daarop gebaseerd ook uitbrengen onder de GNU GPL licentie. De Free Standards Group92 heeft in maart 2002 Li18nux93 vrijgegeven. Het persbericht beschrijft het als volgt: “Li18nux is an internationalization guide for platform and applications developers, allow Linux and Linux-based programs to reach greater localization capabilities and obtain global reach.” In Linux zit er ondersteuning voor Unicode in de kernel (File Systems / Native Language Support), maar je moet ook minstens over glibc 2.2 en XFree86 4.0 beschikken.

89 ‘Free as in free speech not as in free beer’ dixit Richard Stallmann 90 http://www.gnu.org. Veel van de programma’s werden ontwikkeld door het GNU project, maar Linus ontwikkelde de kernel. Meestal spreekt men over Linux terwijl een meer accurate naam GNU/Linux zou zijn. 91 http://www.fsf.org/licenses/licenses.html 92 http://www.freestandards.org 93 http://www.li18nux.net/

Thesis Sébastien Bruggeman Pagina 66 a) Native Chinese Linux Er zijn verschillende Linux distributies die in China (BluePoint Linux94, Cosix Linux95, Happy Linux96, Redflag Linux97, TurboLinux98, XteamLinux99) of Taiwan (Linpus Linux100) zelf zijn ontwikkeld. Ze zijn volledig in het Chinees gelocaliseerd. Daarnaast is er ook nog één ‘add-on’ die in Taiwan wordt ontwikkeld, het CLE (Chinese Linux Extension, ㆗文延伸 套件 zhōngwén yánshén taòjiàn101). Het CLE is een uitbreiding van de Redhat distributie.

b) Niet-Chinese Linux Linux werkt met locals, en om die reden is het vaak nodig als men in een terminal werkt om de local te zetten. De meeste GNU programma’s kunnen overweg met het LC_CTYPE commando. Om de local voor big5 goed te zetten voer het volgende commando uit in bash, sh of ksh: “LC_CTYPE=zh_TW.big5; export LC_CTYPE”. In tcsh en csh kan als volgt gedaan worden: “setenv LC_CTYPE=big5”.

§ cxterm Cxterm is een aangepaste versie van xterm, een terminal emulator voor X11. De aanpassingen laten toe om gebruikers GB en Big5 code weer te geven. Zoals reeds aangehaald begint een ASCII code steeds met een 0 terwijl GB en Big5 steeds met een 1 beginnen. Als xterm een byte moet weergeven op het scherm zal het veronderstellen dat het ASCII is. Als het geen ASCII is dan zal het niets weer geven. Cxterm zal dat wel doen. Als het met een 0 begint zal het een ASCII karakter weer geven, begint het met een 1 dan zal het een Chinees karakter weer geven. Er bestaan verschillende varianten van cxterm, nl. cxterm (gb, ), cxtermb5 (big5), cxtermjis (jis) en cxtermks (ksc).

94 http://www.bluepoint.com.cn 95 http://Linux.cosix.com.cn 96 http://www.happyLinux.com.cn 97 http://www.redflag-Linux.com 98 http://www.turboLinux.com.cn 99 http://www.xteamLinux.com.cn 100 http://www.linpus.com.tw 101 http://cle.Linux.org.tw

Thesis Sébastien Bruggeman Pagina 67 § XCIN XCIN102 is de afkorting voor X Chinese INput, het is een XIN (X Input Method) server dat wijdverspreid is in Taiwan om Chinees in te voeren in Xwindows. Het werd oorspronkelijk ontwikkeld door Edward Der-Hua Liu in oktober 1994 en vele andere programmeurs hebben contributies geleverd. Vandaag wordt XCIN ontwikkeld door het XCIN Project (sinds februari 1998). Er bestaan plugins (die ook met ander XIN’s werken) zoals DIM (Debian Input Method)103.

§ TaBE TaBE104 is de afkorting van Localization for Taiwan and Big5 Encoding. Libtabe wordt omschreven als een ‘library’ dat handige Chinese functies en routines aanbiedt en overweg kan met de fundamentele elementen zoals uitspraak (bopomofo), karakterfrequentie, woordidentificatie en woordfrequentie. Een praktische applicatie van libtabe is een intelligente fonetische invoermethode-interface, bims genaamd. Bims aanvaarden invoer in bopomofo en creëert uitvoer van betekenisvolle zinnen. De bimsphone module van XCIN is rechtstreeks gebaseerd op de libtabe/bims.

§ andere XIM’s zijn: linput, chinput105, cWnn & tWnn, 阳春白雪中文输入法 (yángchūn báixuě zhōngwén shūrùfǎ)106

c) Linux in China & Taiwan De Chinese regering steunt Linux, omdat het zo los komt van de bijna-monopolie positie van Microsoft. Dat Microsoft Windows veel veiligheidsproblemen kent is een reden om Linux te steunen.107 Daarnaast is het ook een feit dat de broncode van Linux vrij is, nog een reden om voor Linux te kiezen. De producten van Microsoft hebben een gesloten broncode, de Chinese regering heeft Microsoft verplicht om haar bron code vrij te geven maar Microsoft heeft dit besluit aangevochten en onder grote economische druk heeft de Chinese regering uiteindelijk zijn eis laten vallen. Door de open-bron (open source) en de GPL van Linux kan en mag iedereen de code bekijken en aanpassen. Op een dergelijke manier hoeven

102 http://xcin.Linux.org.tw 103 http://sourceforge.net/projects/dim/ 104 http://libtabe.sourceforge.net of http://xcin.Linux.org.tw/libtabe/index.html 105 http://www.opencjk.org/~yumj/project-chinput-e.html 106 http://www.yangchunbaixue.com 107 http://www.theregister.co.uk/content/1/12449.html http://news.com.com/2100-1001-253515.html?legacy=cnet

Thesis Sébastien Bruggeman Pagina 68 ze niet langer hoge licentiekosten betalen maar kunnen ze ook productiekosten uitsparen. Toch lijkt het concept van open source niet volledig te werken want volgens RedHat zouden de Chinese Linux bouwers zich niet houden aan de GPL en aanpassingen aan de codes niet bekend maken (IDG.net, 03 juli 2001).108

RedFlag Linux is een door de Chinese overheid gesubsidieerde Chinese Linux distributie109. Het wordt ook gesteund door Jiang Mianhang, de zoon van president Jiang Zimin. Een voormalig Microsoft executive is nu de chief executive van RedFlag. Het werd in augustus 1999 op de Chinese Academy of Sciences 110 opgericht door het Institute of Software111 en kreeg daarbij hulp van het staatsbedrijf Shanghai NewMargin Venture Capital en in maart 2001 werd CCIDNET Investment (een venture capital afdeling van het Ministerie van Informatie Industrie) de tweede grootste aandeelhouder. Chinese computermakers installeren geen software op voorhand omdat het aandeel van gekopieerde software veel te groot is (tot 95%). Nu is er echter een campagne om illegale cd’s tegen te gaan, dit mede door de toetreding van China tot het WTO (World Trade Organisation)112.

5.4. Apple113 Sinds OS 9 wordt de Chinese Language Kit (CLK) mee geleverd op de installatie CD. De CLK werkt op systemen vanaf System 7.1.x. De CLK bevat Worldscript software dat gebruik maakt van scripts. Dergelijke scripts ondersteunen de codering van (een) bepaalde karaktersets voor een specifieke taal. Ze bevatten ook instructies voor het behandelen van de tekst, sortering, tijdsformaat, nummers, … De CLK bestaat uit twee verschillende scripts, één voor traditioneel Chinees en één voor vereenvoudigd Chinees. Ze kunnen apart of samen geïnstalleerd worden (en ook samen met andere talen). De CLK bevat ook verschillende invoermethodes en lettertypes. Vanaf MacOS 9.2 wordt er Unicode gebruikt. OSX biedt ondersteuning voor Unicode versie 3.1, maar veel hangt natuurlijk af van de programma’s die gebruikt worden. Het is mogelijk om OSX volledig Chinees gelokaliseerd te maken door middel van het aanpassen

108 http://www.thestandard.com/article/0,1902,27670,00.html?printer_friendly= 109 http://news.cnet.com/news/0-1003-200-5193409.html 110 http://www.casbic.ac.cn 111 http://www.ios.ac.cn 112 http://www.wto.org 113 http://www.apple.com

Thesis Sébastien Bruggeman Pagina 69 van de instellingen. Preferences > Language > International, verplaats Traditional Chinese of Simplified Chinese naar de top van de lijst en start opnieuw op.

5.5. Chinees en programmeertalen

§ C (++) C en C++ zijn één van de meest gebruikte programmeertalen en er bestaan dan ook een hele reeks compilers voor. Verschillende andere talen zijn gebaseerd op C (++). Indien men 16bit characters wil gebruiken dan moeten ze gedefinieerd worden als wchar_t, indien niet dan wordt de standaard char en dus 8bit karakter codering gebruikt. Conversie van multiple byte strings naar ‘wide character strings’ gebeurt via mbsrtowcs(). Het omgekeerde proces gebeurt via wcsrtombs(). Voor aparte karakters bestaan de respectievelijke commando’s mbrtowc() en wcrtomb().

§ JAVA Java komt met klasses genaamd InputStream Reader en OutputStream Writer die lokale coderingen naar Unicode en omgekeerd converteren. Big5 en GB2312 zijn daarbij ondersteund. Dus bij het compileren van de broncode moet men de codering meegeven. Voor een code met Big5 moet volgende code worden ingegeven: javac -encoding big5 sourcefile.java. Daarnaast kan ook native2ascii dat samen met de JDK geleverd wordt gebruikt worden om de verschillende coderingen te converteren naar de \uxxxx unicode escapes dat Java kan verwerken. Java 2 laat toe om de lettertypes van op de machine te gebruiken en dus ook eventuele Chinese lettertypes. Voor de introductie van Swing kon Java geen Chinees weergeven buiten op Chinese besturingssystemen. Met Swing kan nu Chinees worden weergegeven in eender welke component op voorwaarde dat er lettertypes zijn geïnstalleerd die Chinees kunnen weergeven. Daarnaast werd in Java 1.3 de Input Method Engine SPI geïntroduceerd waardoor er ook platform onafhankelijke input kan gebeuren. Ervoor maakte Java gebruik van de invoermethodes van het besturingssysteem.

Thesis Sébastien Bruggeman Pagina 70 § XML (eXtended Markup Language) De XML processor werkt intern met UTF-8 of UTF-16 maar XML kan in principe met eender welke karakterset gecodeerd zijn. Buiten de processor kan de codering dus gekozen worden, maar binnen de processor wordt gebruik gemaakt van ISO10646. Elk bestand moet dan wel voorafgegaan worden door een XML-declaratie die er als volgt uit ziet:114 De gekozen coded characterset moet in deze XML-declaratie gedefinieerd worden en kan dus nergens anders gekozen worden. Wel is het mogelijk om bij ieder element een taal te definiëren, met als gevolg dat:

some text

some text

perfect na elkaar in hetzelfde document kunnen komen.

§ XHTML Bij XHTML moeten zowel de HTML als de XML regel gebruikt worden. Indien het document als HTML wordt gebruikt, dan wordt de meta tag gebruikt. Indien het document als XML wordt gebruikt, dan wordt de XML declaratie gebruikt.

§ PHP (Hypertext Preprocessor)115 PHP is 8-bit clean en laat aldus UTF-8 gecodeerde tekst ongewijzigd door. Er bestaat een module, mbstring genaamd, die ondersteuning biedt voor ‘mulitple-byte’ coderingen. Er bestaan op dit ogenblik ongeveer 40 functies voor deze module.

§ FLASH116 Flash 5 ondersteunt het gebruik van Chinese lettertypes. Flash MX ondersteunt Unicode en het verticaal weergeven van tekst.

114 http://www.ascc.net/xml 115 http://www.php.net 116 http://www.macromedia.com/software/flash/

Thesis Sébastien Bruggeman Pagina 71 § Perl117 Perl had geen ingebouwde ondersteuning voor multiple-byte karakters. Daarom werd er JPerl ontwikkeld, een aangepaste Japanse versie van Perl. Er zijn wel technieken om multiple-byte te ondersteunen. Deze maken uitvoerig gebruik van ‘regular expressions’. Twee van dergelijke technieken zijn anchoring en trapping. Vanaf Perl 5.6 ondersteunt Perl Unicode, zelfs intern werkt het met Unicode. Verder werkt Perl 5.6 niet meer byte per byte maar karakter per karakter.

5.6. Chinees en databases Veel hangt af van hoe men de data uit de database haalt. Indien data uit de databank gehaald wordt dan moet ook de taal of het programma dat daarvoor gebruikt wordt in staat zijn om Chinese karakters weer te geven.

§ MySQL118 MySQL heeft UTF-8 ondersteuning. Veel van de ondersteuning hangt echter af van de configuratie van de database. De standaard karakterset is ISO 8859-1 maar men kan ook ./configure --with-charset= gebruiken om de standaard karakterset te veranderen, voor Chinees zijn de ondersteunde karaktersets gb2312, en big5. Wil men verschillende karaktersets ondersteunen dan moet MySQL geconfigureerd worden met --with-extra- charset=LIST, waarbij list vervangen moet worden door alle karaktersets die men wil ondersteunen gescheiden door een spatie. Men kan ook all typen om ze allemaal toe te voegen, of complex om alle karaktersets toe te voegen die niet dynamisch geladen kunnen worden. Een uitgebreide configuratie zou er dus als volgt kunnen uitzien: --with-charset=charset -- with-extra-charset=list | complex | all. Als Chinese data wordt gebruikt met de Big5 codering dan moeten de kolommen die Chinese karakters bevatten op binary geplaast worden.

117 http://www.perl.com & http://www.cpan.org 118 http://www.mysql.org

Thesis Sébastien Bruggeman Pagina 72 § Microsoft SQL Server Microsoft’s SQL heeft Unicode ondersteuning sinds MS SQL Server 7.0. Nchar(n) wordt gebruikt voor vaste-lengte unicode data, de opslagplaats is dan twee maal n bytes. Nvarchar(n) wordt gebruikt voor variabele lengte unicode data, de opslagplaats in bytes is dan twee maal de lengte van n. Beide data types kunnen slechts een maximum lengte van 4 000 karakters hebben. Het ntext data type wordt ook gebruikte voor variabele lengte unicode data maar met een maximum lengte van 2^30 –1 karakters (1 073 741 823).

§ Oracle Oracle 9i Oracle biedt reeds ondersteuning voor Unicode sinds Oracle7. Er bestaan verschillende statements om databases en hun data naar unicode te converteren. Ook hier worden nchar en nvarchar2 ondersteunt. Bij nchar wordt de vaste lengte meegegeven van de data, het maximum is 2 000 bytes. Bij nvarchar2 moet de maximum variable lengte worden meegegeven, het maximum is vastgelegd op 4 000 bytes.

Thesis Sébastien Bruggeman Pagina 73

6. Het Chinese internet

Om symbolen of karakters weer te geven kan het gewoon getypt worden (♥), kan de naam meegegeven worden (♥) ofwel typt men de decimale waarde (♥) of de hexadecimale waarde (♥).

Bij het opmaken van HTML bestanden kan de karaktercodering meegegeven worden, dit gebeurt aan de hand van een META tag die in de HEAD-tag kan geplaatst worden. De browser gebruikt deze informatie om de pagina correct weer te geven. De META tag voor de Big5 karakterset ziet er als volgt uit: . Voor de Chinese taal kan dat ook nog gb2312, gbk, gb18030, hz, big5-hkscs, euc-tw of utf-8 zijn. Daarnaast bestaat er ook sinds HTML 4 een ‘taal-attribuut’ dus in een tag kan het attribuut lang meegegeven worden. Taalinformatie wordt overgeërfd in de documenthiërarchie. Bijvoorbeeld: some English text Er kan ook nog een landelijke variant opgegeven worden zoals: some American English text .

De taalcodes zijn gedefinieerd in ISO 639:1988 Code for representation of names of languages, de landcodes in ISO 3166:1988 Code for the representation of names of countries en RFC 3066 Tags for the Identification of Languages geeft meer uitleg over het gebruik ervan. Deze taal-attribuut kan enkel slaan op talen gesproken (geschreven, …) door mensen, computertalen komen dus niet in aanmerking.

Sinds 31 mei 2001 is de Ruby Annotation119 een W3C aanbeveling. RUBY zijn de kleine karakters die vooral bij Oost-Aziatische talen gebruikt worden om de uitspraak (en/of betekenis) weer te geven van de karakters waar ze bij horen. Dit gebeurt aan de hand van een speciale tag, namelijk daarbinnen zet men de tekst en wat er boven komt, komt tussen . Ruby is ook opgenomen in CSS 3 (dit is nog maar slechts een working draft), wat de mogelijkheden met RUBY in browsers nog vergroot.120

119 http://www.w3.org/TR/ruby/ 120 http://www.w3.org/TR/css3-ruby/

Thesis Sébastien Bruggeman Pagina 74 Microsoft 121 Internet Explorer 5.0 en hoger ondersteunen RUBY. Netscape ondersteunt RUBY echter niet. De onderstaande HTML code geeft Figuur 11 als resultaat in een browser die de ruby tag ondersteunt.

新幹線 しんかんせん

Figuur 11 Ruby

Het is mogelijk om tekst vertikaal weer te geven, wat zeer handig is voor traditionele teksten. Dit gebeurt aan de hand van de volgende definitie in de stijltag: writing-mode:tb-rl. De tekst begint dan rechts bovenaan. Westerse letters worden dan wel 90 graden gedraaid. Netscape ondersteunt dit echter niet. Vanaf Microsoft Internet Explorer 5.5 wordt deze functie wel ondersteund.

Indien de computer waarop gewerkt wordt geen inputmethode bevat, kan er nog steeds gebruik gemaakt worden van online invoermethodes. Het op javascript gebaseerde SIMON (Sino Input Method ONline)122 is een heel mooi voorbeeld hiervan.

Volgens het halfjaarlijkse rapport van CNNIC (China Internet Network Information Center 中国互联网络信息中心 zhōngguó hùlián wǎnglù xìnxízhōngxīn) 123 waren er in januari van dit jaar 33,7 miljoen internet gebruikers, dit is slechts 2,81% van de bevolking. De meerderheid van de internetgebruikers zijn mannen (60%), en van jonge leeftijd (36,2% is tussen 18 en 24 jaar oud en 16,3% is tussen 25 en 30 jaar oud). In 2001 werd het aantal internetgebruikers in China rond de 26,5 miljoen geschat. In 1999 was dat nog 8,9 miljoen. Een evolutionair beeld kan men terugvinden in Tabel 42 op pagina 85. Volgens TWNIC (Taiwan Network Information Center 台灣網路信息㆗心 táiwān wǎnglù xìnxízhōngxīn)124 waren er eind vorig jaar 7,8 miljoen internet gebruikers in Taiwan, dit is 35,45% van de bevolking. Een evolutionair beeld kan men terugvinden in Tabel 43 op pagina 85.

121 http://msdn.microsoft.com/workshop/Author/dhtml/reference/objects/RUBY.asp 122 http://www.simon.tw.st 123 http://www.cnnic.net.cn. Het profiel van deze organisatie evenals van andere organisaties en ministeries is terug te vinden op http://www.chinaonline.com/refer/ministry_profiles/ministry_profiles.asp 124 http://www.twnic.net.tw

Thesis Sébastien Bruggeman Pagina 75 De Chinese regering heeft een “Chinese firewall” gecreëerd. Providers en internetcafés moeten software installeren (Internet Police 110). Alle websites die subversieve of pornografische inhoud hebben moeten geblokkeerd worden. De Chinese regering voegt de daad bij het woord en sluit internetcafés die niet voldoen aan de eisen. Verder moeten de ISP’s het e-mailverkeer laten screenen en worden ze verantwoordelijk gesteld voor het verwijderen van ‘subversieve’ inhoud (CNN.com, 18 januari 2002). De ISP’s moeten een licentie aanvragen om BBS (Bulletin Board Service) te mogen draaien, de overheid en de ISP’s houden toezicht op de inhoud die er wordt gepubliceerd, ISP’s verwijderen regelmatig inhoud die de regering of de politiek van de regering in vraag stelt. Er zijn zelfs gevallen waar de auteur van het bericht vervolgd en veroordeeld werd. (CNN.com, 27 juli 2001). In 1999 werd de Shanghainees Li Hai veroordeeld tot twee jaar gevangenisstraf omdat hij de redactie van VIP Reference, een internetkrant van Chinese pro-democratische-activisten die over de grens wonen, 30 000 e-mailadressen van computergebruikers in de Volksrepubliek ter beschikking had gesteld.

Buitenlandse bedrijven helpen maar al te graag mee met de regering om toch maar die contracten in de wacht te slepen. Zo heeft Cisco zijn hardware aangepast voor de Chinese markt (dit heeft het voor geen enkel ander land willen doen). Dit houdt in dat de firewall alle buitenlandse websites blokkeert met een politiek incorrecte inhoud en ze vervangt door het bericht “Operation timed out”. Verder wordt de toegang tot proxysservers zoveel mogelijk geblokkeerd.

Veel geruchten doen de ronde dat de eerste versie van de ‘Code Red’ worm zijn oorsprong zou hebben in China en dat het daarom enkel niet-Chinese MS Windows versies aantast en een DoS (Denial of Service) aanval uitvoert op het Witte Huis. Het zou ontwikkeld zijn als reactie op een incident waarbij een Amerikaans spionage vliegtuig door de Chinezen werd neergehaald. Code Red II en Code Red III zijn niet langer gericht op het Witte Huis en zouden eigenlijk volledig nieuwe wormen zijn die hun oorsprong niet in China vinden (CNN.com, 8 augustus 2001).

Volgens het WIPO125 (World Intellectual Property Organisation) zal het Chinees het Engels verdringen als meest gebruikte taal op het internet.

125 http://www.wipo.org

Thesis Sébastien Bruggeman Pagina 76 Op het internet zijn er verschillende diensten die een webpagina of een invoer vertalen naar of vanuit het Chinees. Als men naar het Chinees vertaalt kan men vaak een keuze maken uit traditioneel Chinees, vereenvoudigd Chinees, en foto’s van karakters (eventueel met keuze tussen traditioneel of vereenvoudigd). Bij deze laatste keuze wordt de tekst niet als tekst weergegeven maar ieder karakter wordt als afzonderlijke foto weergegeven. Verder zijn er ook diensten die er ook nog de uitspraak bij voegen. Een voorbeeld van een dergelijke software is Gist van Alis Software126, hun technologie zit onder andere verwerkt in Netscape 6 en in Copernic 2000.

Soms worden er meerdere diensten aangeboden zoals e-mail, versturen van e-kaarten, chatten, etc. Een voorbeeld hiervan is WorldLingo127. Computervertalingen voldoen echter vaak nog niet aan de verwachtingen. Ook IBM is actief op dit gebied met zijn WebSphere Translation Server128, het kan naar het Chinees vertalen maar niet omgekeerd. Het product is gericht op de e-commerce markt en heeft een zeer hoog prijskaartje. De VN heeft een project lopen aan de United Nations University met de naam Universal Networking Language129.

126 http://www.alis.com/ 127 http://www.worldlingo.com/ 128 http://www-3.ibm.com/software/speech/enterprise/ep_8.html 129 http://www.unl.ias.unu.edu/

Thesis Sébastien Bruggeman Pagina 77

7. Appendix

7.1. Bibliografie - Baeten M, E-China, The Electronic Economy of China, licenciaatsverhandeling, KULeuven, 2000-2001. - Chinees wordt voertaal op internet, Metro, nr.251, 11 december 2001. - De Rijck K., Wetenschapswinkel. Chinees, De Standaard, 24 september 2001. - Dedene & Herroelen, Inleiding tot de informatica, Deel A, cursus gedoceerd in het kader van het vak ‘Inleiding tot de informatica’, KULeuven, Wouters, Leuven, 2001. - ECMA, 7-Bit coded Character Set, ECMA-6, 6th edition, 1991. - ECMA, 8-Bit coded Character Set, Structure and Rules, ECMA-43, 3rd edition, 1991. - ECMA, Character Code Structure and Extension Techniques, ECMA-35, 6th edition, 1994. - Gutmann E., Who Lost China’s Internet, With U.S. assistance, it will remain a tool of the Chinese government, not a force for democracy, The Weekly Standard, 25 februari 2002.130 - Halpern J. & Kerman J., The Pitfalls and Complexities of Chinese to Chinese Conversion, Fourteenth International Unicode Conference, Boston, 1999.131 - Harvey F., FT. Het Internet is overbevolkt, De Standaard, 11 december 2000. - Lunde K., CJKV Information Processing; Chinese, Japanese, Korean & Vietnamese Computing, O’Reilly & Associates, Sebastopol, 1999. - Mackay A., Character-building, Nature 410, 1 maart 2001, pag. 19. - Meeus R., IBM maakt instantvertaler voor internet, De Morgen, 15 januari 2001. - Mulders J-P., VN sleutelen aan supervertaalmachine, De Morgen, 25 november 1998. - Rdg, CURSIEF. China bouwt nieuwe Grote Muur, De Standaard, 20 maart 2000. - Tanret E., De mogelijkheden van ICT voor het leren van Engels in China, licenciaatsverhandeling, KULeuven, 1999-2000. - The Unicode Consortium, The Unicode Standard, Version 3.0, MA, Addison-Wesley, 2000. - Variant Form of Chinese Character Code for Information Interchange, volume 2, 2de editie, 1982.

130 http://www.weeklystandard.com/content/public/articles/000/000/000/922dgmtd.asp 131 http://www.cjk.org/cjk/c2c/c2centry.htm

Thesis Sébastien Bruggeman Pagina 78 - Van Dale Groot woordenboek der Nederlandse taal, 12de uitgave, Van Dale Lexicografie, Utrecht/Antwerpen, 1992. - Van der Linden F., Hoe Internet de Chinese Muur sloopt, De Morgen, 14 april 2001. - 戴庆厦 许寿椿 高喜奎, 中国各民族文字与计算机信息处理 (zhōngguó gèmínzú wénzì yú diànnǎo zīxùnchǔlǐ),中央民族学院出版社, 北京, 1991. - 兩岸常用㆗文資訊名詞對照表及兩岸㆗文資訊內碼對照轉碼表之編擬 (liǎng àn chángyòng zhōngwén zīxùn míngcí duìzhàobiǎo jí liǎng àn zhōngwén zīxùn nèimǎ duìzhǎo zhuànmǎbiǎo zhī biānnǐ), 行政院研究發展考核委員會, 1994.

Request For Command (geordend volgens RFC-nummer) - Simonsen K.,Character Mnemonics & Character Sets, RFC 1345, June 1992. - Goldsmidt D. & M. Davis, UTF-7 A Mail-Safe Transformation Format of Unicode, RFC 1642, July 1994. - Alvestrand H., Tags for the Identification of Languages, RFC 1766, March 1995. - Ohta M., Character Sets ISO-10646 and ISO 10646-J-1, RFC 1815, July 1995. - Wei Y., Zhang Y., Li J., Ding J. & Y. Jiang, ASCII Printable Characters-Based Chinese Character Encoding for Internet Messages, RFC 1842, August 1995. - Lee F., HZ - A Data Format for Exchanging Files of Arbitrarily Mixed Chinese and ASCII characters, RFC 1843, August 1995. - Zhu H., Hu D., Wang Z., Kao T., Chang W. & M. Crispin, Chinese Character Encoding for Internet Messages, RFC 1922, March 1996. - Goldsmidt D. & M. Davis, UTF-7 A Mail-Safe Transformation Format of Unicode, RFC 2152, May 1997. - Freed N. & J. Postel, IANA Charset Registration Procedures, RFC 2278, January 1998. - Yergeau F., UTF-8, a transformation format of ISO 10646, RFC 2279, January 1998. - Whistler K. & G. Adams, Language Tagging in Unicode Plain Text, RFC 2482, January 1999. - Alvestrand H., Tags for the Identification of Languages, RFC 3066, January 2001.

Thesis Sébastien Bruggeman Pagina 79

7.2. Links Persoonlijke websites Brief History of Character Codes in North America, Europe, and East Asia by Steven Stearle http://tronweb.super-nova.co.jp/characcodehist.html

Chih-Hao Tsai’s Technology Page by Chih-Hao Tsai http://www.geocities.com/hao510/

Chinese Characters and Culture by Rick Harbaugh http://zhongwen.com

Chinese Computer Terminology System by Hong Kong Computer Society http://ccts.cs.cuhk.edu.hk/

Chinese Computing by Wei-Chang Shann http://www.math.ncu.edu.tw/~shann/Chinese/Welcome.html

Chinese Mac Home http://www.yale.edu/chinesemac/index.html

CJK Quick Start by Gyula Zsigri http://www.geocities.com/fontboard/cjk

CJKV Information Processing by http://www.oreilly.com/~lunde/cjkv-ip.html

Czyborra.com by Roman Czyborra http://www.czyborra.com

Digital UNIX Technical Reference for Using Chinese Features http://www.tru64unix.compaq.com/docs/base_doc/DOCUMENTATION/V40F_HTM L/SUPPDOCS/CHINADOC/CHINAPRF.HTM

Global Design Home Page http://www.xerox-emea.com/globaldesign/index.htm

History and prospect of Chinese Romanization by Bemjamin AO http://www.whiteclouds.com/iclc/cliej/cl4ao.htm

Introduction to the Chinese language and its Processing by Sylvia Wong http://www.fi.muni.cz/usr/wong/teaching/chinese/notes/notes.html

On-line Chinese Tools by Erik Peterson http://www.mandarintools.com

Sapienti’s homepage by Dylan W.H.Sung http://www.sungwh.freeserve.co.uk/index.html

Thesis Sébastien Bruggeman Pagina 80 The Complete Guide to Chinese Language Computing by Erik Peterson http://www.chinesecomputing.com

Zvon – RFC 1922 http://zvon.org/tmRFC/RFC1922/Output/index.html

㆗文輸入法世界 http://input.foruto.com

漢字處理 http://freebsd.sinica.edu.tw/~statue/hanzi/

Organisaties en officiële instanties China Internet Network Information Center http://www.cnnic.net.cn/

Chinese, Japanese and Korean (CJK) Dictionary Data http://www.cjk.org

CMEX ㆗推會 http://www.cmex.org.tw/

Internet RFC/FYI/STD/BCP Archives http://www.faqs.org/rfcs/

Taiwan Network Information Center http://www.twnic.net.tw

The World Wide Web Consortium http://www.w3c.org

Unicode Home Page http://www.unicode.org

教育部資訊網 http://www.edu.tw/

國語會 http://www.edu.tw/mandr/

Thesis Sébastien Bruggeman Pagina 81

7.3. Tabellen

Tabel 37 Conversietabel bopomofo - Pinyin - wade-giles Bopomofo Pinyin Wade-giles ㄅ b p ㄆ p p' ㄇ m m ㄈ f f ㄉ d t ㄊ t t' ㄋ n n ㄌ l l ㄍ g k ㄎ k k' ㄏ h h ㄐ j ch ㄑ q ch' ㄒ x hs ㄓ zh ch ㄔ ch ch' ㄕ sh sh ㄖ r j ㄗ z ts/tz ㄘ c ts'/tz' ㄙ s s/ss/sz ㄧ i i ㄨ u wu ㄩ ü yü ㄚ a a ㄛ o o ㄜ e e ㄝ ie ieh ㄞ ai ai ㄟ ei ei ㄠ ao ao ㄡ ou ou ㄢ an an ㄣ en en ㄤ ang ang ㄥ eng eng ㄦ er erh

Thesis Sébastien Bruggeman Pagina 82 Tabel 38 Designator sequences gebruikt in ISO-2022-CN en ISO-2022-CN-EXT Karakterset Decimaal Hexadecimaal Grafisch (ASCII) GB 2312-80 27 36 41 65 1B 24 29 41 $ ) A GB 7589-87 27 36 42 X 1B 24 2A X $ * X GB 7590-87 27 36 43 X 1B 24 2B X $ + X GB 12345-90 27 36 41 X 1B 24 29 X $ ) X GB 13131-91 27 36 42 X 1B 24 2A X $ * X GB 13132-91 27 36 43 X 1B 24 2B X $ + X ISO-IR-165 27 36 41 69 1B 24 29 45 $ ) E CNS 11643-1992 Niveau 1 27 36 41 71 1B 24 29 47 $ ) G CNS 11643-1992 Niveau 2 27 36 42 72 1B 24 2A 48 $ * H CNS 11643-1992 Niveau 3 27 36 43 73 1B 24 2B 49 $ + I CNS 11643-1992 Niveau 4 27 36 43 74 1B 24 2B 4A $ + J CNS 11643-1992 Niveau 5 27 36 43 75 1B 24 2B 4B $ + K CNS 11643-1992 Niveau 6 27 36 43 76 1B 24 2B 4C $ + L CNS 11643-1992 Niveau 7 27 36 43 77 1B 24 2B 4D $ + M De karaktersets met een X zijn nog niet toegewezen en geregistreerd en kunnen dus ook nog niet gebruikt worden. Zie ook http://www.itscj.ipsj.or.jp/ISO-IR/

Tabel 39 Single shift sequences en shifting characters gebruikt in ISO-2022-CN en ISO-2022-CN-EXT Decimaal Hexadecimaal Grafisch (ASCII) SS2 27 78 1B 4E N SS3 27 79 1B 4F O One byte shift 15 0F Two byte shift 14 0E

Tabel 40 EUC-TW 0 – 7E → ASCII A1 – FE A1 – FE A1 – FE → CNS 11643 niveau 1 SS2 A2 A1 – FE A1 – FE → CNS 11643 niveau 2 SS2 A3 A1 – FE A1 – FE → CNS 11643 niveau 3 SS2 A4 A1 – FE A1 – FE → CNS 11643 niveau 4 SS2 A5 A1 – FE A1 – FE → CNS 11643 niveau 5 SS2 A6 A1 – FE A1 – FE → CNS 11643 niveau 6 SS2 A7 A1 – FE A1 – FE → CNS 11643 niveau 7 SS2 A8 A1 – FE A1 – FE → CNS 11643 niveau 8 SS2 A9 A1 – FE A1 – FE → CNS 11643 niveau 9 SS2 AA A1 – FE A1 – FE → CNS 11643 niveau 10 SS2 AB A1 – FE A1 – FE → CNS 11643 niveau 11 SS2 AC A1 – FE A1 – FE → CNS 11643 niveau 12 SS2 AD A1 – FE A1 – FE → CNS 11643 niveau 13 SS2 AE A1 – FE A1 – FE → CNS 11643 niveau 14 SS2 AF A1 – FE A1 – FE → CNS 11643 niveau 15 SS2 B0 A1 – FE A1 – FE → CNS 11643 niveau 16

Thesis Sébastien Bruggeman Pagina 83 Tabel 41 Toewijzing van de toetsen voor invoer met de Cangjie methode Stroke Correspondences Alphabets Chinese Types A 日 ‘A’ looks like ‘日’ B 月 ‘B’ looks like ‘月’ C 金 ‘C’ looks like a gold (i.e. 金) ring on a girl’s finger If a wooden (i.e. 木) trunk is cut into two halves vertically, D 木 each half looks like a ‘D’ E 水 ‘E’ looks like the 3 main branches of the Yangtze river F 火 ‘F’ is the first character of the word ‘fire’ (i.e. 火) G 土 ‘G’ is the first character of the word ‘ground’ (i.e. 土) The first stroke of ‘H’ looks like a slanted stroke (i.e. 斜) in H 斜 竹 Chinese I 點 戈 There is a dot (i.e. 點) on ‘i’ The script writing of ‘J’ looks like a cross (i.e. 交) road on a J 交 十 highway ‘K’ looks like a cross road with 3 branching routes (i.e. ㆔叉 K 叉 大 路, literally three fork road) L 縱 ㆗ ‘l’ looks like a vertical (i.e. 縱) line The script writing of ‘m’ looks like a crab walking M 橫 ㆒ horizontally (i.e. 橫) N 鉤 弓 ‘N’ looks like a hook (i.e. 鉤) on the wall O ㆟ ‘O’ looks like a human (i.e. ㆟) head A human heart (i.e. 心) is situated to the left of one's body. P 心 When someone stands opposite you, their heart would have the position like the arc of a ‘P’ Q 手 ‘Q’ looks like a human’s head with a hand (i.e. 手) R 口 ‘R’ looks like a mouth (i.e. 口) with a mustache S 側 尸 ‘S’ looks like a side view of a slim girl ‘T’ looks like two people having their shoulder next to each T 並 廿 other (i.e. 肩並肩) ‘U’ looks like a valley between two hills (i.e. 山). Once you U 仰 山 are standing in the valley, you need to look up (i.e. 仰望) ‘V’ looks like a necklace with a pendant on a girl’s (i.e. 女) V 妞 女 neck W 方 田 ‘田’ looks like a window, which starts with the character ‘W’ ‘Y’ looks like the instruments for Chinese fortune telling Y 卜 (i.e. 占卜)

Thesis Sébastien Bruggeman Pagina 84 Tabel 42 Internetgebruik in China Internet gebruikers Computer Hosts Bandbreedte

(x 10 000) (x 10 000) (M) 1997.10 62 30 25 1998.7 118 54 85 1999.1 210 75 143 1999.7 400 146 241 2000.1 890 350 351 2000.7 1 690 650 1 234 2001.1 2 250 892 2 799 2001.7 2 650 1 002 3 257 2002.1 3 370 1 254 7 598 Deze tabel is samengesteld uit verschillende tabellen, omwille van het overzicht zijn de getallen afgerond. Het volledig rapport is terug te vinden op http://www.cnnic.net.cn/develst/rep200201-e.shtml

Tabel 43 Internetgebruik in Taiwan Internet gebruikers Internet Hosts Bandbreedte (x 10 000) (x 10 000) (Mbps) 1996/12 60 1997/06 126 1997/12 166 1998/06 217 1998/12 301 1999/06 402 1999/12 480 2000/06 560 78 2000/12 627 113 2.136 2001/06 721 197 4.153 2001/12 782 271 7.228

Thesis Sébastien Bruggeman Pagina 85 Tabel 44 Blokken in Unicode 3.2.0 Taal Range Basic Latin 0000 – 007F Latin-1 Supplement 0080 – 00FF Latin Extended-A 0100 – 017F Latin Extended-B 0180 – 024F IPA Extensions 0250 – 02AF 02B0 – 02FF Combining Diacritical Marks 0300 – 036F Greek and Coptic 0370 – 03FF Cyrillic 0400 – 04FF Cyrillic Supplementary 0500 – 052F Armenian 0530 – 058F Hebrew 0590 – 05FF Arabic 0600 – 06FF Syriac 0700 – 074F Thaana 0780 – 07BF Devanagari 0900 – 097F Bengali 0980 – 09FF Gurmukhi 0A00 – 0A7F Gujarati 0A80 – 0AFF Oriya 0B00 – 0B7F Tamil 0B80 – 0BFF Telugu 0C00 – 0C7F Kannada 0C80 – 0CFF Malayalam 0D00 – 0D7F Sinhala 0D80 – 0DFF Thai 0E00 – 0E7F Lao 0E80 – 0EFF Tibetan 0F00 – 0FFF Myanmar 1000 – 109F Georgian 10A0 – 10FF Hangul Jamo 1100 – 11FF Ethiopic 1200 – 137F Cherokee 13A0 – 13FF Unified Canadian Aboriginal Syllabics 1400 – 167F Ogham 1680 – 169F Runic 16A0 – 16FF Tagalog 1700 – 171F Hanunoo 1720 – 173F Buhid 1740 – 175F Tagbanwa 1760 – 177F Khmer 1780 – 17FF Mongolian 1800 – 18AF Latin Extended Additional 1E00 – 1EFF Greek Extended 1F00 – 1FFF General Punctuation 2000 – 206F Superscripts and Subscripts 2070 – 209F Currency Symbols 20A0 – 20CF

Thesis Sébastien Bruggeman Pagina 86 Taal Range Combining Diacritical Marks for Symbols 20D0 – 20FF Letterlike Symbols 2100 – 214F Number Forms 2150 – 218F Arrows 2190 – 21FF Mathematical Operators 2200 – 22FF Miscellaneous Technical 2300 – 23FF Control Pictures 2400 – 243F Optical Character Recognition 2440 – 245F Enclosed Alphanumerics 2460 – 24FF Box Drawing 2500 – 257F Block Elements 2580 – 259F Geometric Shapes 25A0 – 25FF Miscellaneous Symbols 2600 – 26FF Dingbats 2700 – 27BF Miscellaneous Mathematical Symbols-A 27C0 – 27EF Supplemental Arrows-A 27F0 – 27FF Braille Patterns 2800 – 28FF Supplemental Arrows-B 2900 – 297F Miscellaneous Mathematical Symbols-B 2980 – 29FF Supplemental Mathematical Operators 2A00 – 2AFF CJK Radicals Supplement 2E80 – 2EFF Kangxi Radicals 2F00 – 2FDF Ideographic Description Characters 2FF0 – 2FFF CJK Symbols and Punctuation 3000 – 303F Hiragana 3040 – 309F Katakana 30A0 – 30FF Bopomofo 3100 – 312F Hangul Compatibility Jamo 3130 – 318F Kanbun 3190 – 319F Bopomofo Extended 31A0 – 31BF Katakana Phonetic Extensions 31F0 – 31FF Enclosed CJK Letters and Months 3200 – 32FF CJK Compatibility 3300 – 33FF CJK Unified Ideographs Extension A 3400 – 4DBF CJK Unified Ideographs 4E00 – 9FFF Yi Syllables A000 – A48F Yi Radicals A490 – A4CF AC00 – D7AF High Surrogates D800 – DB7F High Private Use Surrogates DB80 – DBFF Low Surrogates DC00 – DFFF Private Use Area E000 – F8FF CJK Compatibility Ideographs F900 – FAFF Alphabetic Presentation Forms FB00 – FB4F

Thesis Sébastien Bruggeman Pagina 87 Taal Range Arabic Presentation Forms-A FB50 – FDFF Variation Selectors FE00 – FE0F Combining Half Marks FE20 – FE2F CJK Compatibility Forms FE30 – FE4F Small Form Variants FE50 – FE6F Arabic Presentation Forms-B FE70 – FEFF Halfwidth and Fullwidth Forms FF00 – FFEF FFF0 – FFFF Old Italic 10300 – 1032F Gothic 10330 – 1034F Deseret 10400 – 1044F Byzantine Musical Symbols 1D000 – 1D0FF Musical Symbols 1D100 – 1D1FF Mathematical Alphanumeric Symbols 1D400 – 1D7FF CJK Unified Ideographs Extension B 20000 – 2A6DF CJK Compatibility Ideographs Supplement 2F800 – 2FA1F Tags E0000 – E007F Supplementary Private Use Area-A F0000 – FFFFF Supplementary Private Use Area-B 100000 – 10FFFF

Thesis Sébastien Bruggeman Pagina 88

7.4. Figuren

Figuur 12 7-bit en 8-bit code tabel

Figuur 13 Een Chinese 'typmachine'

Thesis Sébastien Bruggeman Pagina 89 Figuur 14 Boshiamy invoermethode

Thesis Sébastien Bruggeman Pagina 90

7.5. Dankbetuiging Speciale dank en waardering gaat uit naar mijn promotor professor Fred Truyen voor de constante motivatie die ik mocht ervaren. Eveneens mijn welgemeende dank voor professor Jan Engelen van het departement ESAT aan de KUL, en zijn assistenten voor de vele technische informatie en verbeteringen. Ook dank aan mijn professoren en medestudenten van Sinologie aan de K.U.Leuven voor de afgelopen jaren in voor- en tegenspoed. Heel veel dank gaat ook uit naar mijn ouders die me de kans gaven om deze opleiding te volgen, en me er steeds in gesteund hebben. Ook mijn broer Nicolas voor de uren werk en bergen aanvullingen en verbeteringen. En mijn broertje Justin en neef Brecht voor screenshots en controle. Verder wil ik ook nog Feike van de firma Spanninga danken voor het ter beschikking stellen van Dr.Eye en Microsoft Proofing Tools. En als laatste, maar zeker niet in het minst dank en groet ik mijn fantastisch lief Julie en mijn beste vrienden Stefaan en Thijs voor de ‘spirituele’ ondersteuning die ze mij gaven.

Thesis Sébastien Bruggeman Pagina 91 Bijlage A: Selectie van National Standards in de PRC132

GB 1988-1980 信息处理交换用的七位编码字符集

GB/T 1988-1988 信息技术 信息交换用七位编码字符集 Information technology--7-bit coded character set for information interchange GB 2311-1980 信息处理交换用七位编码字符集的扩充方法

GB/T 2311-1988 信息处理 七位和八位编码字符集 代码扩充技术 Information processing—ISO 7-bit and 8-bit coded character sets—Code extension techniques GB 2312-1980 信息交换用汉字编码字符集 基本集 Code of Chinese graphic character set for information interchange--Primary set GB 2787-1981 信息处理交换用七位编码字符集键盘的字母数字区布居 Keyboard arrangement of the alphabetical area of 7-bit coded character set for information processing interchange GB/T 3911-1983 信息处理用七位编码字符集控制字符的图形表示 Graphical representations of the control characters of 7-bit coded character set for information processing GB/T 5007.1-1985 信息交换用汉字 24×24 点阵字模集 24×24 Dot matrix font set of chinese ideograms for information interchange GB/T 5007.2-1985 信息交换用汉字 24×24 点阵字模数据集 24×24 Dot matrix font data set of chinese ideograms for information interchange GB/T 5199.1-1985 信息交换用汉字 15×16 点阵字模集 15×16 Dot matrix font set of chinese ideograms for information interchange GB/T 5199.2-1985 信息交换用汉字 15×16 点阵数据集 15×16 Dot matrix font date set of chinese ideograms for information interchange GB 5261-1985 文字和符号成形设备用的增?控制功能

GB/T 5261-1994 信息处理 七位和八位编码字符集用的控制功能 Information processing--Control functions for 7-bit and 8-bit coded character sets GB/T 6345.1-1986 信息交换用汉字 32×32 点阵字模集 32×32 Dot matrix font set of chinese ideograms for information interchange GB/T 6345.2-1986 信息交换用汉字 32×32 点阵字模数据集 32×32 Dot matrix font data set of chinese ideograms for information interchange

132 Bron: http://www.cnaec.com.cn/guifan/02/L70-84.htm

Thesis Sébastien Bruggeman Pagina 92 GB/T 7420-1987 信息处理 从信息处理交换用七位编码字符集中派生四位字符集的导则 Information processing--Guide for the definition of 4-bit character sets derived from the 7-bit coded character set for information processing interchange GB/T 7422.1-1987 信息交换用蒙古文 16×12、16×8、16×4 点阵字模集 16×12, 16×8, 16×4 Dot matrix font set of mongolian characters for information interchange GB/T 7422.2-1987 信息交换用蒙古文 16×12、16×8、16×4 点阵数据集 16×12, 16×8, 16×4 Dot matrix data set of mongolian characters for information interchange GB/T 7513-1987 汉字整字键盘盘面字排列

GB/T 7514-1987 信息处理交换用七位编码字符集与电报用五单位电码之间的转换 Conversion between the 7-bit coded character set for information processing interchange and the 5-unit code for the telegraph service GB/T 7589-1987 信息交换用汉字编码字符集 第二辅助集 Code of Chinese ideograms set for information interchange--The 2nd supplementary set GB/T 7590-1987 信息交换用汉字编码字符集 第四辅助集 Code of Chinese ideograms set for information interchange--The 4th supplementary set GB 8045-1987 信息处理交换用蒙古文七位和八位编码图形字符集 Mongolian 7-bit and 8-bit coded graphic character sets for information processing interchange GB/T 8046-1987 信息处理交换用蒙古文字符集键盘的字母区布局 Keyboard arrangement of the alphabetical area of Mongolian character set for information processing interchange GB/T 8565.1-1988 信息处理 文本通信用编码字符集 第一部分 总则 Information processing--Coded character sets for text communication--Part 1: General introduction GB/T 8565.2-1988 信息处理 文本通信用编码字符集 第二部分 图形字符集 Information processing--Coded character sets for text communication--Part 2: Graphic characters GB/T 8565.3-1988 信息处理 文本通信用编码字符集 第三部分: 按页成象格式用控制功能 Information processing--Coded character sets for text communication--Part 3: Control functions for page-image format GB/T 11383-1989 信息处理 信息交换用八位代码结构和编码规则 Information processing--8-bit code for information interchange--Structure and rules for implementation GB/T 12034-1989 信息交换用汉字 32×32 点阵仿宋体字模集及数据集 32×32 Dot matrix Fangsongti font set and data set of Chinese ideograms for information interchange

Thesis Sébastien Bruggeman Pagina 93 GB/T 12035-1989 信息交换用汉字 32×32 点阵楷体字模集及数据集 32×32 Dot matrix Kaiti font set and data set of Chinese ideograms for information interchange GB/T 12036-1989 信息交换用汉字 32×32 点阵黑体字模集及数据集 32×32 Dot matrix Heiti font set and data set of Chinese ideograms for information interchange GB/T 12037-1989 信息交换用汉字 36×36 点阵宋体字模集及数据集 36×36 Dot matrix Songti font set and data set of Chinese ideograms for information interchange GB/T 12038-1989 信息交换用汉字 36×36 点阵仿宋体字模集及数据集 36×36 Dot matrix Fangsongti font set and data set of Chinese ideograms for information interchange GB/T 12039-1989 信息交换用汉字 36×36 点阵楷体字模集及数据集 36×36 Dot matrix Kaiti font set and data set of Chinese ideograms for information interchange GB/T 12040-1989 信息交换用汉字 36×36 点阵黑体字模集及数据集 36×36 Dot matrix Heiti font set and data set of Chinese ideograms for information interchange GB/T 12041-1989 信息交换用汉字 48×48 点阵宋体字模集及数据集 48×48 Dot matrix Songti font set and data set of Chinese ideograms for information interchange GB/T 12042-1989 信息交换用汉字 48×48 点阵仿宋体字模集及数据集 48×48 Dot matrix Fangsongti font set and data set of Chinese ideograms for information interchange GB/T 12043-1989 信息交换用汉字 48×48 点阵楷体字模集及数据集 48×48 Dot matrix Kaiti font set and data set of Chinese ideograms for information interchange GB/T 12044-1989 信息交换用汉字 48×48 点阵黑体字模集及数据集 48×48 Dot matrix Heiti font set and data set of Chinese ideograms for information interchange GB 12050-1989 信息处理 信息交换用维吾尔文编码图形字符集 Information processing—Uighur coded graphic character sets for information interchange GB 12052-1989 信息交换用朝鲜文字编码字符集 Korean character coded character set for information interchange GB/T 12053-1989 光学识别用字母数字字符集 第一部分: OCR-A 字符集印刷图象的形状和尺寸 Alphanumeric character sets for optical recognition —Part 1: Character set OCR-A—Shapes and dimensions of the printed image GB/T 12054-1989 数据处理 转义序列的登记规程 Data processing--Procedure for registration of escape sequences GB/T 12200.1-1990 汉语信息处理词汇 01 部分: 基本术语 Chinese information processing—Vocabulary—Part 01: Fundamental terms

Thesis Sébastien Bruggeman Pagina 94 GB/T 12200.2-1994 汉语信息处理词汇 02 部分: 汉语和汉字 Chinese information processing--Vocabulary--Part 02: Chinese and Chinese character GB/T 12345-1990 信息交换用汉字编码字符集 辅助集 Code of Chinese ideogram set for information interchange supplementary set GB/T 12508-1990 光学识别用字母数字字符集 第二部分: OCR-B 字符集印刷图象的形状和尺寸 Alphanumeric character sets for optical recognition—Part 2: Character set OCR-B—Shapes and dimensions of the printed image GB 13000.1-1993 信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面 Information technology--Universal multiple--Octet coded character set(UCS)--Part 1: Architecture and basic multilingual plane GB 13131-1991 信息交换用汉字编码字符集 第三辅助集 Code of Chinese ideogram set for information interchange 3rd supplementary set GB 13132-1991 信息交换用汉字编码字符集 第五辅助集 Code of Chinese ideogram set for information interchange 5th supplementary set GB 13134-1991 信息交换用彝文编码字符集 Yi coded character set for information interchange GB/T 13135-1991 信息交换用彝文字符 15×16 点阵字模集及数据集 15×16 Dot matrix font set and data set of Yi characters for information interchange GB/T 13141-1991 书目信息交换用希腊字母编码字符集 Greek alphabet coded character set for bibliographic information interchange GB/T 13142-1991 书目信息交换用拉丁字母代码字符扩充集 Extension of the Latin alphabet coded character set for bibliographic information interchange GB/T 13715-1992 信息处理用现代汉语分词规范 Contemporary Chinese language word segmentation specification for information processing GB/T 15189-1994 DOS 中文信息处理系统接口规范 Specification of DOS Chinese information processing system interface

GB/T 15273.1-1994 信息处理 八位单字节编码图形字符集 第一部分: 拉丁字母一 Information processing--8-bit single-byte coded graphic character sets--Part 1: Latin alphabet No.1 GB/T 15273.2-1995 信息处理 八位单字节编码图形字符集 第二部分: 拉丁字母二 Information processing--8-bit single-byte coded graphc character sets--Part 2: Latin alphabet No.2 GB/T 15273.3-1995 信息处理 八位单字节编码图形字符集 第三部分: 拉丁字母三 Information processing--8-bit single-byte coded graphc character sets--Part 3: Latin alphabet No.3

Thesis Sébastien Bruggeman Pagina 95 GB/T 15273.4-1995 信息处理 八位单字节编码图形字符集 第四部分: 拉丁字母四 Information processing--8-bit single-byte coded graphc character sets--Part 4: Latin alphabet No.4 GB/T 15273.7-1996 信息处理 八位单字节编码图形字符集 第 7 部分:拉丁/希腊字母 Information processing--8-bit single-byte coded graphic character sets--Part 7: Latin/Greek alphabet GB/T 15732-1995 汉字键盘输入用通用词语集 General word set for Chinese character keyboard input GB/T 16683-1996 信息交换用彝文字符 24×24 点阵字模集及数据集 24×24 Dot matrix font set and data set of Yi character for information interchange GB 16793-1997 信息技术 通用多八位编码字符集(Ⅰ区) 汉字 24 点阵字型 宋体 Information technology--Universal multiple--Octet coded character set (IZone)--24-dots matrix font of ideogram--Song Ti GB 16794.1-1997 信息技术 通用多八位编码字符集(Ⅰ区) 汉字 48 点阵字型 第 1 部分:宋体 Information technology--Universal multiple--Octet coded character set(I zone)--48-dots matrix font of ideogram--Part 1: Song Ti GB 16959-1997 信息技术 信息交换用藏文编码字符集 基本集 Information technology--Tibetan coded character sets for information interchange--Basic set GB/T 16960.1-1997 信息技术 藏文编码字符集(基本集)24×48 点阵字型 第 1 部分: 白体 Information technology--Tibetan coded character set (basic set)--24×48 dots matrix font--Part 1: Bai Ti GB/T 16964.1-1997 信息技术 字型信息交换 第 1 部分: 体系结构 Information technology--Font information interchange--Part 1: Architecture GB/T 16964.2-1997 信息技术 字型信息交换 第 2 部分: 交换格式 Information technolong--Font information interchange--Part 2: Interchange format GB/T 16964.3-1997 信息技术 字型信息交换 第 3 部分: 字形形状表示 Information technology--Font information interchange--Part 3: Glyph shape representation GB/T 17543-1998 信息技术 藏文编码字符集(基本集)键盘字母数字区的布局 Information technology--Keyboard layout of the alphanumeric zone for Tibetan coded character set (basic set) GB/T 16500-1998 信息交换用汉字编码字符集 第七辅助集 Code of chinese ideograms set for information interchange--The 7th supplementary set GB 17698-1999 信息技术 通用多八位编码字符集(I 区)汉字 16 点阵字型 Information technology--Universal multiple-octet coded character set(I Zone)--16-dots matrix font of Chinese ideogram

Thesis Sébastien Bruggeman Pagina 96 GB 18030-2000 信息技术 – 信息交换用汉字编码字符集 – 基本集的扩充 Information technology – Chinese Ideograms coded character set for information interchange – Extension for the basic set

Thesis Sébastien Bruggeman Pagina 97 Bijlage B: Selectie van Chinese National Standards van de ROC133

CNS 5205 (X5001) 資訊處理及交換用七數元碼字元集組 Information processing: 7-Bit Coded Character Set For Information Interchange CNS 7223 (X5005) 資訊處理–七數元碼字元集(組)之控制字元圖示法 Information Processing-Graphical Representations for the Control Characters of the 7-Bit Coded Character Set CNS 7654 (X5006) 資訊處理-七位元及八位元碼字元集-延碼技術 Information technology -- Character code structure and extension techniques CNS 7656 (X5007) 資訊技術–資訊交換用八位元碼–實作結構及規則 Information technology-8-bit code for information interchange-structure and rules for implementation CNS 11643-1986 (X5012) 通用漢字標準交換碼 Standard Interchange Code for Generally Used Chinese Characters CNS 11643-1992 (X5012) ㆗文標準交換碼 Chinese Standard Interchange Code CNS 11643-01 (X5012-1) ㆗文標準交換碼使用方法 The Usage of Chinese Standard Interchange Code CNS 13160 (X5017) 資訊處理 有限字元集系統㆗國際單位制及其他單位制表示法 Information Processing - Representation of SI and Other Units in Systems with Limited Character Sets CNS 13246 (X5023) 資訊處理–8位元單㆒位元組碼化圖形字元集(第1部:拉㆜字母第㆒號) Information Processing - 8 - bit Single - byte Coded Graphic Character Sets - Part 1: Latin Alphabet NO.1 CNS 13247 (X5024) 資訊處理–8位元單㆒位元組碼化圖形字元集(第2部:拉㆜字母第㆓號) Information Processing - 8 - bit Single - byte Coded Graphic Character Sets - Part 2: Latin Alphabet NO.2 CNS 13325 (X5028) 資訊處理–8位元單㆒位元組碼化圖形字元集(第3部:拉㆜字母第㆔號) Information Processing - 8 - Bit Single - Byte Coded Graphic Character Sets - Part 3: Latin Alphabet No.3 CNS 13326 (X5029) 資訊處理–8位元單㆒位元組碼化圖形字元集(第4部:拉㆜字母第㆕號) Information Processing - 8 - Bit Single - Byte Coded Graphic Character Sets - Part 4: Latin Alphabet No.4 CNS 13327 (X5030) 資訊處理–8位元單㆒位元組碼化圖形字元集(第5部:拉㆜/斯拉夫字母) Information Processing - 8 - Bit Single - Byte Coded Graphic Character Sets - Part 5: Latin / Cyrillic Alphabet

133 Bron: http://www.cnsppa.com.tw/ (Deze standaarden vallen onder groep X5)

Thesis Sébastien Bruggeman Pagina 98 CNS 13328 (X5031) 資訊處理–8位元單㆒位元組碼化圖形字元集(第9部:拉㆜字母第五號) Information Processing - 8 - Bit Single - Byte Coded Graphic Character Sets - Part 9: Latin Alpbabet No.5 CNS 13384 (X5034) 資訊處理–8位元單㆒位元組碼化圖形字元集(第6部:拉㆜/阿拉伯字母) Information Processing - 8 Bit Single - Byte Coded Graphic Character Sets - Part 6: Latin/Arabic Alphabet CNS 13385 (X5035) 資訊處理–8位元單㆒位元組碼化圖形字元集(第7部:拉㆜/希臘字母) Information Processing - 8 Bit Single - Byte Coded Graphic Character Sets - Part 7: Latin/Greek Alphabet CNS 13386 (X5036) 資訊處理–8位元單㆒位元組碼化圖形字元集(第8部:拉㆜/希伯來字母) Information Processing - 8 Bit Single - Byte Coded Graphic Character Sets - Part 8: Latin/Hebrew Alphabet CNS 13479 (X5038) 資訊技術–碼字元集的控制功能 Information Technology - Control Functions for Coded Character Sets CNS 13525-1 (X5039-1) 資訊處理–文字通信編碼字元集(第1部:㆒般性介紹) Information Processing - Coded Character Sets for Text Communication - Part 1: General Introduction CNS 13886 (X5053) 資訊技術–供文字通信使用之碼化圖形字元集–拉㆜字母 Information technology-coded graphic character set for text communication-latin alphabet

CNS 14147-1 (X5055-1) 資訊技術–字型資訊交換–第1部:架構 Information technology - Font information interchange - Part 1:Architecture CNS 14147-2 (X5055-2) 資訊技術–字型資訊交換–第2部:交換格式 Information technology - Font information interchange - Part 2:Interchange format CNS 14147-3 (X5055-2) 資訊技術–字型資訊交換–第3部:字符形狀表示 Information technology - Font information interchange - Part 3:Glyph shape representation

Thesis Sébastien Bruggeman Pagina 99 Bijlage C: Selectie van ISO standaarden

ISO/IEC 646 Information technology -- ISO 7-bit coded character set for information interchange Equivalent: GB 1988, CNS 5205 ISO/IEC 2022 Information technology -- Character code structure and extension techniques Equivalent: GB 2311, CNS 7654 ISO 2047 Information processing -- Graphical representations for the control characters of the 7- bit coded character set ISO 2375 Data processing -- Procedure for registration of escape sequences Equivalent: GB/T 12054 ISO 4873 Information technology -- ISO 8-bit code for information interchange -- Structure and rules for implementation Equivalent: GB/T 11383, CNS 7656 ISO/IEC 6429 Information technology -- Control functions for coded character sets Equivalent: CNS 13479 ISO/IEC 8859-1:1998 Information technology -- 8-bit single-byte coded graphic character sets -- Part 1: Latin alphabet No. 1 Equivalent: GB/T 15273.1, CNS 13246 ISO/IEC 8859-2:1999 Information technology -- 8-bit single-byte coded graphic character sets -- Part 2: Latin alphabet No. 2 Equivalent: GB/T 15273.2, CNS 13247 ISO/IEC 8859-3:1999 Information technology -- 8-bit single-byte coded graphic character sets -- Part 3: Latin alphabet No. 3 Equivalent: GB/T 15273.3, CNS 13325 ISO/IEC 8859-4:1998 Information technology -- 8-bit single-byte coded graphic character sets -- Part 4: Latin alphabet No. 4 Equivalent: GB/T 15273.4, CNS 13326 ISO/IEC 8859-5:1999 Information technology -- 8-bit single-byte coded graphic character sets -- Part 5: Latin/Cyrillic alphabet Equivalent: CNS 13327 ISO/IEC 8859-6:1999 Information technology -- 8-bit single-byte coded graphic character sets -- Part 6: Latin/Arabic alphabet Equivalent: CNS 13384 ISO 8859-7:1987 Information processing -- 8-bit single-byte coded graphic character sets -- Part 7: Latin/Greek alphabet Equivalent: GB/T 15273.7, CNS 13385 ISO/IEC 8859-8:1999 Information technology -- 8-bit single-byte coded graphic character sets -- Part 8: Latin/Hebrew alphabet Equivalent: CNS 13386

Thesis Sébastien Bruggeman Pagina 100 ISO/IEC 8859-9:1999 Information technology -- 8-bit single-byte coded graphic character sets -- Part 9: Latin alphabet No. 5 Equivalent: CNS 13328 ISO/IEC 8859-10:1998 Information technology -- 8-bit single-byte coded graphic character sets -- Part 10: Latin alphabet No. 6 ISO/IEC 8859-11:2001 Information technology -- 8-bit single-byte coded graphic character sets -- Part 11: Latin/Thai alphabet ISO/IEC 8859-13:1998 Information technology -- 8-bit single-byte coded graphic character sets -- Part 13: Latin alphabet No. 7 ISO/IEC 8859-14:1998 Information technology -- 8-bit single-byte coded graphic character sets -- Part 14: Latin alphabet No. 8 (Celtic) ISO/IEC 8859-15:1999 Information technology -- 8-bit single-byte coded graphic character sets -- Part 15: Latin alphabet No. 9 ISO/IEC 8859-16:2001 Information technology -- 8-bit single-byte coded graphic character sets -- Part 16: Latin alphabet No. 10 ISO 9541-1 Information technology -- Font information interchange -- Part 1: Architecture Equivalent: GB/T 16964.1, CNS 14147-1 ISO 9541-2 Information technology -- Font information interchange -- Part 2: Interchange Format Equivalent: GB/T 16964.2, CNS 14147-2 ISO 9541-3 Information technology -- Font information interchange -- Part 3: Glyph shape representation Equivalent: GB/T 16964.3, CNS 14147-3 ISO/IEC 10367 Information technology -- Standardized coded graphic character sets for use in 8-bit codes ISO/IEC 10646 Information technology -- Universal Multiple-Octet Coded Character Set (UCS) Equivalent: GB 13000.1

Thesis Sébastien Bruggeman Pagina 101